ELFI M405 - Gestion des risques financiers Jean-Yves Gnabo Séance 1a - Rappels de statistique et d’économétrie, introduction aux séries chronologiques 23 Février, 2018 Cours donné par Jean-Yves Gnabo 1/148 Objectif de la séance Séance du jour vise à: Fournir un rappel complet des notions de statistiques et d’économétrie de base ainsi qu’une introduction aux séries chronologiques Cours donné par Jean-Yves Gnabo 2/148 References Les principales références sont les suivantes. Lectures non obligatoires : Brooks, C. (2008), Introductory Econometrics for Finance Cambridge Univ. Press, 2nd ed. Verbeek, M. (2013), A Guide to Modern Econometrics Wiley, 3rd ed. Zivot, E. (2011), Introduction to Computational Finance and Financial Econometrics Course Notes, University of Washington. Cours donné par Jean-Yves Gnabo 3/148 Pour aller plus loin : Davidson and MacKinnon (2003), Econometric Theory and Methods Oxford Univ. Press. Pour aller plus loin : Tsay, R.S. (2013), An introduction to analysis of financial data with R Wiley. Jondeau, E., S.-H. Poon and M. Rockinger (2007) Financial Modeling under Non-Gaussian Distributions Springer Finance Series, Springer-Verlag. Cours donné par Jean-Yves Gnabo 4/148 Une définition Les économistes sont principalement intéressés par l’analyse des relations entre des quantités différentes, par ex. la consommation et le revenu, les salaires individuels et le niveau de scolarité, etc. Econométrie, littéralement “mesure de l’économie” vise à quantifier les relations à partir de données et de méthode statistiques Finance empirique peut se voir comme l’ interaction/intersection de la théorie financière, l’observation des données et les méthodes statistiques. Cours donné par Jean-Yves Gnabo 5/148 Quelques définitions utiles : Échantillon vs. Population Les méthodes économétriques visent à extraire des informations des données observées afin de dériver des estimations des paramètres du modèle sous-jacent Ces paramètres inconnus pilotent le vraie relation entre les variables au niveau de la population En général, nous n’avons pas accès à l’information sur la population, mais sur un échantillon tiré de cette population, c’est-à-dire les données observées Nous considérons cet échantillon comme une réalisation de tous les échantillons potentiels de même taille qui auraient pu être tirés de la population La validité de notre analyse statistique dépend de la représentativité de cet échantillon observé spécifique Cours donné par Jean-Yves Gnabo 6/148 Statistiques descriptives vs. Statistiques inférentielles Statistiques descriptives Statistiques inférentielles Méthode pour organiser, résumer et présenter des données de manière informative Méthode utilisée pour déterminer les caractéristiques de la population à partir d’un échantillon Exemple : Descriptif ou inférentiel 1 En 2010, 21% des vins de Bordeaux vendus dans le monde étaient à destination de la Chine. 2 Jobat a interrogé plus de 400 employeurs sur le salaire brut qu’ils octroyaient aux jeunes diplômés. Sur base de ces informations, il ressort qu’un étudiant type possedant un diplôme de bachelor et débutant dans une fonction financière ou comptable aura tendance à percevoir un salaire brut de moins de 1.750 euros; alors qu’un diplômé de master, aura presque 70 % de chance de gagner un salaire de plus de 2.000 euros. Cours donné par Jean-Yves Gnabo 7/148 Quelques définitions utiles: Unité statistique Unités statistiques Les données dont nous disposons sont des mesures faites sur des individus (ou unités statistiques) issus d’une population. On s’intéresse à une ou plusieurs particularités des individus appelées variables ou caractères. L’ensemble des individus constitue l’échantillon étudié. On s’intéresse d’abord à la description d’un échantillon (on analysera la statistique inférentielle par après) Cours donné par Jean-Yves Gnabo 8/148 Quelques définitions utiles : nature des données Les données peuvent être 1 Univartiées (une variable par individu) 2 Multivariées (plus d’une variable par individu) On distingue deux types de variables univariées 1 Discrètes : si l’ensemble des valeurs possibles est fini 2 Continues : si l’ensemble des valeurs possibles est infini Cours donné par Jean-Yves Gnabo 9/148 Illustration: Population vs. Echantillon dans le cadre de la relation entre x et y Figure: Et si nous pouvions observer la population?- Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 10/148 Figure: Qu’obtient-on avec un premier échantillon sélectionné?- Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 11/148 Figure: Qu’obtient-on avec un deuxième échantillon ?- Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 12/148 Figure: Qu’obtient-on avec un troisième échantillon ? - Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 13/148 Figure: Qu’obtient-on si l’opération est répétée 1000 fois? - Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 14/148 Figure: Quel genre d’information sur β pouvons-nous déduire à partir d’un échantillon unique?- Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 15/148 Methode d’analyse empirique Figure: Les étapes de la formulation du modèle économétrique, Source: Brooks (2008) Cours donné par Jean-Yves Gnabo 16/148 Règles d’or de l’analyse empirique [Hendry (1980)] Hendry, nous dit que “les trois règles d’or en économétrie sont test, test et test ” Hendry, D.F. (1980), Econometrics - alchemy or science? Economica, 47, 387-406. Cours donné par Jean-Yves Gnabo 17/148 Exemples de questions empiriques à traiter Tester si les marchés financiers sont faiblement efficients Tester si le CAPM/MEDAF ou APT représente des modèles supérieurs pour la prévision des rendements des actifs risqués Expliquer les déterminants des notations de crédit obligataires utilisées par les agences de notation Modélisation des relations à long terme entre les prix d’actif et les fondamentaux Tester différentes règles de trading techniques pour déterminer laquelle est profitable Prévoir le risque d?un actif ou d?un portefeuille et notamment les risques extrêmes sur un horizon donné etc. Cours donné par Jean-Yves Gnabo 18/148 Types de données et modélisation pertinente 1 Données de séries chronologiques permettent de: Tester les relations entre le présent et le passé p. ex. Comment la croissance du PIB dépend-elle de ses valeurs passées? Qu’arrive-t-il au taux d’intérêt à long terme si l’autorité monétaire ajuste le taux à court terme? Obtenir des prévisions pour les valeurs futures et l’incertitude / volatilité correspondante 2 Données en coupes transversales permet de: Tester les relations entre différentes variables mesurées à un moment donné pour différentes unités / individus p. ex. Quel est le lien entre l’épargne des ménages et le revenu des ménages dans les différentes régions belges observée en 2013? Cours donné par Jean-Yves Gnabo 19/148 3 Panel en combinant les dimensions temporelles et individuelles permet de: Tester les relations entre différentes variables pour différentes unités / individus sur des périodes données (au moins deux périodes) par exemple : Quel est le lien entre l’épargne des ménages et le revenu des ménages dans les différentes régions belges au cours de la période 1980-2013? Cours donné par Jean-Yves Gnabo 20/148 Que faisons-nous dans ce cours? Dans ce cours, nous nous concentrerons sur les séries chronologiques et méthodologies pertinentes associées, ceci couvre en général: estimation des relations entre une série et son passé et prédiction les valeurs futures en se basant sur le Boı̂te-Jenkins AR (I) MA “toolbox ”; estimation des relations à court terme entre différentes séries au fil du temps; sous forme individuel ou de système VAR analyse des notions de non-stationnarité, cointegration et modélisation à long terme. analyse de la volatilité dans le temps de la série en utilisant les modèles (G) ARCH et d’analyse des mesures paramétriques et non paramétriques de Value-at-Risk (VaR) Nous devons d’abord rappeler: ce que sont les séries d’intérêt pour les problèmes financiers et comment elles sont calculées; 2 les bases de statistiques ainsi que la modélisation de régression linéaire; enfin,Gnabo les bases du test d’hypothèse. Cours donné3paret Jean-Yves 21/148 1 1. Modélisation des actifs financiers Cours donné par Jean-Yves Gnabo 22/148 Prix vs. rendements? Un premier survol Figure: Source: Jondeau (2011) Cours donné par Jean-Yves Gnabo 23/148 Prix vs. rendements? Predictions Figure: Source: Jondeau (2011) Cours donné par Jean-Yves Gnabo 24/148 Prix vs. rendements? Quelques éléments Il y a au moins deux raisons pour se concentrer sur les rendements plutôt que sur les prix: Les investisseurs sont surtout intéressés par les rendements pour leurs décisions d’investissement Comme suggéré par les deux graphiques précédents, les rendements ont des propriétés statistiques plus attrayantes que les prix Stationnarité: Intuition: Si un processus {Xt }+∞ −∞ est stationnaire en covariance, cela implique que sa moyenne, la variance et la covariance ne dépendent pas du temps Au contraire, un processus non-stationnaire en covariance, c’est-à-dire un processus stationnaire au sens faible, viole au moins l’une de ces conditions Cours donné par Jean-Yves Gnabo 25/148 Rendement simple sur une période Pt le prix à la fin du mois t sur un actif qui ne rapporte pas de dividendes Pt−1 le prix à la fin du mois t − 1 t−1 Rt = PtP−P est le rendement simple net à une période de date t − 1 t−1 à date t t est la rendement simple brute à une période à partir de 1 + Rt = PPt−1 la date t − 1 à ce jour t Cours donné par Jean-Yves Gnabo 26/148 Exemple: Investissement d’un mois dans l’actif MSFT Vous achetez des actions à la fin du mois t − 1 à Pt−1 = 85 USD et vendez ces actions à la fin du mois prochain pour 90 USD. En supposant que MSFT ne verse pas de dividende entre les mois t − 1 et t, les rendements nets et bruts simples d’un mois sont: 90 Rt = 90−85 85 = 85 − 1 = 1, 0588 − 1 = 0, 0588 1 + Rt = 1.0588 L’investissement d’un mois dans MSFT donne un rendement de 5,88% par mois. Cours donné par Jean-Yves Gnabo 27/148 Rendement simple sur plusieurs périodes Detenir l’actif sur k périodes de t − k à t donne les rendements k -simples: 1 + Rt [k] = Pt Pt−k = Pt Pt−1 Pt−k+1 Pt = × × ··· × ⇔ Pt−k Pt−1 Pt−2 Pt−k k−1 Y (1 + Rt−j ) j=0 ù Rt [k] est le rendement k -simple de la date t − k à la date t En général, les rendements sont exprimés implicitement sur une base annuelle. Si l’actif est détenu sur k ans, le rendement annualisé (moyen) est donné par: RtA [k] = h k−1 i1 Y k (1 + Rt−j ) − 1 j=0 Cours donné par Jean-Yves Gnabo 28/148 Multiple-period simple return (ctnd) Dans certains cas, on utilise l’approximation suivante : k−1 1X Rt−j RtA [k] ≈ k j=0 Notez que cette approximation risque cependant d’être trompeuse dans de nombreuses applications Cours donné par Jean-Yves Gnabo 29/148 Simples ou log rendements? Figure: Source: Jondeau (2011) Cours donné par Jean-Yves Gnabo 30/148 Equivalence Les rendements composites continus sont strictement équivalents aux log-rendements, par construction Les rendements simples peuvent être approximés par les log-rendements à partir: ln(1 + u) ∼ u quand u ∼ 0, ce qui conduit à: Rt ≡ Pt − Pt−1 Pt−1 Rt Pt − Pt−1 ' ln 1 + Pt−1 Pt ' ln Pt−1 Rt ∼0 Rt ∼0 ' rt Rt Rt ∼0 Attention! Cette approximation est fausse dans le cas de valeurs élevées pour les rendemments (crises) Cours donné par Jean-Yves Gnabo 31/148 Paiement de dividendes Les actifs financiers sont sujets au paiement de dividendes, le rendement doit alors être ré-écrit tel que : Rt = Pt + D t −1= Pt−1 Pt − Pt−1 + Pt | {z } capital gain return rt = ln Pt + Dt − ln Pt−1 Dt Pt−1 | {z } et gross dividend yield où Dt représente le paiement du dividende d’un actif entre les dates t − 1 et t, et Pt le prix de l’actif à la fin de la période d t (dividende non inclus) La plupart des indices de référence prennent en compte le paiement de dividendes (exception: indice allemand, DAX index). Cours donné par Jean-Yves Gnabo 32/148 Calcul des rendements en excès Rendement en excès représente simplement la différence entre le rendement de l’actif considéré et celui de l’actif sans risque, en pratique les bonds du Trésor US (e.g. US T-Bill) ou bien celui des obligations allemandes Nous avons: Zi,t = Ri,t − RF ,t and zi,t = ri,t − rF ,t avec RF ,t and rF ,t le rendement simple ou bien les log-rendements de l’actif sans risque Cours donné par Jean-Yves Gnabo 33/148 2. Rappels de statistiques et modélisation de la régression linéaire Cours donné par Jean-Yves Gnabo 34/148 Notations Lettres latines avec e· dénotent les variables aléatoires par ex. Re ou re Les lettres latines dénotent les valeurs réalisées des variables aléatoires, par ex. R ou r Les lettres grecques dénotent des paramètres, par ex. θ, µ ou σ Les lettres grecques avec b· dénotent les estimateurs de paramètres ou parfois des valeurs réalisées, par ex. µ b est l’estimateur pour µ Cours donné par Jean-Yves Gnabo 35/148 Variable aléatoire Figure: Cours donné par Jean-Yves Gnabo 36/148 Variable aléatoire Cours donné par Jean-Yves Gnabo Figure: 37/148 Variable aléatoire Figure: Cours donné par Jean-Yves Gnabo 38/148 Variable aléatoire Figure: Cours donné par Jean-Yves Gnabo 39/148 Variable aléatoire Figure: Cours donné par Jean-Yves Gnabo 40/148 Gaussian distribution Distribution gaussienne est la distribution la plus importante en statistique et sciences appliquées Hypothèse: Si les marchés sont efficients les rendements attendus devraient être distribués normalement et les rendements réalisés devraient être distribués également normalement autour des valeurs attendues Intuition: Une distribution de probabilités avec une forme en “cloche ” peut provenir des expériences de Bernoulli répétées un grand nombre de fois Cours donné par Jean-Yves Gnabo 41/148 L’intuition derrière les rendements gaussiens Figure: Arbre binomial pour les prix - Source: Hull (2011) où: le prix peut augmenter de 5 % ou diminuer de 2,5 % à chaque noeud probabilités de “up ” et “down ” sont les mêmes à chaque noeud Cours donné par Jean-Yves Gnabo 42/148 Exemple : Loi de Bernoulli C’est la variable de comptage la plus simple. X variable aléatoire à valeurs dans {0; 1} telle que p = P(X = 1); 1 − p = P(X = 0) : Cours donné par Jean-Yves Gnabo 43/148 Exemple : Loi binomiale Soient X1 ; ...; Xn des variables aléatoires i.i.d. (identiquement et indépendamment distribuées) de Bernoulli B(p). On pose S = X 1 + ... + Xn. S suit une loiPbinomiale B(n; p) définie par n! p x (1 − p)n − s P(S = s) = nk=0 (n−s)!s! pour s = 0; 1; ...; n Cours donné par Jean-Yves Gnabo 44/148 Figure: Distribution Binomiale - Source: IREM Marseille (2013) Cours donné par Jean-Yves Gnabo 45/148 Figure: Distribution normale simulée - Source: Bodie, Kane and Marcus (2011) Cours donné par Jean-Yves Gnabo 46/148 The Central Limit Theorem (CLT) Soit X1 , . . . , XT une variable aléatoire i.i.d. avec E [Xt ] = µ et Var(Xt ) = σ 2 . Alors: X −µ SE (X ) X X −µ √ ∼ N (0, 1) as T → ∞ ⇔ σ/ T σ2 ∼ N (µ, ) pour un grand groupe T T = On dit que X est asymptotiquement normalement distribuée avec une moyenne µ et une variance SE(X )2 Cours donné par Jean-Yves Gnabo 47/148 Paramètres d’interêt Moyenne La valeur espérée d’un résultat aléatoire est donnée par: E [e x] = x = n X pi xi i=1 Variance and StD Le variance mesure dans quelle proportion le résultat réalisé est susceptible de différer du résultat attendu: n X Var [e x ] = σx2 = E (e x − x)2 = pi (xi − x)2 i=1 Une autre mesure est donnée par son écart-type: p StD [e x ] = σx = Var [e x] Cours donné par Jean-Yves Gnabo 48/148 Skewness Le skewness correspond au 3ème moment standardisé: E (e x − x)3 Skewness [e x ] = γ3 = σx3 Il fournit une mesure de l’asymétrie dans la distribution xe. Lorsque γ3 = 0, la distribution est dite symétrique par rapport à la valeur moyenne E [e x ] comme une distribution normale Lorsque γ3 6= 0 alors: Si γ3 > 0, la distribution est dite right skewed, c’est-à-dire que la queue droite est plus longue et la masse de la distribution est concentrée sur la gauche Si γ3 < 0, la distribution est dite left skewed, c’est à dire que la queue gauche est plus longue et la masse de la distribution est concentrée sur le droite Cours donné par Jean-Yves Gnabo 49/148 Figure: Source: Bodie, Kane and Marcus (2011) Cours donné par Jean-Yves Gnabo 50/148 Kurtosis Le kurtosis correspond au 4ème moment standardisé: E (e x − x)4 Kurtosis [e x ] = γ4 = σx4 Il fournit une mesure d’épaisseur des queues de distribution de xe Quand γ4 = 3, la distribution est dite mesokurtik, comme la distribution normale Quand γ4 6= 3 nous distinguons γ4 > 3, la distribution est dite leptokurtik, c’est-à-dire qu’elle présente un pic aigu autour de la moyenne et des queues de distribution épaisses γ4 < 3, la distribution est dite platykurtic, c’est-à-dire qu’elle présente un pic plus large autour de la moyenne et des queues de distribution minces Cours donné par Jean-Yves Gnabo 51/148 Figure: Source: Bodie, Kane and Marcus (2011) Cours donné par Jean-Yves Gnabo 52/148 Illustration Exemple Supposons que les variables aléatoires xe et ye sont les rendements de S & P 500 et de MassAir respectivement, et que : Etat Probabilité Rendement de S&P 500 (%) Rendement de MassAir (%) 1 0.20 -5 -10 2 0.60 10 10 3 0.20 20 40 Valeur attendue E [e x ] = (0.20)(−0.05) + (0.60)(0.10) + (0.20)(0.20) = 0.09 E [e y ] = 0.12 Cours donné par Jean-Yves Gnabo 53/148 Variance σx2 = (0.20)(−0.05 − 0.09)2 + (0.60)(0.10 − 0.09)2 + (0.20)(0.20 − 0.09)2 = 0.0064 σy2 = 0.0256 Mesure de volatilité ou StD Cours donné par Jean-Yves Gnabo 1 σx = (0.0064) 2 = 0.08 σy = 0.16 54/148 Covariance vs. correlation Covariance Le covariance mesure combien deux résultats aléatoires “varient ” ensemble Cov [e x , ye] = σxy y − y )] = E [(e x − x)(e n X = pi · (xi − x)(yi − y ) i=1 Correlation La corrélation correspond à la mesure standardisée de la covariance: Corr [e x , ye] = ρxy = Cours donné par Jean-Yves Gnabo σxy σx σy 55/148 ρxy doit se situer entre −1 et 1 Les deux variables aléatoires sont : Parfaitement corrélées positivement si ρxy = 1 Parfaitement corrélées négativement si ρxy = −1 non corrélées si ρxy = 0 Cours donné par Jean-Yves Gnabo 56/148 Illustration Exemple (ctnd) Pour les rendements sur S & P 500 et MassAir, nous rappelons que: Etat Probabilité Rendement de S&P 500 (%) Rendement de MassAir (%) 1 0.20 -5 -10 2 0.60 10 10 3 0.20 20 40 où x = 0.09, σx = 0.08, y = 0.12, et σy = 0.16 Covariance et correlation On obtient: σxy et ρxy = (0.20)(−0.05−0.09)(−0.10−0.12)+(0.60)(0.10−0.09)(0.10−0.12)+(0.20)(0.20−0.09)(0.40−0.12) = 0.0122 = 0.0122 = 0.953125 0.08 · 0.16 Cours donné par Jean-Yves Gnabo 57/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 58/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 59/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 60/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 61/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 62/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 63/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 64/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 65/148 Figure: Source: auteur Cours donné par Jean-Yves Gnabo 66/148 Règles de calcul Soit a et b deux constantes, nous obtenons: E [ae x ] = aE [e x] E [ae x + be y ] = aE [e x ] + bE [e y] E [e x ye] = E [e x ] · E [e y ] + Cov [e x , ye] Var [ae x ] = a2 Var [e x] Var [ae x + be y ] = a2 Var [e x ] + b 2 Var [e y ] + 2abCov [e x , ye] Cov [e x + ye, ze] = Cov [e x , ze] + Cov [e y , ze] Cov [ae x , be y ] = abCov [e x , ye] Cours donné par Jean-Yves Gnabo 67/148 Le principe des regresssions linéaires Le modèle de regression linéaire et la méthode d’estimation des Moindres carrés ordinaires (MCO) constituent la pierre angulaire des méthodes linéaires d’analyse empirique La régression concerne la description et l’évaluation d’une relation linéaire entre une variable donnée y , i.e. la variable dépendante/expliquée, et une variable x ou plusieurs variables xk avec k ∈ {1, . . . , K } , i.e. les variables indépendantes/explicatives La regression diffère de la correlation où y et xk sont traitées de manière complètement symétrique Dans une regression, y est supposée aléatoire, i.e. elle possède une distribution de probabilité, les observations représentant des réalisations spécifiques de cette distribution, alors que xk est supposée déterministe, ces valeurs restant les mêmes d’un échantillon à l’autre. Cours donné par Jean-Yves Gnabo 68/148 Pour des raisons de simplicité, débutons avec k = 1, i.e. lorsque l’on s’intéresse à la relation relation entre y et x On suppose que la veritable relation que l’on cherche à identifier entre y et x est linéaire et telle que : y = f (x|β) = β0 + β1 x Cette relation est paramètrée via un vecteur de paramètres β = (β0 , β1 )0 que l’on souhaite identifier en utilisant la méthode d’estimation adaptée comme par exemple: “Plug-in” estimators Maximum de vraisemblance Moindres carrés, etc. Notez que cette relation peut être d’interêt lorsque l’on s’intéresse à : Estimer le coût des fonds propres à partir du beta du CAPM ; Mesurer la relation de long terme entre prix des actifs et les dividendes; Quantifier la propension marginale à consommer; Prédire le risque d’un actif, etc. Cours donné par Jean-Yves Gnabo 69/148 Intuition sur l’utilisation des regressions en finance Considérons le problème du choix d’investissement. Figure: Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 70/148 Exemple du choix d’investissement et de l’estimation du “Beta” Rappel (!) Vue d’ensemble Etapes du choix d’investissement 1. Calcul du taux plancher (coût du capital) 2. Calcul du taux de rentabilité (du projet) 3. Comparaison des deux (règle de décision) Cours donné par Jean-Yves Gnabo 71/148 Exemple du choix d’investissement et de l’estimation du “Beta” Représentation simplifiée Etapes du choix d’investissement Taux Plancher 1. Calcul du taux plancher = Taux sans Risque + Prime de Risque Cours donné par Jean-Yves Gnabo On s’intéresse dans cet exemple à la première étape du choix d’investissement (voir Damodaran pour plus de détail). Le calcul du taux plancher est primordiale pour la prise de décision. Elle nécessite une bonne évaluation des risques financiers encourus par l’investisseur et le créancier. Le taux plancher correspond au coût d’investissement, cad aux rendements attendus par les investisseurs et les créanciers en contrepartie du risque. Par conséquent, le taux plancher sera d’autant plus important qu’un projet est risqué. 72/148 Exemple du choix d’investissement et de l’estimation du “Beta” Arguments requis pour l’utilisation du MEDAF rf Taux sans risque E (rM ) − rf La prime de risque attendue Objectif de la section Le calcul du coût des fonds propres à partir de la formule donnée par le MEDAF nécessite d’obtenir des mesures précises pour les différents arguments de la formule. Nous allons dans cet exemple examiner les mesures les plus adéquates ainsi que les problèmes que l’on peut rencontrer en pratique lors de la mise en oeuvre de ce calcul. Objectif financier E (ri ) = rf + βi ∗ (E (rM ) − rf ) βi La bêta du titre analysé Cours donné par Jean-Yves Gnabo 73/148 Quel taux sans risque prendre en pratique? Le taux utilisé est généralement celui qui rémunère un actif pour lequel il n’y a ni risque de défaillance ni risque de participation. Les obligations d’Etat réunissent souvent - mais pas toujous - ces critères. Quel horizon? Quelle obligation d’Etat Le taux sans risque est le taux d’une obligation d’Etat zéro coupon dont la maturité est alignée sur l’horizon des cash-flows - du projet d’investissement - analysés. D’un point de vue théorique ceci signifie qu’il faudrait utiliser différents taux sans risque en fonction de l’horizon des cash-flows (obligation zéro coupon d’un an pour les cash-flows d’un an, obligation zéro coupon de deux ans pour les cash-flows de deux ans etc.). En pratique, il n’est souvent pas utile de prendre le taux sans risque à différents horizons. On utilisera les taux de long terme pour les projets de long terme et ceux de court terme pour les projets de court terme. Le taux sans risque qui doit être utilisé dans l’analyse doit être celui d’une obligation émis dans la même monnaie que les cash-flows du projet. En d’autre terme, si le projet doit générer des cash-flows en dollar le taux sans risque sera en dollar. Si les cash-flows sont en euro, le taux sans risque doit être en euro. En pratique, le taux sans risque sera obtenu en prenant des obligations d’Etat, en cohérence avec la devise des cash-flows. Pour des cash-flows en dollar ceci implique de prendre des bonds du Trésor américains. En Mai 2009, par exemple, le bond du Trésor à 10 ans était de 3.5%. Cours donné par Jean-Yves Gnabo 74/148 Quelle prime de risque choisir en pratique? L’aversion pour le risque et la prime de risque S’il s’agit de l’ensemble du marché, la prime de risque doit être une moyenne pondérée de la prime demandée par chaque investisseur. 1 Les poids sont déterminés en fonction de la richesse des acteurs sur le marché. Ainsi, l’aversion pour le risque de Warren Buffet comptera plus dans le calcul de la prime de risque d’équilibre que la votre ou la mienne (!). 2 Les investisseurs devenant de plus en plus averse au risque, on s’attend à ce que la prime augmente au fil du temps. Définition La prime de risque est la rémunération que l’investisseur demande pour investir dans un produit de risque moyen, en supplément du taux sans risque. 1 La prime doit être supérieure à zéro 2 Elle augmente avec le degré d’aversion pour le risque 3 Elle augmente avec le niveau moyen de risque du marché Rappel théorique 2 E(rM ) − r = 0.02ĀσM Cours donné par Jean-Yves Gnabo 75/148 Quelle est la bonne valeur du bêta? Arguments requis pour l’utilisation du MEDAF rf Taux sans risque E (rM ) − rf Approche par la régression Le calcul du coût des fonds propres à partir de la formule donnée par le MEDAF nécessite d’obtenir des mesures précises pour les différents arguments de la formule. Nous allons maintenant nous intéresser aux mesures les plus adéquates pour mesurer la sensibilité du risque du portefeuille à l’inclusion du titre, le bêta. La principale approche consiste à estimer le bêta en régressant le rendement du titre i (Ri ) sur le rendement de marché (Rm ). La prime de risque attendue Modèle théorique pour la regression βi Ri = a + b ∗ Rm Le bêta du titre analysé où a et b sont respectivement la constante et la pente de la régression. La pente mesure le beta Cours donné par Jean-Yves Gnabo 76/148 Interprétation de la régression le alpha de Jensen La constante de la régression offre une mesure simple des performances durant la période de la régression. En effet, Rj = Rf + b(Rm − Rf ) = Rf (1 − b) + bRm Rj = a + bRm (Test) Quelle est l’interprétation de: 1 a > Rf (1 − b) .... 2 a = Rf (1 − b) 3 a < Rf (1 − b) Cours donné par Jean-Yves Gnabo Risque systématique versus spécifique Le R 2 de la régression donne une estimation de la proportion du risque systématique et du risque spécifique (1 − R 2 ) 77/148 Comment procède-t-on en pratique? Exemple: choix des paramètres pour le titre Disney 1 Période de 5 ans 2 Intervalles mensuels 3 Indice de marché: l’indice S& P 500 4 Choisir un indice de marché, et estimer son rendement en incluant les dividendes éventuels. Cours donné par Jean-Yves Gnabo Procédure d’estimation 1 Choisir une période d’estimation: entre 2 et 5 ans. (Test) Quels sont les avantages et les inconvénients? 2 Choisir la fréquence des données journalière, hebdomadaire, mensuelle. Une fréquence trop grande, risque d’accroitre la volatilité des résultats. D’un autre coté, elle permet de travailler avec un plus grand nombre d’observations. 3 Estimer les rendements en incluant les dividendes si possible: Rendements = (Prix de fin - Prix de début + Dividendes sur la période)/ Prix de début de période 4 Choisir un indice de marché, et estimer son rendement en incluant les dividendes éventuels. 78/148 Comment procède-t-on en pratique? Régression linéaire Cours donné par Jean-Yves Gnabo 79/148 Comment procède-t-on en pratique? Exemple: choix des paramètres pour le titre Disney 1 La constante doit être comparée à la moyenne mensuelle du taux sans risque sur l’échantillon: la moyenne des bonds du Trésor us sur la période est de 3.27%, le taux sans risque mensuel est donc de = 0.272% (=3.27%/12), taux sans risque * (1-beta)= 0.272% *(1-0.95)=0.01% 2 Alpha de Jensen = 0.47% - 0.01%=0.46% 3 (Test) Quelle conclusion peut-on tirer de ce calcul? Les manageurs font-ils correctement leur travail? 4 (Test) Que peut-on dire du bêta estimé et du ”vrai” bêta? 5 (Test) Que peut-on dire sur le risque systématique et le risque spécifique? Cours donné par Jean-Yves Gnabo Procédure d’estimation L’utilisation des rendements mensuels de 2004 à 2008, du titre Disney et du S& P500 permet d’obtenir les résultats suivants: ReturnsDisney = 0.47% + 0.95 Returns S &P 500 (R squared= 41%) (ecart-type de b =0.16) 80/148 Peut-on faire confiance à l’estimation du bêta par l’approche des régressions linéaires? Cours donné par Jean-Yves Gnabo 81/148 (Test) Quel investissement choisir? Comment utiliser l’information sur le R 2 Vous êtes un investisseur diversifié qui hésite entre deux titres: Disney et Amgen. Les deux possèdent le même bêta, 0.95, mais l’un, Disney, présente un R 2 de 41% alors que celui de Amgen n’est que du 20.5%. Quel titre allez-vous choisir? 1 Amgen, car son R 2 est plus faible 2 Disney, car son R 2 est plus important 3 Vous êtes indifférent Votre réponse serait-elle différente si vous étiez un investisseur non diversifié? Cours donné par Jean-Yves Gnabo 82/148 Bêta et service d’information sur les marchés financiers Estimation du Bêta proposée par Bloomberg Cours donné par Jean-Yves Gnabo 83/148 Comment utiliser cette information pour la prise de décision (INVESTISSEUR/MANAGEUR)? Rendements attendus pour le titre Disney en mai 2009 Arguments pour le calcul: (i) Bêta de Disney= 0.95, (ii) taux sans risque = 3.50% (Bond du Trésor américain en 2009), (iii) prime de risque = 6% (basé sur la prime implicite début 2009) RENDEMENT ATTENDU = Taux sans risque + Bêta * (Prime de risque) = 3.50% + 0.95 (6.00%) = 9.2% Choix de l’INVESTISSEUR Choix du MANAGEUR En tant qu’investisseur dans la société Disney, quelle information le rendement de 9.2% vous donne-t-il? Les manageurs de Disney ont besoin d’offrir un rendement d’au moins 9.2% à leur investisseur pour les satisfaire. C’est le taux plancher pour un projet. 1 C’est le rendement qui peut être attendu s’il l’on investi dans la société Disney durant une longue période, à la condition que l’action soit correctement ”valorisée” (priced) et que le MEDAF soit le bon modèle de risque. 2 C’est le rendement que j’ai besoin d’obtenir pour être incité à investir dans l’action Disney 3 les deux 1 En d’autres termes, le coût des fonds propres de Disney est de 9.2%. 2 (Test) Que peut-il se passer si le taux n’est pas atteint? Imaginez maintenant que vous êtes un investisseur actif. Vos recherches montrent que l’action peut vous rapporter 12.5% durant les 5 prochaine années. Etes-vous susceptibles de (a) vendre l’action, (b) acheter l’action? Cours donné par Jean-Yves Gnabo 84/148 Cours donné par Jean-Yves Gnabo 85/148 Peut-on évaluer la valeur du Bêta à partir de l’activité économique de la firme? Cours donné par Jean-Yves Gnabo 85/148 Quels sont les déterminants du bêta? Composantes du bêta La valeur du bêta est affecté par plusieurs facteurs (3 facteurs) que l’on peut isoler afin d’obtenir une mesure plus précise de celui-ci. Le calcul du bêta fondamental est basé sur ce principe. Déterminant 1: Type de produit La valeur du bêta dépend de la sensibilité de son activité et principalement des revenus de la firme à la conjoncture économique (Test) Lesquelles des firmes ayant une activité pro-cyclique ou contra-cyclique auront selon vous le bêta le plus important? Cours donné par Jean-Yves Gnabo Déterminant 2: Effet du levier opérationnel Déterminant 3: Levier financier Le levier opérationnel fait référence à la proportion des coûts fixes de l’entreprise par rapport aux coûts totaux. Lorsqu’une firme emprunte, elle accroit ses coûts fixes (payement d’intérêts et amortissement du principal) et ainsi rend ses profits plus volatiles (Test) Quel peut-être selon (Test) Quel peut-être selon vous l’impact du levier vous l’impact du levier financier opérationnel sur la valeur du sur la valeur du bêta? bêta? 86/148 Retour aux MCO, premières Intuitions Considérons tout d’abord 100 dates sur lesquelles nous observons des réalisations de y et x. Nous cherchons à expliquer y avec x. Figure: Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 87/148 Pour obtenir la droite qui “s’adapte” le mieux aux données, nous écrivons le modèle suivant: yt = β0 + β1 xt + εt β0 correspond à la constante du modèle β1 au coefficient associé à la variable x εt correspond au terme d’erreur, i.e. le terme aléatoire qui capture : les facteurs explicatifs de y qui ne sont pas compris dans le modèle; erreur de mesure; tous les facteurs qui font que la relation entre y et x n’est pas parfaitement expliquée par une droite. Cours donné par Jean-Yves Gnabo 88/148 Nous souhaitons estimer β0 et β1 en utilisant toute l’information à notre disposition, par le biais de βb0 et βb1 , de telle sorte à obtenir une droite de regression ybt = βb0 + βb1 xt avec “de bonnes propriétés” Figure: Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 89/148 La différence entre la prediction linéaire ybt et la valeur observée yt est appelée résidu: et ≡ yt − ybt Figure: Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 90/148 Nota Bene Attention aux différences entre: εt le terme d’erreur (résidu) du modèle, qui correspond à la différence entre l’observation yt et la “vraie” droite de regression basée sur la population et ≡ εbt , le résidu (résidu estimé), i.e. la difference entre l’observation yt et ybt , la valeur prédite de yt donnée par l’estimation du modèle sur les données accessibles {(x1 ; y1 ), (x2 ; y2 ), . . . , (x100 ; y100 )} Cours donné par Jean-Yves Gnabo 91/148 Critères formels des MCO Le critère retenu pour determiner βb0 et βb1 consiste en la minimisation de la Somme des Carrés des Résidus (SSR) tel que: βb0 , βb1 ≡ argmin β0 ,β1 = argmin β0 ,β1 TX =100 et2 t=1 TX =100 (yt − β0 − β1 xt )2 t=1 C’est pourquoi βb = (βb0 , βb1 )0 est appelé l’estimateur des Moindres carrés ordinaires (MCO) de β = (β0 , β1 )0 Notez que le fait de prendre le carré permet de s’assurer que les erreurs positives et négatives ne s’annulent pas lors de la sommation. Cours donné par Jean-Yves Gnabo 92/148 Hypothèses de Gauss-Markov additionelles A.1 E [εt ] = 0, i.e. les erreurs sont d’espérance nulle, qui veut dire qu’en moyenne, la droite de regression doit être correcte A.2 Var [εt ] = σε2 , ∀t, i.e. toutes les erreurs possèdent la même variance ce qui correspond à la presence d’homoskedasticité A.3 Cov [εt1 , εt2 ] = 0, ∀t1 , t2 , i.e. les erreurs ne sont pas corrélées, ce qui exclut toute forme d’autocorrelation A.4 Cov [εt , xt ] = 0, i.e. il n’y a pas de relation entre le terme d’erreur et les variations de x , c’est ce que l’on appelle aussi la condition d’ exogeneité, ceci veut également dire que xt et εt sont independents Sous ces hypothèses, il peut être montré que l’estimateur des MCO possède de “bonnes ” propriétés, i.e. il est le Best Linear Unbiased Estimator (BLUE) d’après le théorème de Gauss-Markov. Cours donné par Jean-Yves Gnabo 93/148 Hypothèses supplémentaires en petit échantillon Une cinquième hypothèse est requise lorsque l’on souhaite réaliser de l’inférence sur les paramètres de la population, i.e. les vrais β0 et β1 , à partir des paramètres sur l’échantillon disponible, βb0 et βb1 : A.5 εt ∼ i.i.dN (0, σε2 ) Lorsque T est grand, le Théorème central limite (CLT) s’applique et l’hypothèse de normalité n’est plus requise pour réaliser l’inférence (test d’hypothèse). Cours donné par Jean-Yves Gnabo 94/148 Illustration: Estimation du modèle de Sharpe (Single Index model) Le SI index model développé par Sharpe (1962) est donné par l’équation suivante: ri,t = αi + βi rM,t + εi,t , i = 1, . . . , N; t = 1, . . . , T εi,t 2 ∼ i.i.d N (0, σε,i ) rM,t 2 ∼ i.i.d N (µM , σM ) Cov [εi,s , εj,t ] = 0 ∀i 6= j, ∀s, t Cov [RM,s , εi,t ] = 0 ∀s, t where: µi = E [ri,t ] = αi + βi µM Cov [ri,t , rM,t ] σiM = 2 βi = Var [rM,t ] σM 2 Les principaux paramètres à estimer sont: αi , βi and σε,i Cours donné par Jean-Yves Gnabo 95/148 Une première approche: “Plug-in principle” estimators D’après le “plug-in principle”, nous estimons les paramètres du modèle à partir de statistiques sur l’échantillon tel que: σ biM α bi = ri − βbi r M and βbi = 2 σ bM où: ri rM = = T 1 X ri,t T 1 T t=1 T X rM,t t=1 T σ biM 2 σ bM Cours donné par Jean-Yves Gnabo = = 1 X ri,t − r i rM,t − r M T −1 1 T −1 t=1 T X ri,t − r i 2 t=1 96/148 Une alternative: estimateur des Moindres carrés ordinaires (MCO) SI model suppose une relation linéaire entre ri,t et rM,t avec une constante αi et un coefficient de pente βi Nous pouvons estimer αi et βi en cherchant la “droite la plus adaptée ” au nuage de points Problème. Comment determiner la “droite la plus adaptée”? Solution des moindres carrés. Nous minimisons la somme des carrés des résidus (SSR) Cours donné par Jean-Yves Gnabo 97/148 0.0 −0.2 returns 0.2 Monthly cc returns on S&P 500 and Microsoft −0.4 S&P 500 MSFT 1999 2000 2001 2002 2003 Index Figure: Log-rendements - MSFT, SP500 Cours donné par Jean-Yves Gnabo 98/148 Monthly cc returns on S&P 500 and Microsoft ● ● ● ● 0.2 ● ● ● ● 0.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −0.2 cc return on MSFT ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −0.4 ● ● −0.10 −0.05 0.00 0.05 0.10 cc return on S&P 500 Figure: Estimation des moindres carrés du modèle SI - MSFT, SP500 Cours donné par Jean-Yves Gnabo 99/148 Algorithme des moindres carrés Quelques notations: α bi βbi rbi,t ei,t = croyance initiale pour αi = croyance initiale pour βi = α bi + βbi rM,t = valeur prédite = ri,t − rbi,t = ri,t − α bi + βbi rM,t = residu Nous déterminons la meilleure droite d’ajustement en minimisant la Somme des Carrés des Résidus (SSR) comme suit: SSR(b αi , βbi ) = T X 2 ei,t t=1 = T X ri,t − α bi − βbi rM,t 2 t=1 Cours donné par Jean-Yves Gnabo 100/148 En d’autres termes, les estimateurs des moindres carrés (ordinaires) (OLS) sont la solution de: min SSR(b αi , βbi ) = α bi ,βbi T X ri,t −α bi − βbi rM,t 2 t=1 Notez. SSR(b αi , βbi ) est une fonction quadratique α bi ; βbi assurant l’existence d’une solution analytique du programme de minimisation. Les conditions du premier ordre du programme sont données par : 0= ∂SSR(b αi ,βbi ) ∂α bi = −2 T X ri,t − α bi − βbi rM,t {z } t=1 | (1) ei,t 0= ∂SSR(b αi ,βbi ) ∂ βbi = −2 T X rM,t ri,t − α bi − βbi rM,t | {z } t=1 (2) ei,t Nous obtenons deux equations pour deux paramètres inconnus, il existe donc une solution unique du programme. Cours donné par Jean-Yves Gnabo 101/148 Interpretation de l’équation ”normale ” Les equations précédentes sont appelées “équations normales” et peuvent être interprétées comme suit: Eq. (1): T X ei,t = 0, impliquant que la somme des résidus soit zéro t=1 Eq. (2): T X ei,t rM,t = 0, impliquant l’orthogonalité entre le vecteur t=1 des résidus e ≡ εb et celui de la variable explicative rM , i.e. e ⊥ rM Ces résultats impliquent que la variable explicative rM,t et la valeur prédite de ri,t , i.e. rbi,t sont non corrélées avec les termes du résidu ei,t Cours donné par Jean-Yves Gnabo 102/148 Solution par le calcul Les solutions de α bi et βbi donnent finalement: α bi βbi Cours donné par Jean-Yves Gnabo = r i − βbi r M σ biM = 2 σ bM 103/148 Preuve A partir de Eq. (1), nous avons: T X ri,t − Tα bi − βbi t=1 T X rM,t = 0 ⇔ t=1 Tri − Tα bi − βbi T r M = 0 ⇔ α bi = r i − βbi r M A partir de Eq. (2), l’expression plugging pour α bi donne: T X rM,t (ri,t − r i + βbi r M − βbi rM,t ) = 0 ⇔ t=1 T X rM,t ri,t − T r i r M + βbi T r 2M − βbi T X 2 rM,t = 0⇔ t=1 t=1 Amenant à : T X rM,t ri,t − T r M r i t=1 Cours donné par Jean-Yves Gnabo = βbi T X ! 2 rM,t − T r 2M t=1 104/148 Preuve(ctnd) La resolution du programme de minimisation conduit à : σ biM βbi = 2 σ bM Q.E.D. Cours donné par Jean-Yves Gnabo 105/148 Estimateur pour σε2i Nous utilisons le principe “plug-in ” tel que: ei,t σ bε2i σ bεi = ri,t − α bi − βbi rM,t T T 2 1 X 1 X 2 = ei,t ei,t − e i = |{z} T −2 T −2 t=1 t=1 0 q = σ bε2i = SER = ecart type de la regression Nota Bene. σ bεi est la taille habituelle du résidu = Ecart type de la regression (SER) Diviser par T − 2 pour obtenir un estimateur non biaisé de σε2i T − 2 = degrés de liberté = taille de l’échantillon - nombre de paramètre à estimer (αi et βi dans ce cas) Cours donné par Jean-Yves Gnabo 106/148 Estimateur pour σα2bi et σβbi Nous pouvons montrer que: L’ecart type estimé α bi , noté σ bαbi , est donné par: T X 2 rM,t t=1 σ bαbi = σ bεi · T T X 2 rM,t − T 2 r 2M t=1 L’ecart type estimé pour βbi , noté σ bβbi , est donné par: σ bβbi = σ bεi · 1 T X 2 rM,t − T r 2M t=1 Preuve. La preuve formelle de ces résultats peut être trouvée dans Brooks (2008), pp. 83-85 Cours donné par Jean-Yves Gnabo 107/148 Qualité du modèle La qualité du modèle require de distinguer la part de la variance totale du modèle expliquée de la variance résiduelle : : σi2 = Var [ri,t ] = Var [αi + βi rM,t + εt ] σi2 |{z} Variance totale = 2 βi2 σM | {z } Variance expliquée + σε2 |{z} Variance résiduelle La fraction de la variance totale expliquée par le modèle est donnée par le coefficient du R2 comme suit: R2 = Cours donné par Jean-Yves Gnabo β 2σ2 Variance expliquée = 2 2i M 2 Variance totale βi σM + σε 108/148 Quelle est la part du risque d’un actif expliquée par le risque de marché ? Rappelez vous que : 2 βi2 σM = % de la variabilité de ri expliquée par rM σi2 = % du risque total provient du marché 2 σε,i = 1 − 2 = 1-% du risque total n’est pas dû au risque de marché σi Ri2 = Cours donné par Jean-Yves Gnabo 109/148 Le modèle de Fama-French exprimé sous forme de matrice Si nous considérons le modèle de Fama-French de rendement en excès, celui si peut s’écrire comme suit : yi,t = αi + βi1 ERMt + βi2 SMBt + βi3 HMLt + εi,t ou de manière équivalente: yi,t = βi0 xt + εi,t with 0 qui peut être exprimé sous forme de xt = 1 ERMt SMBt HMLt matrices comme suit : yi (T ×1) yi1 yi2 .. . = βi + εi X (T ×K +1) (K +1×1) (T ×1) ⇔ SMB1 SMB2 .. . HML1 HML2 .. . SMBT HMLT = yiT (T ×1) Cours donné par Jean-Yves Gnabo 1 1 .. . ERM1 ERM2 .. . 1 ERMT (T ×4) ε i1 αi εi2 βi1 + . βi2 .. βi3 εiT (4×1) (T ×1) 110/148 Dérivation de l’estimateur des MCO: cas general Utilisant les notations matricielles, nous écrivons ei le vecteur des résidus correspondant à l’estimateur βbi de βi , le vecteur ou les paramètres du modèle de Frama French s’écrit alors: 0 = yi − Xβbi ei = ei1 ei2 . . . eiT (T ×1) Le SSR, T X eit2 , est défini par: t=1 SSR = T X eit2 = e0i ei t=1 Finalement, l’ estimateur des MCO de βi peut s’exprimer comme suit: −1 0 βbi = X0 X X yi Cours donné par Jean-Yves Gnabo 111/148 Preuve Le résultat des MCO provient du programme de minimisation suivant: min SSR(βbi ) = e0i ei bi β Cela vient de: βbi = argmin (yi − Xβi )0 (yi − Xβi ) βi = argmin yi0 yi − 2βi0 X0 yi + βi0 X0 Xβi βi La condition du premier ordre est donnée par: ∂e0i ei = −2X0 yi + 2X0 Xβi = 0 ∂βi Si βi est une solution qui doit résoudre l’équation normale comme suit: −1 0 X0 Xβi = X0 yi , menant à : βbi = X0 X X yi Q.E.D. Cours donné par Jean-Yves Gnabo 112/148 h i Au sujet du calcul de E βbi et de Var(βbi ) Comme évoqué, il peut être montré que l’estimateur des MCO de βi est non biaisé, i.e. que : h i E βbi = βi La variance de βbi peut s’écrire : h i −1 Var βbi = σεi X0 X Cours donné par Jean-Yves Gnabo 113/148 Preuve Si l’on part de la définition de l’estimateur des MCO pour βi , nous obtenons: −1 0 −1 0 X (Xβi + εi ) X yi = X0 X βbi = X0 X −1 −1 X 0 X βi + X 0 X = X0 X X 0 εi | {z } IK+1 = βi + X 0 X −1 X 0 εi Il suit que: βbi − βi = X0 X −1 X 0 εi Nous pouvons maintenant deriver l’expression pour la valeur espérée de βbi comme suit: h i h −1 0 i E βbi = E βi + X 0 X X εi −1 0 = βi + X 0 X X E [εi ] Cours donné par Jean-Yves Gnabo = βi Q.E.D. 114/148 Preuve (ctnd) Passons au calcul de la variance de βbi , nous obtenons: h i0 h i h i b b b b βi − E βbi = E βi − E βi Var βi 0 = E βbi − βi βbi − βi h −1 0 0 −1 i = E X0 X X εi εi X X 0 X −1 0 −1 = X0 X X E εi ε0i X X0 X | {z } Var[εi ]=σεi IK+1 0 = σεi X X −1 Q.E.D. Nota Bene. X doit être de plein rang tel que (X0 X)−1 est inversible Cours donné par Jean-Yves Gnabo 115/148 Au sujet du R 2 Il existe de nombreux problèmes associés à notre mesure précédente ESS SSR de qualité de modèle R 2 = =1− TSS TSS R 2 ne diminue jamais si des regresseurs auxiliaires sont ajoutés puisque la somme des carrés des résidus au mieux restera stable ou bien diminuera suite à l’addition de variables explicatives - Pourquoi? R 2 prend souvent la valeur 0.9 ou plus pour les regressions des séries temporelles Une solution? Le R 2 ajusté Cours donné par Jean-Yves Gnabo 116/148 Au sujet du R 2 ajusté (ctnd) Le R 2 ajusté est donné par : 2 R =1− T −1 SSR/(T − K − 1) =1− 1 − R2 TSS/(T − 1) T −K −1 Si nous ajoutons un regresseur supplémentaire, K le R 2 doit 2 augmenter plus que la pénalité associée pour que le R augmente lui aussi : Il existe également des difficultés avec ce critère : Il s’agit d’une règle “ad-hoc” 2 Il n’existe pas de distribution de R 2 ou de R permettant de faire l’inférence Cours donné par Jean-Yves Gnabo 117/148 Quelles sont les propriétés statistiques de ces estimateurs? Est-ce que les estimateurs fournissent une “bonne ” approximation des vraies valeurs des paramètres, i.e. s’ils sont : (non)biaisés? précis ? consistents? Quelle distribution de probabilité suivent-ils? Peut-on dériver un intervalle de confiance des estimateurs? En terme de test d’hypothèse, comment peut-on vérifier à partir des données réelles la validité, des hypothèses/prédictions du modèle ? Cours donné par Jean-Yves Gnabo 118/148 Un peu de théorie statistique: Estimateurs et leurs propriétés Si l’on noteθ le paramètre devant être estimé et θb un estimateur de θ à partir de l’échantillon, les points importants sont les suivants: θb est une variable aléatoire - sa valeur dépend des valeurs réalisées sur un échantillon aléatoire f θb est la fonction de densité (pdf) de θb - elle depend de la pdf de variables aléatoire sur une échantillon aléatoire. Les propriétés de θb peuvent être dérivées soit de manière analytique en utilisant la théorie des probabilité, où soit en utilisant les simulations Monte Carlo Cours donné par Jean-Yves Gnabo 119/148 Propriété des éstimateurs en échantillon fini 1 Biais h i h i b θ) = E θb − θ = E θb − θ bias(θ, h i b θ) = 0 ⇔ E θb = θ θb est non biaisé si biais(θ, 2 Précision b = SE(θ) Ecart type de θb s r h i h i2 = Var θb = E θb − E θb = σθb Cours donné par Jean-Yves Gnabo 120/148 Absence de bais est une propriété désirable d’un estimateur car ceci implique que la valeur de l’estimateur est correcte “en moyenne”, i.e. sur plusieurs réalisations hypothétiques de la variables aléatoire o n o n (1) (1) (2) (2) ri,1 , . . . , ri,T , ri,1 , . . . , ri,T ,. . . . . . mais être correct “en moyenne” ne veut pas dire que la valeur estimée est proche de la vraie valeur sur votre échantillon! La valeur SE θb nous dira quelle est la proximité entre la valeur de l’estimateur θb de θ et la valeur recherchée en moyenne Pour l’illustrer, considérons θb1 et θb2 du paramètre θ Lah vraie i valeur θ est 0 h i E θb1 = 0 alors que E θb2 > 0 h i h i Var θb1 >> Var θb2 Cours donné par Jean-Yves Gnabo 121/148 La limite du biais comme critère de choix Figure: Distributions de différents estimateurs pour θ = 0 - Source: Zivot (2012) Cours donné par Jean-Yves Gnabo 122/148 Les propriétés asymptotique des estimateurs Un estimateur θb est qualifié de consistant pour θ, s’il converge en probabilité vers θ, soit, si pour tout ε > 0 nous avons: h i lim P |θb − θ| > ε = 0 T →∞ Intuitivement, si nous augmentons le nombre d’observations alors θb finira par être égal à θ Ainsi un estimateur θb sera consistant si: b θ)=0 as T → ∞ biais(θ, b θ)=0 as T → ∞ SE(θ, Cours donné par Jean-Yves Gnabo 123/148 Propriété de Gauss-Markov des estimateurs MCO en detail Si nous assumons que le modèle SI est à la source des données observées, i.e. que le modèle SI est le modèle générateur de données 2 sont (DGP) des données observées, les estimateurs α bi , βbi et σ bε,i caractérisés par les propriétés suivantes : 2 sont non biaisées α bi , βbi and σ bε,i 2 sont consistants α bi , βbi and σ bε,i Grace au théorème de Gauss-Markov , il est démontré que ces estimateurs sont Best Linear Unbiased Estimators (BLUE) Preuve. Pour une demonstration formelle du résultat fondamental voir [GME] ou Hayashi (2000), Section 1.3 ou bien Greene (2003), Section 4.4 Dans l’ensemble, ce résultat suggère qu’il n’est pas possible de faire mieux que ce qui est donné par l’estimateur β des MCO dans le cas linéaire. Cours donné par Jean-Yves Gnabo 124/148 Comment peut-on réaliser l’inférence statistique ? En petit échantillon, i.e. lorsque T < 60, on doit s’appuyer sur une hypothèse supplémentaire de normalité des termes d’erreur (A.5) pour dériver les distributions des statistiques de test : −1 εi ∼ N 0, σε2i IT ⇒ βbi ∼ N βi , σεi X0 X Lorsque T est assez grand, le théorème central limite nous dit que : θbi c θbi )2 ), for θ ∈ {αi , βi } ∼ N (θi , SE( Ainsi l’intervalle de confiance à 95% sera: h i c θbi ) θbi ± 2 · SE( Il est ainsi possible de dériver l’inférence pour les paramètres estimés et de tester différentes hypothèses. Cours donné par Jean-Yves Gnabo 125/148 3. Tests d’hypothèse Cours donné par Jean-Yves Gnabo 126/148 Rappel sur les tests d’hypothèse 1 2 Specification des tests: H0 : hypothèse nulle vs. H1 : hypothèse alternative Spécification du niveau de signification du test: niveau = P [Rejet H0 |H0 est vrai] = P [Erreur de type I] 3 4 Construction de la statistique de test, T , à partir des données observées Utilise la statistique de test T pour évaluer la vraisemblance de H0 : |T | est grand ⇒ preuves contreH0 |T | est petit ⇒ preuves en faveur de H0 Habituellement, la region de rejet de T est déterminée par la valeur critique cv tel que : |T | > cv ⇒ rejet H0 Cours donné par Jean-Yves Gnabo |T | ≤ cv ⇒ ne rejette pas H0 127/148 Intuition graphique: Zone de rejet pour un test de significativité Figure: Zone de rejet et de non rejet pour un test bilateral - Source: Brooks (2008) Cours donné par Jean-Yves Gnabo 128/148 Intuition graphique: Zone de rejet pour un test de significativité (ctnd) Figure: Zone de rejet et de non rejet pour un test unilateral (upper tail) - Source: Brooks (2008) Cours donné par Jean-Yves Gnabo 129/148 Intuition graphique: Zone de rejet pour un test de significativité (ctnd) Figure: Zone de rejet et de non rejet pour un test unilateral (lower tail) - Source: Brooks (2008) Cours donné par Jean-Yves Gnabo 130/148 Intuition graphique:: P-value Figure: Identification de la P-value - Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 131/148 Intuition graphique:P-value (ctnd) Figure: Identification de la P-value - Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 132/148 Intuition graphique:P-value (ctnd) Figure: Identification de la P-value - Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 133/148 Prise de décision et test d’hypothèse Les situations auxquelles des décideurs peuvent être confrontés peuvent être résumées comme suit: Realité Décision H0 est vraie H0 est fausse Rejet H0 Erreur de type I Absence d’erreur Pas d’erreur Erreur de type II Ne rejette pas H0 Deux caractéristiques importantes: 1 2 Niveau du test. Le but est de toute evidence d’obtenir un niveau de significativité faible, i.e. une faible P [Erreur de type I], tel que 5% ou 1% Puissance du test. Elle est définie comme 1 − P [Erreur de type II]. L’objectif est alors de construire un test ayant un niveau de puissance important Probleme: Ces objectifs sont contradictoires puisque que lorsque le niveau → 0, alors la puissance → 0! Cours donné par Jean-Yves Gnabo 134/148 Test d’hypothèse du modèle SI Les hypthèses du modèle qui peuvent être testées sont ; Test de significativité basique: H0 : βi = 0 vs. H1 : βi 6= 0 Test de valeur spécifique: H0 : βi = βi0 vs. H1 : βi 6= βi0 Test de paramètre constant: H0 : βi est constant sur l’ensemble de l’échantillon vs. H1 : βi change sur des sous-parties de l’échantillon Cours donné par Jean-Yves Gnabo 135/148 Tests de significativité Lorsque l’on test des valeurs spécifiques, nous testons: H0 : βi = βi0 vs. H1 : βi 6= βi0 1 La statistique de test est donnée par: tβi =β 0 = i βbi − βi0 c βbi ) SE( L’ intuition est la suivante: Si tβi =βi0 ≈ 0 alors βbi ≈ βi0 , et H0 : βi = βi0 ne doit pas être rejectée c βbi ) supérieur à Si |tβi =βi0 | > 2, disons, alors βbi est plus de 2 fois l’SE( βi0 . Il est par consequent vraiment improbable que βbi ≈ βi0 , et H0 : βi = βi0 doit être rejetée Cours donné par Jean-Yves Gnabo 136/148 Distribution de la t-stat sous H0 Sous l’hypothèse du modèle SI, et H0 : βi = βi0 , nous avons: tβi =β 0 = i βbi − βi0 ∼ t c βbi ) H0 T −2 SE( où: tT −2 a distribution de Student avec T − 2 degres de liberté (d.f.) Cours donné par Jean-Yves Gnabo 137/148 Figure: Distribution de Student’ t pour divers d.f. - Source: Zivot (2012) Cours donné par Jean-Yves Gnabo 138/148 tT −1 représente une courbe en cloche et est symétrique autour de zero, à l’instar de la distribution gaussienne mais elle possède des queues de distribution plus épaisses d.f. correspond à la taille de l’échantillon - nombre de paramètres estimés. Dans le modèle SI, nous estimons deux paramètres, i.e. β0 et β1 , ainsi d.f. = T − 2 Pour T ≥ 60, tT −2 ' N (0, 1). Alors, pour T ≥ 60, nous obtenons: tβi =β 0 = i Cours donné par Jean-Yves Gnabo βbi − βi0 ' N (0, 1) c βbi ) H0 SE( 139/148 2 Nous fixons le niveau de significativité et déterminons la valeur critique: P [Erreur de type I] = 5% Le test possède deux alternatives la valeur critique, cv est déterminée selon: t t T −2 T −2 P [|tT −2 | > cv ] = 0.05 ⇔ cv = −q0.025 = q0.975 t T −2 où q0.975 =97.5%-quantile d’une distribution de Student avec T − 2 d.f. Preuve. P [|tT −2 | > cv ] = 0.05 ⇔ P [tT −2 > cv ] + P [tT −2 < −cv ] = 0.05 ⇔ 2P [tT −2 > cv ] = 0.05 ⇔ 1 − P [tT −2 ≤ cv ] = 0.025 {z } | FtT −2 (cv ) which leads to: t T −2 FtT −2 (cv ) = 1 − 0.025 ⇔ cv = Ft−1 (0.975) ≡ q0.975 T −2 Cours donné par Jean-Yves Gnabo Q.E.D. 140/148 3 La règle de décision est alors données par: t T −2 Rejet H0 : βi = βi0 en faveur de H1 : βi 6= βi0 if |tβi =β 0 | > q0.975 i 4 Finalement, nous définissons la P-value d’un test bilateral: Il s’agit du niveau de significativité auquel le test est rejeté dans notre cas: h i h i h i P |tT −2 | > tβi =βi0 = P tT −2 < −tβi =βi0 + P tT −2 > tβi =βi0 h i = 2 · P tT −2 > |tβi =βi0 | h i = 2 · 1 − P tT −2 ≤ |tβi =βi0 | La règle de decision basée sur la P-value est alors donnée par: Rejet H0 : βi = βi0 au seuil de 5%si P-value < 5% Notez que pour T ≥ 60, nous avons: h P − value = 2 · P z > |tβi =βi0 | , z ∼ N (0, 1) Cours donné par Jean-Yves Gnabo 141/148 Test d’hypothèses multiples Nous utilisons le t-test pour tester une hypothèse, i.e. hypothèse impliquant un seul paramètre. Maintenant, que se passe-t-il si nous souhaitons tester plus d’un paramètre en même temps? Nous devons effectuer un F -test qui demande de procéder à deux regressions: 1 2 Une regression non contrainte, qui est celle pour laquelle le coefficient est déterminé librement par les données, comme par le passé. Une regression contrainte, qui est celle pour laquelle les coefficients sont contraints, i.e. nous imposons des valeurs aux paramètres βk s Cours donné par Jean-Yves Gnabo 142/148 Test d’hypothèse du modèle de Fama-French Par exemple, il est possible de tester si tous les paramètres du modèle de Fama-French sont nuls à l’exception de la constante Les deux regressions à effectuer sont alors : 1 Le modèle non restreint: yi,t = αi + βi1 ERMt + βi2 SMBt + βi3 HMLt + εui,t 2 Le modèle restreint: yi,t s.t. = αi + βi1 ERMt + βi2 SMBt + βi3 HMLt + εci,t βi1 = βi2 = βi3 = 0 ce qui nous conduit à : yi,t = αi + εci,t En d’autres termes, nous testons ici si le modèle de Fama-French apporte de l’information pour la comprehension des rendements financiers Cours donné par Jean-Yves Gnabo 143/148 Formellement, supposons le modèle économétrique suivant : y = Xβ + ε Nous pouvons représenter le problème sous forme de test des hypothèses suivantes: H0 : Rβ = q H1 : Rβ 6= q at the α-level L’idée est que si H0 tient, alors Hβb − q = m devrait être petit Nous pouvons montrer que : −1 0 R m ∼H0 N 0, σε2 R X0 X et que: V = m0 Var [m]−1 m ∼H0 χ2(p) où V correspond à la mesure de distance de Mahalanobis qui possède de bonnes propriétés statistiques et p le nombre de restrictions Cours donné par Jean-Yves Gnabo 144/148 F-stat pour les hypothèses jointes Identification de la statistique de test. Finalement, nous pouvons montrer que la F -stat est donnée par: 1 Soit: F = 2 0 −1 −1 Rβb − q σε2 R (X0 X) R0 Rβb − q p ∼ F(p,T −K −1) Ou de manière équivalente par : F = SSRr − SSRu T − K − 1 · ∼ F(p,T −K −1) SSRu p avec: SSRr et SSRu la SSR du modèle contraint et non contraint resp. Règle de décision. La distribution de Fisher, F , ne possède que des valeurs positives et n’est pas symétrique. Par consequent nous ne rejetons l’hypothèse nulle uniquement si F > cv1−α ou si la P-value associée est inférieure à α% Cours donné par Jean-Yves Gnabo 145/148 Figure: Distribution de Fisher F - Source: Terracol (2012) Cours donné par Jean-Yves Gnabo 146/148 Rappel de calcul matriciel Soit A , B et (a×b) (a×c) des matrices, nous obtenons: C (c×b) (A + BC)0 = A0 + C0 B0 Soit a (k×1) and b (k×1) des vecteurs et D une matrice symétrique, nous (k×k) obtenons : ∂b0 a ∂a0 b = =a ∂b ∂b and ∂a0 Da = 2Da ∂a Cours donné par Jean-Yves Gnabo 147/148 Rappel de calcul matriciel (ctnd) Matrice semi définie positive C est caractérisée par : ∀x 6= 0, x0 Cx ≥ 0 Matrice positive C est caractérisée par: ∀x 6= 0, x0 Cx > 0 A0 A matrice est symétrique et semi définie positive La matrice A−1 est l’inverse de A si et seulement si : AA0 = A0 A = I si A est de plein rang, AA0 est définie positive, son determinant est strictement positif A0 A est inversible et son inverse (A0 A)−1 est également défini positif. Cours donné par Jean-Yves Gnabo 148/148