Majeure Data Science 2022-2023 (Analyse de) Séries Temporelles ( « comment prévoir le futur en apprenant du passé ? ») Contenu 1. Introduction 2. Approche probabiliste sur un exemple – série de chômage 3. Analyse exploratoire 4. Processus stationnaires 5. Modèles ARMA et extensions 6. Prévision des modèles ARMA 7. Analyse globale de séries temporelles 1 Séries Temporelles 2022-2023, Xavier Bay Objectifs du cours : Apporter les compétences de base minimales pour aborder l’étude ou analyse de séries chronologiques ainsi qu’un minimum de savoir faire… Faire comprendre les concepts fondamentaux de cette analyse, en particulier les concepts de stationnarité et d’auto-corrélation… Présenter le cadre probabiliste classique des modèles ARMA et leurs extensions (briques de base : AR, MA, ARMA, ARIMA, SARIMA) 2 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Série temporelle = x1, …, xj, …, xn série de données (variable réelle) où le numéro d’observation j {1, 2, …, n} joue le rôle du « temps » t Chronologie dans le recueil des données : série temporelle = série chronologique La nature de cette série est « complexe » : pas de relation ou mécanisme simple (déterministe) qui lie les observations dans le temps variabilité plus ou moins importante présence de composantes en apparence « imprévisibles »… On donne maintenant des exemples : 3 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Exemple 1 (source : package R « datasets ») 4 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Exemple 2 (source : package R « datasets ») 5 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Exemple 3 = exemple 1 page 5 du support (Olivier Roustant, nov. 2008) (source : package R « datasets », série AirPassengers) 6 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Exemple 4 = exemple 2 du support page 15 7 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Exemple 5 (Source : pkg caschrono de R) 8 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Exemple 6 (Source : pkg caschrono) 9 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Exemple 7 (Source : pkg caschrono) 10 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] Objectif central de l’analyse statistique d’une série chronologique = faire de l’inférence, par exemple prévoir la suite de la séquence (objectif propre à toute la Statistique) Nécessite donc un modèle probabiliste pour représenter les données. Dans le cas d’un modèle paramétrique, il faudra estimer les paramètres et vérifier la validité du modèle (« goodness of fit »). 11 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] On pourra en retour utiliser le modèle estimé pour apporter une réponse à différentes problématiques : Décrire/analyser les données : tendance et/ou saisonnalité et fluctuations autour de cette composante Filtrage et prévision (objectif central dans ce cours) Tests d’hypothèses (par ex., dérive dans un « process » de fabrication, hausse ou non du chômage sur le dernier trimestre, réchauffement climatique dû à l’activité humaine, …) Simulations (gestion industrielle, gestion de flux dans l’entreprise, gestion de risque comme en finance ou assurance, …) 12 Séries Temporelles 2022-2023, Xavier Bay [1. INTRODUCTION] L’idée principale pour apporter une réponse aux problématiques précédentes est de se ramener à une série « stationnaire » avec deux approches classiques : On cherche à décrire la série par sa tendance et/ou saisonnalité, ce qui permet d’isoler une composante résiduelle (comme en régression) Approche de Box-Jenkins qui consiste à transformer la série initiale à l’aide notamment des opérateurs de différenciation d mais aussi de différenciation saisonnière s = s où B désigne l’opérateur retard : {xt}t {xt – 1}t On rend compte ensuite de la partie stationnaire par un modèle probabiliste adéquat… 13 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Exemple 2 du support de cours (page 14) : Chronogramme d’une série mensuelle Xt pour t variant de janvier 1961 à décembre 1985, soit n = 25×12 valeurs On considère la série différenciée : Yt = Xt – Xt – 1 ou Y = (I – B)X avec B opérateur retard 14 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] On considère que la série différenciée y(t) est stationnaire Se pose la question de savoir s’il s’agit d’un « bruit » (variables dé-corrélées), on réalise pour cela des diagrammes retardés (lag-plot) : 15 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] On observe clairement une dépendance linéaire pour le retard ou décalage h = 1 (h = lag), on parle d’autocorrélation d’ordre 1. 16 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Hypothèse : la série d’observations (yt)t est la réalisation (partielle) d’un processus aléatoire (Yt)t stationnaire au sens suivant : E(Yt) = constante Var(Yt) = 2 constante > 0 Cov(Yt, Yt+h) = hpour h = 1, 2, … On notera (h) = Cor(Yt, Yt+h) coefficient de corrélation linéaire d’ordre h entre les variables Yt et Yt+h : h (h) = 0 La fonction est appelée fonction d’auto-covariance (ACvF) et fonction d’autocorrélation (ACF) du processus Y. temps t = …, -2, -1, 0, 1, 2, … (pas d’origine des temps) 17 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Estimations « naturelles » (moyennes temporelles par opposition à des moyennes spatiales) n ^ = n yt t=1 2 ^ =n ^ (h) = n n (yt ^ )2 t=1 nh (yt+h ^ )(yt ^ ) t=1 ^ (h) n ^ (h) = (n 50 et h « petit » 5 ) ^ (0) 18 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Fonction d’autocorrélation estimée (ACF) en fonction du retard h (lag) à gauche Fonction d’autocorrélation partielle estimée à droite (cf. infra) (corrélogramme et corrélogramme partiel) 19 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Bilan provisoire (phase exploration de la série de chômage) 20 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Modélisation probabiliste : le corrélogramme suggère que le processus (Yt)t serait d’ACF théorique vérifiant Y(h) = Cor(Yt+h , Yt) = 0 pour h 2 et Y(1) – 0.5 Un tel processus existe-t-il ? Est-il unique ? 21 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Moyenne mobile d’ordre 1 (MA(1) - Moving Average) Soit Yt = t + t–1 où {t} est un bruit blanc centré de variance . Alors le processus Y est stationnaire et (réponse à la question de l’existence) YY 1+2 et Y(h) = 0 pour h 2. On observe que | Y2 . MA(1) de moyenne : Yt = + t + t–1 22 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Unicité (problème d’identification) Soit Y un processus stationnaire d’ACF nulle à partir du rang 2. Alors : | Y2 Il existe unique dans [-1, 1] tel que Y 1+2 Y est un MA(1), i.e. de la forme Yt = + t + t–1 où {t} est un bruit blanc centré. 23 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Bilan modélisation de la série de chômage (xt)t La série différenciée yt = xt – xt – 1 (nombre de chômeurs en plus ou en moins d’un mois sur l’autre) est la réalisation d’un processus stationnaire Yt = Xt – Xt – 1 de type MA(1) Yt = + t + t–1 avec bruit blanc (centré) de variance 2 le modèle pour la série initiale (xt)t est de la forme ARIMA(p, d, q) avec p = 0 (pas de partie autorégressive), d=1 (car la série est différenciée une fois) et q=1 pour l’ordre de la partie moyenne mobile : x ARIMA(0, 1, 1) ARIMA = Autoregressive Integrated Moving Average (moyenne mobile autorégressive intégrée) On laisse provisoirement de côté le problème de l’estimation des paramètres et 2 (ajustement du modèle ou model fitting) ainsi que celui de la validation du modèle à partir des données (qualité de l’ajustement ou goodness of fit) pour s’intéresser au problème théorique de la prévision avec un tel modèle. 24 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Prévision avec un modèle de type MA(1) : on suppose = 0 sans perte de généralité et Yt = t + t–1 avec || < 1. On dispose des observations Y1, Y2, …, Yn. On note = Y 1+2 Prédicteur linéaire optimal à un pas de temps basé sur la dernière observation ^ n+1, 1 = EL( Yn+1 | Yn ) = Yn Y Variance de l’erreur de prévision correspondante ^ n+1, 1 )2 = (1 )×Y2 vn, 1 = E( Yn+1 – Y 25 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Prédicteur linéaire optimal basé sur les deux dernières observations Yn et Yn – 1 ^ n+1, 2 = EL( Yn+1 | Yn, Yn – 1 ) = Y Y – Y 1 n 1 n – 1 ^ n+1, 2 )2 = (1 )×(1 Y(2)2)×Y2 vn, 2 = E( Yn+1 – Y en notant Y(2) = – = Cor(Yn+1 Yn, Yn – 1 Yn) 1 Y(2) est appelé coefficient d’autocorrélation partielle d’ordre 2 Bien que la variable Yn – 1 soit non corrélée avec Yn+1, elle améliore sa prévision car le coefficient de corrélation partielle est non nul ! 26 Séries Temporelles 2022-2023, Xavier Bay [2. APPROCHE PROBABILISTE SUR UN PREMIER EXEMPLE – SERIE DE CHOMAGE] Test rétro-actif de prévision ou backtesting 27 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Exemple 1 du support : chronogramme de la série de trafic aérien 28 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] 29 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Interprétation (du passage au log). Avec yt = log(xt), on obtient que xt x t 1 yt =yt – yt 1 (si petites variations) xt 1 30 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Modèle additif : xt = mt + st + ut (cf. support page 6) 31 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] 32 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] 33 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Série stationnaire ? 34 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Décomposition finale : xt = mt + st + ut 35 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Modèle multiplicatif : yt = log(xt) transformation logarithmique yt = mt + st + ut décomposition additive de y xt = Mt×St×Ut décomposition multiplicative de x Mt = exp(mt) tendance de la série x St = exp(st) indice saisonnier Ut = exp(ut) indice aléatoire où 36 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Décomposition multiplicative xt = Mt×St×Ut 37 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Seconde approche par différenciation (méthodologie de Box&Jenkins) 38 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] 39 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Exemple 2 du support. : chronogramme « Stationnarisation » de la série de trafic aérien (2 approches) 40 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Exemple 2 du support (pour rappel, série modélisée par un ARMA(0,1,1)) : Chronogramme de la série de chômage 41 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Variations d’un mois sur l’autre : série stationnaire Yt = (I – B)Xt = Xt – Xt – 1 42 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Fonction d’autocorrélation (ACF) en fonction du retard h (lag) à gauche Fonction d’autocorrélation partielle à droite (cf. infra) ACF nulle à partir de h = 2 MA(q=1) 43 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] Bilan stationnarisation de la série de chômage : on considère que la série différenciée y(t) est stationnaire 44 Séries Temporelles 2022-2023, Xavier Bay [3. ANALYSE EXPLORATOIRE] (1) = (1) 0.41 et 0.21 . 45 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] (Xt)t processus aléatoire du second ordre de moyenne constante est dit stationnaire (à l’ordre 2) si (h) = Cov(Xt+h, Xt) ne dépend pas de t pour tout h = 0, 1, 2, … ce qui permet de définir l’objet fondamental (sous ses deux formes classiques): (ACvF) Fonction d’auto-covariance : (h) = Cov(Xt+h, Xt) (ACF) Fonction d’auto-corrélation : (h) = (h) = Cor(Xt+h, Xt) (0) La propriété de stationnarité est difficile à tester directement (en général) à partir d’une seule série de données. Cette seule propriété ne suffit pas en pratique… 46 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] On définit maintenant une classe importante de processus stationnaires ayant de très bonnes propriétés et au cœur de l’analyse de séries chronologiques. Un processus stationnaire (à l’ordre 2) est de type ARMA(p, q) (p et q entiers) s’il vérifie une relation de la forme (B)Xt = (B)Zt et où avec {Zt} WN(0, 2) (z) = 1 – 1z – … – pzp (z) = 1 + 1z + … + qzq est un polynôme de degré p est un polynôme de degré q Notations : WN = « White Noise » = « bruit blanc » ; {Zt} noté parfois {t} 2= variance du bruit ( si ambiguïté, on la notera ou 2 Cas particuliers : p = 0, ARMA(0, q) = MA(q) q = 0, ARMA(p, 0) = AR(p) 47 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] On appelle processus linéaire tout processus {Xt} tel que + Xt = jZt j j = + avec |j < + j = + Propriétés. Soit Y stationnaire (centré) et Xt = + jYt j ( |j < +). j = j = Alors, X est stationnaire d’ACvF : X(h) = + jk Y(h + k j) j, k = En particulier, si Y = Z WN(0, 2), alors : X(h) = + jj+h j = Processus linéaire = sortie d’un filtre (linéaire) stationnaire où l’entrée est un bruit blanc 48 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Cas d’un MA(1) : Xt = Zt + Zt – 1 2 | (ei) | f() = ×(1 + + 2cos(2)) où f() = × 2 densité spectrale du processus X | (ei) | 2 2 2 avec = 1 49 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Cas d’un AR(1) : Xt = Xt – 1 + Zt 2 f() = 1 + 2 2cos(2) ARavec = 1 50 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Cas d’un ARMA(1,1) : Xt – Xt – 1 = Zt + Zt – 1 1 + 2 + 2cos(2) f() = × 1 + 2 2cos(2) 2 ARMA(1, 1) avec = 1 51 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Propriétés de l’ACF (AutoCorrelation Function / fonction d’autocorrélation) : (0) = 1 ; |(h)| 1 ; (h) = (- h) ( paire) (h) = cos( (h) ) où (h) = angle entre Xt et Xt+h (si X centré) h) = ×(h) = X2×(h) (ACvF = AutoCovariance Function) Moyenne variance X2 = et ACF du processus on dispose de toute la connaissance nécessaire pour calculer le prédicteur linéaire optimal à un pas de temps (mais aussi à plusieurs pas de temps) ^ Xn+1 = EL(Xn+1 | Xn, Xn-1, …, X1) = n,1 Xn + … + n,n Xt ^ ainsi que la variance de l’erreur de prévision : vn = E(Xn+1 – Xn+1 )2 52 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Réversibilité (dans le temps) : si X est un processus stationnaire de moyenne , de variance X2 et de structure de corrélation linéaire ou ACF (h), alors il en est de même du processus ~ X : t X – t En particulier (pour remonter dans le passé, d’où l’on vient ? ), on a : ^ X0 = EL(X0 | X1, X2, …, Xn) = n,1 X1 + … + n,n Xn ainsi que la même erreur de prévision ^ ^ E(X0 – X0 )2 = vn = E(Xn+1 – Xn+1 )2 53 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Illustration sur un AR(1) 54 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Pour aider à identifier un processus stationnaire, on définit encore la PACF (Partial AutoCorrelation Function / fonction d’autocorrélation partielle) (h) = Cor( Xt+h – EL(Xt+h | Xt+h1, …, Xt+1) , Xt – EL(Xt | Xt+1, …, Xt+h1) ) où l’on convient (1) = (1) ((0) non défini). Cas d’un AR(1) : Xt – Xt1 = Zt (1) = et (h) = 0 pour h 2 Cas d’un MA(1) : Xt = Zt + Zt1 (h) = (–1) h–1 h (2– 1) 2(h+1) – 1 (h 1) 55 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Illustration pour un AR(1) (voir aussi support page 23) AR(1) avec Xt+1 60° Xt+1 Xt+2 Xt Zt+2 Xt Xt+1 Quel est l’angle entre Xt et Xt+2 ? 56 Séries Temporelles 2022-2023, Xavier Bay [4. PROCESSUS STATIONNAIRES] Proposition : de la projection orthogonale, EL(Xt+h | Xt+h1, …, Xt+1, Xt) = h,1 Xt+h1 + … + h,h Xt on déduit simplement le coefficient d’autocorrélation partielle d’ordre h : (h) = h,h ^ Interprétation : soit Xn+1 = EL(Xn+1 | Xn, Xn-1, …, X1) le prédicteur optimal. Alors ^ Xn+1 – EL(Xn+1 | Xn, Xn1, …, X2) = n,n×(X1 – EL(X1 | X2, X3, …, Xn)) + Xn+1 – Xn+1 ^ et l’erreur de prévision vn = E(Xn+1 – Xn+1 )2 vérifie vn = (1 – n,n2 )×vn 1 ; v0 = (0) Le résultat fondamental : ^ vn = E(Xn+1 – Xn+1 )2 = X2×(1 – ×(1 – (2)2)×…×(1 – (n)2) où coefficient d’autocorrélation d’ordre 1et = PACF 57 Séries Temporelles 2022-2023, Xavier Bay [5. MODELES ARMA ET EXTENSIONS] On a défini un modèle ARMA(p, q) (p et q entiers) comme un processus stationnaire (à l’ordre 2) qui vérifie une relation du type (B)Xt = (B)Zt ; {Zt} WN(0, 2), et polynômes de degrés resp. p et q On suppose que les racines de sont toutes de module > 1 et pour de module 1 et enfin que ces polynômes n’ont pas de racine commune : X est dit causal et inversible. Un modèle ARMA(p, q) non centré sera de la forme X = + Y avec Y ARMA(p, q) X – ARMA(p, q) Pour ajuster un tel modèle, il faut commencer par estimer sa moyenne . 58 Séries Temporelles 2022-2023, Xavier Bay [5. MODELES ARMA ET EXTENSIONS] n ^ Estimateur usuel de la moyenne : = X = n Xt t=1 C’est un estimateur sans biais et : Var(X ) = n n1 (1 h )(h) . n h = (n1) De plus, n (X – ) est asymptotiquement de loi N(0 ; X2(1 + 2 (h) ) ) h1 On estime maintenant l’ACvF du processus X ainsi que l’ACF (coefficients d’auto-corrélation (h)). 59 Séries Temporelles 2022-2023, Xavier Bay [5. MODELES ARMA ET EXTENSIONS] Estimation ACvF et ACF par leurs analogues empiriques : n ^ = n xt t=1 ^ (h) = n nh ^ (h) n ^ ^ ^ (xt+h )(xt ) ; (h) = ^ (0) (n 50 et h « petit » 5 ) t=1 Estimation de la PACF : ^ (h) = ^h,h sachant que EL(Xt+h | Xt+h1, …, Xt) = h,1 Xt+h1 + … + h,h Xt Cas particulier h = 0 : ^ 2 ^ X = (0) = n n (Xt X )2 t=1 60 Séries Temporelles 2022-2023, Xavier Bay [5. MODELES ARMA ET EXTENSIONS] Considérations pratiques Examen de l’ACF empirique : on considère qu’une valeur à l’intérieur des bornes n’est n pas significative (hypothèse nulle = WN(0, 2)). C’est l’examen global qui est important et peut conduire à proposer un modèle de ^ (h) pour h > q sont type MA(q). Dans ce cas, les coefficients asymptotiquement i.i.d. N( 0, n [1 + 2(2 + … + q2) ] ). Une décroissance d’aspect « exponentiel » signale la présence d’une partie autorégressive… Examen de la PACF empirique : on considère encore qu’une valeur à l’intérieur des bornes n’est n pas significative. Dans le cas d’un modèle ^ AR(p), les coefficients (h) pour h > p sont à peu près i.i.d. N(0, n ). L’examen global de la PACF peut conduire cette fois à la considération d’un modèle de type AR(p)… 61 Séries Temporelles 2022-2023, Xavier Bay [5. MODELES ARMA ET EXTENSIONS] ARMA ? 62 Séries Temporelles 2022-2023, Xavier Bay [5. MODELES ARMA ET EXTENSIONS] ARMA ? 63 Séries Temporelles 2022-2023, Xavier Bay [5. MODELES ARMA ET EXTENSIONS] ARMA ? 64 Séries Temporelles 2022-2023, Xavier Bay [5. MODELES ARMA ET EXTENSIONS] Extensions des modèles ARMA : X ARIMA(p, d, q) si Y = (I – B)d Xt ARMA(p, q) X ARIMA(p, d, q) de moyenne si X – ARIMA(p, d, q) Modèle SARIMA est un modèle ARIMA saisonnier (voir support page 28) Exemple 1 du support : série de trafic aérien Yt = (I – B12)(I – B)Xt série différenciée et désaisonnalisée considérée stationnaire Examen ACF et PACF suggère un modèle ARMA saisonnier pour Yt : Yt = (I + B12)(I + 1B)Zt avec Zt WN(0, 2) Notation : SARIMA(p=0, d=1, q=1)(P=0, D=1, Q=1)s = 12 65 Séries Temporelles 2022-2023, Xavier Bay [6. PREVISION DES MODELES ARMA] Prévision optimal à un pas de temps : on dispose d’un historique x1, …, xn de taille n d’une série temporelle modélisée par un processus X ARMA(p, q) ^ Xn+1 = EL(Xn+1 | Xn, Xn1, …, X1) ^ xn+1 = EL(Xn+1 | Xn = xn, Xn1 = xn1, …, X1= x1) prédicteur (v.a.) prévision (ponctuelle) ^ Erreur de prévision à un pas de temps : vn = E(Xn+1 – Xn+1 )2 ^ Le calcul de Xn+1 peut se faire simplement par résolution d’un système linéaire mais on préfère des algorithmes de mise à jour beaucoup plus efficaces. ^ Pour un AR(1), c’est très simple puisque Xn+1 = 1Xn et vn = 2 (variance de Zn+1). 66 Séries Temporelles 2022-2023, Xavier Bay [6. PREVISION DES MODELES ARMA] Prévision à plusieurs pas de temps : on note h l’horizon de prévision ^ Xn, h = EL(Xn+h | Xn, Xn1, …, X1) ^ v(n, h) = E(Xn+h – Xn, h )2 prédicteur optimal erreur de prévision Attention au support (chapitre 5) qui considère la situation « asymptotique » (valable si l’historique est de taille suffisamment grande) ^ X(n, h) = EL(Xn+h | Xn, Xn1, …, X1, X0, X1, …) ^ e(n, h) = E( Xn+h – X(n, h) )2 Cas d’un AR(p) « pur » : e(n, h) = 2(1 + h1 X2 lorsque h + Cas d’un MA(q) « pur » : e(n, h) = 2(1 + q X2 si h q+1 (cf. exercices 1 et 2 du support, chapitre 5, page 40) 67 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES] Attention : on dispose ici de données uniquement pour la série temporelle d’intérêt (série univariée). Un chronogramme (simple tracé de la série de valeurs xt en fonction du « temps » t) permet de visualiser la série, de détecter tendance et saisonnalité éventuelles. On cherche ensuite à se ramener à une série stationnaire (transformations, estimation des composantes déterministes, différenciation simple ou saisonnière). On trace les ACF et PACF empiriques de la série « stationnarisée » pour voir si un modèle de type ARMA peut être raisonnablement envisagé. La méthodologie de Box et Jenkins s’inscrit dans cette démarche (support, chapitre 4, page 29)! 68 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES En pratique, il est souvent difficile d’identifier directement un « bon » modèle ARMA à partir des seules ACF et PACF empiriques, ce qui pose le problème du choix des ordres p et q. On utilise alors un critère, par exemple : AIC pour Aikaike’s Information Criterion SBC Schwartz Bayesian Criterion L’idée générale est comme en régression de pénaliser la (fonction de) vraisemblance des données en fonction du nombre de paramètres (p+q+1) du modèle sachant que l’on préfère toujours un modèle avec le moins de paramètres possibles… Les propriétés de l’estimateur du maximum de vraisemblance sont données support de cours pages 32 et 33. L’analyse se fait exactement comme en régression. 69 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES Phase de validation : il s’agit d’analyser les résidus « estimés » du modèle (le processus de bruit {Zt}). Vérifications graphiques : ACF et PACF des résidus mais aussi du carré des résidus pour tester une éventuelle dépendance synonyme de modèle non gaussien. On peut aussi tracer la droite de Henry pour tester la normalité des résidus (qqplot). Test statistique de Ljung-Box : la statistique est la suivante (support page 35) h QZ = n(n+2) ^Z2(j) nj j=1 Sous l’hypothèse H0 d’un modèle ARMA(p, q), QZ est approximativement de loi 2(h – (p+q))… 70 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES Un exemple : série de trafic aérien internationale (airline, ex.1 du support) 71 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES Méthodologie de Box&Jenkins : transformation « logarithme » 72 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES 73 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES 74 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES Fin étape de stationnarisation : on considère que la série Yt = (I – B12)(I – B)log(Xt) est stationnaire (hypothèse de travail). On examine maintenant l’ACF et PACF empiriques de Y avec l’idée d’en rendre compte par un processus ARMA saisonnier. 75 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES 76 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES Si l’on ignore le coefficient d’autocorrélation d’ordre h = 12 correspondant à la saisonnalité, on est amené à proposer un modèle de type MA(q=1) Yt = (I + 1B)Wt de manière à capter la dépendance sur les premiers mois. Comme la série présente une forte saisonnalité, il est logique de s’attendre à ce que le « résidu » {Wt} ait une structure de corrélation saisonnière. A l’aide de la fonction arima(), on cale ce premier modèle de la forme MA(1) puis on trace l’ACF des « résidus » obtenus : modele <- arima(logair, order = c(0,1,1), seasonal = list(order=c(0,1,0), period = 12)) residus <- modele$residuals acf(as.vector(residus),lag.max=30,ylim=c(-1,1),main="ACF des résidus") 77 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES 78 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES On observe bien la dépendance saisonnière, soit la « non blancheur » du processus {Wt}. Il est naturel d’essayer d’en tenir compte en considérant que l’unité de temps est la période s = 12, ce qui conduit à considérer le modèle Wt = (I + 12B12)Zt avec Z bruit blanc En revenant au processus Yt = (I + 1B)Wt, on obtient le modèle Yt = (I + 1B)(I + 12B12)Zt avec {Zt} ~ WN(0,2) Il s’agit d’un modèle de type SARMA(p=0, q=1)(P=0, Q=1)s = 12 En revenant à la série initiale {Xt} (I – B12)(I – B)log(Xt) = (I + 1B)(I + 12B12)Zt En abrégé : log(Xt) ~ SARIMA(p,d,q)(P,D,Q)s = SARIMA(0,1,1)(0,1,1)s = 12 79 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES Ajustement du modèle avec la fonction R « arima » : > modele <- arima(logair, order = c(0,1,1), seasonal = list(order=c(0,1,1), period = 12)) > print(modele) Call: arima(x = logair, order = c(0, 1, 1), seasonal = list(order = c(0, 1, 1), period = 12)) Coefficients: ma1 sma1 -0.4018 -0.5569 s.e. 0.0896 0.0731 sigma^2 estimated as 0.001348: log likelihood = 244.7, aic = -483.4 On valide ensuite avec la fonction « tsdiag » pour time series diagnostics. 80 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES 81 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES Back-testing du modèle SARIMA (on enlève les 12 dernières valeurs que l’on cherche à prédire et on compare aux valeurs réelles) 82 Séries Temporelles 2022-2023, Xavier Bay [7. ANALYSE GLOBALE DE SERIES TEMPORELLES Prévision et valeurs réelles de janvier 60 à décembre 60 83 Séries Temporelles 2022-2023, Xavier Bay