1 2 Il n'y a pas à discuter sur le besoin de connaître le langage des chiffres. Lord Kelvin l'explique clairement : « Quand vous êtes capable de mesurer les choses dont vous parlez et de les exprimer en nombres, vous en avez une assez bonne idée ; mais quand vous ne pouvez pas les mesurer ou les exprimer en nombres, vous n'en avez qu'une idée vague et peu satisfaisante ». La statistique est une branche des mathématiques décisionnelles chargée de l’observation, de la collecte, de l'analyse et de l'interprétation des données quantitatives. Son rôle est d'extraire des informations sur les données afin d'acquérir les connaissances nécessaires pour la prise de décision 3 Les données massives dites Big Data sont l'ensemble des données numériques produites par l'utilisation des nouvelles technologies à des fins personnelles ou professionnelles. Elles sont issues de données de : • Gestion d’opérateurs privés (courriels, bases de données, documents, historiques de processeurs métiers, paiements électroniques, données de téléphonie mobile, facturations de la grande distribution, …) ; • De contenus internet et des échanges sur les réseaux sociaux ; • Des contenus publiés sur le web (images, vidéos, sons, textes, …) ; • Des données transmises par les objets connectés (étiquettes électroniques, compteurs intelligents, smartphones, ...) ; • Des données de géolocalisation ; • Etc. Ces données sont utilisées par les entreprises pour rester informé sur les dernières tendances en matière de vente ou des habitudes commerciales des 4 consommateurs. Elles constituent aussi une opportunité pour les statisticiens et les chercheurs pour : • Améliorer et enrichir les informations sur la production ; • Construire de nouveaux indicateurs ; • Élargir les possibilités de recherche en industrie, sciences économiques et sociales ; • Informer et éclairer la politique économique et sociale. L’utilisation de ces nouvelles données représente un enjeu technique et statistique. Elle stimule le développement et le perfectionnement des méthodes de traitement des données et d’analyse statistiques tel l’apprentissage automatique (machine Learning), l’analyse textuelle, l’analyse des réseaux, qui peuvent être intégrées à la modélisation économétrique. Ces données massives suscitent aussi des réflexions sur la façon dont elles pourraient influencer les représentations et analyses de la société et les interactions sociales, et sur leurs conséquences en termes d’éthique, de qualité et de confidentialité. Pour recueillir les données, les organiser, les traiter et en tirer des conclusions générales, elles font appel à différentes méthodes statistiques qui regroupent 5 un ensemble de techniques spécialisées dans l’analyse de données numériques. Donc, la statistique est l’ensemble des méthodes scientifique utilisées dans différents domaines, en particulier l’entreprise, pour la communication, le diagnostic et la prise de décision. Elle est désormais indispensable à celui qui veut éclairer une décision, porter un jugement, analyser une situation, contrôler la qualité d’un produit, prévoir ou au moins esquisser (ou dessiner) le futur. Il s’agit de présenter, décrire et résumer le jeu de données à l’aide de graphiques et de mesures (moyenne, variance, écart-type, etc.), pour : • La collecte de données de manière exhaustive ou par sondage ; • Le traitement et l’organisation des données en utilisant des tableaux ou des graphiques pour faciliter l’exploitation ; • Interprétation des résultats obtenus. En statistique descriptive, chaque graphique (ou chaque mesure) est calculé(e) sur 1 ou 2 variables à la fois, pas plus. 6 L’analyse de données consiste à synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables). Elle a plusieurs objectifs : • Mieux comprendre une situation ou un phénomène ; • Identifier les déterminants ou facteurs explicatifs de certains comportements ; • Définir des politiques et des actions plus efficaces en fonction des buts poursuivis. Par ailleurs, au-delà de la simple analyse de données, il faut aussi être capable de présenter de façon percutante et pédagogue les résultats obtenus et les propositions qui en découlent (data visualisation). L’analyse de données est le prolongement des statistiques descriptives, sauf que là, on étudie plutôt les relations entre 3 variables ou plus. Représenter des graphiques avec 3, 4, 5 ou 100 dimensions n’est plus possible sur du papier à 2 dimensions. Il faut donc utiliser des techniques spéciales pour continuer à décrire et explorer les données. 7 Ici, il s’agit d’analyser les données d’un sousensemble (ou un échantillon) d’une population pour en déduire les caractéristiques globales de cette population. Lorsqu’on parle d'estimateurs ou de tests statistiques, il s'agira de statistiques inductives. Il s’agit d’observer les caractéristiques d’un échantillon, puis de formaliser ces observations par des règles mathématiques. Cette formalisation s’appelle un modèle probabiliste. Une fois que l'on a décrit un phénomène par un modèle, on peut faire de la prédiction ou de la prévision. La méthode statistique comporte essentiellement trois phases : • Une phase matérielle où il s’agit de rassembler des données, de les regrouper et de les présenter sous forme de tableaux ou graphes ; • Une phase analytique qui consiste à réduire les données à un nombre limité de paramètres 8 caractéristiques (moyenne, écart type, moments d’ordre 1, 2, 3, …) susceptibles de décrire la distribution statistique. L’ensemble de ces deux phases constitue l’objet essentiel de la statistique dont les résultats restent limités aux échantillons étudiés ; • Une phase interprétative, qui est à la base de la statistique et qui permet de déduire des résultats obtenus sur un échantillon des conclusions relatives à l’ensemble de la population d’où est extrait cet échantillon. Ce cours a pour objectif de traiter certaines méthodes quantitatives et outils statistiques pour effectuer l’analyse des résultats de l’expérimentation et de rendre directement utilisables les concepts et les techniques d’analyse abordées. Il s’agit de : 1. Construire les estimations habituels (moyenne, proportion, variance, …) ; 2. Etablir le lien entre le monde réel, celui des observations, et le monde théorique des probabilités ; 9 3. Evaluer ou prévoir ou valider ou interpréter les paramètres de différentes caractéristiques de la population ; 4. Apprendre à survoler un domaine pour ensuite aider les spécialistes de la discipline à éclairer les données par des conclusions pertinentes ; 5. Répondre à des problèmes décisionnels dans un environnement incertain (œil du décideur) ; 6. Manipuler les individus grâce à leurs données personnelles pour affiner le ciblage et mieux connaître leurs intérêts ; 7. Etc. 10