Uploaded by aboudsidi48

CHAPITRE-1

advertisement
1
2
Il n'y a pas à discuter sur le besoin de
connaître le langage des chiffres. Lord
Kelvin l'explique clairement :
« Quand vous êtes capable de mesurer les
choses dont vous parlez et de les exprimer en
nombres, vous en avez une assez bonne idée ;
mais quand vous ne pouvez pas les mesurer
ou les exprimer en nombres, vous n'en avez
qu'une idée vague et peu satisfaisante ».
La statistique est une branche des
mathématiques décisionnelles chargée de
l’observation, de la collecte, de l'analyse et de
l'interprétation des données quantitatives. Son
rôle est d'extraire des informations sur les
données afin d'acquérir les connaissances
nécessaires pour la prise de décision
3
Les données massives dites Big Data sont l'ensemble
des données numériques produites par l'utilisation
des nouvelles technologies à des fins personnelles ou
professionnelles. Elles sont issues de données de :
• Gestion d’opérateurs privés (courriels, bases de
données, documents, historiques de processeurs
métiers, paiements électroniques, données de
téléphonie mobile, facturations de la grande
distribution, …) ;
• De contenus internet et des échanges sur les
réseaux sociaux ;
• Des contenus publiés sur le web (images, vidéos,
sons, textes, …) ;
• Des données transmises par les objets connectés
(étiquettes électroniques, compteurs intelligents,
smartphones, ...) ;
• Des données de géolocalisation ;
• Etc.
Ces données sont utilisées par les entreprises pour
rester informé sur les dernières tendances en
matière de vente ou des habitudes commerciales des
4
consommateurs. Elles constituent aussi une
opportunité pour les statisticiens et les chercheurs
pour :
• Améliorer et enrichir les informations sur la
production ;
• Construire de nouveaux indicateurs ;
• Élargir les possibilités de recherche en industrie,
sciences économiques et sociales ;
• Informer et éclairer la politique économique et
sociale.
L’utilisation de ces nouvelles données représente un
enjeu technique et statistique. Elle stimule le
développement et le perfectionnement des méthodes
de traitement des données et d’analyse statistiques
tel
l’apprentissage
automatique
(machine
Learning), l’analyse textuelle, l’analyse des réseaux,
qui peuvent être intégrées à la modélisation
économétrique. Ces données massives suscitent
aussi des réflexions sur la façon dont elles
pourraient influencer les représentations et
analyses de la société et les interactions sociales, et
sur leurs conséquences en termes d’éthique, de
qualité et de confidentialité.
Pour recueillir les données, les organiser, les traiter
et en tirer des conclusions générales, elles font appel
à différentes méthodes statistiques qui regroupent
5
un ensemble de techniques spécialisées dans
l’analyse de données numériques.
Donc, la statistique est l’ensemble des méthodes
scientifique utilisées dans différents domaines, en
particulier l’entreprise, pour la communication, le
diagnostic et la prise de décision. Elle est désormais
indispensable à celui qui veut éclairer une décision,
porter un jugement, analyser une situation,
contrôler la qualité d’un produit, prévoir ou au
moins esquisser (ou dessiner) le futur.
Il s’agit de présenter, décrire et résumer le jeu de
données à l’aide de graphiques et de mesures
(moyenne, variance, écart-type, etc.), pour :
• La collecte de données de manière exhaustive ou
par sondage ;
• Le traitement et l’organisation des données en
utilisant des tableaux ou des graphiques pour
faciliter l’exploitation ;
• Interprétation des résultats obtenus.
En statistique descriptive, chaque graphique (ou
chaque mesure) est calculé(e) sur 1 ou 2 variables à
la fois, pas plus.
6
L’analyse de données consiste à synthétiser,
structurer l'information contenue dans des données
multidimensionnelles (n individus, p variables).
Elle a plusieurs objectifs :
• Mieux comprendre une situation ou un
phénomène ;
• Identifier les déterminants ou facteurs explicatifs
de certains comportements ;
• Définir des politiques et des actions plus efficaces
en fonction des buts poursuivis.
Par ailleurs, au-delà de la simple analyse de
données, il faut aussi être capable de présenter de
façon percutante et pédagogue les résultats obtenus
et les propositions qui en découlent (data
visualisation).
L’analyse de données est le prolongement des
statistiques descriptives, sauf que là, on étudie
plutôt les relations entre 3 variables ou plus.
Représenter des graphiques avec 3, 4, 5 ou 100
dimensions n’est plus possible sur du papier à 2
dimensions. Il faut donc utiliser des techniques
spéciales pour continuer à décrire et explorer les
données.
7
Ici, il s’agit d’analyser les données d’un sousensemble (ou un échantillon) d’une population pour
en déduire les caractéristiques globales de cette
population. Lorsqu’on parle d'estimateurs ou de
tests statistiques, il s'agira de statistiques
inductives.
Il s’agit d’observer les caractéristiques d’un
échantillon, puis de formaliser ces observations par
des règles mathématiques. Cette formalisation
s’appelle un modèle probabiliste. Une fois que l'on
a décrit un phénomène par un modèle, on peut faire
de la prédiction ou de la prévision.
La méthode statistique comporte essentiellement
trois phases :
• Une phase matérielle où il s’agit de rassembler
des données, de les regrouper et de les présenter
sous forme de tableaux ou graphes ;
• Une phase analytique qui consiste à réduire les
données à un nombre limité de paramètres
8
caractéristiques (moyenne, écart type, moments
d’ordre 1, 2, 3, …) susceptibles de décrire la
distribution statistique. L’ensemble de ces deux
phases constitue l’objet essentiel de la statistique
dont les résultats restent limités aux échantillons
étudiés ;
• Une phase interprétative, qui est à la base de la
statistique et qui permet de déduire des résultats
obtenus sur un échantillon des conclusions
relatives à l’ensemble de la population d’où est
extrait cet échantillon.
Ce cours a pour objectif de traiter certaines
méthodes quantitatives et outils statistiques pour
effectuer
l’analyse
des
résultats
de
l’expérimentation et de rendre directement
utilisables les concepts et les techniques d’analyse
abordées. Il s’agit de :
1. Construire les estimations habituels (moyenne,
proportion, variance, …) ;
2. Etablir le lien entre le monde réel, celui des
observations, et le monde théorique des
probabilités ;
9
3. Evaluer ou prévoir ou valider ou interpréter les
paramètres de différentes caractéristiques de la
population ;
4. Apprendre à survoler un domaine pour ensuite
aider les spécialistes de la discipline à éclairer les
données par des conclusions pertinentes ;
5. Répondre à des problèmes décisionnels dans un
environnement incertain (œil du décideur) ;
6. Manipuler les individus grâce à leurs données
personnelles pour affiner le ciblage et mieux
connaître leurs intérêts ;
7. Etc.
10
Download