Uploaded by geekyassin97

Synthèse Data Viz

advertisement
Introduction
la visualisation est essentielle à l'analyse des données. Il fournit une ligne de front d'attaque, révélant
une structure complexe dans les données qui ne peuvent pas être absorbées d'une autre manière. Nous
découvrons des effets inimaginables et nous défions ceux imaginés.
Les données en elles-mêmes, constituées de bits et d'octets stockés dans un fichier sur le disque dur
d'un ordinateur, sont invisibles. Afin de pouvoir voir et donner un sens aux données, nous devons les
visualiser.
Data Viz?
La visualisation des données fait référence aux techniques utilisées pour communiquer des informations
à partir des données via une représentation visuelle. Son objectif principal est de diviser de grands
datasets en graphes visuels pour permettre une compréhension facile des relations complexes au sein
des données. Il est souvent utilisé de manière interchangeable avec des termes tels que information
graphics, statistical graphics, et information visualization.
C'est l'une des étapes du processus de science des données développé par Joe Blitzstein, qui est un
framework qui nous donne pour une approche des tâches de science des données. Une fois les données
collectées, traitées et modélisées, les relations entre les données doivent être visualisées pour qu'une
conclusion puisse être tirée.
Utilisation de la visualisation pour découvrir des informations
Tout d'abord, nous devons savoir que les outils de visualisation de données ne peuvent pas simplement
nous donner des insights et des informations prêtes sur les nos datasets, ce n'est pas comment ça se
fasse. Il n'y a pas de règles, pas de «protocole» qui nous garantissent une décision ou bien une insight.
Chaque nouvelle visualisation est susceptible de nous donner un aperçu de nos données. Certaines de
ces idées peuvent être déjà connues (mais peut-être pas encore prouvées) tandis que d'autres peuvent
être complètement nouvelles ou même surprenantes pour nous. Certaines nouvelles perspectives
pourraient signifier une nouvelle information, tandis que d'autres pourraient simplement être le résultat
d'erreurs dans les données, qui sont plus susceptibles d'être trouvées en visualisant les données.
Afin de rendre plus efficace la recherche d'informations sur les donnée on doit suivi le processus suivant.
Pourquoi c'est important?
Selon le Forum économique mondial, le monde produit chaque jour 2,5 quintillions d'octets de
données, et 90% de toutes les données ont été créées au cours des deux dernières années. Avec
ces quantités de données, il devient de plus en plus difficile à gérer et à comprendre tout cela. Il
serait impossible pour une seule personne de parcourir les données ligne par ligne et de voir des
modèles distincts et de faire des observations. La prolifération des données peut être gérée dans le
cadre du processus de science des données, qui comprend la visualisation des données.
Insight amélioré
La visualisation des données peut fournir un aperçu que les statistiques descriptives traditionnelles
ne peuvent pas. Un exemple parfait de ceci est le Quatuor d'Anscombe ( Anscombe’s Quartet), créé
par Francis Anscombe en 1973. L'illustration comprend quatre jeux de données différents avec une
variance, une moyenne, une corrélation entre les coordonnées X et Y presque identiques, et des
lignes de régression linéaire. Cependant, les modèles sont clairement différents lorsqu'ils sont tracés
sur un graphique. Ci-dessous, vous pouvez voir qu'un modèle de régression linéaire s'appliquerait
aux graphiques un et trois, mais un modèle de régression polynomial serait idéal pour le graphique
deux. Cette illustration montre pourquoi il est important de visualiser les données et ne pas se
compter uniquement sur des statistiques descriptives.
Prise de décision plus rapide
Les entreprises qui peuvent recueillir et agir rapidement sur leurs données seront plus compétitives
sur le marché car elles peuvent prendre des décisions éclairées plus tôt que la concurrence. La
vitesse est essentielle et la visualisation des données aide à comprendre de grandes quantités de
données en appliquant des représentations visuelles aux données. Voila pourquoi la couche de
visualisation se trouve généralement au-dessus d'un entrepôt de données (data warehouse) ou d'un
lac de données (data lake) qui sont deux element indispensable du BI, data viz permet aux
utilisateurs de découvrir et d'explorer les données. Non seulement cela stimule la créativité, mais
cela réduit le besoin pour l'informatique d'allouer des ressources pour construire continuellement de
nouveaux modèles.
Par exemple, supposons qu'un analyste marketing qui travaille sur 20 plates-formes publicitaires et
systèmes internes différents doit comprendre rapidement l'efficacité des campagnes marketing. Une
manière manuelle de procéder consiste à accéder à chaque système, à générer un rapport, à
combiner les données, puis à analyser dans Excel. L'analyste devra alors examiner un essaim de
métriques et d'attributs et aura du mal à tirer des conclusions. Cependant, les plates-formes
modernes de Business Intelligence (BI) connectent automatiquement les sources de données et
superposent les visualisations de données afin que l'analyste puisse découper et découper les
données en toute simplicité et tirer rapidement des conclusions sur les performances marketing.
Identifier les relations et les modèles
Même de grandes quantités de données complexes commencent à avoir un sens lorsqu'elles sont
présentées graphiquement; les entreprises peuvent reconnaître des paramètres fortement corrélés.
Certaines corrélations seront évidentes, mais d’autres pas. L'identification de ces relations aide les
organisations à se concentrer sur les domaines les plus susceptibles d'influencer leurs objectifs les plus
importants.
Identifier les nouvelles tendances
L'utilisation de la visualisation des données pour découvrir les tendances - à la fois dans l'entreprise et
sur le marché - peut donner aux entreprises un avantage sur la concurrence et, en fin de compte,
affecter les résultats. Il est facile de repérer les valeurs aberrantes qui affectent la qualité des produits
ou le taux de désabonnement des clients, et de résoudre les problèmes avant qu'ils ne s'aggravent.
Communiquez l'histoire aux autres
Une fois qu'une entreprise a découvert de nouvelles informations grâce à l'analyse visuelle, l'étape
suivante consiste à communiquer ces informations à d'autres. L'utilisation des tableaux, des graphiques
ou d'autres représentations visuellement percutantes des données est importante à cette étape, car elle
est intéressante et fait passer le message rapidement.
Notion de base

Il existe 3 sous-champs principaux de Data Viz:
Visualisation scientifique : dont le rôle est de modéliser des phénomènes du monde réel
Visualisation de l'information: dont le rôle est de cartographier un concept plus abstrait en 2D ou 3D à
des fins de prise de décision et d'analyse
L'analytique visuelle : qui est la frontière de l'exploration de données(data mining) et de l'apprentissage
automatique (machine learning).

Il existe 3 types principaux de variables:
Qualitatif (nominal ou ordinal)
Quantitatif
Métadonnées qui sont des informations descriptives sur les données

Les attributs clés à implémenter ou non lors du développement d'un outil de visualisation sont:
l'évolutivité vers un grand nombre de données
l'interactivité pour offrir plusieurs vues à un utilisateur
Quand utiliser Data Viz?
Data Viz est soumise à plusieurs conditions:





Lorsqu'il existe une bonne structure sous-jacente permettant de déduire que les éléments proches
les uns des autres sont similaires
Lorsque les utilisateurs ne connaissent pas le contenu d'une collection
Lorsque les utilisateurs ont une compréhension limitée de l'organisation d'un système et préfèrent
une méthode d'exploration moins chargée cognitivement
Lorsque les utilisateurs ont du mal à verbaliser le besoin d'information sous-jacent
Quand l'information est plus facile à reconnaître qu'à décrire
Visualiser les données
Alors Comment associer des données à une * représentation *?
 Nous définissons d'abord un espace, généralement en utilisant l'axe
 Ensuite, nous définissons les marques que nous allons utiliser, qui sont les choses qui se
produisent dans l'espace (points, étoiles, points…)
 Ensuite les propriétés graphiques des marques (taille, position, orientation, couleur, texture…)
Notre objectif devrait être d'augmenter l'utilisation de l'espace, d’encoder les données et de rendre le
graphique efficace. Il n'y a globalement que 5 catégories principales de graphiques dont nous allons
parler dans la section suivante.
Tableaux de données, comme les feuilles Excel par exemple

Graphiques sur rails ou plans (visuellement, on peut voir un tracé 1D comme un seul rail, un
tracé 2D comme une combinaison de rails, un camembert comme un seul rail plié…)

Cartes géospatiales, qui est la cartographie de la latitude et de la longitude sur un plan 2D, dans
laquelle nous pouvons ajouter quelques informations (entités sur une carte, taille des
composants…)

Diagrammes de réseau, dont le rôle est d'afficher la relation entre les éléments. Dans de tels
diagrammes

Symboles et images conceptuelles, qui peuvent être n'importe quel logo dont le but est de
présenter une information (par exemple le logo PEGI 12 sur un jeu vidéo)
Marques et canaux
Ce sont les blocs de construction d'un espace de conception d'encodages visuels:
 Les marques sont des éléments géométriques de base qui représentent des éléments ou des
liens (point, ligne, zone)

les canaux contrôlent leur apparence, indépendamment de la dimensionnalité vont la primitive
géométrique. (position, couleur, forme, inclinaison (angle), taille)
Une marque de zone a ses deux dimensions de sa taille contraintes intrinsèquement dans le cadre de sa
forme, de sorte que les marques de zone ne sont pas codées par taille ou par forme. (par exemple la
forme d'un pays). Bar Plots peuvent être élargis pour coder une dimension supplémentaire. Les
marques de points peuvent être codées par taille et par forme.
a) Quelle canal choisir?
 Les canaux qui affichent des informations de magnitude conviennent aux données ordonnées.
(combien est-ce? combien de temps? combien plus large? ...)
 Les canaux qui affichent des informations d'identité sont bons avec des données catégoriques.
(Qu'est-ce que c'est? Où est-il? Est-ce une ligne? ...)

b) Habituellement, une marque représente un élément. (Dans un jeu de données de table par
exemple). Dans un jeu de données réseau, une marque peut représenter un élément (nœud) ou un
lien entre des éléments. Il existe 2 types de marques de lien:


La marque de connexion (connection mark) qui montre une relation par paire entre 2 éléments
à l'aide d'une ligne
Les marques de confinement (Containment marks) montrent des relations hiérarchiques
utilisant des zones, imbriquées les unes aux autres à plusieurs niveaux
Important :
Le système visuel humain ne traite pas 2 canaux différents de la même manière. Nous décidons quel
canal utiliser selon 2 principes:
1- Expressivité : l'encodage visuel ne doit exprimer que les informations contenues dans les
attributs de l'ensemble de données. Les données triées doivent être affichées telles que dones
triées, et vice versa.
2- Efficacité : les attributs les plus importants doivent être encodés avec les canaux les plus
efficaces pour être les plus visibles.
Quel canal est efficace en matière d'encodage visuel?
Pourquoi certaines chaînes sont-elles meilleures que d'autres? Il existe plusieurs façons de mesurer
l'efficacité:
Précision: dans quelle mesure le jugement perceptif humain est-il proche d'une mesure objective du
stimulus? La psychophysique étudie la mesure de la perception humaine générale. Nos réponses à
l'expérience sensorielle de la grandeur sont caractérisables par les lois de puissance, où l'exposant
dépend de la modalité sensorielle exacte
Discriminabilité: si vous encodez des données en utilisant un canal visuel particulier, les différences
entre les éléments sont-elles perceptibles pour l'homme comme prévu?
Séparabilité : Vous ne pouvez pas traiter tous les canaux visuels comme complètement indépendants
les uns des autres, car certains ont des dépendances et des interactions avec d'autres
Popout : Dans quelle mesure un élément distinct se démarque immédiatement de nombreux autres.
Notre système visuel de bas niveau effectue un traitement massivement parallèle sur ces canaux visuels,
sans que le téléspectateur ait à porter consciemment directement attention aux éléments un par un.
Cependant, lorsque le pop-out ne se produit pas, il nécessite une recherche en série, dont le temps
dépend du nombre de marques dans le graphique.
Groupement : découle de l'utilisation de marques de lien ou de canaux d'identité pour coder des
attributs catégoriels. Le confinement est le meilleur signal de regroupement, la connexion venant en
deuxième position et la proximité en troisième.
Le système de perception humain est fondamentalement basé sur des jugements relatifs et non absolus;
ce principe est connu sous le nom de loi de Weber. Par exemple, la quantité de différence de longueur
que nous pouvons détecter est un pourcentage de la longueur de l'objet. Lorsque nous examinons des
questions telles que l'exactitude et la discernabilité de nos perceptions, nous devons distinguer entre les
jugements relatifs et absolus. Par exemple, lorsque deux objets sont directement côte à côte et alignés,
nous pouvons faire des jugements beaucoup plus précis que lorsqu'ils ne sont pas alignés et lorsqu'ils
sont séparés par de nombreux autres objets entre eux.
Types courants de visualisations de données
1) Time-series

Line charts :
Ce sont l'une des visualisations les plus élémentaires et les plus couramment utilisées. Ils montrent un
changement dans une ou plusieurs variables au fil du temps.
Quand l'utiliser: Vous devez montrer comment une variable change au fil du temps.

Area charts
Une variation des graphiques en courbes, les graphiques en aires affichent plusieurs valeurs dans
une série chronologique.
Quand l'utiliser: Vous devez afficher les changements cumulatifs dans plusieurs variables au fil du
temps.
2) Ranking

Bar charts
Ces graphiques sont comme des graphiques linéaires, mais ils utilisent des barres pour représenter
chaque point de données.
Quand l'utiliser: Les graphiques à barres sont mieux utilisés lorsque vous devez comparer plusieurs
variables dans une même période ou une seule variable dans une série chronologique.

Population pyramids
Les pyramides des âges sont des graphiques à barres empilées qui décrivent le récit social complexe
d'une population.
Quand l'utiliser: Vous devez montrer la distribution d'une population.
3) Part to Whole
Pie charts
Celles-ci montrent les parties d'un tout sous la forme d'une tarte.
Quand l'utiliser: vous voulez voir des parties d'un tout en pourcentage. Cependant, de nombreux
experts recommandent d'utiliser d'autres formats à la place, car il est plus difficile pour l'œil
humain de comprendre les données dans ce format en raison de l'augmentation du temps de
traitement. Beaucoup soutiennent qu'un graphique à barres ou un graphique linéaire a plus de
sens.

Tree maps
Les cartes d'arbre sont un moyen d'afficher des données hiérarchiques dans un format imbriqué. La
taille des rectangles est proportionnelle au pourcentage de chaque catégorie sur l'ensemble.
Quand l'utiliser: ils sont plus utiles lorsque vous souhaitez comparer des parties d'un ensemble et avoir
de nombreuses catégories.
4) Deviation
Bar chart (actual vs. expected)
Ceux-ci comparent une valeur attendue à la valeur réelle d'une variable donnée.
Quand l'utiliser: Vous devez comparer les valeurs attendues et réelles pour une seule variable.
L'exemple ci-dessus montre le nombre d'articles vendus par catégorie par rapport au nombre
attendu. Vous pouvez facilement voir les chandails sous-performés par rapport à toutes les autres
catégories, mais les robes et les shorts ont surperformé.
5) Correlation
Scatter plots
Les diagrammes de dispersion montrent la corrélation entre deux variables sous la forme d'un axe X et Y
et des points qui représentent des points de données.
Quand l'utiliser: Vous voulez voir la corrélation entre deux variables.
6) Frequency Distribution
Histograms
Les histogrammes indiquent le nombre de fois qu'un événement se produit dans un ensemble de
données donné et se présente sous forme de graphique à barres.
Quand l'utiliser: Vous voulez trouver la distribution de fréquence d'un ensemble de données donné. Par
exemple, vous souhaitez voir la probabilité relative de vendre 300 articles en une journée compte tenu
des performances historiques.
Box plots
Ce sont des visualisations non paramétriques qui affichent une mesure de dispersion. La case
représente le deuxième et le troisième quartile (50%) des points de données et la ligne à l'intérieur
de la case représente la médiane. Les deux lignes s'étendant à l'extérieur de la boîte sont appelées
moustaches et représentent le premier et le quatrième quartile, ainsi que la valeur minimale et
maximale.
Quand l'utiliser: Vous voulez voir la distribution d'un ou plusieurs jeux de données. Ceux-ci sont
utilisés à la place d'histogrammes lorsque l'espace doit être minimisé.
7) Nominal Comparison
Bubble charts
Les graphiques à bulles sont comme des nuages de points mais ajoutent plus de fonctionnalités car
la taille et / ou la couleur de chaque bulle représente des données supplémentaires.
Quand l'utiliser: lorsque vous avez trois variables à comparer.
Heat maps
Une carte thermique est une représentation graphique des données dans laquelle chaque valeur
individuelle est contenue dans une matrice. Les nuances représentent une quantité définie par la
légende.
Quand l'utiliser: ils sont utiles lorsque vous souhaitez analyser une variable sur une matrice de
données, comme une période de jours et d'heures. Les différentes nuances vous permettent de
discerner rapidement les extrêmes. L'exemple ci-dessus montre les utilisateurs d'un site Web par
heure et heure de la journée au cours d'une semaine.
8) Geographical Comparison
Chloropleth
Les visualisations choroplèthes sont une variation des cartes thermiques où l'ombrage est appliqué à
une carte géographique.
Quand l'utiliser: vous devez comparer un ensemble de données par région géographique.
9) Relationships
Network diagram
Ceux-ci affichent des relations complexes entre les entités. Il montre comment chaque entité est
connectée aux autres pour former un réseau.
Quand l'utiliser: vous devez comparer les relations au sein d'un réseau. Ils sont particulièrement utiles
pour les grands réseaux. Ce qui précède montre le réseau de trajectoires de vol pour les compagnies
aériennes du Sud-Ouest.
Data Visualization Tools
1- Power BI
C’ est l’outil de Data Visualisation développé par Microsoft. Il permet de transformer un nombre
impressionnant de données en visuels limpides partageables en quelques clics. L’outil peut se connecter
à des centaines de sources différentes. C’est un très bel outil, adopté par de grandes entreprises
connues de tous. Power BI propose un rapport qualité / prix imbattable. L’abonnement de base (Power
BI) est à $9.99 par mois et par utilisateur.
2- Tableau
Tableau est une référence du marché. C’est clairement un poids lourd. Tableau permet de créer des
tableaux, des graphiques, des infographies, des cartes à partir de n’importe quelles données (SQL,
Hadoop, Excel…). L’interface est particulièrement intuitive et permet de transférer les données par
simple glisser-déposer. Les graphiques sont mis à jour en temps réel et partageables. Contrairement à
tous les produits présentés plus haut, Tableau est disponible en français. C’est vraiment une valeur sure.
Côté tarifs, les plans commencent à $70 par utilisateur et par mois.
3- D3.js
Développée au départ par un Data Scientist du New York Times, D3.js est une bibliothèque open source
de graphiques JavaScript utilisée pour créer des DataViz. C’est un outil très complet. L’éditeur propose
une grande quantité de tutoriels pour se familiariser avec la solution. Vous pouvez créer tous types de
graphiques. D3.js permet de gérer de gros volumes de données et peut s’utiliser avec un grand nombre
de frameworks (d’Angular.Js à Ember.js en passant par react.js).
4- Chart.js
Dernier outil de Data Visualisation de la liste : Chart.js qui, comme
D3.js, est open source et donc gratuit. Si les options graphiques sont
relativement limitées (8 familles de graphiques), les graphiques
produits avec cet outil sont d’un très haut niveau esthétique (rendu
propre et minimaliste). Comme les autres outils que nous avons
présenté, Chart.js permet de créer et d’intégrer des graphiques
interactifs sur un site web ou une application mobile (en HTML 5).
Quote
Data visualization is going to change the way our analysts work with data.
They’re going to be expected to respond to issues more rapidly. And they’ll
need to be able to dig for more insights – look at data differently, more
imaginatively. Data visualization will promote that creative data
exploration.Simon Samuel Head of Customer Value Modeling for a large
bank in the UK
Download