Introduction la visualisation est essentielle à l'analyse des données. Il fournit une ligne de front d'attaque, révélant une structure complexe dans les données qui ne peuvent pas être absorbées d'une autre manière. Nous découvrons des effets inimaginables et nous défions ceux imaginés. Les données en elles-mêmes, constituées de bits et d'octets stockés dans un fichier sur le disque dur d'un ordinateur, sont invisibles. Afin de pouvoir voir et donner un sens aux données, nous devons les visualiser. Data Viz? La visualisation des données fait référence aux techniques utilisées pour communiquer des informations à partir des données via une représentation visuelle. Son objectif principal est de diviser de grands datasets en graphes visuels pour permettre une compréhension facile des relations complexes au sein des données. Il est souvent utilisé de manière interchangeable avec des termes tels que information graphics, statistical graphics, et information visualization. C'est l'une des étapes du processus de science des données développé par Joe Blitzstein, qui est un framework qui nous donne pour une approche des tâches de science des données. Une fois les données collectées, traitées et modélisées, les relations entre les données doivent être visualisées pour qu'une conclusion puisse être tirée. Utilisation de la visualisation pour découvrir des informations Tout d'abord, nous devons savoir que les outils de visualisation de données ne peuvent pas simplement nous donner des insights et des informations prêtes sur les nos datasets, ce n'est pas comment ça se fasse. Il n'y a pas de règles, pas de «protocole» qui nous garantissent une décision ou bien une insight. Chaque nouvelle visualisation est susceptible de nous donner un aperçu de nos données. Certaines de ces idées peuvent être déjà connues (mais peut-être pas encore prouvées) tandis que d'autres peuvent être complètement nouvelles ou même surprenantes pour nous. Certaines nouvelles perspectives pourraient signifier une nouvelle information, tandis que d'autres pourraient simplement être le résultat d'erreurs dans les données, qui sont plus susceptibles d'être trouvées en visualisant les données. Afin de rendre plus efficace la recherche d'informations sur les donnée on doit suivi le processus suivant. Pourquoi c'est important? Selon le Forum économique mondial, le monde produit chaque jour 2,5 quintillions d'octets de données, et 90% de toutes les données ont été créées au cours des deux dernières années. Avec ces quantités de données, il devient de plus en plus difficile à gérer et à comprendre tout cela. Il serait impossible pour une seule personne de parcourir les données ligne par ligne et de voir des modèles distincts et de faire des observations. La prolifération des données peut être gérée dans le cadre du processus de science des données, qui comprend la visualisation des données. Insight amélioré La visualisation des données peut fournir un aperçu que les statistiques descriptives traditionnelles ne peuvent pas. Un exemple parfait de ceci est le Quatuor d'Anscombe ( Anscombe’s Quartet), créé par Francis Anscombe en 1973. L'illustration comprend quatre jeux de données différents avec une variance, une moyenne, une corrélation entre les coordonnées X et Y presque identiques, et des lignes de régression linéaire. Cependant, les modèles sont clairement différents lorsqu'ils sont tracés sur un graphique. Ci-dessous, vous pouvez voir qu'un modèle de régression linéaire s'appliquerait aux graphiques un et trois, mais un modèle de régression polynomial serait idéal pour le graphique deux. Cette illustration montre pourquoi il est important de visualiser les données et ne pas se compter uniquement sur des statistiques descriptives. Prise de décision plus rapide Les entreprises qui peuvent recueillir et agir rapidement sur leurs données seront plus compétitives sur le marché car elles peuvent prendre des décisions éclairées plus tôt que la concurrence. La vitesse est essentielle et la visualisation des données aide à comprendre de grandes quantités de données en appliquant des représentations visuelles aux données. Voila pourquoi la couche de visualisation se trouve généralement au-dessus d'un entrepôt de données (data warehouse) ou d'un lac de données (data lake) qui sont deux element indispensable du BI, data viz permet aux utilisateurs de découvrir et d'explorer les données. Non seulement cela stimule la créativité, mais cela réduit le besoin pour l'informatique d'allouer des ressources pour construire continuellement de nouveaux modèles. Par exemple, supposons qu'un analyste marketing qui travaille sur 20 plates-formes publicitaires et systèmes internes différents doit comprendre rapidement l'efficacité des campagnes marketing. Une manière manuelle de procéder consiste à accéder à chaque système, à générer un rapport, à combiner les données, puis à analyser dans Excel. L'analyste devra alors examiner un essaim de métriques et d'attributs et aura du mal à tirer des conclusions. Cependant, les plates-formes modernes de Business Intelligence (BI) connectent automatiquement les sources de données et superposent les visualisations de données afin que l'analyste puisse découper et découper les données en toute simplicité et tirer rapidement des conclusions sur les performances marketing. Identifier les relations et les modèles Même de grandes quantités de données complexes commencent à avoir un sens lorsqu'elles sont présentées graphiquement; les entreprises peuvent reconnaître des paramètres fortement corrélés. Certaines corrélations seront évidentes, mais d’autres pas. L'identification de ces relations aide les organisations à se concentrer sur les domaines les plus susceptibles d'influencer leurs objectifs les plus importants. Identifier les nouvelles tendances L'utilisation de la visualisation des données pour découvrir les tendances - à la fois dans l'entreprise et sur le marché - peut donner aux entreprises un avantage sur la concurrence et, en fin de compte, affecter les résultats. Il est facile de repérer les valeurs aberrantes qui affectent la qualité des produits ou le taux de désabonnement des clients, et de résoudre les problèmes avant qu'ils ne s'aggravent. Communiquez l'histoire aux autres Une fois qu'une entreprise a découvert de nouvelles informations grâce à l'analyse visuelle, l'étape suivante consiste à communiquer ces informations à d'autres. L'utilisation des tableaux, des graphiques ou d'autres représentations visuellement percutantes des données est importante à cette étape, car elle est intéressante et fait passer le message rapidement. Notion de base Il existe 3 sous-champs principaux de Data Viz: Visualisation scientifique : dont le rôle est de modéliser des phénomènes du monde réel Visualisation de l'information: dont le rôle est de cartographier un concept plus abstrait en 2D ou 3D à des fins de prise de décision et d'analyse L'analytique visuelle : qui est la frontière de l'exploration de données(data mining) et de l'apprentissage automatique (machine learning). Il existe 3 types principaux de variables: Qualitatif (nominal ou ordinal) Quantitatif Métadonnées qui sont des informations descriptives sur les données Les attributs clés à implémenter ou non lors du développement d'un outil de visualisation sont: l'évolutivité vers un grand nombre de données l'interactivité pour offrir plusieurs vues à un utilisateur Quand utiliser Data Viz? Data Viz est soumise à plusieurs conditions: Lorsqu'il existe une bonne structure sous-jacente permettant de déduire que les éléments proches les uns des autres sont similaires Lorsque les utilisateurs ne connaissent pas le contenu d'une collection Lorsque les utilisateurs ont une compréhension limitée de l'organisation d'un système et préfèrent une méthode d'exploration moins chargée cognitivement Lorsque les utilisateurs ont du mal à verbaliser le besoin d'information sous-jacent Quand l'information est plus facile à reconnaître qu'à décrire Visualiser les données Alors Comment associer des données à une * représentation *? Nous définissons d'abord un espace, généralement en utilisant l'axe Ensuite, nous définissons les marques que nous allons utiliser, qui sont les choses qui se produisent dans l'espace (points, étoiles, points…) Ensuite les propriétés graphiques des marques (taille, position, orientation, couleur, texture…) Notre objectif devrait être d'augmenter l'utilisation de l'espace, d’encoder les données et de rendre le graphique efficace. Il n'y a globalement que 5 catégories principales de graphiques dont nous allons parler dans la section suivante. Tableaux de données, comme les feuilles Excel par exemple Graphiques sur rails ou plans (visuellement, on peut voir un tracé 1D comme un seul rail, un tracé 2D comme une combinaison de rails, un camembert comme un seul rail plié…) Cartes géospatiales, qui est la cartographie de la latitude et de la longitude sur un plan 2D, dans laquelle nous pouvons ajouter quelques informations (entités sur une carte, taille des composants…) Diagrammes de réseau, dont le rôle est d'afficher la relation entre les éléments. Dans de tels diagrammes Symboles et images conceptuelles, qui peuvent être n'importe quel logo dont le but est de présenter une information (par exemple le logo PEGI 12 sur un jeu vidéo) Marques et canaux Ce sont les blocs de construction d'un espace de conception d'encodages visuels: Les marques sont des éléments géométriques de base qui représentent des éléments ou des liens (point, ligne, zone) les canaux contrôlent leur apparence, indépendamment de la dimensionnalité vont la primitive géométrique. (position, couleur, forme, inclinaison (angle), taille) Une marque de zone a ses deux dimensions de sa taille contraintes intrinsèquement dans le cadre de sa forme, de sorte que les marques de zone ne sont pas codées par taille ou par forme. (par exemple la forme d'un pays). Bar Plots peuvent être élargis pour coder une dimension supplémentaire. Les marques de points peuvent être codées par taille et par forme. a) Quelle canal choisir? Les canaux qui affichent des informations de magnitude conviennent aux données ordonnées. (combien est-ce? combien de temps? combien plus large? ...) Les canaux qui affichent des informations d'identité sont bons avec des données catégoriques. (Qu'est-ce que c'est? Où est-il? Est-ce une ligne? ...) b) Habituellement, une marque représente un élément. (Dans un jeu de données de table par exemple). Dans un jeu de données réseau, une marque peut représenter un élément (nœud) ou un lien entre des éléments. Il existe 2 types de marques de lien: La marque de connexion (connection mark) qui montre une relation par paire entre 2 éléments à l'aide d'une ligne Les marques de confinement (Containment marks) montrent des relations hiérarchiques utilisant des zones, imbriquées les unes aux autres à plusieurs niveaux Important : Le système visuel humain ne traite pas 2 canaux différents de la même manière. Nous décidons quel canal utiliser selon 2 principes: 1- Expressivité : l'encodage visuel ne doit exprimer que les informations contenues dans les attributs de l'ensemble de données. Les données triées doivent être affichées telles que dones triées, et vice versa. 2- Efficacité : les attributs les plus importants doivent être encodés avec les canaux les plus efficaces pour être les plus visibles. Quel canal est efficace en matière d'encodage visuel? Pourquoi certaines chaînes sont-elles meilleures que d'autres? Il existe plusieurs façons de mesurer l'efficacité: Précision: dans quelle mesure le jugement perceptif humain est-il proche d'une mesure objective du stimulus? La psychophysique étudie la mesure de la perception humaine générale. Nos réponses à l'expérience sensorielle de la grandeur sont caractérisables par les lois de puissance, où l'exposant dépend de la modalité sensorielle exacte Discriminabilité: si vous encodez des données en utilisant un canal visuel particulier, les différences entre les éléments sont-elles perceptibles pour l'homme comme prévu? Séparabilité : Vous ne pouvez pas traiter tous les canaux visuels comme complètement indépendants les uns des autres, car certains ont des dépendances et des interactions avec d'autres Popout : Dans quelle mesure un élément distinct se démarque immédiatement de nombreux autres. Notre système visuel de bas niveau effectue un traitement massivement parallèle sur ces canaux visuels, sans que le téléspectateur ait à porter consciemment directement attention aux éléments un par un. Cependant, lorsque le pop-out ne se produit pas, il nécessite une recherche en série, dont le temps dépend du nombre de marques dans le graphique. Groupement : découle de l'utilisation de marques de lien ou de canaux d'identité pour coder des attributs catégoriels. Le confinement est le meilleur signal de regroupement, la connexion venant en deuxième position et la proximité en troisième. Le système de perception humain est fondamentalement basé sur des jugements relatifs et non absolus; ce principe est connu sous le nom de loi de Weber. Par exemple, la quantité de différence de longueur que nous pouvons détecter est un pourcentage de la longueur de l'objet. Lorsque nous examinons des questions telles que l'exactitude et la discernabilité de nos perceptions, nous devons distinguer entre les jugements relatifs et absolus. Par exemple, lorsque deux objets sont directement côte à côte et alignés, nous pouvons faire des jugements beaucoup plus précis que lorsqu'ils ne sont pas alignés et lorsqu'ils sont séparés par de nombreux autres objets entre eux. Types courants de visualisations de données 1) Time-series Line charts : Ce sont l'une des visualisations les plus élémentaires et les plus couramment utilisées. Ils montrent un changement dans une ou plusieurs variables au fil du temps. Quand l'utiliser: Vous devez montrer comment une variable change au fil du temps. Area charts Une variation des graphiques en courbes, les graphiques en aires affichent plusieurs valeurs dans une série chronologique. Quand l'utiliser: Vous devez afficher les changements cumulatifs dans plusieurs variables au fil du temps. 2) Ranking Bar charts Ces graphiques sont comme des graphiques linéaires, mais ils utilisent des barres pour représenter chaque point de données. Quand l'utiliser: Les graphiques à barres sont mieux utilisés lorsque vous devez comparer plusieurs variables dans une même période ou une seule variable dans une série chronologique. Population pyramids Les pyramides des âges sont des graphiques à barres empilées qui décrivent le récit social complexe d'une population. Quand l'utiliser: Vous devez montrer la distribution d'une population. 3) Part to Whole Pie charts Celles-ci montrent les parties d'un tout sous la forme d'une tarte. Quand l'utiliser: vous voulez voir des parties d'un tout en pourcentage. Cependant, de nombreux experts recommandent d'utiliser d'autres formats à la place, car il est plus difficile pour l'œil humain de comprendre les données dans ce format en raison de l'augmentation du temps de traitement. Beaucoup soutiennent qu'un graphique à barres ou un graphique linéaire a plus de sens. Tree maps Les cartes d'arbre sont un moyen d'afficher des données hiérarchiques dans un format imbriqué. La taille des rectangles est proportionnelle au pourcentage de chaque catégorie sur l'ensemble. Quand l'utiliser: ils sont plus utiles lorsque vous souhaitez comparer des parties d'un ensemble et avoir de nombreuses catégories. 4) Deviation Bar chart (actual vs. expected) Ceux-ci comparent une valeur attendue à la valeur réelle d'une variable donnée. Quand l'utiliser: Vous devez comparer les valeurs attendues et réelles pour une seule variable. L'exemple ci-dessus montre le nombre d'articles vendus par catégorie par rapport au nombre attendu. Vous pouvez facilement voir les chandails sous-performés par rapport à toutes les autres catégories, mais les robes et les shorts ont surperformé. 5) Correlation Scatter plots Les diagrammes de dispersion montrent la corrélation entre deux variables sous la forme d'un axe X et Y et des points qui représentent des points de données. Quand l'utiliser: Vous voulez voir la corrélation entre deux variables. 6) Frequency Distribution Histograms Les histogrammes indiquent le nombre de fois qu'un événement se produit dans un ensemble de données donné et se présente sous forme de graphique à barres. Quand l'utiliser: Vous voulez trouver la distribution de fréquence d'un ensemble de données donné. Par exemple, vous souhaitez voir la probabilité relative de vendre 300 articles en une journée compte tenu des performances historiques. Box plots Ce sont des visualisations non paramétriques qui affichent une mesure de dispersion. La case représente le deuxième et le troisième quartile (50%) des points de données et la ligne à l'intérieur de la case représente la médiane. Les deux lignes s'étendant à l'extérieur de la boîte sont appelées moustaches et représentent le premier et le quatrième quartile, ainsi que la valeur minimale et maximale. Quand l'utiliser: Vous voulez voir la distribution d'un ou plusieurs jeux de données. Ceux-ci sont utilisés à la place d'histogrammes lorsque l'espace doit être minimisé. 7) Nominal Comparison Bubble charts Les graphiques à bulles sont comme des nuages de points mais ajoutent plus de fonctionnalités car la taille et / ou la couleur de chaque bulle représente des données supplémentaires. Quand l'utiliser: lorsque vous avez trois variables à comparer. Heat maps Une carte thermique est une représentation graphique des données dans laquelle chaque valeur individuelle est contenue dans une matrice. Les nuances représentent une quantité définie par la légende. Quand l'utiliser: ils sont utiles lorsque vous souhaitez analyser une variable sur une matrice de données, comme une période de jours et d'heures. Les différentes nuances vous permettent de discerner rapidement les extrêmes. L'exemple ci-dessus montre les utilisateurs d'un site Web par heure et heure de la journée au cours d'une semaine. 8) Geographical Comparison Chloropleth Les visualisations choroplèthes sont une variation des cartes thermiques où l'ombrage est appliqué à une carte géographique. Quand l'utiliser: vous devez comparer un ensemble de données par région géographique. 9) Relationships Network diagram Ceux-ci affichent des relations complexes entre les entités. Il montre comment chaque entité est connectée aux autres pour former un réseau. Quand l'utiliser: vous devez comparer les relations au sein d'un réseau. Ils sont particulièrement utiles pour les grands réseaux. Ce qui précède montre le réseau de trajectoires de vol pour les compagnies aériennes du Sud-Ouest. Data Visualization Tools 1- Power BI C’ est l’outil de Data Visualisation développé par Microsoft. Il permet de transformer un nombre impressionnant de données en visuels limpides partageables en quelques clics. L’outil peut se connecter à des centaines de sources différentes. C’est un très bel outil, adopté par de grandes entreprises connues de tous. Power BI propose un rapport qualité / prix imbattable. L’abonnement de base (Power BI) est à $9.99 par mois et par utilisateur. 2- Tableau Tableau est une référence du marché. C’est clairement un poids lourd. Tableau permet de créer des tableaux, des graphiques, des infographies, des cartes à partir de n’importe quelles données (SQL, Hadoop, Excel…). L’interface est particulièrement intuitive et permet de transférer les données par simple glisser-déposer. Les graphiques sont mis à jour en temps réel et partageables. Contrairement à tous les produits présentés plus haut, Tableau est disponible en français. C’est vraiment une valeur sure. Côté tarifs, les plans commencent à $70 par utilisateur et par mois. 3- D3.js Développée au départ par un Data Scientist du New York Times, D3.js est une bibliothèque open source de graphiques JavaScript utilisée pour créer des DataViz. C’est un outil très complet. L’éditeur propose une grande quantité de tutoriels pour se familiariser avec la solution. Vous pouvez créer tous types de graphiques. D3.js permet de gérer de gros volumes de données et peut s’utiliser avec un grand nombre de frameworks (d’Angular.Js à Ember.js en passant par react.js). 4- Chart.js Dernier outil de Data Visualisation de la liste : Chart.js qui, comme D3.js, est open source et donc gratuit. Si les options graphiques sont relativement limitées (8 familles de graphiques), les graphiques produits avec cet outil sont d’un très haut niveau esthétique (rendu propre et minimaliste). Comme les autres outils que nous avons présenté, Chart.js permet de créer et d’intégrer des graphiques interactifs sur un site web ou une application mobile (en HTML 5). Quote Data visualization is going to change the way our analysts work with data. They’re going to be expected to respond to issues more rapidly. And they’ll need to be able to dig for more insights – look at data differently, more imaginatively. Data visualization will promote that creative data exploration.Simon Samuel Head of Customer Value Modeling for a large bank in the UK