La data science désigne l’art de collecter, d’analyser et d’interpréter des données afin de les rendre lisibles et exploitables. La science des données est une branche de l’intelligence artificielle, et plus spécifiquement du machine learning. À l’heure du big data, de plus en plus d’entreprises et d’organismes ont recours à cette discipline. La data science est en effet présente dans des domaines aussi variés que la santé, les finances et la technologie. Découvrez dans cet article ce qu’il faut savoir sur cette discipline qui permet des avancées majeures dans divers secteurs. Définition, fonctionnement, étapes pour la mise en place d’un projet en data science, nous faisons le point.
Sommaire
Data science : définition d’une discipline de l’intelligence artificielle
Apparue avec l’émergence du Big Data, la data science (en français « science des données ») est une branche multidisciplinaire de l’intelligence artificielle. Elle désigne l’ensemble des outils et techniques destinés à traiter et exploiter des données brutes de manière à les rendre intelligibles et exploitables. Le principal objectif de la science des données est d’établir des tendances, des correspondances et des connexions au sein de gros volumes de données. Elle est notamment exploitée dans le cadre du machine learning. La data science regroupe une grande diversité de techniques et d’outils, tels que :
- L’analyse prédictive ;
- Les sciences informatiques ;
- Les statistiques ;
- Les mathématiques ;
- L’intelligence artificielle et en particulier, les algorithmes de machine learning.
Si les stratégies et les techniques employées diffèrent, la majorité des entreprises a aujourd’hui recours à la data science. Par ailleurs, cette discipline évolue constamment et des innovations technologiques en machine learning voient régulièrement le jour. Il est par conséquent difficile de donner une définition précise et unique de la science des données. Il s’avère plus judicieux d’expliquer le contexte de l’apparition de la data science.
Avec l’essor d’internet, la génération de données n’a cessé de croître durant ces 10 dernières années. D’après les estimations, la quantité de données numériques produites dans le monde est passée de 2 à 64 zettaoctets entre 2010 et 2020. Face à cette explosion de données, la data science est alors devenue une discipline indispensable.
Le développement du big data est notamment dû à l’utilisation croissante de nouvelles technologies génératrices de données : les réseaux sociaux, les objets connectés, les moteurs de recherche ou encore les applications de smartphone. Cette profusion d’informations constitue un réel avantage pour les entreprises, les structures du secteur public et les organismes de recherche. Les organisations peuvent en effet s’appuyer sur ces données pour prendre des décisions éclairées. Toutefois, leur volume est tel que les données brutes ne sont pas exploitables, d’où l’importance de la data science.
Quel est le fonctionnement de la science des données ?
La data science regroupe de nombreuses disciplines et spécialités. Cependant, son objectif reste le même : rendre exploitables des données brutes. La data science est donc une activité multidisciplinaire qui implique pour les data scientists de mettre en œuvre des compétences multiples : statistiques, informatique, mathématiques, data visualisation, ingénierie des données.
Les data scientists doivent par ailleurs maîtriser le machine learning et le deep learning, autres branches de l’intelligence artificielle. Ces connaissances sont indispensables pour réaliser des modèles et établir des prédictions en s’appuyant sur plusieurs techniques et algorithmes. Globalement, l’application de la data science se déroule en 5 étapes. Chacune d’entre elles nécessite de faire appel à des outils, des méthodes et des compétences spécifiques :
- Les data scientists commencent par collecter et extraire des données à partir de sources diverses.
- Elles sont ensuite stockées dans une data wharehouse (en français, « entrepôt de données ») pour être triées et transformées puis analysées.
- La prochaine étape consiste à traiter les informations en s’appuyant sur différentes techniques : le clustering (une méthode d’apprentissage automatique), le data mining (ou « forage de données »), la classification, la modélisation.
- Les données peuvent par la suite être analysées par le biais du text mining, de la régression ou de l’analyse prédictive.
- Enfin, les informations sont formalisées grâce au dashboarding, au reporting ou à la data visualization.
Lancer un projet de data science en 6 étapes
Étape 1- Définir des objectifs
Un projet en data science doit être en adéquation avec les enjeux commerciaux de l’entreprise. Il peut avoir différents objectifs tels que :
- Optimiser l’expérience client ;
- Améliorer les performances de l’entreprise ;
- Prendre des décisions pertinentes et éclairées ;
- Gagner du temps ;
- etc.
Les objectifs doivent être clairement formulés et transmis de façon régulière à toutes les parties prenantes du projet en data science. Établir des objectifs SMART, c’est-à-dire Spécifique, Mesurable, Atteignable, Réaliste et Temporellement définis, vous permettra de mesurer le ROI de votre projet en science des données.
Par ailleurs, pour établir des objectifs clairs et alignés avec les enjeux de l’entreprise, il est essentiel de recenser les données existantes. Cela vous permettra d’établir des cas d’usages réalistes et de les prioriser. Les entreprises disposent de 3 types de données :
- les données First party : ce sont les données clients recueillies par l’entreprise à partir d’outils analytics, de CRM, etc. ;
- les données Second party : ce sont des données First party transmises par un partenaire (par exemple, un média) ;
- les données Third Party : ce sont des données achetées par l’entreprise auprès de prestataires spécialisés.
Lors du recensement des données, il est primordial de s’assurer que celles-ci ont été collectées dans le respect du RGPD.
Étape 2- Collecter et centraliser les données
Après avoir déterminé les données indispensables à la mise en œuvre du projet, la data science consiste à collecter les données et à les centraliser. En effet, les données proviennent souvent de sources variées. Elles peuvent par ailleurs être structurées ou non et de qualité hétérogène. Leurs modalités d’accès peuvent également varier (bases de données, APIs, tableurs, etc.).
Le data scientist va donc mettre en place un process spécifique pour centraliser les modifications apportées aux données internes, vérifier leur intégrité et automatiser leur stockage. Pour cela, il peut s’appuyer sur différents outils tels que Hadoop, Spark, Dataflow, EMR ou BigQuery. Il peut aussi avoir recours aux procédures ETL (Extract-Transform-Load) pour se connecter aux bases de données ou toute autre source de données. Les données externes sont, quant à elles, accessibles par des APIs. Il s’agit de connecteurs élaborés par des développeurs pour accéder à des données continuellement mises à jour.
Une fois les données collectées, le data scientist devra les stocker et les centraliser. Différents types d’infrastructures data existent : data warehouse, Data lake, data mart, data hub, etc. Plusieurs solutions data science sont proposées sur le marché (Azure de Microsoft, Google Cloud, AWS d’Amazon).
Étape 3- Optimiser le processus data science
Dans le cadre de la data science, un certain nombre d’erreurs et de problèmes peuvent survenir dans les ensembles de données (données manquantes, doublons, etc.). L’un des rôles du data scientist consiste donc à préparer les données pour les rendre fiables et exploitables. Cette étape est déterminante pour la qualité du projet. Pour la préparation des données de base, le data scientist a recours au langage SQL. Mais il s’appuie principalement sur les langages R et Python pour traiter, nettoyer et manipuler de gros volumes de données. Pour réaliser ce travail de préparation, le data scientist devra effectuer plusieurs tâches :
- Identification des outliers (ou données aberrantes) : faute de frappe par exemple ;
- Unification des intitulés ;
- Normalisation des données numériques ;
- Suppression des doublons ;
- Elaboration du scénario à mettre en place pour les données manquantes : remplissage avec données aléatoires ou calculées, suppression, etc.
Cette étape du processus de la data science vise à optimiser l’efficacité des algorithmes ainsi que les techniques qui seront employées par la suite. En effet, appliquer ces méthodes sur des données qui n’ont pas été préparées risque de générer des erreurs d’analyse, voire de rendre cette dernière impossible.
Étape 4- Évaluer et analyser les données brutes
Avant d’émettre et de tester différentes hypothèses, le data scientist va mettre en œuvre la visualisation des données. Il pourra élaborer des variables explicatives afin de synthétiser les données. Lorsqu’il aura formulé une hypothèse, le data analyst pourra choisir la méthode la plus apte à y répondre. Dans le cadre du machine learning, il est par ailleurs indispensable de préparer et de tester les ensembles de données d’apprentissage. Le data scientist crée plusieurs jeux de données et en soumet certains à la machine pour déterminer les performances de l’apprentissage.
L’exécution de l’algorithme nécessite ensuite de recourir à nouveau essentiellement aux langages de programmation Python et R. Il arrive également que les algorithmes soient exécutés à distance sur des outils provisoires présents dans le cloud. Cette solution permet de réduire les investissements matériels de l’entreprise. La data science exige en effet d’investir dans des outils relativement onéreux. Le résultat généré par l’exécution de l’algorithme va servir de modèle pour évaluer la performance. Pour cela, le data analyst s’appuie sur différents indicateurs comme le taux de faux positifs et de faux négatifs ou encore le taux d’erreur. Si les performances data science sont bonnes, l’hypothèse peut être validée.
Étape 5- Présenter les résultats
Lorsqu’une hypothèse est confirmée, elle est utilisée pour prendre des décisions. Le modèle data science peut être appliqué dans la réalité pour prédire le trafic d’un site, les bénéfices générés par un produit, etc. Le modèle sera ensuite complété par de nouveaux éléments (nouvelles données, retours d’expérience, etc.).
Une présentation pédagogique et claire des résultats est très importante pour rendre l’analyse des données compréhensibles. C’est là tout l’intérêt de la data science. Pour y parvenir, le data scientist s’appuie sur deux types d’outil :
- Le Data Storytelling : cette nouvelle discipline correspond à l’art de raconter une histoire en se basant sur des données. Elle s’appuie sur la data visualisation.
- La Data-Visualisation (ou dataviz) : elle consiste à présenter visuellement les données en s’adaptant au destinataire et à son niveau d’expertise. La présentation peut prendre différentes formes : courbes, camemberts, histogrammes, etc. La dataviz peut être élaborée sous les langages R et Python. Elle peut aussi nécessiter le recours à des outils de Business Intelligence comme QlikView, Google Data Studio, Power BI, Tableau Software, etc.
Étape 6- Améliorer l’existant en continu
Préserver la qualité des données sur le long terme est essentiel pour une analyse pertinente dans la durée. La data-quality, qui s’inscrit dans la data-governance constitue par conséquent un des principaux enjeux de la data science. Le concept de data-governance regroupe les procédures destinées à encadrer la collecte et l’utilisation de données au sein d’une organisation. En effet, la qualité des données, la sécurité, l’intégrité, la disponibilité et le respect du RGPD font partie des exigences qu’implique la mise en œuvre de la data science.
Dans le cadre d’un projet en data science, le rôle du Chief Data Officers (CDO) consiste à vérifier la qualité des données. Ce directeur des données utilise notamment des crawlers chargés d’identifier d’éventuelles erreurs et incohérences. Le CDO établit également des reportings et évalue la qualité des données par le biais de la mise en place de baromètres.
Du point de vie de la modélisation, l’amélioration continue par l’établissement d’une boucle de rétroaction permet d’optimiser le modèle selon les résultats qu’il obtient dans le monde réel. En outre, il est essentiel d’enrichir constamment le modèle avec de nouvelles données afin d’aiguiser vos prédictions. Cela limitera de plus le risque d’erreurs d’analyse liées par exemple à un jeu de données d’apprentissage réduit.