51·çÁ÷

Le data mining est le processus d’extraction d’informations utiles Ă  partir d’une accumulation de donnĂ©es, souvent Ă  partir d’un data warehouse (entrepĂ´t de donnĂ©es) ou d’une collection d’ensembles de donnĂ©es liĂ©s. Les outils de data mining incluent de puissantes fonctionnalitĂ©s statistiques, mathĂ©matiques et analytiques dont l’objectif principal est de passer au crible de vastes ensembles de donnĂ©es pour identifier les tendances, les modèles et les relations, pour des prises de dĂ©cisions et une planification Ă©clairĂ©es.

Souvent associĂ© aux demandes du service marketing, le data mining est considĂ©rĂ© par de nombreux dirigeants comme un moyen de mieux comprendre la demande et de voir l’impact des modifications apportĂ©es aux produits, des prix ou des promotions sur les ventes. Mais le data mining prĂ©sente Ă©galement des avantages considĂ©rables pour d’autres domaines d’activitĂ©. Les ingĂ©nieurs et les concepteurs peuvent analyser l’efficacitĂ© des modifications de produit et rechercher les causes possibles de la rĂ©ussite ou de l’Ă©chec d’un produit en fonction de la manière, du moment et du lieu d’utilisation des produits. Le MRO (entretien, rĂ©paration et fonctionnement) est en mesure de mieux planifier le stock de pièces et l’affectation du personnel. Les entreprises de services professionnels peuvent utiliser le data mining pour identifier les nouvelles opportunitĂ©s liĂ©es Ă  l’Ă©volution des tendances Ă©conomiques et aux changements dĂ©mographiques.

Le data mining s’avère davantage utile et prĂ©cieux maintenant que l’on se retrouve avec des ensembles de donnĂ©es plus volumineux et une expĂ©rience utilisateur accrue. Logiquement, plus il y a de donnĂ©es, plus elles cachent d’informations et de renseignements. Par ailleurs, plus les utilisateurs se familiarisent avec les outils et comprennent la base de donnĂ©es, plus ils deviennent crĂ©atifs vis-Ă -vis des explorations et des analyses.


Pourquoi utiliser le data mining ?

Le principal avantage du data mining est sa capacitĂ© Ă  repĂ©rer des modèles et des relations dans de grands volumes de donnĂ©es provenant de plusieurs sources. Avec de plus en plus de donnĂ©es disponibles, provenant de sources aussi variĂ©es que les rĂ©seaux sociaux, les capteurs Ă  distance et les rapports de plus en plus dĂ©taillĂ©s sur les mouvements de produits et l’activitĂ© du marchĂ©, le data mining offre les outils nĂ©cessaires pour exploiter pleinement le Big Data et le transformer en renseignements exploitables. De plus, il peut aider Ă  « sortir des sentiers battus ».

Le processus de data mining peut dĂ©tecter des relations et des modèles surprenants et intrigants dans des fragments d’informations apparemment non liĂ©es. Comme les informations tendent Ă  ĂŞtre compartimentĂ©es, il a toujours Ă©tĂ© difficile, voire impossible, de les analyser dans leur ensemble. Toutefois, il peut exister une relation entre les facteurs externes (dĂ©mographiques ou Ă©conomiques, par exemple) et la performance des produits d’une entreprise. Les dirigeants, qui examinent rĂ©gulièrement les chiffres des ventes par territoire, ligne de produits, canal de distribution et rĂ©gion, manquent souvent de contexte externe pour ces informations. Leur analyse souligne « ce qui s’est passé », mais ne dĂ©taille pas vraiment « pourquoi cela s’est passĂ© de cette manière ». Le data mining peut apporter une solution.

Le data mining peut rechercher des corrĂ©lations avec des facteurs externes. Si la corrĂ©lation n’indique pas toujours la causalitĂ©, ces tendances peuvent ĂŞtre des indicateurs prĂ©cieux pour guider les dĂ©cisions relatives aux produits, aux canaux et Ă  la production. La mĂŞme analyse peut ĂŞtre bĂ©nĂ©fique pour d’autres domaines de l’activitĂ©, de la conception de produit Ă  l’efficacitĂ© opĂ©rationnelle, en passant par la prestation de services.


Historique du data mining

Nous collectons et analysons des donnĂ©es depuis des milliers d’annĂ©es et, Ă  bien des Ă©gards, le processus est restĂ© le mĂŞme : identifier les informations nĂ©cessaires, trouver des sources de donnĂ©es de qualitĂ©, collecter et combiner les donnĂ©es, utiliser les outils les plus efficaces pour analyser les donnĂ©es, et tirer parti des enseignements appris. Ă€ mesure que l’informatique et les systèmes basĂ©s sur les donnĂ©es se sont dĂ©veloppĂ©s, il en a Ă©tĂ© de mĂŞme pour les outils de gestion et d’analyse des donnĂ©es. Le vĂ©ritable point d’inflexion est venu dans les annĂ©es 1960 avec le dĂ©veloppement de la technologie de base de donnĂ©es relationnelle et des outils de requĂŞte en langage naturel orientĂ© utilisateur, tels que Structured Query Language (SQL). Les donnĂ©es n’Ă©taient plus disponibles uniquement via des programmes codĂ©s personnalisĂ©s. Grâce Ă  cette avancĂ©e, les utilisateurs pouvaient explorer leurs donnĂ©es de manière interactive et en extraire les « joyaux cachĂ©s ».

Le data mining est traditionnellement un ensemble de compĂ©tences spĂ©cialisĂ©es dans la science des donnĂ©es. Cependant, chaque nouvelle gĂ©nĂ©ration d’outils analytiques nĂ©cessite dans un premier temps des compĂ©tences techniques avancĂ©es, mais Ă©volue rapidement pour devenir accessible aux utilisateurs. L’interactivitĂ©, c’est-Ă -dire la possibilitĂ© de laisser les donnĂ©es vous parler, est la principale avancĂ©e. Posez une question et visualisez la rĂ©ponse. En fonction de ce que vous apprenez, posez une autre question. Ce type d’itinĂ©rance non structurĂ©e Ă  travers les donnĂ©es permet Ă  l’utilisateur d’aller au-delĂ  des limites de la conception de bases de donnĂ©es spĂ©cifiques Ă  une application et permet de dĂ©couvrir des relations qui dĂ©passent les limites fonctionnelles et organisationnelles.

Le data mining est une composante clĂ© de la Business Intelligence. Les outils d’exploration de donnĂ©es sont créés dans les tableaux de bord dĂ©cisionnels, en extrayant des informations du Big Data, y compris les donnĂ©es des rĂ©seaux sociaux, des flux de capteurs IoT, des appareils de localisation, du texte non structurĂ©, des vidĂ©os, etc. Le data mining moderne s’appuie sur le Cloud, l’informatique virtuel et les pour gĂ©rer les donnĂ©es de diverses sources de manière rentable et s’adapter Ă  la demande.


Comment cela fonctionne ?

Il y a environ autant d’approches du data mining qu’il y a d’explorateurs de donnĂ©es. L’approche dĂ©pend du type de questions posĂ©es, du contenu et de l’organisation de la base de donnĂ©es ou des ensembles de donnĂ©es fournissant la matière première pour la recherche et l’analyse. Cela dit, certaines Ă©tapes organisationnelles et prĂ©paratoires doivent ĂŞtre accomplies pour prĂ©parer les donnĂ©es, les outils et les utilisateurs :

  1. Comprendre le problème, ou du moins le domaine d’enquĂŞte.Le dĂ©cideur, qui doit prendre les commandes de cette grande aventure de data mining, a besoin d’une comprĂ©hension gĂ©nĂ©rale du domaine dans lequel il travaillera, Ă  savoir les types de donnĂ©es internes et externes qui doivent faire partie de cette exploration. On suppose qu’il a une connaissance approfondie de l’entreprise et des domaines fonctionnels impliquĂ©s.
  2. Collecte de donnĂ©es. Commencez par vos systèmes et bases de donnĂ©es internes. Liez-les Ă  l’aide de leurs modèles de donnĂ©es et de divers outils relationnels, ou rassemblez les donnĂ©es dans un entrepĂ´t de donnĂ©es (data warehouse). Cela inclut toutes les donnĂ©es provenant de sources externes qui font partie de vos opĂ©rations, telles que les donnĂ©es de force de vente et/ou de service, les donnĂ©es IoT ou des rĂ©seaux sociaux. Recherchez et acquĂ©rez auprès des associations professionnelles et des gouvernements les droits sur les donnĂ©es externes, notamment les donnĂ©es dĂ©mographiques, Ă©conomiques et relatives au marchĂ©, telles que les tendances du secteur et les indices financiers. IntĂ©grez-les dans le pĂ©rimètre du kit d’outils (intĂ©grez-les dans votre data warehouse ou reliez-les Ă  l’environnement de data mining).
  3. PrĂ©paration et comprĂ©hension des donnĂ©es.Faites appel aux experts en la matière pour dĂ©finir, catĂ©goriser et organiser les donnĂ©es. Cette partie du processus est parfois appelĂ©e « remaniement des donnĂ©es ». Certaines donnĂ©es peuvent nĂ©cessiter un nettoyage pour supprimer les doublons, les incohĂ©rences, les enregistrements incomplets ou les formats obsolètes. La prĂ©paration et le nettoyage des donnĂ©es peuvent se poursuivre Ă  mesure que de nouveaux projets ou des donnĂ©es provenant de nouveaux champs d’enquĂŞte deviennent intĂ©ressants.
  4. Formation des utilisateurs.Vous ne donneriez pas Ă  votre adolescent les clĂ©s de la Ferrari sans qu’il n’ait appris Ă  conduire ou qu’il n’ait pratiquĂ© la conduite sur route avec un moniteur. Par consĂ©quent, veillez Ă  dispenser une formation formelle Ă  vos futurs explorateurs de donnĂ©es et Ă  les familiariser avec ces outils puissants. La formation continue est Ă©galement bienvenue une fois qu’ils maĂ®trisent les bases et qu’ils peuvent passer Ă  des techniques plus avancĂ©es.

Techniques de data mining

Gardez Ă  l’esprit que l’exploration de donnĂ©es est basĂ©e sur un kit d’outils plutĂ´t que sur une routine ou un processus fixe. Les techniques spĂ©cifiques de data mining citĂ©es ici ne sont que des exemples d’utilisation des outils par les organisations afin d’explorer leurs donnĂ©es et rechercher des tendances, des corrĂ©lations et des renseignements.

D’une manière gĂ©nĂ©rale, les approches de data mining peuvent ĂŞtre catĂ©gorisĂ©es comme Ă©tant orientĂ©es (vers un rĂ©sultat spĂ©cifique souhaitĂ©) ou non orientĂ©es, comme un simple processus de dĂ©couverte. D’autres explorations peuvent ĂŞtre destinĂ©es au tri ou Ă  la classification des donnĂ©es, telles que le regroupement des clients potentiels en fonction d’attributs commerciaux comme le secteur, les produits, la taille et le lieu gĂ©ographique. De mĂŞme, la dĂ©tection de cas particuliers ou d’anomalies est une mĂ©thode automatisĂ©e de reconnaissance des anomalies rĂ©elles (plutĂ´t que simple variabilitĂ©) dans un ensemble de donnĂ©es qui affiche des modèles identifiables.

Association

Un autre objectif intĂ©ressant est l’association, qui relie deux Ă©vĂ©nements ou activitĂ©s apparemment non liĂ©s. Il existe un rĂ©cit bien connu des dĂ©buts de l’analyse et du data mining, peut-ĂŞtre fictif, selon lequel une chaĂ®ne de magasins dĂ©couvrait une corrĂ©lation entre les ventes de bière et de couches. Il avait Ă©tĂ© supposĂ© que les nouveaux papas stressĂ©s qui sortaient tard le soir pour acheter des couches pouvaient aussi prendre un pack de 6 bières dans la foulĂ©e. Les magasins ont alors placĂ© la bière et les couches Ă  proximitĂ©, ce qui a augmentĂ© les ventes de bière.

Clustering

Cette approche vise à regrouper les données par similitudes plutôt que par hypothèses prédéfinies. Par exemple, lorsque vous explorez vos informations commerciales clients combinées à des données externes démographiques et de crédit à la consommation, vous pourriez découvrir que vos clients les plus rentables vivent dans des villes de taille moyenne.

La majorité du temps, le data mining est exécuté en soutien à la prévision. Plus vous comprenez les modèles et les comportements, mieux vous pouvez prévoir les actions futures liées aux causes ou aux corrélations.

¸éĂ©˛µ°ů±đ˛ő˛őľ±´Ç˛Ô

L’une des techniques mathĂ©matiques proposĂ©es dans les kits d’outils de data mining est l’analyse de rĂ©gression, qui prĂ©dit un nombre en fonction de modèles historiques projetĂ©s dans le futur. Divers autres algorithmes de dĂ©tection et de suivi des modèles fournissent des outils flexibles pour aider les utilisateurs Ă  mieux comprendre les donnĂ©es et le comportement qu’elles reprĂ©sentent.

Ce ne sont lĂ  que quelques-uns des outils et des techniques disponibles dans les kits d’outils de data mining. Le choix de l’outil ou de la technique est en quelque sorte automatisĂ© en ce sens que les techniques seront appliquĂ©es en fonction de la manière dont la question est posĂ©e. Auparavant, l’exploration de donnĂ©es revenait Ă  « dĂ©couper en tranches » la base de donnĂ©es, mais la pratique est aujourd’hui plus sophistiquĂ©e et les termes comme association, clustering et rĂ©gression sont monnaie courante.


Exemples de cas d’utilisation

Le data mining est essentiel Ă  l’analyse des sentiments, Ă  l’optimisation des prix, au marketing de bases de donnĂ©es, Ă  la gestion des risques de crĂ©dit, Ă  la formation et Ă  l’assistance, Ă  la dĂ©tection des fraudes, aux diagnostics mĂ©dicaux, Ă  l’Ă©valuation des risques, aux systèmes de recommandation (Ă  savoir, « les clients qui ont achetĂ© ceci ont Ă©galement aimĂ©… »), et bien plus encore. Elle peut ĂŞtre un outil efficace dans pratiquement n’importe quel secteur, y compris la distribution de dĂ©tail, la distribution de gros, les services, la fabrication, les tĂ©lĂ©communications, les communications, les assurances, l’Ă©ducation, la santĂ©, la banque, la science, l’ingĂ©nierie et le marketing en ligne ou les rĂ©seaux sociaux.

Développement de produit

Les entreprises qui conçoivent, fabriquent ou distribuent des produits physiques peuvent identifier des opportunitĂ©s pour mieux cibler leurs produits en analysant les habitudes d’achat conjuguĂ©es aux donnĂ©es Ă©conomiques et dĂ©mographiques. Leurs concepteurs et ingĂ©nieurs peuvent Ă©galement recouper les commentaires des clients et des utilisateurs, les donnĂ©es de rĂ©paration et d’autres donnĂ©es pour identifier les opportunitĂ©s d’amĂ©lioration des produits.

Production

Les fabricants peuvent suivre les tendances de qualitĂ©, les donnĂ©es de rĂ©paration, les taux de production et les donnĂ©es de performance des produits sur le terrain pour identifier les problèmes de production. Ils peuvent Ă©galement dĂ©tecter les amĂ©liorations pouvant ĂŞtre apportĂ©es aux processus afin d’accroĂ®tre la qualitĂ©, gagner du temps, rĂ©duire les coĂ»ts, amĂ©liorer la performance des produits et/ou repĂ©rer tout besoin de renouvellement d’Ă©quipements.

Industries
des services

Dans le secteur des services, les utilisateurs peuvent trouver des opportunitĂ©s similaires d’amĂ©lioration des produits en comparant les commentaires des clients (directs ou publiĂ©s sur les rĂ©seaux sociaux ou d’autres sources) et les donnĂ©es relatives aux services, canaux, performance des pairs, rĂ©gions, tarifs, ou encore les donnĂ©es dĂ©mographiques ou Ă©conomiques.

Enfin, toutes ces dĂ©couvertes doivent ĂŞtre transposĂ©es dans les prĂ©visions et la planification afin que l’ensemble de l’entreprise soit en phase avec les changements de la demande anticipĂ©s grâce Ă  une connaissance plus approfondie du client, et soit ainsi mieux positionnĂ©e pour exploiter les opportunitĂ©s venant d’ĂŞtre identifiĂ©es.


Défis liés au data mining

  • Big Data : la gĂ©nĂ©ration de donnĂ©es est de plus en plus rapide, ce qui offre de plus en plus d’opportunitĂ©s pour le data mining. Cependant, des outils d’exploration de donnĂ©es modernes sont nĂ©cessaires pour extraire une signification du Big Data, compte tenu du volume Ă©levĂ©, de la grande rapiditĂ© et de la grande variĂ©tĂ© des structures de donnĂ©es, ainsi que du volume croissant de donnĂ©es non structurĂ©es. De nombreux systèmes existants ont du mal Ă  gĂ©rer, Ă  stocker et Ă  utiliser ce grand flux d’intrants.
  • CompĂ©tence de l’utilisateur : les outils d’exploration et d’analyses des donnĂ©es sont conçus pour aider les utilisateurs et les dĂ©cideurs Ă  comprendre et Ă  obtenir des informations Ă  partir de grands volumes de donnĂ©es. Bien que hautement techniques, ces outils puissants offrent dĂ©sormais une excellente expĂ©rience utilisateur, de sorte que pratiquement tous les utilisateurs sont en mesure d’utiliser ces outils avec un minimum de formation. Toutefois, pour tirer pleinement profit des avantages, l’utilisateur doit comprendre les donnĂ©es disponibles et le contexte commercial des informations qu’il recherche. Il doit Ă©galement savoir, au moins de manière gĂ©nĂ©rale, comment fonctionnent les outils et ce qu’ils peuvent faire. Ces outils ne sont pas hors de portĂ©e du responsable ou dirigeant moyen, mais nĂ©cessitent un apprentissage, raison pour laquelle les utilisateurs doivent consacrer du temps au dĂ©veloppement de cette nouvelle compĂ©tence.
  • QualitĂ© et disponibilitĂ© des donnĂ©es : avec ces Ă©normes quantitĂ©s de nouvelles donnĂ©es, il existe Ă©galement des masses de donnĂ©es incomplètes, incorrectes, trompeuses, frauduleuses, endommagĂ©es ou simplement inutiles. Les outils peuvent contribuer Ă  rĂ©soudre ce problème, mais les utilisateurs doivent constamment tenir compte de la source des donnĂ©es et de sa crĂ©dibilitĂ© et fiabilitĂ©. Les prĂ©occupations en matière de confidentialitĂ© sont Ă©galement importantes, tant en ce qui concerne l’acquisition des donnĂ©es que la prise en charge et la gestion une fois qu’elles sont en votre possession.

Pictogramme qui représente un entrepôt de données

Renforcez votre expertise en matière de gestion des données

Comprenez le processus de gestion des donnĂ©es et les avantages qu’il peut apporter Ă  votre organisation.

En savoir plus

 


FAQ sur le data mining

Quelle est la différence entre le machine learning et le data mining ?

Le data mining consiste Ă  utiliser des outils analytiques avancĂ©s pour extraire des informations utiles d’une accumulation de donnĂ©es.  est un type  (IA) qui permet aux systèmes d’apprendre par l’expĂ©rience. L’exploration de donnĂ©es peut utiliser le machine learning lorsque les programmes analytiques ont la possibilitĂ© d’adapter leurs fonctionnalitĂ©s en fonction de l’analyse de donnĂ©es qu’ils effectuent.

Existe-t-il une diffĂ©rence entre le data mining et l’analyse de donnĂ©es ?

L’analyse des donnĂ©es est un terme gĂ©nĂ©ral pour le large Ă©ventail de pratiques visant Ă  identifier les informations utiles, Ă  les Ă©valuer et Ă  fournir des rĂ©ponses spĂ©cifiques. Le data mining est un type d’analyse des donnĂ©es qui se concentre sur l’exploration de grands ensembles de donnĂ©es combinĂ©s pour dĂ©couvrir des modèles, des tendances et des relations susceptibles de gĂ©nĂ©rer des informations et des prĂ©visions.

Le data mining est-il identique à la science des données ?

La science des donnĂ©es est un terme qui inclut de nombreuses technologies de l’information, y compris les statistiques, les mathĂ©matiques et les techniques de calcul sophistiquĂ©es appliquĂ©es aux donnĂ©es. Le data mining est un cas d’utilisation de la science des donnĂ©es centrĂ© sur l’analyse de grands ensembles de donnĂ©es provenant d’un large Ă©ventail de sources.

Le data mining est-il identique au data warehouse ?

±«˛ÔĚýdata warehouse est un ensemble de donnĂ©es, gĂ©nĂ©ralement provenant de sources multiples (,Ěý, par exemple) qu’une entreprise rassemblera dans l’entrepĂ´t Ă  des fins d’archivage et d’analyse Ă  grande Ă©chelle, comme le data mining.