Le Data Mining
Une traduction "mot à mot" de Data Mining peut-être exploration de données ou encore extraction de connaissances à partir de données.
Usama M. Fayyad (qui a notamment exercé les fonctionnalités de vice-président et de responsable des données chez Yahoo), a proposé en 1996 la définition suivante du Data Mining :
Processus non-trivial d'identification de structures inconnues,
valides et potentiellement exploitables dans les bases de données
Autrement dit, on cherche, par un processus complexe (du fait du volume et/ou de l'hétérogénéité des données), à connaitre quelque chose de nouveau, qui soit vrai, et éventuellement utilisable dans les bases données.
D'où vient le Data Mining
L'analyse de données et les statistiques exploratoires existent depuis plus de 30 ans. On peut voir le Data Mining comme un prolongement de ces domaines, avec des différences notables :
- ajout de techniques issues de l'Intelligence Artificielle (ex : Machine Learning)
- travail potentiel sur données non structurées
- caractère business souvent présent (exploitation commerciale...)
Big Data
Domaines d'application
Scroring
Le scoring consiste en marketing à affecter une note à un client ou un prospect. Le but est de déterminer le profil du client par rapport à l'activité de l'entreprise, et ainsi réduire le coût d'acquisition ou de conservation d'un client, en ciblant les opérations marketing sur les profils considérés les plus "réceptifs". Le scoring est par exemple utilisé chez les assurances, les banques ou encore les opérateurs téléphoniques. (ex : ne pas accorder un prêt à un client qui présente un profil reconnu par le datamining comme présentant un haut risque de non remboursement. )
Le Data Mining peut par exemple être utilisé pour déterminer quels sont les critères à prendre en compte pour considérer un client comme "réceptif".
Prévention du crime
Voir également cet article sur l'utilisation du datamining pour la réduction du vol à l'étalage.
Détection de fraudes
Poker !
Trois personnes ont utilisé en 2009 le datamining à l'encontre un joueur en ligne. Ils avaient non seulement utilisé les données des parties qu'ils avaient jouées contre ce joueur, mais étaient également allés jusqu'à acheter l'historique d'un autre joueur. Grâce aux données de plusieurs dizaines de milliers de mains, ils ont pu établir un profil extrêmement précis de leur adversaire et élaborer un plan, qui s'est avéré juteux, puisqu'en à peine 5 heures de jeu, plus de 4 millions de dollars ont été emportés.
Ce dernier exemple montre bien l'étendue des domaines d'application du datamining : dès que les données sont nombreuses, c'est un outil puissant d'analyse (recherche médicale, reconnaissance vocale...).
Google, l'un des précurseurs
Google, très tôt, a été utilisateur des techniques de Data Mining, ce que l'on comprend aisement étant donné les volumes de données traités (rappel : 2 000 000 recherches/minute). Quelques outils utilisant le Data Mining :
- Google spell checker : le dictionnaire est en fait constitué en fonction des recherches des utilisateurs
- Autocomplétion
- Recherche locale
Google est conscient de l'importance des données et ne le cache pas :
Storing and analyzing logs of user searches is how Google's algorithm learns to give you more useful results. Just as data availability has driven progress of search in the past, the data in our search logs will certainly be a critical component of future breakthroughs.
Google nous apprend donc que l'enregistrement et l'analyse des logs des recherches des utilisateurs est ce qui permet à Google d'améliorer ses résultats. Tout comme la disponibilité des données a été source d'avancées par le passé, Google anticipe que ce qui sera fait avec ces logs de recherche le sera à l'avenir.
Voici pourtant le format très simple d'un log de recherche enregistré par Google :
IP – Cookie – Recherche – Date & heure
Démarche et Méthodes
Démarche
L'objectif est particulièrement important, on peut le voir comme la question à laquelle on souhaite répondre à partir des données.
L'étape de préparation des données est également essentielle, notamment du fait de l'hétérogénéité des données (on peut à la fois travailler sur des données structurées, comme les bases des données relationnelles, et sur des données non structurées, comme du son ou de la vidéo par exemple). Le but de cette étape est d'organiser et de classer les données en vue de les utiliser lors de l'étape suivante (on estime cette étape à environ 40% de la charge de travail d'un projet de Data Mining). Vient ensuite l'étape d'élaboration et de choix des modèles à appliquer (modèles issues de l'Intelligence Artificielle, des statistiques...etc) sur les données, en vue d'en extraire les connaissances recherchées dans le cadre de l'objectif initial.
Enfin, le Data Mining nécessite le plus souvent l'intervention d'un expert métier, pour évaluer, contrôler et exploiter les connaissances extraites. En effet, puisque ces connaissances sont le résultat de traitements semi-automatiques voire automatiques, il est nécessaire de les valider, ce qui ne peut se faire sans comprendre le sens des données en entrée.
Méthodes
Les méthodes descriptives permettent d'organiser, de simplifier et d'aider à comprendre l'information à partir des sources de données. (par exemple : recherche d'associations / recherche de séquences similaires ...etc)
Les méthodes prédictives visent à expliquer ou prévoir plusieurs phénomènes observables et effectivement mesurés. On cherche à prédire la valeur d'une variable cible à partir des valeurs de prédicteurs. (par exemple : régression linéaire multiple / réseaux de neurones / arbres de régression...) Autrement dit on cherche à anticiper la valeur de quelque chose (par exemple, si un client risque de ne pas pouvoir rembourser un prêt, c'est la variable cible) en fonction de ses caractéristiques connues (âge, emploi, salaire... ce sont les prédicteurs), en se basant pour cela sur les données dont on dispose (les précédents clients et les valeurs des prédicteurs et des variables cibles).
Problèmes et limites
Problèmes et limites
Le volume des données est parfois difficile à traiter, mais les solutions de calculs distribués (voir l'exposé de Camille Darcy sur le framework Hadoop) se démocratisent et constituent une solution intéressante.
Une autre limite du Data Mining est due au caractère automatique de la production d'un résultat. La réponse apportée par le Data Mining peut parfois être hors scope, voire poser des problèmes éthiques quand on se base sur des données liées aux personnes (des catégorisations de clients sur des critères ethniques, médicaux...etc).
Enfin, avec l'explosion des données personnelles disponibles sur Internet et la puissance du Data Mining, l'utilisation non cadrée de cet outil peut s'avérer être un véritable danger pour la vie privée, comme nous allons le découvrir dans la partie suivante.
0 commentaires:
Enregistrer un commentaire