Le Data Mining

Posted by IT NISRO 0 commentaires

 Une traduction "mot à mot" de Data Mining peut-être exploration de données ou encore extraction de connaissances à partir de données.

Usama M. Fayyad (qui a notamment exercé les fonctionnalités de vice-président et de responsable des données chez Yahoo), a proposé en 1996 la définition suivante du Data Mining :

Processus non-trivial d'identification de structures inconnues,
valides et potentiellement exploitables dans les bases de données

Autrement dit, on cherche, par un processus complexe (du fait du volume et/ou de l'hétérogénéité des données), à connaitre quelque chose de nouveau, qui soit vrai, et éventuellement utilisable dans les bases données.

Le Data Mining


D'où vient le Data Mining                                                                         

    L'analyse de données et les statistiques exploratoires existent depuis plus de 30 ans. On peut voir le Data Mining comme un prolongement de ces domaines, avec des différences notables :

  • ajout de techniques issues de l'Intelligence Artificielle (ex : Machine Learning)
  • travail potentiel sur données non structurées
  • caractère business souvent présent (exploitation commerciale...)

Big Data                                                                                                   

    Cette expression de "Big Data", a fait le buzz pendant plusieurs mois, le Data Mining y est étroitement lié. Certains y voient une potentielle 4ème révolution industrielle, tant les avancées potentielles et les domaines d'application sont nombreux. Je vous conseille cet article très intéressant pour en savoir plus sur le sujet.


Domaines d'application

Scroring                                                                                                   

    Le scoring consiste en marketing à affecter une note à un client ou un prospect. Le but est de déterminer le profil du client par rapport à l'activité de l'entreprise, et ainsi réduire le coût d'acquisition ou de conservation d'un client, en ciblant les opérations marketing sur les profils considérés les plus "réceptifs". Le scoring est par exemple utilisé chez les assurances, les banques ou encore les opérateurs téléphoniques. (ex : ne pas accorder un prêt à un client qui présente un profil reconnu par le datamining comme présentant un haut risque de non remboursement. )
Le Data Mining peut par exemple être utilisé pour déterminer quels sont les critères à prendre en compte pour considérer un client comme "réceptif".

Prévention du crime                                                                                

    Plusieurs expériences ont été menées dans ce domaine. Une utilisation aux USA a par exemple été d'identifier les associations de lieu et de plages horaires auxquelles les crimes se produisaient le plus, afin de renforcer la présence policière en conséquence.
Voir également cet article sur l'utilisation du datamining pour la réduction du vol à l'étalage.

Détection de fraudes                                                                               

    Dans les systèmes complexes gérant un nombre d'utilisateurs importants (les administrations par exemple), un problème se pose fréquemment : la fraude. Le Data Mining, utilise la classification sur les données. Ce mécanisme peut notamment permettre de détecter les données qui vont sortir de l'ordinaire, qui n'auront pas la même empreinte que les comportements "normaux". Certains comportements "normaux" peuvent également sortir de l'ordinaire et constitueront des faux positifs dans le cas de la détection de la fraude, mais c'est une méthode qui permettra de faire ressortir les cas à surveiller.

Poker !                                                                                                    

Trois personnes ont utilisé en 2009 le datamining à l'encontre un joueur en ligne. Ils avaient non seulement utilisé les données des parties qu'ils avaient jouées contre ce joueur, mais étaient également allés jusqu'à acheter l'historique d'un autre joueur. Grâce aux données de plusieurs dizaines de milliers de mains, ils ont pu établir un profil extrêmement précis de leur adversaire et élaborer un plan, qui s'est avéré juteux, puisqu'en à peine 5 heures de jeu, plus de 4 millions de dollars ont été emportés.

En savoir plus

Ce dernier exemple montre bien l'étendue des domaines d'application du datamining : dès que les données sont nombreuses, c'est un outil puissant d'analyse (recherche médicale, reconnaissance vocale...).

Google, l'un des précurseurs                                                                   

    Google, très tôt, a été utilisateur des techniques de Data Mining, ce que l'on comprend aisement étant donné les volumes de données traités (rappel : 2 000 000 recherches/minute). Quelques outils utilisant le Data Mining :

  • Google spell checker : le dictionnaire est en fait constitué en fonction des recherches des utilisateurs
  • Autocomplétion
  • Recherche locale

Google est conscient de l'importance des données et ne le cache pas :

Storing and analyzing logs of user searches is how Google's algorithm learns to give you more useful results. Just as data availability has driven progress of search in the past, the data in our search logs will certainly be a critical component of future breakthroughs.

Google nous apprend donc que l'enregistrement et l'analyse des logs des recherches des utilisateurs est ce qui permet à Google d'améliorer ses résultats. Tout comme la disponibilité des données a été source d'avancées par le passé, Google anticipe que ce qui sera fait avec ces logs de recherche le sera à l'avenir.

Voici pourtant le format très simple d'un log de recherche enregistré par Google :
IP – Cookie – Recherche – Date & heure

C'est grâce à ces mêmes logs de recherche que Google est actuellement l'instance la plus efficace pour la détection et l'anticipation des épidémies de grippe, le site FluTrends a d'ailleurs été mis en ligne pour permettre a chacun d'observer l'évolution des recherches sur la grippe.

Démarche et Méthodes

Démarche                                                                                                

    Le Data Mining est une discipline dans laquelle on travaille en mode projet.
L'objectif est particulièrement important, on peut le voir comme la question à laquelle on souhaite répondre à partir des données.
L'étape de préparation des données est également essentielle, notamment du fait de l'hétérogénéité des données (on peut à la fois travailler sur des données structurées, comme les bases des données relationnelles, et sur des données non structurées, comme du son ou de la vidéo par exemple). Le but de cette étape est d'organiser et de classer les données en vue de les utiliser lors de l'étape suivante (on estime cette étape à environ 40% de la charge de travail d'un projet de Data Mining). Vient ensuite l'étape d'élaboration et de choix des modèles à appliquer (modèles issues de l'Intelligence Artificielle, des statistiques...etc) sur les données, en vue d'en extraire les connaissances recherchées dans le cadre de l'objectif initial.
Enfin, le Data Mining nécessite le plus souvent l'intervention d'un expert métier, pour évaluer, contrôler et exploiter les connaissances extraites. En effet, puisque ces connaissances sont le résultat de traitements semi-automatiques voire automatiques, il est nécessaire de les valider, ce qui ne peut se faire sans comprendre le sens des données en entrée.

Méthodes                                                                                                 

    Dans les méthodes utilisées par le Data Mining, on distingue deux grandes familles d'algorithmes :

Les méthodes descriptives permettent d'organiser, de simplifier et d'aider à comprendre l'information à partir des sources de données. (par exemple : recherche d'associations / recherche de séquences similaires ...etc)

Les méthodes prédictives visent à expliquer ou prévoir plusieurs phénomènes observables et effectivement mesurés. On cherche à prédire la valeur d'une variable cible à partir des valeurs de prédicteurs. (par exemple : régression linéaire multiple / réseaux de neurones / arbres de régression...) Autrement dit on cherche à anticiper la valeur de quelque chose (par exemple, si un client risque de ne pas pouvoir rembourser un prêt, c'est la variable cible) en fonction de ses caractéristiques connues (âge, emploi, salaire... ce sont les prédicteurs), en se basant pour cela sur les données dont on dispose (les précédents clients et les valeurs des prédicteurs et des variables cibles).

Problèmes et limites

Problèmes et limites                                                                               

    Comme nous l'avons vu précédemment, l'hétérogénéité des données reste un problème puisque cela induit une phase très chrono-phage de préparation.
Le volume des données est parfois difficile à traiter, mais les solutions de calculs distribués (voir l'exposé de Camille Darcy sur le framework Hadoop) se démocratisent et constituent une solution intéressante.
Une autre limite du Data Mining est due au caractère automatique de la production d'un résultat. La réponse apportée par le Data Mining peut parfois être hors scope, voire poser des problèmes éthiques quand on se base sur des données liées aux personnes (des catégorisations de clients sur des critères ethniques, médicaux...etc).
Enfin, avec l'explosion des données personnelles disponibles sur Internet et la puissance du Data Mining, l'utilisation non cadrée de cet outil peut s'avérer être un véritable danger pour la vie privée, comme nous allons le découvrir dans la partie suivante.


0 commentaires:

Enregistrer un commentaire

Membres

Formulaire de contact

Nom

E-mail *

Message *