Data Mining Le Data Mining est l’ensemble des méthodes scientifiques destinées à l’exploration et l’analyse de bases de données informatiques en vue de détecter dans ces données des profils-type, des comportements récurrents, des règles, des liens, des tendances inconnues (non fixées a priori), des structures particulières restituant de façon concise l’essentiel de l’information utile pour l’aide à la décision

Bref, il s'agit d’extraire l’information de la donnée. C'est en quelque sorte du "reverse engineering" qui cherche moins à comprendre qu'à repérer, on travaille plus sur les conséquences pour trouver les causes que l'inverse et cela à partir de volume de données gigantesques.

L’idée de découvrir des faits à partir des données est, certes, aussi vieille que la statistique. Mais le volume des données lui n'a jamais été aussi important.

Pour en savoir plus !

Source : France culture. Soft Power- L'Alphabet numérique. 17.05.2015

Les données ?

Tout ce qui est enregistré peut constituer une données. Vos échanges de mails, le web, vos achats, les livres, votre position géographique les statistiques... tout est donnée numérique.

Evidemment, les services marketing, les banques et les assurances sont les premiers à s'intéresser à ces données. En effet différentes méthodes d'analyse vont permettre d'en extraire des informations très utiles.

Mais d'autres sciences peuvent aussi s'y intéresser. Cela va de la médecine à l'ingénierie électrique en passant par la génétique ou l'aérostapiale.


image lienLe Big Data (voir module internet).

Que faire de ces données ?

Les méthodes descriptives.

Elles visent à mettre en évidence des informations présentes mais cachées par le volume des données. Par exemple, à partir des tickets de caisse, rechercher les associations de produits. Cela permet par exemple gèrer les offres. Amazon va vous proposer tel livre parce que vous en avez acheté tel autre.

Chaque jour, des centaines de milliers de médecins prennent des notes sur les effets des traitements qu’ils prescrivent à leurs patients : effets secondaires ou indésirables observés, temps de réaction, interactions avec d’autres traitements, etc.

Des chercheurs de Stanford ont mis au point une méthode originale pour analyser automatiquement les dossiers cliniques de millions de patients du Stanford Hospital. Les chercheurs ont donc établi une liste de mots-clés qu’ils ont utilisée pour « fouiller » dans les dossiers identifiés comme potentiellement à risque.

Les méthodes prédictives

Elles visent à extrapoler de nouvelles informations à partir des informations présentes. Vous cherchez un vol et l'on va vous proposer les meilleures dates pour l'acheter en fonction de l'extrapolation des données collectées.

Quelques exemples

big data

Eurovision, Miss France, épidémie de choléra, paris sportifs, incendies… Sur ces sujets inattendus, le Big Data a permis d’établir des prévisions très justes.