N°49 [Innovation] Connaissez-vous le text mining ?

Connaissez-vous le text mining ?

Sites internet, courriels, forums, réseaux so­ciaux… toutes les plateformes de com­mu­ni­ca­tion échangent chaque jour des millions de don­nées sous forme de textes : une masse d’in­for­ma­tion impressionnante, jusqu’alors peu ana­ly­sée.

Les analystes utilisent depuis toujours les chiffres (quan­tités, prix, volumes…) pour produire des sta­tis­tiques et des modèles. Ils utilisent ainsi des données struc­tu­rées, re­présentées par des champs bien définis (tableaux, bases de données SQL…). À l’inverse, les écrits en langage na­turel pré­sentent une structure très complexe au sens infor­matique du terme. Ils sont donc beaucoup plus dif­fi­ciles à ana­lyser.

Le « text mining » (fouille de texte) est une discipline qui consiste à explorer les informations textuelles pour en dé­gager des indicateurs statistiques, pour classer différents documents entre eux ou bien pour les synthétiser (produire des résumés automatiques). Depuis le simple dénombrement jusqu’à l’analyse du sens (la sémantique), de nombreuses méthodes et algorithmes entrent en jeu : comptage de mots, tagging, ré­currence, adjectifs, co-oc­currences, extraction de phrases, classification, clustering (K-means). L’utilisation de ces techniques permet de tirer d’une masse d’informations non structurées des indicateurs pertinents : degré de confidentialité, type de do­cument, thèmes abordés, mots-clés…


Olivier HAYS, directeur analyse de données

Retrouvez dès maintenant notre lettre n°49

vendredi 25 novembre 2016