Retour

Formation "Text mining avec R"

Faire parler vos données textuelles grâce au Text mining

Mis à jour le
Modélisation - méthodes statistiques
La formation propose une chaine complète de traitements allant de l’import de textes de sources différentes, à leur préparation et la création du vocabulaire jusqu’à leur analyse afin de les synthétiser de la manière la plus objective possible. Des exemples concrets de traitements seront mis en œuvre sur le logiciel R.

Les objectifs

  • Importer, préparer et structurer les données
  • Choisir les méthodes de Text Mining appropriées aux questions posées
  • Appliquer, à l’aide du logiciel R, les différentes méthodes
  • Interpréter les sorties de chaque méthode

Public :

Tout public

Pré-requis

Avoir des connaissances de base en statistique ainsi qu'une pratique intermédiaire du logiciel R (import de fichiers, manipulation des données et des objets R,...)

Programme

  • Importer des données textuelles depuis un répertoire ou un tableur en choisissant le bon codage
  • Nettoyer les données pour créer le vocabulaire : 
    • Supprimer ponctuation, chiffres, espaces, etc.
    • Annoter chaque mot avec sa fonction dans une phrase (article, verbe, etc.) et le mettre dans sa forme générique (singulier, infinitif, lemmatisation, etc)
  • Structurer les données et choisir la métrique d’analyse (présence/absence, nombre d’occurrence, TF-IDF)
  • Décrire le vocabulaire (fréquences des mots, nuages des mots, loi Zipf)
  • Comparer le vocabulaire de plusieurs groupes de texte, trouver les mots le plus spécifiques de chaque groupe, les relations entre les mots et les documents (AFC, clustering, …)
  • Identifier les différents thèmes que dégagent les textes (LDA)
  • Identifier des émotions (sentiment analysis) que dégagent les textes

Méthodes pédagogiques

Exposés et échanges

Manipulations et excercices pratiques sur des études de cas mises en œuvre avec le logiciel R

Evaluation des acquis

Questionnaire

Autre formation sur le même thème

Toutes les formations statistiques

Référence : TEXMI

Responsable pédagogique

pers
Sofia Meurisse
Data Analyst / Statisticien

Pour en savoir plus...

Conditions Générales de Vente Personnes handicapées Règlement intérieur

Autres formations sur le même thème