Enseignements 2012-2013 
- Bases de données et ACCESS (Licence IDEA 1ère année)
- Informatique appliquée (Licence SEG 3ème année)
- Intelligence Artificielle et représentation des connaissances (Master Informatique 1ère année)
- Projet et initiation à la recherche (Master Informatique 1ère année)
- Introduction à la fouille de textes (Master Informatique 2ème année, parcours ECD et SISE)
Teaching 2012-2013 
- Mining Complex Data: Text, Image, Web (M1 Informatique, parcours DMKM)
- Logic and Knowledge Representation (M1 Informatique, parcours DMKM)
Introduction à la fouille de textes
(Master Informatique 2ème année, parcours ECD et SISE)
Objectif du cours
L'objectif de ce cours est de donner les bases pour le traitement des données textuelles, en adoptant une approche essentiellement statistique. Des notions de Traitement Automatique des Langues (TAL) seront également dispensées. Des travaux pratiques sont prévus afin de tester les éléments vues en cours en utilisant le langage R.
L'enseignement est composé des cours suivants :
- Introduction générale
- Applications de la fouille de textes
- Eléments de base en fouille de texte
- Connaissances pour la fouille de textes
- Apprentissage automatique et fouille de textes
Supports de cours :
- CM : introduction générale à la fouille des données complexes pour les humanités numériques

- CM : quelques applications phares en fouille de textes (recherche d'information, résumé de documents, classification de SPAM, etc.)

- TD 1ère série :
(avec la chanson de Brel :
)
- CM : éléments de base en fouille de textes (représentation, comparaison, prétraitements élémentaires)

- CM : premiers pas en TAL (chunking, PoS tagging, word sense disambiguation...)

- CM : utilisation de bases de connaissances (WordNet...)

- CM : apprentissage non supervisé pour la fouille de textes (clustering, LSI, NMF, topic models)

- TD 2ème série :

- TD 3ème série :
(avec les données issues de Reuters :
)
Références et bibliographie :
- An Introduction to R : introduction officielle au langage R par l'équipe qui maintient la librairie du site officiel.
- Aide mémoire de A. Duclert : très bon guide récapitulant les notions / commandes les plus utiles dans le langage R.
- Text Data Mining With Twitter And R : petite note publiée par "Heuristic Andrew" pour analyser automatiquement des tweets à l'aide du langage R.
- Librairie Jazzy : librairie en Java pour faire du "spell checking", avec un petit tutoriel pour présenter quelques méthodes (Soundex et Métaphone, en particulier).