Table des matières
1. Introduction et historique
Test de Turing
Décrit par Alan Turing en 1950 dans sa publication « Computing machinery and intelligence » (wikipedia)
1.1 Débuts de l'Intelligence Artificielle
1.2 Complexité du langage naturel
1.3 Objectifs initiaux de la fouille de textes
1.4 Objectifs actuels de la fouille de textes
//Plan d'ensemble du cours :
//les corpus de textes sont traités à l'aide de ressources par des outils inclus dans des chaines de traitements et pour une tâche donnée
2. Tâches
2.1 Traduction
Traduire d'une langue vers une autre un texte.2.2 Question-Réponse
MUCAnalyse de la question et des documents où doit se trouver la réponse
Tri des documents selon leur pertinence
Affichage des documents pertinents
2.3 Catégorisation de textes
Par thème, par auteur2.3.1 Filtrage des courriels indésirables
TREC depuis 1992Text REtrieval Conference (http://trec.nist.gov/)
Attribuer un niveau d'indésirabilité pour chaque courriel
Analyse des en-têtes et du corps des messages
Règles établies manuellement avec pondération par un réseau de neurone : SpamAssassin
Bayésien naïf : Bogofilter
Exemple d'actualité : le Phishing
Consiste à usurper l'identité d'une société pour obtenir des informations confidentielles auprès de ses clients.
2.3.2 DEfi Fouille de Textes (DEFT)
(http://www.lri.fr/ia/fdt/DEFT/)DEFT'05 : Identifier un locuteur particulier parmi deux locuteurs
Discours politiques prononcés par les présidents J. Chirac et F. Mitterrand
DEFT'06 : Identifier les sections thématiques d'un document
Trois corpus différents : discours politiques, ouvrage scientifique, textes de lois européens
2.4 Autres tâches récentes
2.4.1 Veille technologique (Economic Intelligence)
Trouver des informations nouvelles sur une société, un produit sur la Toile.Attribuer une opinion positive ou négative pour une société ou un produit à partir des documents là concernant.
2.4.2 Implication textuelle (Textual entailment)
Déterminer si un texte implique un autre texte au niveau de son sens.http://www.cs.biu.ac.il/~glikmao/rte05/index.html
2.4.3 Toile sémantique (Semantic Web)
Basé sur l'utilisation des standards XML, RDF, OWL, ...Annoter sémantiquement les documents de la Toile à l'aide de balises sémantiques
Calculer une mesure de similarité entre documents à partir des balises sémantiques des pages, des balises non sémantiques et du contenu des balises
//Assistants intelligents
3. Définitions
3.1 Éléments des textes traités
3.1.1 Mot
1. une suite de symboles différents d'une ponctuation séparés par des ponctuations2. une unité minimale de signification appartenant au lexique appelé lexème
3.1.2 Étiquette
Annotation d'un mot qui peut être grammaticale ou sémantiqueExemple : Nom, Verbe ou Lieu, Date
3.1.3 Relation
Annotation d'une relation entre deux ou plusieurs mots qui peut être grammaticale ou sémantiqueExemple : sujet-verbe ou partie-de
3.1.4 Entité Nommée
3.1.5 Terme
expression possèdant un sens donné pour un domaine spécifique3.1.6 Collocation
expression dont le sens global est différent de la somme du sens de ses unités, une des unités modifiant le sens de l'autre3.2 Ressources de traitement
3.2.1 Corpus de textes
Ensemble de textes homogènes3.2.2 Lexique de mots
Liste de mots associés à une plusieurs catégories3.2.3 Ensemble de règles
étiquetage, relations syntaxiquesnon contextuelle : mot terminé par un s -> étiquette pluriel
contextuelle : mots suivant un nombre autre que 1 -> étiquette pluriel
3.2.4 Ontologie de concepts
Ensemble de mots et/ou concept et de relations entre eux4 Chaine de traitements
4.1 Chaine générale
suite d'étapes indépendantes (dans la littérature)décliner la chaine pour chacune des taches
4.2 Modules
4..21 Normalisation
segmenteur (tokenizer)découper en mots, phrases un texte
lemmatiseur
mettre tous les mots au masculin singulier
Les prétraitements des données textuelles consistent à
{\bf normaliser} les diverses manières d'écrire un même mot,
{\bf corriger} les fautes d'orthographe évidentes ou les incohérences typographiques
{\bf expliciter} certaines informations lexicales exprimées implicitement dans les textes.
Les traitements pour ce dernier cas consistent, par exemple, à
remplacer l'élision \emph{l'} par les articles \emph{le, la, les}
correspondant ou à extraire la structure superficielle des textes à partir
d'indices comme une ligne vide pour délimiter les paragraphes.
4.2.2 Étiquetage
fonctions grammaticalessupervisé / non supervisé
règles + stat : brill
stat
RN
voir la thèse d'Ahmed
4.2.3 Extraction d'entités nommées
entité nommées : lieu, date, organisation, personne5. Applications
5.1 Question-Réponse
5.2 Catégorisation de textes
sac de mots : ngrammsLSA
SVM : noyeaux string dédiés (produit vectoriel de ngramms)
- > these de Thorsten Joachim
Probabilistic LSI (Thomas Hofman)
5.3 Terminologie
extraction des termes les plus pertinents pour le domaine du texte analysé// Random Projection
6. Discussions, résultats et perspectives
6.1 Taille des données
6.1.1 Taille des ressources
6.1.2 Proportion du corpus annoté
6.1.3 Fouille de données massives / restreintes
6.2 Réutilisabilité des ressources
6.2.1 Indépendance des ressources
Transfert d'une ressource entre différents domainesIndépendance des règles par rapports aux domaines
6.2.2 Spécificité du corpus traité
Domaine restreint / mutliples domaines6.3 Résultats actuels
outils efficaces : étiquetage grammatical, extraction d'entités nomméestâches résolues partiellement : question-réponse, catégorisation de textes
6.4 Perspectives
outils à développer : normalisationtâches à développer : traduction, Toile sémantique, etc.
7. Bibliographie
Walter Daelemans, Véronique Hoste, Fien De Meulder, Bart Naudts: Combined Optimization of Feature Selection and Algorithm Parameters in Machine Learning of Language. ECML 2003: 84-95Yiming Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, Vol 1, No. 1/2, pp 67--88, 1999.
7.1 active learning
N. Cesa-Bianchi, A. Conconi, and C. GentileOn the generalization ability of on-line learning algorithms.
IEEE Transactions on Information Theory, 50(9):2050-2057, 2004.
Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/)
Eric Brill, Raymond J. Mooney: An Overview of Empirical Natural Language Processing. AI Magazine 18(4): 13-24 (1997)
Craig Saunders, David R. Hardoon, John Shawe-Taylor, Gerhard Widmer: Using String Kernels to identify Famous Performers from Their Playing Style. ECML 2004: 384-395