SlideShare una empresa de Scribd logo
1 de 34
Descargar para leer sin conexión
INRIA
IA et Traitement Automatique des Langues (TAL)
Quel panorama ?
Éric de la Clergerie
<Eric.De_La_Clergerie@inria.fr>
Almanach
http://alpage.inria.fr
Séminaire DIXIT
Paris, 24 Février 2017
INRIA Éric de la Clergerie IA & NLP 07/12/15 1 / 34
INRIA
Analyse Linguistique Profonde À Grande Échelle
Outils + Ressources linguistiques vers Données + Apprentissage
<?xml version=" 1.0 " encoding="ISO−8859−1"?>
<dependencies id="E1" mode=" f u l l ">
< c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex="
E1F2 | soyons " / >
< c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s "
lex="E1F3 | i m a g i n a t i f s " / >
< c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex=
"E1F6 | déclare " / >
<node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72
" lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / >
<node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 "
lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / >
<node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 "
lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / >
<edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l
" label =" subject ">
<deriv names="E1d104" source_op="E1o5" target_op="E1o20"
span="6 7" / >
< / edge>
<edge id="E1e011" source="E1n007" target ="E1n013" type=" subst
à tester sur http://alpage.inria.fr/frmgwiki
Grammaire
FRMG
Lexique LEFFF
Entités Nommées
ALEDA
WordNet
WOLF FrameNet
ASFALDA
treebanks
INRIA Éric de la Clergerie IA & NLP 07/12/15 2 / 34
INRIA
Quelles applications ?
Extraction d’information & Annotations
http://alpage.inria.fr/sapiens
Acquisition de connaissances (à partir de grands corpus)
http://alpage.inria.fr/Lbx
INRIA Éric de la Clergerie IA & NLP 07/12/15 3 / 34
INRIA
Beaucoup d’applications potentielles . . .
recherche d’information, veille, extraction, questions-réponses
accès à l’information : traduction, résumés, annotations/liens
sémantiques
analyse d’opinion, e-réputation
analyse de communautés (tweets, blogs, . . . )
génération (articles journaux, rapports, ...)
plagiat, authoring, détection spams & faux commentaires, fact checking
aide à la rédaction : correction grammaticale, stylistique ; saisie prédictive
aide pédagogique : apprentissage des langues, tutorat, évaluation
interaction : agents conversationnels, chatbots, assistants numériques,
reconnaissance vocale, synthèse, dictée vocale
INRIA Éric de la Clergerie IA & NLP 07/12/15 4 / 34
INRIA
Et déjà de bons résultats en bricolant . . .
Robot journaliste (inquiétudes !)
http://goo.gl/0cpFvC
Générer du non-sens new-age !
http://sebpearce.com/bullshit/
Eliza la thérapiste !
http://www.eliza.levillage.org/
INRIA Éric de la Clergerie IA & NLP 07/12/15 5 / 34
INRIA
Mais de réelles difficultés !
Forte ambiguïté du langage (tous niveaux)
⇒ besoin connaissances sur le monde, le contexte, . . . ,
via ressources et statistiques
Diversité (langues, domaines, phénomènes),
créativité (néologismes, expressions) et évolutivité
⇒ besoin de robustesse
Ellipses (ce qui n’est pas dit/écrit)
⇒ besoin connaissances partagées, aspects culturels
Jeux avec le language (métaphores, euphémismes, ironie, . . . )
Omar m’a tuer
Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais que
c’est pas parce que vous voulez renverser la table que vous
descendez de la voiture dont vous vous abstenez de choisir le
chauffeur.
INRIA Éric de la Clergerie IA & NLP 07/12/15 6 / 34
INRIA
Néanmoins des succès récents et des annonces
2010: Google translate
2011: IBM Watson
gagne à Jeopardy 2011: Assistants vocaux
Siri, Google Now, Cortana
2014: Le chatbot Eugene Goostman
réussit le test de Turing ?
http://goo.gl/hQSmmf
2015: une IA surveille
wikipedia
http://goo.gl/zAvbSt
INRIA Éric de la Clergerie IA & NLP 07/12/15 7 / 34
INRIA
IA ? On y est presque :-)
Réseaux de Neurones: le
retour !
Buzz sur Deep Learning
et word embeddings
2013: Word embeddings
analogies ≡ calcul vectoriel
Mikolov et al.2014: Analyse d’opinions
Socher et al.
2015: Google SmartReply
suggérer des réponses aux mails
http://goo.gl/d8R2LI
DeepMind (Google) annonce Neural Turing Machine
Labo Facebook Paris
Toolkit Google TensorFlow libéré
nombreux autres toolkits
INRIA Éric de la Clergerie IA & NLP 07/12/15 8 / 34
INRIA
Une conjonction de bons facteurs
Masses de données
textuelles (et autres)
Des algo d’apprentissage
de + en + sophistiqués
De la puissance de calcul
Linked Open Data
Des ressources structu-
rées (RDF) et en réseau
INRIA Éric de la Clergerie IA & NLP 07/12/15 9 / 34
INRIA
Une chronologie simplifiée
Symbolique
Apprentissage
Neuronal
performances
1950 ∼ 1980 ∼ 2000 ∼ 2010
INRIA Éric de la Clergerie IA & NLP 07/12/15 10 / 34
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 11 / 34
INRIA
Aproches symboliques
S’appuyant sur des ressources linguistiques,
(semi-) manuellement construites
grammaire
FRMG
lexique
LEFFF
EN
ALEDA
WordNet
WOLF
FrameNet
ASFALDA
VerbNet
VERBENET
INRIA Éric de la Clergerie IA & NLP 07/12/15 12 / 34
INRIA
Vers des ressources sémantiques : ontologies
Rapprochement TAL et Web Sémantique
INRIA Éric de la Clergerie IA & NLP 07/12/15 13 / 34
INRIA
Évènements et rôles : FrameNet Baker & Fillmore
Pour l’extraction d’information : qui fait QUOI, quand, comment, . . .
Importance de connaissances sur des scénari d’évenements,
avec indications sur les acteurs, leurs rôles, et constructions syntaxiques
FRAMENET (http://framenet.icsi.berkeley.edu/)
COMMERCE_PAY This frame involves Buyers paying Money for Goods. In
this frame the Money is the direct object, and is mapped to the theme of
the transfer.
COMMUNICATION A Communicator conveys a Message to an Addressee ;
the Topic and Medium of the communication also may be expressed.
Relié aux rôles thématiques : agent, patient, theme, . . .
Ressources similaires : VERBNET, PROPBANK, . . .
ALPAGE : ASFALDA
INRIA Éric de la Clergerie IA & NLP 07/12/15 14 / 34
INRIA
Aproches symboliques (pro & cons)
Ecosystèmes (complexes) de ressources linguistiques
grammaire
FRMG
lexique
LEFFF
EN
ALEDA
WordNet
WOLF
FrameNet
ASFALDA
VerbNet
VERBENET
expertise linguistique
taille & complexité
faible couverture
trop fines
non probabilisées
compréhensibles
évolutives
∼ dev. logiciel
INRIA Éric de la Clergerie IA & NLP 07/12/15 15 / 34
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 16 / 34
INRIA
Succès et limites des approches supervisées
Courant majoritaire : données annotées et apprentissage supervisé
FTB
12Ks
Sequoia
Bank
3Ks
Question
Bank
2Ks
SocialMedia
Bank
Time
Bank
Discourse
TreeBank
Rhapsodie
TreeBank
efficace
découplage
robustesse
évaluation
autonome
coût humain
fastidieux
peu évolutif
sensibilité domaine
expertise traits
boite noire
INRIA Éric de la Clergerie IA & NLP 07/12/15 17 / 34
INRIA
Importance des jeux de traits
Méthodes (discriminantes) : apprentissage configuration vers décision
Les configurations abstraites par des propriétés (trait – features)
Tâche d’étiquetage syntaxique : la configuration c
Paul/PN pense/V que le chat dort
abstraite par
f1 le mot courant est que
f2 le mot précedent est pense
f3 le mot à -2 est Paul
f4 l’étiquette du mot à -1 est v
f5 le mot à -2 commence par une majuscule
...
...
f93 les 2 étiquettes précédentes sont pn v
f100 les 2 mots précédents sont Paul pense
...
...
très gros jeux de traits très gros modèles et sur-entraînement
INRIA Éric de la Clergerie IA & NLP 07/12/15 18 / 34
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 19 / 34
INRIA
IA ? On y est presque :-)
Réseaux de Neurones: le
retour !
Buzz sur Deep Learning
et word embeddings
2013: Word embeddings
analogies ≡ calcul vectoriel
Mikolov et al.2014: Analyse d’opinions
Socher et al.
2015: Google SmartReply
suggérer des réponses aux mails
http://goo.gl/d8R2LI
DeepMind (Google) annonce Neural Turing Machine
Labo Facebook Paris
Toolkit Google TensorFlow libéré
nombreux autres toolkits: Theano, Keras, Torch, . . .
https://en.wikipedia.org/wiki/Comparison_of_deep_learning_
software
INRIA Éric de la Clergerie IA & NLP 07/12/15 20 / 34
INRIA
Base
Modélisation des neurones biologiques :
les neurones portent des vecteurs (de réels) x = [−, · · · , −]
de dimension moyenne (d=100 à 500)
les vecteurs xi associés à des neurones d’entrées sont combinés pour
fournir un vecteur y à un neurone de sortie
y
x1 x2 x3 x4
Foward
y = σ(Σi Ai xi ) avec Ai matrice
Fonction d’activation σ : en générale non linéaire
σ doit faire basculer l’état du neurone de sortie vers oui ou non
INRIA Éric de la Clergerie IA & NLP 07/12/15 21 / 34
INRIA
Fonctions d’activation
Utilisation de fonctions proches d’une bascule oui/non mais dérivables
tanh(x) =
ex
− e−x
ex + e−x
tanh (x) = 1 − tanh2
(x)
tangente hyperbolique tanh
D’autres fonctions sont aussi utilisées (softmax, sigmoïde)
INRIA Éric de la Clergerie IA & NLP 07/12/15 22 / 34
INRIA
Sorties multiples
On peut avoir plusieurs neurones de sortie
y1 y2
x1 x2 x3 x4
INRIA Éric de la Clergerie IA & NLP 07/12/15 23 / 34
INRIA
Couches cachées
On peut intercaler des couches cachées intermédiaires
⇒ abstraction progressive des informations des neurones d’entrée traits
y1 y2
x1 x2 x3 x4
INRIA Éric de la Clergerie IA & NLP 07/12/15 24 / 34
INRIA
Apprentissage : backpropagation
y1 y2
x1 x2 x3 x4
Backward
Similaire au perceptron
redescente des erreurs des neurones de sortie vers les neurones d’entrée
(backpropagation)
mise à jour des paramètres Wi par descente de gradient
W
(t+1)
i = W
(t)
i − µ ∗
∂y
∂Wi
INRIA Éric de la Clergerie IA & NLP 07/12/15 25 / 34
INRIA
Réseaux récurrents
Pour le TAL, on veut des réseaux adaptés au traitement de séquences
(charactères, mots, phrases, . . . )
⇒ Réseaux récurrents
la sortie de la config à i est utilisée comme entrée pour calculer i + 1
INRIA Éric de la Clergerie IA & NLP 07/12/15 26 / 34
INRIA
LSTM
Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli)
Long-Short Term Memory – LSTM
INRIA Éric de la Clergerie IA & NLP 07/12/15 27 / 34
INRIA
Agencer des briques
État de l’art actuellement en TAL :
bi-LSTM (lecture gauche-droite + lecture droite-gauche)
sur mots et si-besoin caractères
+ convolution 1D (combine info autour du mot courant)
Crédits : Practical Neural Networks for NLP : From Theory to Code. Dyer, Goldberg, and Neubig
INRIA Éric de la Clergerie IA & NLP 07/12/15 28 / 34
INRIA
Pro & Cons
État de l’art en TAL sur de nombreuse tâches,
mais proche d’autres méthodes d’apprentissage
ouverture vers d’autres tâches (approches moins supervisées)
agencement (+ en + complexe) de réseaux de base
mais les premières couches utilisables pour plusieurs tâches
besoin de gros volumes de données
sensibles aux initialisations
entraînements longs
interprétation des modèles
INRIA Éric de la Clergerie IA & NLP 07/12/15 29 / 34
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éric de la Clergerie IA & NLP 07/12/15 30 / 34
INRIA
Hybridation
Mariage symbolique et apprentissage (tenté avec FRMG)
expertise forte requise
formel x linguistique
problème couverture
(mais FRMG ∼ 90%, et
intérêt des erreurs)
ressources linguistiques
requises/exploitables
gestion des ambiguïtés
compréhensibilité et
adaptabilité
développement initial rapide
moins sensible au domaine
possibilité de régler des
paramètres par apprentissage
(hybridation) et couplage avec
outils statistiques
FTB test
Europar
annodis
emea-fr-dev
emea-fr-test
frwiki
82
84
86
88
90
LAS
FRMG stat. FRMG+stat.
Divers analyseurs sur corpus SEQUOIA
INRIA Éric de la Clergerie IA & NLP 07/12/15 31 / 34
INRIA
Approches non supervisées
Courant futuriste : emploi encore limité !
Partir de données brutes :
ok pour modèles de langue (saisie prédictive)
⇒ Word Embeddings (word2vec)
ok pour regroupements (clustering)
ressources
extraction terminologie, champs thématiques,
réseaux sémantiques, morphologie, . . .
en général besoin de validation
pas trop mal pour étiquetage et ségmentation
faible sur des décisions complexes
(induction de grammaires)
http://stp.lingfil.uu.se/
~bea/copiale/
INRIA Éric de la Clergerie IA & NLP 07/12/15 32 / 34
INRIA
Vers des approches faiblement supervisées
Courant prometteur : l’imagination au pouvoir
Exploitation de vues multiples et interactions
traduction : textes alignés
transfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . )
accès aux logs des moteurs de recherche + liens suivis + bouton chance
analyse d’opinion : associer commentaires et notes données par les
utilisateurs (Google/Jigsaw Perspective)
réseaux sociaux : méta-données associées (threads/discussions, date, . . . )
séquences de mails Google SmartReply
Photos & légendes ; Films & sous-titres
crowdsourcing : payant ou au travers de jeux
INRIA Éric de la Clergerie IA & NLP 07/12/15 33 / 34
INRIA
Conclusion
Une époque faste (données, puissance, algo, ressources)
mais quels acteurs ?
Une grande palette de techniques et des mariages possibles
De nouvelles approches à explorer pour des supervisions faibles
Proche d’IA spécialistes (go, poker,. . . ) mais loin d’IA généralistes
pb : agencement/interaction de très nombreux composants
Et encore très loin d’une compréhension du langage et du monde
apprendre à apprendre, adaptation à l’imprévu, . . . ( Almanach)
INRIA Éric de la Clergerie IA & NLP 07/12/15 34 / 34

Más contenido relacionado

Destacado

Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireAntidot
 
Green marketing initiatives and the impact of graduate consume
Green marketing initiatives and the impact of graduate consumeGreen marketing initiatives and the impact of graduate consume
Green marketing initiatives and the impact of graduate consumeprj_publication
 
Comparing approaches: Running database workloads on Dell EMC and Microsoft hy...
Comparing approaches: Running database workloads on Dell EMC and Microsoft hy...Comparing approaches: Running database workloads on Dell EMC and Microsoft hy...
Comparing approaches: Running database workloads on Dell EMC and Microsoft hy...Principled Technologies
 
Digital Defense for Activists (and the rest of us)
Digital Defense for Activists (and the rest of us)Digital Defense for Activists (and the rest of us)
Digital Defense for Activists (and the rest of us)Michele Chubirka
 
Khalil khan (it engineer resume)
Khalil khan (it engineer resume)Khalil khan (it engineer resume)
Khalil khan (it engineer resume)Khalil Khan
 
Machine learning for_finance
Machine learning for_financeMachine learning for_finance
Machine learning for_financeStefan Duprey
 
LSA17: Location Data in Action (NinthDecimal, Ansira)
LSA17: Location Data in Action (NinthDecimal, Ansira)LSA17: Location Data in Action (NinthDecimal, Ansira)
LSA17: Location Data in Action (NinthDecimal, Ansira)Localogy
 
Machine learning use cases in finance
Machine learning use cases in financeMachine learning use cases in finance
Machine learning use cases in financeDavid Guerineau
 
alpage-scribo-knowledge-acquisition
alpage-scribo-knowledge-acquisitionalpage-scribo-knowledge-acquisition
alpage-scribo-knowledge-acquisitionEric De la Clergerie
 
Le TAL pour l'aide à la correction, utopie ou vraie piste
Le TAL pour l'aide à la correction, utopie ou vraie pisteLe TAL pour l'aide à la correction, utopie ou vraie piste
Le TAL pour l'aide à la correction, utopie ou vraie pisteEric De la Clergerie
 
Une palette mathématique pour appréhender le langage
Une palette mathématique pour appréhender le langageUne palette mathématique pour appréhender le langage
Une palette mathématique pour appréhender le langageEric De la Clergerie
 
Digipak and Magazine Advert Pitch
Digipak and Magazine Advert PitchDigipak and Magazine Advert Pitch
Digipak and Magazine Advert PitchJack Halford
 

Destacado (13)

Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaire
 
Green marketing initiatives and the impact of graduate consume
Green marketing initiatives and the impact of graduate consumeGreen marketing initiatives and the impact of graduate consume
Green marketing initiatives and the impact of graduate consume
 
Comparing approaches: Running database workloads on Dell EMC and Microsoft hy...
Comparing approaches: Running database workloads on Dell EMC and Microsoft hy...Comparing approaches: Running database workloads on Dell EMC and Microsoft hy...
Comparing approaches: Running database workloads on Dell EMC and Microsoft hy...
 
Digital Defense for Activists (and the rest of us)
Digital Defense for Activists (and the rest of us)Digital Defense for Activists (and the rest of us)
Digital Defense for Activists (and the rest of us)
 
Khalil khan (it engineer resume)
Khalil khan (it engineer resume)Khalil khan (it engineer resume)
Khalil khan (it engineer resume)
 
Machine learning for_finance
Machine learning for_financeMachine learning for_finance
Machine learning for_finance
 
LSA17: Location Data in Action (NinthDecimal, Ansira)
LSA17: Location Data in Action (NinthDecimal, Ansira)LSA17: Location Data in Action (NinthDecimal, Ansira)
LSA17: Location Data in Action (NinthDecimal, Ansira)
 
Machine learning use cases in finance
Machine learning use cases in financeMachine learning use cases in finance
Machine learning use cases in finance
 
alpage-scribo-knowledge-acquisition
alpage-scribo-knowledge-acquisitionalpage-scribo-knowledge-acquisition
alpage-scribo-knowledge-acquisition
 
Le TAL pour l'aide à la correction, utopie ou vraie piste
Le TAL pour l'aide à la correction, utopie ou vraie pisteLe TAL pour l'aide à la correction, utopie ou vraie piste
Le TAL pour l'aide à la correction, utopie ou vraie piste
 
Une palette mathématique pour appréhender le langage
Une palette mathématique pour appréhender le langageUne palette mathématique pour appréhender le langage
Une palette mathématique pour appréhender le langage
 
Digipak and Magazine Advert Pitch
Digipak and Magazine Advert PitchDigipak and Magazine Advert Pitch
Digipak and Magazine Advert Pitch
 
COMPILACIÓN
COMPILACIÓN COMPILACIÓN
COMPILACIÓN
 

Similar a IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Le_GFII
 
Conférence du 10 novembre 2O22 par Yvon Gervaise.pdf
Conférence du 10 novembre 2O22  par Yvon Gervaise.pdfConférence du 10 novembre 2O22  par Yvon Gervaise.pdf
Conférence du 10 novembre 2O22 par Yvon Gervaise.pdfYvon Gervaise
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Faire savoir le web s ingularité
Faire savoir le web s ingularitéFaire savoir le web s ingularité
Faire savoir le web s ingularitéAbeline Majorel
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...FootballLovers9
 
Des expériences simples autour du langage
Des expériences simples autour du langageDes expériences simples autour du langage
Des expériences simples autour du langageEric De la Clergerie
 
_(V3.0) Aux sources de la simplicité Bordeaux 2022.pptx
_(V3.0) Aux sources de la simplicité Bordeaux 2022.pptx_(V3.0) Aux sources de la simplicité Bordeaux 2022.pptx
_(V3.0) Aux sources de la simplicité Bordeaux 2022.pptxGuillaume Saint Etienne
 
TPE 2005 - Intelligence artificielle
TPE 2005 - Intelligence artificielleTPE 2005 - Intelligence artificielle
TPE 2005 - Intelligence artificielleSebastien Warin
 
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon GervaiseBIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon GervaiseYvon Gervaise
 
De l'IA au Calcul Littéraire: Pourquoi j'ai zappé le Web Sémantique
De l'IA au Calcul Littéraire: Pourquoi j'ai zappé le Web Sémantique De l'IA au Calcul Littéraire: Pourquoi j'ai zappé le Web Sémantique
De l'IA au Calcul Littéraire: Pourquoi j'ai zappé le Web Sémantique Jean Rohmer
 
Les algorithmes génétiques dans tous leurs états
Les algorithmes génétiques dans tous leurs étatsLes algorithmes génétiques dans tous leurs états
Les algorithmes génétiques dans tous leurs étatsGeneticIO
 
Réseaux neuronaux profonds & intelligence artificielle
Réseaux neuronaux profonds & intelligence artificielleRéseaux neuronaux profonds & intelligence artificielle
Réseaux neuronaux profonds & intelligence artificielleOlivier Teytaud
 
Patrons de conception de la programmation fonctionnelle
Patrons de conception de la programmation fonctionnellePatrons de conception de la programmation fonctionnelle
Patrons de conception de la programmation fonctionnelleAssociation Agile Nantes
 
L’intelligence artificielle aujourd’hui (FR)
L’intelligence artificielle aujourd’hui (FR)L’intelligence artificielle aujourd’hui (FR)
L’intelligence artificielle aujourd’hui (FR)thierry tranchina
 
RapportdeStage_CNAM_RousselKevin2016
RapportdeStage_CNAM_RousselKevin2016RapportdeStage_CNAM_RousselKevin2016
RapportdeStage_CNAM_RousselKevin2016DreamWonder
 

Similar a IA et Traitement Automatique des Langues (TAL) -- quel panorama ? (20)

Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
 
Conférence du 10 novembre 2O22 par Yvon Gervaise.pdf
Conférence du 10 novembre 2O22  par Yvon Gervaise.pdfConférence du 10 novembre 2O22  par Yvon Gervaise.pdf
Conférence du 10 novembre 2O22 par Yvon Gervaise.pdf
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Faire savoir le web s ingularité
Faire savoir le web s ingularitéFaire savoir le web s ingularité
Faire savoir le web s ingularité
 
Jean Rohmer
Jean RohmerJean Rohmer
Jean Rohmer
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
 
Des expériences simples autour du langage
Des expériences simples autour du langageDes expériences simples autour du langage
Des expériences simples autour du langage
 
_(V3.0) Aux sources de la simplicité Bordeaux 2022.pptx
_(V3.0) Aux sources de la simplicité Bordeaux 2022.pptx_(V3.0) Aux sources de la simplicité Bordeaux 2022.pptx
_(V3.0) Aux sources de la simplicité Bordeaux 2022.pptx
 
TPE 2005 - Intelligence artificielle
TPE 2005 - Intelligence artificielleTPE 2005 - Intelligence artificielle
TPE 2005 - Intelligence artificielle
 
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon GervaiseBIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
 
MyCv
MyCv MyCv
MyCv
 
De l'IA au Calcul Littéraire: Pourquoi j'ai zappé le Web Sémantique
De l'IA au Calcul Littéraire: Pourquoi j'ai zappé le Web Sémantique De l'IA au Calcul Littéraire: Pourquoi j'ai zappé le Web Sémantique
De l'IA au Calcul Littéraire: Pourquoi j'ai zappé le Web Sémantique
 
Les algorithmes génétiques dans tous leurs états
Les algorithmes génétiques dans tous leurs étatsLes algorithmes génétiques dans tous leurs états
Les algorithmes génétiques dans tous leurs états
 
Drools
DroolsDrools
Drools
 
Réseaux neuronaux profonds & intelligence artificielle
Réseaux neuronaux profonds & intelligence artificielleRéseaux neuronaux profonds & intelligence artificielle
Réseaux neuronaux profonds & intelligence artificielle
 
Patrons de conception de la programmation fonctionnelle
Patrons de conception de la programmation fonctionnellePatrons de conception de la programmation fonctionnelle
Patrons de conception de la programmation fonctionnelle
 
L’intelligence artificielle aujourd’hui (FR)
L’intelligence artificielle aujourd’hui (FR)L’intelligence artificielle aujourd’hui (FR)
L’intelligence artificielle aujourd’hui (FR)
 
071 facteur humain
071   facteur humain071   facteur humain
071 facteur humain
 
RapportdeStage_CNAM_RousselKevin2016
RapportdeStage_CNAM_RousselKevin2016RapportdeStage_CNAM_RousselKevin2016
RapportdeStage_CNAM_RousselKevin2016
 

IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

  • 1. INRIA IA et Traitement Automatique des Langues (TAL) Quel panorama ? Éric de la Clergerie <Eric.De_La_Clergerie@inria.fr> Almanach http://alpage.inria.fr Séminaire DIXIT Paris, 24 Février 2017 INRIA Éric de la Clergerie IA & NLP 07/12/15 1 / 34
  • 2. INRIA Analyse Linguistique Profonde À Grande Échelle Outils + Ressources linguistiques vers Données + Apprentissage <?xml version=" 1.0 " encoding="ISO−8859−1"?> <dependencies id="E1" mode=" f u l l "> < c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex=" E1F2 | soyons " / > < c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s " lex="E1F3 | i m a g i n a t i f s " / > < c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex= "E1F6 | déclare " / > <node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72 " lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / > <node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 " lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / > <node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 " lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / > <edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l " label =" subject "> <deriv names="E1d104" source_op="E1o5" target_op="E1o20" span="6 7" / > < / edge> <edge id="E1e011" source="E1n007" target ="E1n013" type=" subst à tester sur http://alpage.inria.fr/frmgwiki Grammaire FRMG Lexique LEFFF Entités Nommées ALEDA WordNet WOLF FrameNet ASFALDA treebanks INRIA Éric de la Clergerie IA & NLP 07/12/15 2 / 34
  • 3. INRIA Quelles applications ? Extraction d’information & Annotations http://alpage.inria.fr/sapiens Acquisition de connaissances (à partir de grands corpus) http://alpage.inria.fr/Lbx INRIA Éric de la Clergerie IA & NLP 07/12/15 3 / 34
  • 4. INRIA Beaucoup d’applications potentielles . . . recherche d’information, veille, extraction, questions-réponses accès à l’information : traduction, résumés, annotations/liens sémantiques analyse d’opinion, e-réputation analyse de communautés (tweets, blogs, . . . ) génération (articles journaux, rapports, ...) plagiat, authoring, détection spams & faux commentaires, fact checking aide à la rédaction : correction grammaticale, stylistique ; saisie prédictive aide pédagogique : apprentissage des langues, tutorat, évaluation interaction : agents conversationnels, chatbots, assistants numériques, reconnaissance vocale, synthèse, dictée vocale INRIA Éric de la Clergerie IA & NLP 07/12/15 4 / 34
  • 5. INRIA Et déjà de bons résultats en bricolant . . . Robot journaliste (inquiétudes !) http://goo.gl/0cpFvC Générer du non-sens new-age ! http://sebpearce.com/bullshit/ Eliza la thérapiste ! http://www.eliza.levillage.org/ INRIA Éric de la Clergerie IA & NLP 07/12/15 5 / 34
  • 6. INRIA Mais de réelles difficultés ! Forte ambiguïté du langage (tous niveaux) ⇒ besoin connaissances sur le monde, le contexte, . . . , via ressources et statistiques Diversité (langues, domaines, phénomènes), créativité (néologismes, expressions) et évolutivité ⇒ besoin de robustesse Ellipses (ce qui n’est pas dit/écrit) ⇒ besoin connaissances partagées, aspects culturels Jeux avec le language (métaphores, euphémismes, ironie, . . . ) Omar m’a tuer Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais que c’est pas parce que vous voulez renverser la table que vous descendez de la voiture dont vous vous abstenez de choisir le chauffeur. INRIA Éric de la Clergerie IA & NLP 07/12/15 6 / 34
  • 7. INRIA Néanmoins des succès récents et des annonces 2010: Google translate 2011: IBM Watson gagne à Jeopardy 2011: Assistants vocaux Siri, Google Now, Cortana 2014: Le chatbot Eugene Goostman réussit le test de Turing ? http://goo.gl/hQSmmf 2015: une IA surveille wikipedia http://goo.gl/zAvbSt INRIA Éric de la Clergerie IA & NLP 07/12/15 7 / 34
  • 8. INRIA IA ? On y est presque :-) Réseaux de Neurones: le retour ! Buzz sur Deep Learning et word embeddings 2013: Word embeddings analogies ≡ calcul vectoriel Mikolov et al.2014: Analyse d’opinions Socher et al. 2015: Google SmartReply suggérer des réponses aux mails http://goo.gl/d8R2LI DeepMind (Google) annonce Neural Turing Machine Labo Facebook Paris Toolkit Google TensorFlow libéré nombreux autres toolkits INRIA Éric de la Clergerie IA & NLP 07/12/15 8 / 34
  • 9. INRIA Une conjonction de bons facteurs Masses de données textuelles (et autres) Des algo d’apprentissage de + en + sophistiqués De la puissance de calcul Linked Open Data Des ressources structu- rées (RDF) et en réseau INRIA Éric de la Clergerie IA & NLP 07/12/15 9 / 34
  • 10. INRIA Une chronologie simplifiée Symbolique Apprentissage Neuronal performances 1950 ∼ 1980 ∼ 2000 ∼ 2010 INRIA Éric de la Clergerie IA & NLP 07/12/15 10 / 34
  • 11. INRIA Outline 1 Approches symboliques 2 Apprentissage supervisé 3 Approches neuronales 4 Vers d’autres approches INRIA Éric de la Clergerie IA & NLP 07/12/15 11 / 34
  • 12. INRIA Aproches symboliques S’appuyant sur des ressources linguistiques, (semi-) manuellement construites grammaire FRMG lexique LEFFF EN ALEDA WordNet WOLF FrameNet ASFALDA VerbNet VERBENET INRIA Éric de la Clergerie IA & NLP 07/12/15 12 / 34
  • 13. INRIA Vers des ressources sémantiques : ontologies Rapprochement TAL et Web Sémantique INRIA Éric de la Clergerie IA & NLP 07/12/15 13 / 34
  • 14. INRIA Évènements et rôles : FrameNet Baker & Fillmore Pour l’extraction d’information : qui fait QUOI, quand, comment, . . . Importance de connaissances sur des scénari d’évenements, avec indications sur les acteurs, leurs rôles, et constructions syntaxiques FRAMENET (http://framenet.icsi.berkeley.edu/) COMMERCE_PAY This frame involves Buyers paying Money for Goods. In this frame the Money is the direct object, and is mapped to the theme of the transfer. COMMUNICATION A Communicator conveys a Message to an Addressee ; the Topic and Medium of the communication also may be expressed. Relié aux rôles thématiques : agent, patient, theme, . . . Ressources similaires : VERBNET, PROPBANK, . . . ALPAGE : ASFALDA INRIA Éric de la Clergerie IA & NLP 07/12/15 14 / 34
  • 15. INRIA Aproches symboliques (pro & cons) Ecosystèmes (complexes) de ressources linguistiques grammaire FRMG lexique LEFFF EN ALEDA WordNet WOLF FrameNet ASFALDA VerbNet VERBENET expertise linguistique taille & complexité faible couverture trop fines non probabilisées compréhensibles évolutives ∼ dev. logiciel INRIA Éric de la Clergerie IA & NLP 07/12/15 15 / 34
  • 16. INRIA Outline 1 Approches symboliques 2 Apprentissage supervisé 3 Approches neuronales 4 Vers d’autres approches INRIA Éric de la Clergerie IA & NLP 07/12/15 16 / 34
  • 17. INRIA Succès et limites des approches supervisées Courant majoritaire : données annotées et apprentissage supervisé FTB 12Ks Sequoia Bank 3Ks Question Bank 2Ks SocialMedia Bank Time Bank Discourse TreeBank Rhapsodie TreeBank efficace découplage robustesse évaluation autonome coût humain fastidieux peu évolutif sensibilité domaine expertise traits boite noire INRIA Éric de la Clergerie IA & NLP 07/12/15 17 / 34
  • 18. INRIA Importance des jeux de traits Méthodes (discriminantes) : apprentissage configuration vers décision Les configurations abstraites par des propriétés (trait – features) Tâche d’étiquetage syntaxique : la configuration c Paul/PN pense/V que le chat dort abstraite par f1 le mot courant est que f2 le mot précedent est pense f3 le mot à -2 est Paul f4 l’étiquette du mot à -1 est v f5 le mot à -2 commence par une majuscule ... ... f93 les 2 étiquettes précédentes sont pn v f100 les 2 mots précédents sont Paul pense ... ... très gros jeux de traits très gros modèles et sur-entraînement INRIA Éric de la Clergerie IA & NLP 07/12/15 18 / 34
  • 19. INRIA Outline 1 Approches symboliques 2 Apprentissage supervisé 3 Approches neuronales 4 Vers d’autres approches INRIA Éric de la Clergerie IA & NLP 07/12/15 19 / 34
  • 20. INRIA IA ? On y est presque :-) Réseaux de Neurones: le retour ! Buzz sur Deep Learning et word embeddings 2013: Word embeddings analogies ≡ calcul vectoriel Mikolov et al.2014: Analyse d’opinions Socher et al. 2015: Google SmartReply suggérer des réponses aux mails http://goo.gl/d8R2LI DeepMind (Google) annonce Neural Turing Machine Labo Facebook Paris Toolkit Google TensorFlow libéré nombreux autres toolkits: Theano, Keras, Torch, . . . https://en.wikipedia.org/wiki/Comparison_of_deep_learning_ software INRIA Éric de la Clergerie IA & NLP 07/12/15 20 / 34
  • 21. INRIA Base Modélisation des neurones biologiques : les neurones portent des vecteurs (de réels) x = [−, · · · , −] de dimension moyenne (d=100 à 500) les vecteurs xi associés à des neurones d’entrées sont combinés pour fournir un vecteur y à un neurone de sortie y x1 x2 x3 x4 Foward y = σ(Σi Ai xi ) avec Ai matrice Fonction d’activation σ : en générale non linéaire σ doit faire basculer l’état du neurone de sortie vers oui ou non INRIA Éric de la Clergerie IA & NLP 07/12/15 21 / 34
  • 22. INRIA Fonctions d’activation Utilisation de fonctions proches d’une bascule oui/non mais dérivables tanh(x) = ex − e−x ex + e−x tanh (x) = 1 − tanh2 (x) tangente hyperbolique tanh D’autres fonctions sont aussi utilisées (softmax, sigmoïde) INRIA Éric de la Clergerie IA & NLP 07/12/15 22 / 34
  • 23. INRIA Sorties multiples On peut avoir plusieurs neurones de sortie y1 y2 x1 x2 x3 x4 INRIA Éric de la Clergerie IA & NLP 07/12/15 23 / 34
  • 24. INRIA Couches cachées On peut intercaler des couches cachées intermédiaires ⇒ abstraction progressive des informations des neurones d’entrée traits y1 y2 x1 x2 x3 x4 INRIA Éric de la Clergerie IA & NLP 07/12/15 24 / 34
  • 25. INRIA Apprentissage : backpropagation y1 y2 x1 x2 x3 x4 Backward Similaire au perceptron redescente des erreurs des neurones de sortie vers les neurones d’entrée (backpropagation) mise à jour des paramètres Wi par descente de gradient W (t+1) i = W (t) i − µ ∗ ∂y ∂Wi INRIA Éric de la Clergerie IA & NLP 07/12/15 25 / 34
  • 26. INRIA Réseaux récurrents Pour le TAL, on veut des réseaux adaptés au traitement de séquences (charactères, mots, phrases, . . . ) ⇒ Réseaux récurrents la sortie de la config à i est utilisée comme entrée pour calculer i + 1 INRIA Éric de la Clergerie IA & NLP 07/12/15 26 / 34
  • 27. INRIA LSTM Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli) Long-Short Term Memory – LSTM INRIA Éric de la Clergerie IA & NLP 07/12/15 27 / 34
  • 28. INRIA Agencer des briques État de l’art actuellement en TAL : bi-LSTM (lecture gauche-droite + lecture droite-gauche) sur mots et si-besoin caractères + convolution 1D (combine info autour du mot courant) Crédits : Practical Neural Networks for NLP : From Theory to Code. Dyer, Goldberg, and Neubig INRIA Éric de la Clergerie IA & NLP 07/12/15 28 / 34
  • 29. INRIA Pro & Cons État de l’art en TAL sur de nombreuse tâches, mais proche d’autres méthodes d’apprentissage ouverture vers d’autres tâches (approches moins supervisées) agencement (+ en + complexe) de réseaux de base mais les premières couches utilisables pour plusieurs tâches besoin de gros volumes de données sensibles aux initialisations entraînements longs interprétation des modèles INRIA Éric de la Clergerie IA & NLP 07/12/15 29 / 34
  • 30. INRIA Outline 1 Approches symboliques 2 Apprentissage supervisé 3 Approches neuronales 4 Vers d’autres approches INRIA Éric de la Clergerie IA & NLP 07/12/15 30 / 34
  • 31. INRIA Hybridation Mariage symbolique et apprentissage (tenté avec FRMG) expertise forte requise formel x linguistique problème couverture (mais FRMG ∼ 90%, et intérêt des erreurs) ressources linguistiques requises/exploitables gestion des ambiguïtés compréhensibilité et adaptabilité développement initial rapide moins sensible au domaine possibilité de régler des paramètres par apprentissage (hybridation) et couplage avec outils statistiques FTB test Europar annodis emea-fr-dev emea-fr-test frwiki 82 84 86 88 90 LAS FRMG stat. FRMG+stat. Divers analyseurs sur corpus SEQUOIA INRIA Éric de la Clergerie IA & NLP 07/12/15 31 / 34
  • 32. INRIA Approches non supervisées Courant futuriste : emploi encore limité ! Partir de données brutes : ok pour modèles de langue (saisie prédictive) ⇒ Word Embeddings (word2vec) ok pour regroupements (clustering) ressources extraction terminologie, champs thématiques, réseaux sémantiques, morphologie, . . . en général besoin de validation pas trop mal pour étiquetage et ségmentation faible sur des décisions complexes (induction de grammaires) http://stp.lingfil.uu.se/ ~bea/copiale/ INRIA Éric de la Clergerie IA & NLP 07/12/15 32 / 34
  • 33. INRIA Vers des approches faiblement supervisées Courant prometteur : l’imagination au pouvoir Exploitation de vues multiples et interactions traduction : textes alignés transfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . ) accès aux logs des moteurs de recherche + liens suivis + bouton chance analyse d’opinion : associer commentaires et notes données par les utilisateurs (Google/Jigsaw Perspective) réseaux sociaux : méta-données associées (threads/discussions, date, . . . ) séquences de mails Google SmartReply Photos & légendes ; Films & sous-titres crowdsourcing : payant ou au travers de jeux INRIA Éric de la Clergerie IA & NLP 07/12/15 33 / 34
  • 34. INRIA Conclusion Une époque faste (données, puissance, algo, ressources) mais quels acteurs ? Une grande palette de techniques et des mariages possibles De nouvelles approches à explorer pour des supervisions faibles Proche d’IA spécialistes (go, poker,. . . ) mais loin d’IA généralistes pb : agencement/interaction de très nombreux composants Et encore très loin d’une compréhension du langage et du monde apprendre à apprendre, adaptation à l’imprévu, . . . ( Almanach) INRIA Éric de la Clergerie IA & NLP 07/12/15 34 / 34