Heure | Durée | ||
14:00 | Ouverture | ||
14:05 |
(Exposé invité) : "FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français " Didier Schwab (LIG). Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cette présentation, nous présentons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente ont été entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici. | 55 | |
15:00 |
"Séance exposés d'articles" | 40 | |
15:40 |
(Exposé invité) : "Dagobah - Activités de recherche Orange autour de l’annotation sémantique de données tabulaires " Yoan Chabot et Pierre Monnin. Un grand nombre de gisements de données internes aux entreprises ainsi qu’une part non négligeable des données du Web sont représentés sous forme de tables. La capacité à annoter ces données à l’aide de graphe de connaissances est crucial et permet d’ouvrir la voie à de nouveaux services basés sur la sémantique. Dans cet exposé, nous présenterons les enjeux de l’annotation de données tabulaires pour une entreprise comme Orange. Les efforts de recherche du groupe sur ce sujet, cristallisés au sein d’un projet nommé DAGOBAH, seront ensuite présentés avec un focus sur des techniques de plongements de graphes de connaissances pour le typage de colonnes et la désambiguïsation des cellules. Enfin, cet exposé s’attardera sur les efforts en cours au sein de la communauté scientifique autour de ces questions par le biais du challenge ISWC SemTab. | 55 | |
16:35 |
"Séance exposés d'articles" | 40 | |
17:15 | Mots de cloture et fin |