Fouille de Textes - Text Mine

Atelier - Fouille de Textes - Text Mine
En conjonction avec EGC, Montpellier (virtuel), 2021

Les actes de l'atelier sont [sont téléchargeables ici...]

Pour pouvoir participer à l'atelier vous devez être inscrit à la conférence :
https://egc2021.sciencesconf.org/resource/page/id/22

New ! : L'atelier a lieu virtuellement à l'adresse
https://visio.egc2021.lirmm.fr/b/flo-wev-4yo-oqa

Heure Exposé - Mardi 26 janvier Durée

14:00 Ouverture

14:05 (Exposé invité) : "FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français "
Didier Schwab (LIG).
Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cette présentation, nous présentons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente ont été entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.
55

15:00 "Séance exposés d'articles"

"Extraction d’informations spécifiques à partir de textes avec peu de textes d’apprentissage", Bénédicte Goujon

"Concevoir un assistant conversationnel de manière itérative et semi-supervisée avec le clustering interactif", Erwan Schild, Gautier Durantin et Jean-Charles Lamirel
40

15:40 (Exposé invité) : "Dagobah - Activités de recherche Orange autour de l’annotation sémantique de données tabulaires "
Yoan Chabot et Pierre Monnin.
Un grand nombre de gisements de données internes aux entreprises ainsi qu’une part non négligeable des données du Web sont représentés sous forme de tables. La capacité à annoter ces données à l’aide de graphe de connaissances est crucial et permet d’ouvrir la voie à de nouveaux services basés sur la sémantique. Dans cet exposé, nous présenterons les enjeux de l’annotation de données tabulaires pour une entreprise comme Orange. Les efforts de recherche du groupe sur ce sujet, cristallisés au sein d’un projet nommé DAGOBAH, seront ensuite présentés avec un focus sur des techniques de plongements de graphes de connaissances pour le typage de colonnes et la désambiguïsation des cellules. Enfin, cet exposé s’attardera sur les efforts en cours au sein de la communauté scientifique autour de ces questions par le biais du challenge ISWC SemTab.
55

16:35 "Séance exposés d'articles"

"Détection automatique des liens d’articles dans la une des journaux en ligne", Romain Perrone, Nada Lasri et Elöd Egyed-Zsigmond

"Comparaison de méthodes d’extraction de mots-clés non supervisées", Alaric Tabaries and David Reymond
40

17:15 Mots de cloture et fin

Heure	Exposé - Mardi 26 janvier	Durée

14:00	Ouverture

14:05	(Exposé invité) : "FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français " Didier Schwab (LIG). Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cette présentation, nous présentons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente ont été entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.	55

15:00	"Séance exposés d'articles" "Extraction d’informations spécifiques à partir de textes avec peu de textes d’apprentissage", Bénédicte Goujon "Concevoir un assistant conversationnel de manière itérative et semi-supervisée avec le clustering interactif", Erwan Schild, Gautier Durantin et Jean-Charles Lamirel	40

15:40	(Exposé invité) : "Dagobah - Activités de recherche Orange autour de l’annotation sémantique de données tabulaires " Yoan Chabot et Pierre Monnin. Un grand nombre de gisements de données internes aux entreprises ainsi qu’une part non négligeable des données du Web sont représentés sous forme de tables. La capacité à annoter ces données à l’aide de graphe de connaissances est crucial et permet d’ouvrir la voie à de nouveaux services basés sur la sémantique. Dans cet exposé, nous présenterons les enjeux de l’annotation de données tabulaires pour une entreprise comme Orange. Les efforts de recherche du groupe sur ce sujet, cristallisés au sein d’un projet nommé DAGOBAH, seront ensuite présentés avec un focus sur des techniques de plongements de graphes de connaissances pour le typage de colonnes et la désambiguïsation des cellules. Enfin, cet exposé s’attardera sur les efforts en cours au sein de la communauté scientifique autour de ces questions par le biais du challenge ISWC SemTab.	55

16:35	"Séance exposés d'articles" "Détection automatique des liens d’articles dans la une des journaux en ligne", Romain Perrone, Nada Lasri et Elöd Egyed-Zsigmond "Comparaison de méthodes d’extraction de mots-clés non supervisées", Alaric Tabaries and David Reymond	40

17:15	Mots de cloture et fin