Atelier - Fouille de Textes - Text Mine
En conjonction avec EGC, Blois, 2022
Programme :
L'atelier 2022 sera constitué de présentations d'articles acceptés après relecture par le comité de programme ainsi que de deux exposés invités
Les actes sont disponibles ici [...]
9h15 : introduction
9h30-10h30 : Orateur Invité : Nicolas Dugué Maître de Conférences / Assistant Professor, LIUM, équipes LST et EIAH / Language and Speech Technology team
• Titre : Vers des approches de plongements interprétables ?
• Résumé : Les approches récentes d’apprentissage de plongements lexicaux ont mis l’accent sur les résultats, souvent au détriment de l’interprétabilité et de la complexité algorithmique. Pourtant, l’interprétabilité est un pré-requis nécessaire à la mise en œuvre de telles technologies lorsqu’elles sont au service de domaines sensibles comme le domaine juridique ou la médecine. Par ailleurs, les impératifs écologiques créent une urgence à réfléchir à des systèmes performants et économes en calculs. Nous proposons dans le cadre de l'ANR DIGING de développer une nouvelle approche performante et économe en calculs pour la construction de plongements lexicaux interprétables basée sur la théorie des réseaux complexes. Nous discuterons d'une première méthode développée dans ce cadre, SINr (Sparse Interpretable Node Representation) qui propose une méthode unifiée pour l'apprentissage de plongements de graphes et de mots dans un espace aux dimensions tangibles, en complexité quasi-linéaire.
10h30-11h00 : pause
11h00-11h30 : Adrien Guille and Hugo Attali, "Classification interprétable de documents à l'aide d'un réseau de neurones opérant sur des graphes"
11h30-12h00 : Jeremie Pantin, Christophe Marsala and Marie-Jeanne Lesot Outlier, "Analysis for Text: Taxonomy and Experimental Study"
12h00-12h30 : Rodrigo Cuéllar-Hidalg, Gerardo Reyes-Salgado and Juan-Manuel Torres-Moreno, "Automatic Reference Mining: Review and perspectives"
12h30-14h00 : déjeuner
14h00-15h00 : Orateur Invité - Mathieu Roche, Research Scientist (PhD, HDR), CIRAD - Environments and Societies Department, UMR TETIS
• Titre : Appréhender les dynamiques spatiales et thématiques à travers la fouille de textes.
• Résumé : Les dynamiques spatiales et thématiques sont étudiées avec grande attention en particulier dans les milieux à enjeux et de tension (épidémiologie, sécurité alimentaire, etc.). L'objectif de nos travaux est de proposer un cadre méthodologique permettant l'appréhension de ces phénomènes à partir de données hétérogènes, en particulier textuelles. Les analyses que nous produisons reposent sur trois types d'informations (thématiques, spatiales et temporelles) qui sont extraites et exploitées par des méthodes de fouille de textes. Les contributions méthodologiques seront présentées sous le prisme de différents projets pluridisciplinaires (par exemple, les projets H2020 MOOD et LEAP4FNSSA) et le déploiement d'outils et de plate-formes spécifiques. Dans ce contexte, le système PADI-Web propre à la veille automatique en épidémiologie animale et des approches dédiées à la sécurité alimentaire dans les pays du Sud seront présentés.
15h00-15h30 : Maëlle Brassier, Asceline Goudjo and Bernard Peultier, "Détection de données personnelles pour la pseudonymisation de documents numérisés"
15h30-16h00 : pause
16h00-16h30 : Nihed Bendahman, Kevin Cousot and Cédric Lopez, "Reconnaissance d'entités d'intérêt dans les signatures d'e-mails à partir d'un jeu de données authentique"
16h30-17h00 : Alexis Blandin, Farida Said, Jeanne Villaneau and Pierre-François Marteau, "Analyse automatique d’émotions pour l’optimisation de campagnes d’emails en français"
17h00-17h30 : Aurélien Lamercerie, Valérie Bellynck, Christian Boitet, David Rouquet, Vincent Berment and Guillaume De Malézieux "Extraction de contenus sémantiques pour la vérification d’exigences systèmes"
17h30-18h00 : Wissam Siblini, Nacir Bouazizi and Charlotte Pasqual, "Vers un Système de Question-Réponse Multilingue, Génératif et Unifié"
18h00-18h10 : clôture