Atelier - Fouille de Textes - Text Mine
En conjonction avec EGC, Grenoble, 2017
Les actes de l'atelier sont [téléchargeables ici...]

Heure
Exposé - Après-midi du mardi 24 janvier
DuréeTemps Exposé + Questions

14:00Ouverture [les transparents ici ...]

14:05(Exposé invité) : "Extension d’un corpus d’articles scientifiques par recherche de similarités sémantiques : application à une problématique des sciences du sport."
Fabrice MUHLENBACH, Univ. Lyon, UJM-Saint-Etienne, CNRS, [résumé de la présentation au format pdf...]

[les transparents de la présentation ici ...]
4030+10

14:45 "Enhanced Verbatim Analysis (EVA) - Une chaîne d'analyse sémantique de verbatims"
Aleksandra Guerraz, Nathalie Legay and Rémi Bars

Cette démonstration présente EVA (Enhanced Verbatim Analysis), une application web qui permet d’explorer et de classifier les verbatims écrits par les clients (sondage, SAV, médias sociaux...). Simple à utiliser, cette application est destinée aux utilisateurs des entités « métiers » telles que le Marketing Produit, la Satisfaction Client, la Qualité des Offres... Elle ne nécessite aucune expertise en statistiques, linguistique ou sémantique. Dans cet article de démonstration EVA est présentée, de manière illustrative, à travers des données issues de tchats entre clients et téléconseillers.

[les transparents de la présentation ici ...]
2520+5

15:10 "Co-clustering pour la fouille de textes : le package CoClust"
Francois Role, Stanislas Morbieu and Mohamed Nadif

En fouille de textes, la classification croisée ou co-clustering sert à analyser des matrices document-terme pour créer simultanément des ensembles de lignes (documents) et des ensembles de colonnes (termes). Le package Python Coclust fournit des implémentations de différents algorithmes de co-clustering. Les composants du package respectent une interface homogène de manière à faciliter l’utilisation et la comparaison entre les différents algorithmes.

[les transparents de la présentation ici ...]
2520+5

15:35Pause25

16:00 "Aide à l’automatisation de conception de systèmes de dialogue"
Jean Leon Bouraoui and Vincent Lemaire

L’article décrit un processus industriel en cours de recherche / développement. L’objectif est d’obtenir une modélisation non supervisée de la structure de dialogues finalisés appartenant à un domaine donné (par exemple réservation de trains). Ce type de modélisation présente de nombreux intérêts, le principal étant de servir de base à la conception de l’architecture d’un agent dialoguant. La modélisation obtenue est représentée par un graphe présentant les principales étapes des dialogues et les transitions entre elles. La technique adoptée consiste à appliquer du co-clustering sur le corpus cible de dialogues, afin d’obtenir les principaux thèmes qui y figurent. On calcule ensuite les transitions entre thèmes dans chaque dialogue, pour obtenir le graphe décrivant les principaux thèmes du corpus et leur séquentialité. Nous décrivons en détail le processus mis en place, et situons cette approche par rapport aux travaux connexes. Enfin, nous présentons les verrous scientifiques restants.

[les transparents de la présentation ici ...]
2520+5

16:25 "Exploratory Text Segmentation through Joint Distribution Estimation"
Dominique Gay, Romain Guigourès, Marc Boullé and Fabrice Clérot

We suggest a novel way for exploratory topic segmentation based on data grid models. In this context, a text can be represented as a data set of twodimensional points; each point is defined by two variables: a word (categorical value) and the placement of the word in the text (numerical value). Instantiating data grid models to the 2D-points turns the problem into coclustering. Simultaneously, the words are partitioned into clusters and the placement (or time) variable is discretized into intervals/segments, following a parameter-free Bayesian model selection approach. We also suggest several criteria for exploiting the resulting grid through agglomerative hierarchies, for interpreting the clusters of words and characterizing their components through insightful visualizations. Experiments on the Bible show the relevance of our approach.

[les transparents de la présentation ici ...]
2520+5

16:50 "Préliminaire à la construction d'un réseau de signalisation en biologie systémique"
Flavie Landomiel, Anubhav Gupta, Denis Maurel and Anne Poupon

Dans le domaine scientifique, la littérature est un outil indispenable à la connaissance. Cependant, l’avancée des recherches et l’édition de documents scientifiques ne fait que progresser de manière exponentielle. En ce sens, il devient de plus en plus ardu pour un scientifique d’être à jour dans son domaine d’expertise. Afin de palier à cette difficulté, le projet Biosystémique a permis de développer une méthode afin d’extraire les résultats expérimentaux dans les publications scientifiques concernant la biologie systémique et, plus précisément, concernant les voies de signalisation des récepteurs couplés aux protéines G (RCPG). Dans cet article, nous avons mis en évidence la possibilité d’extraire des phrases clés d’un article indépendemment de l’interprétation de l’auteur.

[les transparents de la présentation ici ...]
2520+5

17:15 "Archives numériques et fouille de textes : le projet ISTEX"
Pascal Cuxac

A travers cet article nous souhaitons à la fois faire connaître la ressource ISTEX à des fins de ’Text Mining’ mais également les traitements appliqués à une bibliothèque numérique de grande taille. Plusieurs challenges sont à relever, dont le passage à l’échelle sur plus de 18 millions de documents, l’intégration de différents outils dans une même chaine de traitement, et la modélisation des données obtenues pour leur mise à disposition.

[les transparents de la présentation ici ...]
2520+5

17:40Mots de cloture et fin

Une petite publicité pour un congrès à venir
[ici ...]