Fouille de Textes - Text Mine

Atelier - Fouille de Textes - Text Mine
En conjonction avec EGC, Paris, 2018

Les actes de l'atelier sont [téléchargeables ici...]

Pour l'atelier TextMine nous avons eu le plaisir de recevoir 8 soumissions. Chacune d'elle a fait l'objet de 2 ou 3 relectures grâce à nos gentils relecteurs. 5 articles dont une démo ont été acceptés plus un exposé invité. Le programme de l'atelier est ci-dessous

De plus nous offrons deux inscriptions à l'atelier (uniquement la journée des ateliers dont le repas) à deux étudiant(e)s motivé(e)s. Pour candidater merci d'écrire aux deux organisateurs de l'atelier (par mail) en joignant une lettre de motivation et une lettre de recommandation d'un "senior" qui attestera l'adéquation des travaux de l'étudiant et la future présence à l'atelier. La date limite pour recevoir la demande est fixée au 10 janvier.

Heure	Exposé - Mardi 23 janvier	Durée	Temps Exposé + Questions

14:00	Ouverture

14:05	(Exposé invité) : "Analyse exploratoire de données textuelles à l'aide de modèles thématiques probabilistes" Julien Velcin. L'analyse exploratoire de vastes corpus textuels nécessite le recours à des techniques d'apprentissage non ou peu supervisés : techniques de projection en faible dimension, (co-)clustering de documents, modélisation thématique. Dans cet exposé, après un bref panorama des différentes techniques à la disposition du scientifique des données, je détaillerai davantage les modèles thématiques probabilistes en cherchant à illustrer l'étendue des utilisations possibles à l'aide de cas concrets. Ces modèles ont par exemple été utilisés pour améliorer la recherche d'information, pour analyser l'opinion ou pour détecter la nouveauté dans les flux de données. Je terminerai en donnant quelques travaux récents qui cherchent à combiner ces modèles avec des techniques de plongement de mots.	55	45+10

15:00	"Réseau neuronal convolutif sur des séquences de caractères pour la classification de textes" Idriss El Asry, Wissam Siblini, Frank Meyer Avec la croissance des volumes de données textuelles et l’explosion des applications associées, la classification de textes est devenue un enjeu majeur dans le domaine du traitement automatique des langues, de l’apprentissage automatique et de nombreuses methodes ont été proposées. D’une part, les stratégies standard et éprouvées consistent à construire un dictionnaire pour encoder les textes comme des sac-de-mots, à y appliquer des pondérations, et enfin à apprendre un classifieur efficace sur les textes encodés. D’autre part, les approches proposées récemment utilisent des réseaux de neurones convolutifs directement sur les textes bruts représentés comme des séquences de caractères. Le but de cet article est de comparer ces deux stratégies. Dans cette étude prémilinaire sur des données de chats internes (Orange Labs), il apparait que leurs performances de classification sont équivalentes. En revanche, l’approche réseau neuronal convolutif se distingue en permettant une meilleure automatisation de la tache par suppression de la phase de construction du dictionnaire de mots.	30	20+10

15:30	"Fouille de publications scientifiques pour une analyse bibliométrique de l’activité de recherche sur la déforestation" Nathalie Neptune, Josiane Mothe, Julius Akinyemi La déforestation est un phénomène très répandu qui touche des portions de territoires assez importantes surtout dans les régions tropicales. La télédétection permet aux chercheurs de suivre et d’analyser l’évolution spatio-temporelle de ce phénomène. En utilisant la fouille de texte et de méta-données sur les publications scientifiques sur le thème de la déforestation, nous visons à identifier le lieu de la production scientifique sur la déforestation et les collaborations entre chercheurs. L’analyse de ces collaborations nous permet de voir les tendances de la distribution de la production parmi les auteurs, à savoir si elle est concentrée au niveau des auteurs particuliers des pays développés ou bien si elle tend à être répartie de manière équilibrée entre plusieurs pays développés et en développement. Nous nous appuyons pour cela sur des analyses de réseaux. Par ailleurs, grâce à l’analyse des mots-clés nous identifions les sites touchés par la déforestation auxquels les chercheurs s’intéressent, les forêts tropicales et l’Amazonie, de même que des sujets connexes ayant rapport à l’environnement et à la santé.	30	20+10

16:00	"Pause café", nous invitons les auteurs à préparer un poster pour poursuivre (ou initier) la discussion autour d'un café...	30	-

16:30	"Graph2Bots: Assistance automatisée à la conception d’agents dialoguants" Jean Leon Bouraoui, Vincent Lemaire Nous décrivons la démonstration d’un prototype permettant la modélisation non supervisée de la structure de dialogues finalisés; ces dialogues appartiennent à un domaine donné (par exemple réservation de trains). Ceci présente de nombreux intérêts, le principal étant de servir de base à la conception de l’architecture d’un agent dialoguant. Un graphe modélise les principales étapes des dialogues et les transitions entre elles. La technique adoptée consiste à appliquer du CoClustering sur le corpus cible de dialogues, afin d’obtenir les principaux thèmes qui y figurent. On calcule ensuite les transitions entre thèmes dans chaque dialogue. Notre outil permet d’obtenir le graphe correspondant et de le manipuler de manière ergonomique. Nous présentons en détail les différentes fonctionnalités démontrées.	30	20+10

17:00	"Constitution d'un corpus d'articles scientifiques avec représentation sémantique" Jean-Claude Moissinac Dans le cadre du projet SemBib, nous avons entrepris une représentation sémantique de la production scientifique de Télécom Paristech. Au delà des objectifs internes, nous pensons que ce corpus enrichi est une source d’expérimentation et une ressource pédagogique. La proposition principale exposée dans cet article consiste à utiliser des méthodes de fouilles de texte pour construire des graphes de connaissances, puis de produire des analyses à partir de ces graphes.	30	20+10

17:30	L'évaluation des représentations vectorielles de mots en utilisant WordNet Nourredine Aliane, Jean-Jacques Mariage, Gilles Bernard Les méthodes d’évaluation actuelles des représentations vectorielles de mots utilisent un jeux de données restreint. Pour pallier à ce problème nous présentons une nouvelle approche, basée sur la similarité entre les synsets associés aux mots dans la grande base de données lexicale WordNet. Notre méthode d’évaluation consiste dans un premier temps à ranger les représentions vectorielles de mots dans des clusters par un algorithme de clustering, puis à évaluer la cohérence sémantique et syntaxique des clusters produits. Cette évaluation est effectuée en calculant la similarité entre les mots de chaque cluster pris deux à deux, en utilisant des mesures de similarité entre les mots dans WordNet proposées par NLTK (path_similarity ou wap_similarity). On obtient pour chaque cluster une valeur entre 0 et 1, un cluster dont la valeur est 1 est un cluster dont tout les mots appartiennent au même synset. On calcule ensuite la moyenne des mesures de tous les clusters. Nous avons utilisé notre nouvelle approche pour étudier et comparer trois méthodes de représentations vectorielles: une méthode traditionnelle WebSOM et deux méthodes récentes, word2vec (Skip-Gram et CBOW) et GloVe, sur trois corpus: en anglais, en français et en arabe. Les résultats montrent que la méthode de word2vec surppase les deux autres méthodes sur les trois corpus.	30	20+10

18:00	Mots de cloture et fin