Atelier - Fouille de Textes - Text Mine
En conjonction avec EGC, Metz, 2019
Les actes de l'atelier sont ici [téléchargeables ici...]

Pour l'atelier TextMine nous avons eu le plaisir d'accepter 5 soumissions. Chacune d'elle a fait l'objet de 2 ou 3 relectures grâce à nos gentils relecteurs. Le programme de l'atelier est ci-dessous

.

Heure
Exposé - Mardi 22 janvier
DuréeTemps Exposé + Questions

14:00Ouverture

14:05 (Exposé invité) : "Présentation des activités de recherche sur le traitement des textes en langues naturelles chez Orange"
Frédéric Herlédan.

Depuis plus de 20 ans, Orange mène des activités de recherche dans le domaine du traitement automatique des langues naturelles. Avec l’évolution des technologies, il est devenu possible de traiter des textes de plus en plus variés. Les métiers et les activités des chercheurs ont aussi changé. Nous nous proposons de retracer rapidement ces évolutions et de lister quelques sujets qui intéressent aujourd’hui la recherche de l’opérateur.

[les transparents de la présentation ici ...]
5545+10

15:00 "Extraction de cartes d'inondations à partir de réseaux sociaux par apprentissage actif et production participative"
Etienne Brangbour, Pierrick Bruneau and Stéphane Marchand-Maillet

Les réseaux sociaux sont beaucoup utilisés pendant les catastrophes naturelles pour rendre compte de situations difficiles. Extraire cette information peut servir à l'amélioration de modèles de prédiction de propagation, et aider les décisions relatives aux secours. Le projet Publimape vise à exploiter le contenu du réseau social Twitter en cas de inondations de grande échelle en milieu urbain. Ce problème comporte de multiples aspects comme la géo-localisation, la temporalité, ou le traitement d'image. Dans ce papier nous présentons le travail en cours relatif au texte des statuts Twitter qui sont le point central de ce moyen de communication. Nous abordons la question de la représentation du texte issu de réseaux sociaux, la classification en relation avec la catastrophe naturelle, et la constitution d'un corpus grâce à la production participative(Crowdsourcing).

3020+10

15:30 "Pause café", nous invitons les auteurs à préparer un poster ou une démo pour poursuivre (ou initier) la discussion autour d'un café... L'heure de la pause sera définie par la conférence. Elle peut légèrement variée avant ou après l'article ci-dessous dans le programme.
30-

16:00 "Etude expérimentale de classification textuelle multi-étiquettes pour la relation client"
Gil Francopoulo, Léon-Paul Schaub and Lynda Ould Younes

La gestion de la relation avec les clients (GRC ou CRM selon le sigle anglais) est l'analyse des interactions des clients. Notre étude porte sur l'analyse du sens des textes pour en synthétiser les opinions et les sujets abordés par des clients qui s'expriment en plusieurs langues. L'approche de cette classification qualifiée d'interlingue consiste à annoter les documents en différentes langues avec le même jeu de catégories, sachant que l'annotation est faite en une langue dite source ou native et qu'ensuite des algorithmes d'apprentissage automatique sont appliqués aux autres langues qui sont désignées comme les langues cibles ou non natives. Nous avons essayé différentes stratégies et comparé les options avec ou sans traitements linguistiques, de même que les différents algorithmes qu'ils soient neuronaux ou non. Les résultats de notre étude sur 4 langues prouvent l'efficacité de notre approche quand elle est appliquée à des logiciels opérationnels.

[les transparents de la présentation ici ...]
3020+10

16:30 "Mining Sequential Patterns for Hypernym Relation Extraction"
Ahmad Issa Alaa Aldine, Mounira Harzallah, Giuseppe Berio, Nicolas Bechet and Ahmad Faour

Hearst patterns are popular patterns for hypernym relation extraction from text. Earlier Hearst patterns (HP) are defined as regular expressions using lexical information. More recent, Hearst patterns are redefined as dependency patterns (DHP) using syntactical information (dependency relations). In this work, we propose to apply sequential pattern mining to learn sequential Hearst patterns (SHP), a new formalization of Hearst patterns as sequential patterns using lexical and syntactical information. A comparison between the three type of Hearst patterns is done using a music domain corpus. The results show that precision and recall are improved by SHP.

3020+10

17:00 "Aide à la sauvegarde et aux évolutions du patrimoine logiciel"
Françoise Deloule

Bon nombre de connaissances et de savoir-faire de nos entreprises sont mémorisés dans les codes informatiques de leurs logiciels métier. Mais en fonction des dates de création de ceux-ci, les connaissances renfermées sont loin d'être explicites, notamment car leur codification nécessitait de sérieuses abréviations. Ces logiciels ne peuvent être réécrits et doivent cependant être maintenus pour suivre les évolutions de l'entreprise. Ceci nécessite de la part de ceux qui gèrent ces programmes qu'ils en saisissent la sémantique. Nous proposons une aide basée sur une approche ontologique pour mieux comprendre et utiliser les connaissances et les savoirs faire contenus dans ces logiciels. En nous appuyant sur un cas industriel, nous construirons une ontologie du domaine et une ontologie des actions puis nous mettrons en lumière et exploiterons les liens qui peuvent exister entre les concepts de cette ontologie et les portions de code qui portent sur les mêmes connaissances.

3020+10

17:30 "Une nouvelle approche d’analyse non supervisée des données textuelles basée sur la combinaison du clustering, de la maximisation des traits et des graphes de contraste: application à l’analyse de l’évolution de sujets de recherche en Science de la Science"
Jean-Charles Lamirel

L’analyse diachronique de corpus de données volumineux exploitant des approches non supervisées, si l’on s’attend à ce qu’elle fournisse des résultats suffisamment précis et fiables pour être exploités par des spécialistes des domaines concernés par les données traitées, reste encore un challenge très ouvert de nos jours. Les méthodes basées sur l’analyse latente de Dirichlet qui pourraient s’avérer de bonnes candidates dans ce contexte peinent cependant à fournir des résultats cohérents et s’avèrent de plus très sensibles au paramétrage, comme nous l’avons montré dans des travaux antérieurs. Nous montrons néanmoins dans ce papier qu’un tel type de challenge peut être relevé en exploitant une combinaison originale de méthodes : clustering neuronal basé sur les gaz de neurones croissants, métrique basée sur la maximisation des traits, développée récemment comme alternative aux métriques usuelles, et graphes de contraste dérivées de cette métrique. Pour démontrer l’efficacité de notre approche, nous effectuons une analyse du contenu d'articles de revues académiques sélectionnées dans le domaine Science of Science in China au cours des 40 dernières années (autrement dit depuis la création reconnue du domaine en Chine) et construisons une carte globale de la structure des thèmes de recherche. De plus, nous mettons en évidence l'évolution des thèmes par l'exploitation des dates de publication et faisons un usage supplémentaire des informations liées aux auteurs afin de clarifier le rôle de ceux ci dans le domaine.

3020+10

18:00Mots de cloture et fin