Cette page regroupe les idées de séminaires. Pour les dates officielles, voir le calendrier de l'équipe sur le site web du labo.
Dates (printemps 2017)
03/02/2017 Benoit Favre – Rassurez-vous, nous allons voir cela ensemble… entraînement d'agents conversationnels avec des données de relation client
Résumé : Je vous raconterai comment entraîner un chatbot à partir traces de dialogues textuelles. Je me focaliserai sur deux modèles : un modèle de langage conditionné alternant permettant de modéliser de manière jointe les interventions de tous les participants d'une conversation et de générer mot par mot une réponse, et un modèle par recherche d'information qui trouve parmi une population de réponses possible celle qui est la plus pertinente pour un contexte de dialogue donné. Ce sera l'occasion de discuter des limites des approches actuelles, et de dialoguer avec des chatbots construits sur des interactions de relation client du projet DATCHA.
17/02/2017 Natalie Vargas – Discovering Multiword Expressions and their Translations from Parallel Corpora without Word Alignment
Abstract: We propose a method for joint unsupervised discovery of multiword expressions (MWEs) and their translations from parallel corpora. First, we apply independent monolingual MWE extraction in source and target languages simultaneously. Then, we calculate translation probability, association score and distributional similarity of co-occurring pairs. Finally, we rank all translations of a given MWE using a linear combination of these features. Preliminary experiments on light verb constructions show promising results
03/03/2017 José Deulofeu – Les mémoires du projet Orfeo (titre de travail) : reporté
07/04/2017 14h Ismail Badache – Exploitation des contenus sociaux dans des tâches de recherche d’information et de détection de contradiction
Résumé : A) Recherche d’information sociale: Notre travail se situe dans le contexte de recherche d’information sociale (RIS) et s’intéresse plus particulièrement à l’exploitation du contenu généré par les utilisateurs dans le processus de la recherche d’information. Le contenu généré par les utilisateurs (en anglais User-generated content, ou UGC) se réfère à un ensemble de données (ex. signaux sociaux) dont le contenu est principalement, soit produit, soit directement influencé par les utilisateurs finaux. Il est opposé au contenu traditionnel produit, vendu ou diffusé par les professionnels. Le terme devient populaire depuis l’année 2005, dans les milieux du Web 2.0, ainsi que dans les nouveaux médias sociaux. Ce mouvement reflète la démocratisation des moyens de production et d’interaction dans le Web grâce aux nouvelles technologies. Parmi ces moyens de plus en plus accessibles à un large public, on peut citer les réseaux sociaux, les blogs, les microblogs, les Wikis, etc. Les systèmes de recherche d’information exploitent dans leur majorité deux classes de sources d’évidence pour trier les documents répondant à une requête. La première, la plus exploitée, est dépendante de la requête, elle concerne toutes les caractéristiques relatives à la distribution des termes de la requête dans le document et dans la collection (tf-idf). La seconde classe concerne des facteurs indépendants de la requête, elle mesure une sorte de qualité ou d’importance a priori du document. Parmi ces facteurs, on en distingue le PageRank, la localité thématique du document, la présence d’URL dans le document, ses auteurs, etc. Une des sources importantes que l’on peut également exploiter pour mesurer l’intérêt d’une page Web ou de manière générale une ressource, est le Web social. En effet, grâce aux outils proposés par le Web 2.0 les utilisateurs interagissent de plus en plus entre eux et/ou avec les ressources. Ces interactions (signaux sociaux), traduites par des annotations, des commentaires ou des votes associés aux ressources, peuvent être considérés comme une information additionnelle qui peut jouer un rôle pour mesurer une importance a priori de la ressource en termes de popularité et de réputation, indépendamment de la requête. Nous supposons également que l’impact d’un signal social dépend aussi du temps, c’est-à-dire la date à laquelle l’action de l’utilisateur est réalisée. Nous considérons que les signaux récents devraient avoir un impact supérieur vis-à-vis des signaux anciens dans le calcul de l’importance d’une ressource. La récence des signaux peut indiquer certains intérêts récents à la ressource. Ensuite, nous considérons que le nombre de signaux d’une ressource doit être pris en compte au regard de l’âge (date de publication) de cette ressource. En général, une ressource ancienne en termes de durée d’existence a de fortes chances d’avoir beaucoup plus de signaux qu’une ressource récente. Ceci conduit donc à pénaliser les ressources récentes vis-à-vis de celles qui sont anciennes. Nous proposons aussi de prendre en compte la diversité des signaux sociaux au sein d’une ressource. Enfin, nous étudions l'impact des nouveaux signaux sociaux, appelés Facebook reactions (j'adore, haha, grrr, wouah, triste) sur l’ordonnancement des résultats de recherche. Ces réactions permettent aux utilisateurs d'exprimer des émotions plus nuancés par rapport aux signaux classiques (ex. partage). Nous avons effectué une série d'expérimentations sur les collections d’INEX, IMDb (Internet Movie Database) et SBS (Social Book Search). Nos résultats révèlent que la prise en compte des signaux sociaux améliore significativement la qualité des résultats de recherche. B) Détection de contradiction dans les commentaires: L'analyse des avis (commentaires) générés par les utilisateurs devient de plus en plus exploitable par une variété d'applications. Elle permet de suivre l'évolution des avis ou d'effectuer des enquêtes sur des produits. La détection d'avis contradictoires autour d'une ressource Web (ex. cours, film, produit, etc.) est une tâche importante pour évaluer cette dernière. Dans cet article, nous nous concentrons sur le problème de détection des contradictions et de la mesure de leur intensité en se basant sur l'analyse du sentiment autour des aspects spécifiques à une ressource (document). Premièrement, nous identifions certains aspects, selon les distributions des termes émotionnels au voisinage des noms les plus fréquents dans l'ensemble des commentaires. Deuxièmement, nous estimons la polarité de chaque segment de commentaire contenant un aspect. Ensuite, nous prenons uniquement les ressources contenant ces aspects avec des polarités opposées (positive, négative). Troisièmement, nous introduisons une mesure de l'intensité de la contradiction basée sur la dispersion conjointe de la polarité et du rating des commentaires contenant les aspects au sein de chaque ressource. Nous évaluons l'efficacité de notre approche sur une collection de MOOC (Massive Open Online Courses) contenant 2244 cours et leurs 73873 commentaires, collectés à partir de Coursera. Nos résultats montrent l'efficacité de l'approche proposée pour capturer les contradictions de manière significative.
26/04/2017 Marie Candito – Représentations sémantiques à la FrameNet : création d'un FrameNet pour le français et utilisation en apprentissage supervisé - [Slides]
Résumé : Nous présenterons d'abord le FrameNet du français créé dans le cadre du projet ASFALDA, en particulier l'approche “domaine-par-domaine” utilisée, les points d'interface syntaxe-sémantique qu'il a été nécessaire de traiter, et les caractéristiques des données résultantes. Nous présenterons ensuite une étude concernant l'analyse automatique en cadres et rôles sémantiques FrameNet. Nous montrerons qu'utiliser une représentation syntaxique normalisée (dite profonde) à la place d'une représentation syntaxique classique améliore les résultats d'analyse. Ce travail a été réalisé en collaboration avec Marianne Djemaa, Laure Vieu, Philippe Muller (pour le FrameNet du français) et avec Olivier Michalon, Alexis Nasr, Corentin Ribeyre (pour l'utilisation de syntaxe normalisée pour l'analyse sémantique)
05/05/2017 Elisabeth Godbert – Recherche de relations de coréférence - [Slides]
Résumé : Notre objectif est l’annotation automatique d’un texte en coréférences, pour y mettre en relation les expressions qui font référence à une même entité du discours. Considérons l'exemple : Un paquebot est arrivé dans le port ce matin, veux-tu y aller pour le voir ? c'est un bateau gigantesque. Pour identifier les antécédents des pronoms (le port…y ; un paquebot…le…c’) et trouver les expressions nominales coréférentes (un paquebot…un bateau), on utilise classiquement le genre, le nombre, la position syntaxique, la distance des mots et des informations sémantiques. Les corpus sur lesquels nous travaillons sont préalablement annotés en lexique et syntaxe par la chaîne de traitement MACAON. Je montrerai comment, à partir du DEM (Dictionnaire électronique des mots) et du LVF (Les Verbes Français), des annotations sémantiques sont ajoutées et comment ensuite est mise en oeuvre la recherche de coréférences.
16/05/2017 11h Tristan Mollet – Structuration et développement d’une interface générique pour lexiques
Résumé : L’équipe du Traitement Automatique du Langage Écrit et Parlé (TALEP) fait de la recherche notamment dans le domaine des expressions polylexicales. On y développe des lexiques très hétérogènes, avec des informations associées d’ordres numériques, catégorielles, textuelles entre autres. Ces données sont aux format Tab-Separated Value (TSV), ce qui posent plusieurs problèmes dont la structuration, la sémantique, la traçabilité, le versionning ou la redondance. Un premier objectif consiste à exprimer ces lexiques dans un format générique et plus pratique afin de résoudre les problèmes précités. Ensuite, le projet a pour second objectif de développer une interface web pour importer, consulter et les télécharger ces données. Le format pour remplacer le TSV est le XML associé à un schéma XML. Ce schéma a été récupéré du projet RELISH-LMF, puis adapté.Le projet RELISH-LMF est une traduction du standard LMF (Lexical Markup Framework) exprimé à l’aide du langage RELAX NG. Le convertisseur au nouveau format est développé en JAVA grâce notamment à l’API JAXB. L’interface web est développé avec la technologie Java Server Faces (JSF). JSF est un framework basé sur les composants. Il est le standard proposé par Java EE et se base sur l’architecture Modèle – Vue – Contrôleur (MVC). Le projet aboutit à la création d’un convertisseur de fichier TSV au format XML-LMF et une interface web permettant d’importer, consulter et télécharger des lexiques.
18/05/2017 13h Leonor Becerra – Language learning from images paired with sentences
Résumé : Children learn their native language from hearing all day long utterances in a rich perceptual context. This is a challenging task, since children may perceive many visual aspects of that context that are not related to the utterance they hear. Moreover, the input may be noisy; for example, not all aspects of the utterance’s meaning may be directly perceptible from the context. Despite the complexity of this task, children learn their native language reasonably fast and effortlessly. The question is: can we make a computer learn language in a similar way? In this talk I will present a computational system that learns language from pairs consisting of an image (that represents a given context) and a sentence that (partially) describes this image. Using inductive logic programming techniques, and without any language-specific prior knowledge, the system learns language models in the form of mappings between a semantic representation of a context and part of a sentence. Such models can be used for a variety of purposes, including generating sentences describing a given image or identifying the elements in an image that a sentence refers to. We believe this approach has much potential in terms of helping us to better understand how humans learn their native language, as well as improving natural language processing technology.
23/06/2017 14h Mathieu Lafourcade et Mokhtar Billami
Mokhtar Billami - Création et validation de signatures sémantiques : application à la mesure de similarité sémantique et à la substitution lexicale – [Slides]
Résumé : L’intégration de la notion de similarité sémantique entre les unités lexicales est essentielle dans différentes applications de Traitement Automatique des Langues (TAL). De ce fait, elle a reçu un intérêt considérable qui a eu comme conséquence le développement d’une vaste gamme d’approches pour en déterminer une mesure. Ainsi, plusieurs types de mesures de similarité existent, elles utilisent différentes représentations obtenues à partir d’informations soit dans des ressources lexicales, soit dans de gros corpus de données ou bien dans les deux. Dans cette présentation, nous nous intéressons à la création de signatures sémantiques décrivant des représentations vectorielles de mots à partir du réseau lexical JeuxDeMots (JDM). L’évaluation de ces signatures est réalisée sur deux tâches différentes : mesures de similarité sémantique et substitution lexicale. Les résultats obtenus sont très satisfaisants et surpassent, dans certains cas, les performances des systèmes de l’état de l’art.
Mathieu Lafourcade - JeuxDeMots a 10 ans : à quoi ressemble un gros réseau lexico-sémantique obtenu par crowdsourcing
Résumé : Le projet JeuxDeMots a pour objectif de construire un réseau lexical et sémantique (de sens commun, et de spécialité) en français à l'aide de jeux (gwaps - games with a purpose), d'approches contributives mais également de mécanismes d'inférences. Une douzaine de jeux ont été conçus dans le cadre du projet, chacun permettant de collecter des informations spécifiques ou encore de vérifier la pertinence de données acquise via les autres jeux. Cet exposé s'attachera en particulier à décrire la nature des données que nous avons collectées et construites depuis le lancement du projet durant l'été 2007. Nous présenterons en particulier les aspects suivant : la structure interne de réseau lexical obtenu, les types de relations sémantiques représentées (ontologiques, subjectives, rôles sémantiques, associations d'idées), les questions liées à l'activation et l'inhibition de termes et relations, l'annotation de relations (méta-informations), les raffinements sémantiques (gestion de la polysémie), la création d'agglomérations permettant la représentation de connaissances plus riches. Ce réseau lexical, distribué sous licence libre, est exploité dans de nombreux laboratoires de recherche et entreprises. Les applications en cours utilisant le réseau JeuxDeMotsconcernent principalement l'interprétation sémantique de textes, la compréhension de l'écrit, la recherche d'information, l'inférence de faits, l'analyse d'opinions et de sentiments - et ce dans des domaines comme la radiologie, le tourisme, la nutrition. Construit à partir d'une liste de 150 000 termes sans aucune relation entre eux, le réseau lexical de JeuxDeMots contient maintenant plus de 1400 000 termes et plus de 85 millions de relations.
Dates (automne 2016)
05/10/2016 Helena de Medeiros Caseli – An overview of LALIC's work on processing single and parallel texts
Summary: In this talk I will present some of the projects carried out at our laboratory (LALIC) at UFSCar/Brazil regarding the automatic processing of texts in one (Brazilian Portuguese) or more (Spanish, English) languages. The idea here is to give an overview about what we have already done and also what we are planing to do in a near future. Among our past projects we can cite: the Machine Translation Portal (http://www.lalic.dc.ufscar.br/portal/) and the Never-Ending Language Learning project at LALIC (http://www.lalic.dc.ufscar.br/never-ending/). Regarding our current/future aims there is the work in progress regarding the joint processing of texts and images.
Summary: n this talk, I will present my work on compositionality detection. Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of Multiword Expressions (MWEs) — e.g. a person who is a sitting duck is neither a duck nor necessarily sitting. The problem of non-compostionality is further exacerbated due to the polysemy of some expressions: a silver bullet probably refers to a literal bullet in the screenplay for some fiction movies, but is unlikely to be an actual weapon when discussing the economy. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful in multiple tasks, especially since the rise of word embedding approaches. However, non-compositionality and polysemy still remain as two open problems in the area. The work that will be presented contributes to the state of the art by providing a thorough multilingual evaluation of MWE identification and compositionality prediction techniques in the context of distributional and word-embedding systems.