Dates (printemps 2016)

Dates (automne 2015)

Résumé : In this talk I will first present my work related to interaction modelling, multimodal communication, and in particular, present the Nao Wikitalk, a robot application that enables the user to interact with the Wikipedia information via the Nao robot. The robot supports open-domain conversations using Wikipedia as a knowledge source. To manage smooth interaction, it is important to capture the user’s emotional and attentional state. I will focus on the challenges related to the topic structure, new information, and the users' emotional state, i.e. infering the user's interest and engagement. In the second part of my talk, I will then move on to discuss various issues in mu work plan to study sentiment in dialogue data. This is based on some preliminary work on sentiment analysis for conversational texts, and the hypothesis is that by combining language technology with spoken dialogue analysis, we can provide a fruitful starting point to track the user’s interest level, engagement, and emotional state in interaction.

Slides

Résumé : Le projet JeuxDeMots vise à construire une grande base de connaissance de sens commun (et de spécialité) en français à l'aide de jeux (gwaps - games with a purpose) et d'approches contributives. Après une introduction sur les gwaps dans divers domaines, cet exposé s'attachera à décrire la nature des données que nous avons collectées et construites depuis le lancement du projet durant l'été 2007 et les méthodes que nous avons mises en place pour les collecter. Une dizaine de jeux ont été conçus dans le cadre du projet, chacun permanentant de collecter des informations spécifiques ou encore de vérifier la qualité de données acquise via un autre jeu. Concernant les données en particulier, nous décrirons les aspects suivant : la structure de réseau lexical, les types de relations sémantiques (ontologiques, subjectives, rôles sémantiques, associations d'idées), les questions d’activation et d’inhibition, l'annotation de relations (méta-informations), les raffinement sémantiques (gestion de la polysémie). Ce réseau lexical, distribué sous licence libre, est exploité dans de nombreux laboratoires de recherche et entreprises. Les applications en cours utilisant le réseau JeuxDeMots concernent principalement l'interprétation sémantique de textes, la compréhension de l'écrit, la recherche d'information, l'inférence de faits, l'analyse d'opinions et de sentiments - et ce dans des domaines comme la radiologie, le tourisme, la nutrition. Il contient plus de 500 000 termes et 20 millions de relations.

Slides

Résumé : Unsupervised systems for people identification in TV broadcasts has had a lot of attention the last decade in the literature. Indeed, TV context introduces many ambiguities making biometric systems unreliable. In addition, maintaining up-to-date large dictionaries of biometric models is prohibitively expensive. Current trends aim to combine traditional techniques based on overlaid name propagation with high level information such as prior knowledge on document structure. Indeed, TV program often have regular structure organized in homogeneous sequences. In this talk, we will discuss the use of different video structure features such as shot classification (studio/report), camera identification and people role recognition. In particular, we will describe the PERCOLATTE system submitted at the MediaEval 2015 evaluation campaign for the task “Multimodal Person Discovery in Broadcast TV”.

Slides

Résumé : Dans ce séminaire je montrerai comment l'analyse syntaxique automatique permet de résoudre certaines tâches connexes que sont: la détection de disfluences, la reconnaissance de mots composés grammaticaux, la segmentation de transcriptions de parole.

Slides

Résumé : The PARSEME-FR project aims at improving the syntactic analysis and identification of multiword expressions in French. These goals are further divided into (1) develop and integrate lexical resources including MWEs and (2) develop and adapt parsers for taking these resources into account. My talk will present the context of the project, specially the PARSEME Cost Action. Then, I will discuss some related work on parsing and MWE identification to provide a brief state of the art. Finally I'll summarise the project goals and methodology, and outline the work packages and schedule.

Slides

Abstract: Lexical simplification aims at substituting complex words by simpler synonyms or semantically close words. A first step to perform such task is to decide which words are complex and need to be replaced. Though this is a very subjective task, and not trivial at all, there is agreement among linguists of what makes a word more dicult to read and understand. Cues like the length of the word or its frequency in the language are accepted as informative to determine the complexity of a word. In this work, we carry out a study of the effectiveness of those cues by using them in a classification task for separating words as simple or complex. Interestingly, our results show that word length is not important, while corpus frequency is enough to correctly classify a large proportion of the test cases (F-measure over 80%).

Short Bio: Aline Villavicencio is a senior lecturer in Computer Sciences at the Federal University of Rio Grande do Sul (Brazil), and a CNPq fellow. She was a visiting Scholar at MIT (USA) from 2014-2015 and 2011-2012, and at Saarland University in 2012-2013, with PhD and MPhil degrees from the University of Cambridge, UK. Her research has included work on computational language acquisition and grammar engineering for languages such as English and Portuguese. She has coordinated several projects on these topics, which include collaboration with France, US and Latin American universities. She has organized events including the ACL-2007, the EACL-2009, 2012 and 2014 and the EMNLP 2015 Workshop on Cognitive Aspects of Computational Language Acquisition, and the ACL 2003, 2004, 2011, NAACL-2013 and Coling 2010 workshops on Multiword Expressions among others.

Résumé : Nous avons construit avec Morris Salkoff un lexique décrivant la complémentation verbale du français qui pourra constituer un outil commode pour les linguistes et qui pourrait servir en particulier dans le traitement automatique des langues. Ce lexique énumère et classe les constructions spécifiques pour une liste des 975 entrées des verbes d’emploi le plus fréquent.

Ce lexique, converti en une base de données au format html appelée Lexvalf grâce au concours de Laure Brieussel ingénieur d’études au LIF, exploite de façon manuelle les données des tables du Lexique Grammaire de Maurice Gross, (1975) , ( Boons J.-P., Guillet A., et Leclère Ch. 1976, 1992) et présente de ce fait une alternative intéressante à l’entreprise de chercheurs comme E. Tolone et Sagot (2011) qui développent une méthode de traitement automatique des données du lexique-grammaire (LGLex, LGLex Lefff).

Lexvalf est construit dans le but de proposer une couverture de la complémentation verbale du français, plus précisément de la valence verbale du français, définie comme l’ensemble des dépendants spécifiques du verbe. L’ambition est de mettre à la disposition des chercheurs une couverture de la complémentation verbale plus large que celles qu’offrent les ressources existantes (LG, Dicovalence, LVF), avec un « grain plus fin » dans la mesure où sont inventoriées un plus grand nombre de constructions et détaillées les caractéristiques lexicales et grammaticales de ces constructions.