seminaires_2015-2016

Dates (printemps 2016)

5/1 Balamurali A R – Understanding Conversations for End User Applications
- Summary: Large amount of conversational data is created everyday. They exist in structured and semi-structured form which in raw do not have any informational value. Last year of my research focused on analyzing and utilizing these conversation data for developing end user applications. Toward this object, I present three studies: a) Analyzing call center operation data for automatic quality monitoring of calls b) Analyzing newspaper comments for clustering and labelling c) Analyzing Tweets to predict whether user is alcohol intoxicated or not.
- Slides
15/1 Pablo Botton da Costa – Multilingual dependency neural parsing
- Keywords: transfer learning, neural classification, dependency parsing, sister languages
22/1
29/1 Fred + Carlos + Benoit @ Paris (Parseme)
12/2 Anca-Roxana Simon – Leveraging topic models for video hyperlinking in the context of the MediaEval and TRECVid benchmarking initiatives
- Summary: Various benchmarking initiatives have emerged to foster the interest of the multimedia community to process, analyze and derive value from various structured and unstructured data such as: text, speech, video, etc. Two such initiatives are MediaEval and TRECVid, which propose various tasks among which the Video Hyperlinking task. The purpose of this task is to improve the user navigation experience in a large video collection by offering information seeking and browsing capabilities in addition to search. The key idea is creating links that originate from parts of video content and point to other relevant content leading to potential serendipitous encounters. The links can be seen as recommendations for potential viewers whose intent is not known at the time of linking. In this talk I will present some of the approaches we have proposed and the lessons we have learned during our three year participation in this task. With our approaches we argue for diversity in links to improve the chance that any user will find at least one interesting link to follow. To increase diversity we leverage a hierarchical topic model, which allows the control over the topical relation responsible for creating a link, and a bilingual topic model, which allows content translation across modalities (in our case spoken content and visual content) creating links that would not be captured with monomodal or multimodal content comparisons.
- Slides
19/2 Vacances
26/2 Guy Deville – ETIQUETAGE SEMANTIQUE ET TRAITEMENT DES AMBIGUITES DANS UN OUTIL D'AIDE A LA LECTURE DE TEXTES EN LANGUE ETRANGERE (ANGLAIS)
- RESUME : CoBRA (Corpus Based Reading Assistant) est un outil interactif d’aide à la lecture de textes en langues étrangères (anglais et néérlandais) à l’usage d’apprenants francophones de tous niveaux. Pour chaque texte, l’utilisateur accède par un clic à la traduction française de chaque mot ou expression dans son contexte original de lecture. Cette traduction est illustrée à l’aide de concordances issues d’une base de très grands corpus bilingues alignés recouvrant la langue usuelle et différents domaines de spécialité des apprenants. CoBRA est donc un outil paramétrable et adaptatif, qui met aujourd'hui près de 1200 textes à la disposition d'environ 6000 apprenants de tous niveaux, dans des contextes d'apprentissage différentiés. Nous présenterons d'abord l'outil de lecture à l'usage des apprenants avec les options de paramétrage selon le public visé, à l'aide de quelques exemples de cours d'anglais en ligne sur la plateforme WebCampus de l'Université de Namur. L'exposé portera ensuite sur (i) la construction et la structure du lexique anglais-français (environ 20.000 entrées) qui est au coeur de l'outil CoBRA et (ii) les fonctionnalités permettant l'étiquetage et la désambiguïsation sémantiques de textes (anglais) sur la base d'un tel lexique.
4/3 (réunion BLRI à Aix)
11/3 Jocelyn Aznar – Le corpus de textes narratifs nisvais : méthodologie d'un processus de documentation polyvalent pour une langue orale non décrite, sud-est de Malékula, Vanuatu.
- Résumé: Durant cette présentation, nous détaillerons le processus de documentation que nous avons mis en place afin d'étudier les pratiques narratives nisvaies, un processus qui s'articule autour du logiciel d'annotation ELAN. Il s'agit d'un travail dont l'optique est une analyse linguistique qualitative d'un corpus d'enregistrements audio et qui, afin de prendre en compte les différents acteurs liés au projet, s'appuie sur des scripts informatiques ad hoc. Dans une première partie, nous résenterons notre recherche, son contexte, ses acteurs et leurs rôles dans le processus documentaire. Nous aborderons ensuite l'annotation des textes narratifs, la transcription, l'annotation morphologique et la traduction via le logiciel ELAN. Puis, nous décrirons les scripts et la base de données qui nous permettent de transformer le corpus de textes, fichiers sources résultants de l'annotation, en des ressources pensées pour les différents acteurs du projet de recherche. Enfin, nous verrons les trois ressources qui ont été développées à partir de ce processus, deux ressources papier et une ressource web. En conclusion, nous reviendrons sur l'aspect polyvalent de cette documentation et sur le rôle qu'y joue l'informatique.
18/3 Hector Martinez Alonso – Annotation of Regular Polysemy
- Résumé : Regular polysemy, the property of certain classes of words to switch between two readings in a systematic fashion, e.g. Locations can systematically mean Organizations, is one of the main topics of lexical semantics. Theory in lexical semantics (cf. Pustejovsky, 95) has postulated that words that experience regular polysemy can present an underspecified sense were both readings are equally active. This work deals with the human and automatic recognition of the underspecified sense for a series of nominal classes in English, Danish and Spanish. Moreover, we address the issues of annotation bias of when conducting research in lexical semantics, and propose an alternative, continuous representation for regular polysemy.
25/3 (BF absent)
1/4
8/4 Mickael Zock – PuXXin, c’est quoi encore le nom de ce président russe? Trouver le mot recherché dans un dictionnaire électronique.
- Résumé : Trouver ce qu’on cherche est important, ceci paraît évident. Or, le trouver ne l’est pas forcément. Notre réussite dépend non seulement de l’existence de l’objet recherché (le fait de l’avoir stocké), mais aussi de tout un ensemble d’autres facteurs comme : la nature de l’objet (mots, clés, lunettes, noms d’une personne…), l’endroit où on l’a déposé (accessibilité, visibilité) la manière de l’avoir placé (organisation, indexation), le but (analyse/production), l’information disponible au moment d’initier la recherche, etc. Nous nous intéressons aux mots, plus précisément à leur forme et comment y accéder lorsqu’on est en mode production (discours oral/écrit). Si en analyse (compréhension) on part des formes pour trouver le sens, en production c’est l’inverse : on part du sens (image, concept) pour trouver la forme correspondante. Partir du sens est donc un point de départ naturel, quoique, ce n’est, pas le seul possible, loin s’en faut. Les psychologues ont beaucoup étudié le phénomène du 'mot sur le bout de la langue' (MBL) : on cherche un mot (ou le nom d’une personne) que l’on connaît, sans être en mesure d’y accéder à temps. Les études portant sur le MBL ont montré que les personnes se trouvant dans cet état savent énormément de choses concernant le mot recherché (sens, nombre de syllabes, origine, etc.), et que les mots avec lesquels ils le confondent lui ressemblent étrangement (lettre ou son initial, catégorie syntaxique, champ sémantique, etc.). Mon objectif (à long terme) est de réaliser un programme tirant bénéfice de cet état de fait pour assister un locuteur ou rédacteur à (re)trouver le mot qu’il a sur le bout de la langue. À cette fin, je prévois d’ajouter à un dictionnaire électronique existant un index d’association (collocations rencontrées dans un grand corpus). Autrement dit, je propose de construire un dictionnaire analogue à celui des êtres humains, qui outre les informations conventionnelles (définition, forme écrite, informations grammaticales) contiendraient des liens (associations), permettant de naviguer entre les idées (concepts) et leurs expressions (mots). Un tel dictionnaire permettrait donc l’accès à l’information recherchée soit par la forme (lexicale : analyse), soit par le sens (concepts : production), soit par les deux. L’accès est prévu en deux temps : l’utilisateur donne en entrée l’information dont il dispose au moment de la requête, et le programme détermine le sous-ensemble (voisins directs) dans lequel la recherche doit avoir lieu, puisqu’effectuer une recherche dans tout le dictionnaire ne serait pas très réaliste. Afin de faciliter la navigation, nous proposons de présenter le résultat obtenu en réponse à l’entrée non pas comme liste plate, mais comme une liste structurée (arbre catégoriel).
15/4 Vacances
22/4
29/4
6/5
13/5
18/5 Alexis Nasr – Expériences récentes autour d'un analyseur syntaxique en transitions
- Résumé : Je décrirai dans ce séminaires diverses utilisations qui peuvent être faites d'un analyseur en transitions. En particulier, je décrirai 1) comment utiliser un tel analyseur pour prédire des fins de phrases avec et sans la présence de ponctuation ; 2) comment prendre en compte des jeux d'étiquettes de parties de discours importants (contenant plusieurs milliers d'étiquettes) ; 3) comment prendre en compte des représentations vectorielles de mots (word embeddings) ; 4) des expériences préliminaires pour réaliser l'étiquetage syntaxique et l'analyse syntaxique de manière jointe. La question générale qui sous tend ce travail est la suivante : peux-t-on rendre déterministes toutes les étapes qui précèdent l'analyse syntaxique et faire en sorte qu'elles soient toutes prises de manière conjointe lors de l'analyse
- Slides
20/5 Jean-Philippe Fauconnier – La mise en forme des textes : un indice supplémentaire pour l'identification des relations hiérarchiques
- Résumé : L'acquisition automatique de connaissances à partir de textes constitue un enjeu majeur pour la construction de ressources lexicales et sémantiques. Dans ce contexte, une tâche cruciale concerne l'identification des relations hiérarchiques, car celles-ci forment l'ossature de telles ressources. La plupart des travaux proposés dans ce sens ne traitent que le texte brut, alors que les relations hiérarchiques peuvent être exprimées au travers de marqueurs typographiques (puces, emphases, etc.) ou dispositionnels (indentation visuelle, retours à la ligne, etc.) qui se substituent à des formulations strictement discursives. Dans ce cas, ces relations sont alors hors de portée des outils classiques en TAL, généralement dédiés à une analyse de niveau phrastique. L'objectif de ce travail est d'étendre le processus d'identification des relations en combinant l'analyse du texte brut et celle de la mise en forme. Deux étapes principales sont considérées : (1) fournir une représentation logique de la structure visuelle, (2) exploiter conjointement cette structure logique et le texte brut pour extraire des occurrences de ces relations. Notre approche a été évaluée dans le cadre de l'identification de la relation d'hyperonymie au sein de structures énumératives.
- Slides
27/5
3/6
10/6 JBB (à voir)
17/6 JSL
24/6 → EXCEPTIONNELLEMENT de 10h à 11h - Agata Savary – Multiword expressions in syntactic parsing and in treebank post-annotation
- Résumé : Multiword expressions (MWEs), e.g. “by and large”, “red tape”, “to pull someone’s leg” or “to take advantage”, are linguistic objects containing two or more words and showing idiosyncratic behavior at different levels. Notably, their meaning is often not deducible from the meanings of their components and from their syntactic structure in a fully compositional way. Thus, interpretation-oriented NLP tasks, such as semantic calculus or translation, call for MWE-dedicated procedures. Syntactic parsing often underlies such tasks, and the crucial issue is at which point the MWE identification should take place: before, after or during parsing. The last, joint, approach often proves the most efficient due to at least two reasons. Firstly, some MWEs coincide with word combinations that cross phrase boundaries, which can hardly be detected prior to parsing (“*after all* the preparations we finally left”). Secondly, while most MWEs have both an idiomatic and a compositional reading (which leads to high syntactic ambiguity), we show that the former occurs much more frequently than the latter for large classes of MWEs. We propose a heuristic for an A* parser for Lexicalized Tree Adjoining Grammars (LTAGs) which benefits from this knowledge by promoting MWE-oriented analyses. This strategy leads to a substantial reduction in the parsing search space in case of true positive MWE occurrences, while avoiding parsing failures in case of false positives. Some considerations on grammar compression and its influence on the inference rules of the parser will also be mentioned. Our experiments were performed with an LTAG grammar extracted automatically from a Polish constituency treebank containing no MWE annotations. We show how an existing lexical resource of MWEs, namely a verbal valence dictionary with a phraseological component, can be used to post annotate the treebank. The mapping procedures are based on validating lexical, morphological and partly syntactic constraints encoded in the lexicon against syntactic subtrees. The presentation is based on a joint work of Jakub Waszczuk, Yannick Parmentier an myself.

27/6 Mokhtar et Nuria – “Une ressource lexicale pour l'aide à la lecture”
- Résumé : Lire un texte afin de le comprendre constitue une activité cognitive très complexe. Si les procédures en jeu dans la lecture ont été largement décrites et validées par la communauté scientifique, en particulier l'étape de la reconnaissance de mots (Ferrand et Ayora, 2009), on demeure en revanche très démunis sur la façon de remédier aux difficultés de lecture. Puisque le vocabulaire occupe une place fondamentale dans le développement et la pratique de la lecture, des ressources lexicales spécifiques pourraient jouer un rôle pour lutter contre ces difficultés. Dans cette optique, nous travaillons à la construction automatique de lexiques intégrant la notion de 'niveau de difficulté lexicale'. Dans cet exposé, nous en présenterons les caractéristiques et détaillerons le processus de construction de ReSyf, une ressource de synonymes désambiguïsés et triés selon leur difficulté.
27/6 T. François – “Tri automatique de synonymes en fonction de leur difficulté”
- Résumé : Dans le domaine de l'enseignement des langues, la connaissance lexicale est reconnue comme étant un composant essentiel, tant pour l'usage fluide d'une langue que comme pré-requis pour une acquisition plus poussée. Bien que de nombreux travaux se soient penchés sur la taille du vocabulaire à connaître (ex. Hirsch et Nation, 1992 ; Laufer, 1992), il reste difficile de déterminer quels mots un apprenant donné connaît ou devrait apprendre à un moment précis de son apprentissage. La progression de l'acquisition lexicale est généralement guidée par des listes lexicales, telles que celle de Gougenheim (1958). Dans le cadre de l'apprentissage d'une langue seconde (L2), une alternative a été développée, à savoir, des référentiels qui listent des contenus d'apprentissage par niveau du cadre européen de référence pour les langues (CECR). Nous proposons, quant à nous, des méthodes alternatives basées sur le TAL pour l'évaluation automatique de la difficulté lexicale. Tout d'abord, nous présenterons une tentative de classer automatiquement les mots du français selon les 6 niveaux du CECR à partir d'un modèle fréquentiel estimé sur un corpus de textes annotés selon l'échelle du CECR. Ce modèle a été rendu disponible dans une ressource disponible gratuitement : FLELex, qui décrit la distribution d'environ 15 000 mots sur les 6 niveaux du CECR pour le français langue étrangère (FLE). Dans un second temps, nous rapportons une approche basée sur l'apprentissage automatisé qui est capable de trier un ensemble de termes, hors-contexte, en se reposant sur un large éventail de caractéristiques intrinsèques de ces mots. Cet algorithme a été intégré dans le projet ReSyf, afin de constituer une ressource de synonymes triés par difficulté. Enfin, nous rapporterons brièvement une expérience préliminaire combinant les informations des deux précédentes approches en vue d'entraîner un modèle apte à détecter les mots inconnus d'un apprenant donné (prédiction personnalisée).
- Mots-clefs : complexité/difficulté lexicale, modèles prédictifs, ALAO, prédiction personnalisée de la connaissance lexicale.
- Slides : seminaire-27-juin-mokhtar.pdf talep_27062016.pdf marseille2016.pdf
1/7
8/7 TALN
15/7
22/7
29/7

Dates (automne 2015)

15/9 Réunion équipe
22/9 Kristiina Jokinen – Multimodal interaction and affects - topics towards analysing sentiments in conversational texts

Résumé : In this talk I will first present my work related to interaction modelling, multimodal communication, and in particular, present the Nao Wikitalk, a robot application that enables the user to interact with the Wikipedia information via the Nao robot. The robot supports open-domain conversations using Wikipedia as a knowledge source. To manage smooth interaction, it is important to capture the user’s emotional and attentional state. I will focus on the challenges related to the topic structure, new information, and the users' emotional state, i.e. infering the user's interest and engagement. In the second part of my talk, I will then move on to discuss various issues in mu work plan to study sentiment in dialogue data. This is based on some preliminary work on sentiment analysis for conversational texts, and the hypothesis is that by combining language technology with spoken dialogue analysis, we can provide a fruitful starting point to track the user’s interest level, engagement, and emotional state in interaction.

29/9 (Alexis et Fred absents)
6/10 Mathieu Lafourcade – Jeux et intelligence collective : les leçons du projets JeuxDeMots

Slides

Résumé : Le projet JeuxDeMots vise à construire une grande base de connaissance de sens commun (et de spécialité) en français à l'aide de jeux (gwaps - games with a purpose) et d'approches contributives. Après une introduction sur les gwaps dans divers domaines, cet exposé s'attachera à décrire la nature des données que nous avons collectées et construites depuis le lancement du projet durant l'été 2007 et les méthodes que nous avons mises en place pour les collecter. Une dizaine de jeux ont été conçus dans le cadre du projet, chacun permanentant de collecter des informations spécifiques ou encore de vérifier la qualité de données acquise via un autre jeu. Concernant les données en particulier, nous décrirons les aspects suivant : la structure de réseau lexical, les types de relations sémantiques (ontologiques, subjectives, rôles sémantiques, associations d'idées), les questions d’activation et d’inhibition, l'annotation de relations (méta-informations), les raffinement sémantiques (gestion de la polysémie). Ce réseau lexical, distribué sous licence libre, est exploité dans de nombreux laboratoires de recherche et entreprises. Les applications en cours utilisant le réseau JeuxDeMots concernent principalement l'interprétation sémantique de textes, la compréhension de l'écrit, la recherche d'information, l'inférence de faits, l'analyse d'opinions et de sentiments - et ce dans des domaines comme la radiologie, le tourisme, la nutrition. Il contient plus de 500 000 termes et 20 millions de relations.

13/10 Meriem Bendris – How to identify people in broadcast news without biometric systems?

Slides

Résumé : Unsupervised systems for people identification in TV broadcasts has had a lot of attention the last decade in the literature. Indeed, TV context introduces many ambiguities making biometric systems unreliable. In addition, maintaining up-to-date large dictionaries of biometric models is prohibitively expensive. Current trends aim to combine traditional techniques based on overlaid name propagation with high level information such as prior knowledge on document structure. Indeed, TV program often have regular structure organized in homogeneous sequences. In this talk, we will discuss the use of different video structure features such as shot classification (studio/report), camera identification and people role recognition. In particular, we will describe the PERCOLATTE system submitted at the MediaEval 2015 evaluation campaign for the task “Multimodal Person Discovery in Broadcast TV”.

20/10 Alexis Nasr – Le couteau suisse du traitement automatique de la langue

Slides

Résumé : Dans ce séminaire je montrerai comment l'analyse syntaxique automatique permet de résoudre certaines tâches connexes que sont: la détection de disfluences, la reconnaissance de mots composés grammaticaux, la segmentation de transcriptions de parole.

3/11 Carlos Ramisch – Le projet ANR PARSEME-fr

Slides

Résumé : The PARSEME-FR project aims at improving the syntactic analysis and identification of multiword expressions in French. These goals are further divided into (1) develop and integrate lexical resources including MWEs and (2) develop and adapt parsers for taking these resources into account. My talk will present the context of the project, specially the PARSEME Cost Action. Then, I will discuss some related work on parsing and MWE identification to provide a brief state of the art. Finally I'll summarise the project goals and methodology, and outline the work packages and schedule.

13/11 Aline Villavicencio – Size does not matter. Frequency does. A study of features for measuring lexical complexity

Slides

Abstract: Lexical simplification aims at substituting complex words by simpler synonyms or semantically close words. A first step to perform such task is to decide which words are complex and need to be replaced. Though this is a very subjective task, and not trivial at all, there is agreement among linguists of what makes a word more dicult to read and understand. Cues like the length of the word or its frequency in the language are accepted as informative to determine the complexity of a word. In this work, we carry out a study of the effectiveness of those cues by using them in a classification task for separating words as simple or complex. Interestingly, our results show that word length is not important, while corpus frequency is enough to correctly classify a large proportion of the test cases (F-measure over 80%).

Short Bio: Aline Villavicencio is a senior lecturer in Computer Sciences at the Federal University of Rio Grande do Sul (Brazil), and a CNPq fellow. She was a visiting Scholar at MIT (USA) from 2014-2015 and 2011-2012, and at Saarland University in 2012-2013, with PhD and MPhil degrees from the University of Cambridge, UK. Her research has included work on computational language acquisition and grammar engineering for languages such as English and Portuguese. She has coordinated several projects on these topics, which include collaboration with France, US and Latin American universities. She has organized events including the ACL-2007, the EACL-2009, 2012 and 2014 and the EMNLP 2015 Workshop on Cognitive Aspects of Computational Language Acquisition, and the ACL 2003, 2004, 2011, NAACL-2013 and Coling 2010 workshops on Multiword Expressions among others.

20/11 Mickael Rouvier / Analyse d'opinion
24/11
1/12 Ahmed Hamdi / Présoutenance de thèse
8/12 André Valli – Construction d’une base de données sur la valence verbale du français

Résumé : Nous avons construit avec Morris Salkoff un lexique décrivant la complémentation verbale du français qui pourra constituer un outil commode pour les linguistes et qui pourrait servir en particulier dans le traitement automatique des langues. Ce lexique énumère et classe les constructions spécifiques pour une liste des 975 entrées des verbes d’emploi le plus fréquent.

Ce lexique, converti en une base de données au format html appelée Lexvalf grâce au concours de Laure Brieussel ingénieur d’études au LIF, exploite de façon manuelle les données des tables du Lexique Grammaire de Maurice Gross, (1975) , ( Boons J.-P., Guillet A., et Leclère Ch. 1976, 1992) et présente de ce fait une alternative intéressante à l’entreprise de chercheurs comme E. Tolone et Sagot (2011) qui développent une méthode de traitement automatique des données du lexique-grammaire (LGLex, LGLex Lefff).

Lexvalf est construit dans le but de proposer une couverture de la complémentation verbale du français, plus précisément de la valence verbale du français, définie comme l’ensemble des dépendants spécifiques du verbe. L’ambition est de mettre à la disposition des chercheurs une couverture de la complémentation verbale plus large que celles qu’offrent les ressources existantes (LG, Dicovalence, LVF), avec un « grain plus fin » dans la mesure où sont inventoriées un plus grand nombre de constructions et détaillées les caractéristiques lexicales et grammaticales de ces constructions.

15/12
22/12