Wiki TALEP

Traitement automatique du langage écrit et parlé

Outils pour utilisateurs

Outils du site


projets-l3:ressources

Liste de logiciels/ressources de traitement des langues

Voici une liste non exhaustive de logiciels et ressources (lexiques, corpus) de TAL qui peuvent être téléchargés gratuitement et testés pour les projets de Langage Naturel.

- Analyse

- Morphologie
  • TreeTagger - Analyseur en parties du discours et lemmes, modèles disponibles en plusieurs langues
  • TnT tagger - Analyseur en parties du discours avec modèles pour l'anglais et l'allemand
  • Nooj - Analyseur fondé sur transducteur fini
  • Les analyseurs syntaxiques ci-dessous incluent des analyseurs morphologiques
- Syntaxe
  • Stanford parser - Analyseur syntaxique probabiliste, avec modèles disponibles pour l'anglais, français, allemand, chinois et arabe.
  • Berkeley parser - Analyseur syntaxique probabiliste, avec modèles disponibles pour l'anglais, français, allemand, bulgare, chinois et arabe.
  • Macaon - Analyseur syntaxique probabiliste, avec modèles disponibles pour le français et pour l'anglais
  • RASP - Analyseur syntaxique de l'anglais
  • Illico - Analyseur syntaxique du français
- Autres
  • Stanford NER - Reconaisseur d'entités nommées pour l'anglais, l'allemand et le chinois.

- Traduction

- Systèmes de traduction probabilistes
  • Moses - boîte à outils pour construction de systèmes de traduction probabilistes à partir de corpus parallèles (indépendant de la langue)
- Démos en ligne (plusieurs couples de langues)
  • Google Translate - Systèmes de traduction probabilistes de Google
  • Reverso - Système de traduction classique
  • Systran - Système de traduction classique
  • Linguee - Effectuer des recherches dans des corpus parallèles

- Classification de textes

  • langid.py - Identification automatique de la langue d'un texte

- Extraction d'informations

- Lexicales
  • mwetoolkit - Extraction d'expressions récurrentes à partir de corpus (indépendant de la langue)
  • Text:NSP - Extraction d'expressions récurrentes à partir de corpus (indépendant de la langue)

- Boîte à outils

  • NLTK - Natural Language TookKit, bibliothèque Python contenant plusieurs outils de traitement et d'analyse pour plusieurs langues, y compris des ressources lexicales et des corpus.

- Modèles de langage

  • SRILM - Boîte à outils pour la construction de modèles de langage à n-grammes probabilistes (indépendant de la langue)
  • IRSTLM - Boîte à outils pour la construction de modèles de langage à n-grammes probabilistes (indépendant de la langue)
  • RandLM - Boîte à outils pour la construction de modèles de langage à n-grammes compréssés (indépendant de la langue)

- Lexiques

  • WordNet - Thésaurus de l'anglais, contient des relations de synonymie (synsets), antonymie, hyponymie, etc.
  • Wiktionnaire - Dictionnaire collaboratif à la wikipédia, disponible en plusieurs langues
  • WOLF - WordNet libre du français
  • TLFi - Trésor de la langue française informatisé
  • Lefff - Lexique des formes fléchies du français
  • Lexique-grammaire - Tables de description grammaticale des mots et expressions du français

- Corpus

  • Web as Corpus (WaC) - Très grands corpus monolingues extraits du web, disponibles en anglais, allemand, italien et français
  • Wikipedia dumps - Corpus comparable extrait de Wikipédia
  • Bible - Corpus parallèle de la Bible
  • Open Subtitles - Corpus parallèle de sous-titres de films et séries, documents techniques, etc.
  • Europarl - Corpus parallèle des transcriptions du parlement Européen
  • MultiUN - Corpus parallèle du site web de l'ONU
  • TED - Corpus parallèle des sous-titres des conférences “TED talks”
  • GENIA - Corpus spécialisé en génétique, monolingue anglais, annoté à plusieurs niveaux syntaxiques et sémantiques
LDAP: couldn't connect to LDAP server
projets-l3/ressources.txt · Dernière modification: 2016/01/08 16:08 de carlos.ramisch