Liste de logiciels/ressources de traitement des langues
Voici une liste non exhaustive de logiciels et ressources (lexiques, corpus) de TAL qui peuvent être téléchargés gratuitement et testés pour les projets de Langage Naturel.
- Analyse
- Morphologie
TreeTagger - Analyseur en parties du discours et lemmes, modèles disponibles en plusieurs langues
TnT tagger - Analyseur en parties du discours avec modèles pour l'anglais et l'allemand
Linguee - Effectuer des recherches dans des corpus parallèles
- Classification de textes
langid.py - Identification automatique de la langue d'un texte
- Extraction d'informations
- Lexicales
mwetoolkit - Extraction d'expressions récurrentes à partir de corpus (indépendant de la langue)
Text:NSP - Extraction d'expressions récurrentes à partir de corpus (indépendant de la langue)
- Boîte à outils
NLTK - Natural Language TookKit, bibliothèque Python contenant plusieurs outils de traitement et d'analyse pour plusieurs langues, y compris des ressources lexicales et des corpus.
- Modèles de langage
SRILM - Boîte à outils pour la construction de modèles de langage à n-grammes probabilistes (indépendant de la langue)
IRSTLM - Boîte à outils pour la construction de modèles de langage à n-grammes probabilistes (indépendant de la langue)
RandLM - Boîte à outils pour la construction de modèles de langage à n-grammes compréssés (indépendant de la langue)
- Lexiques
WordNet - Thésaurus de l'anglais, contient des relations de synonymie (synsets), antonymie, hyponymie, etc.
Wiktionnaire - Dictionnaire collaboratif à la wikipédia, disponible en plusieurs langues