===== Liste de logiciels/ressources de traitement des langues ===== Voici une liste non exhaustive de logiciels et ressources (lexiques, corpus) de TAL qui peuvent être téléchargés gratuitement et testés pour les projets de Langage Naturel. ==== - Analyse ==== == - Morphologie == * [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] - Analyseur en parties du discours et lemmes, modèles disponibles en plusieurs langues * [[http://www.coli.uni-saarland.de/~thorsten/tnt/|TnT tagger]] - Analyseur en parties du discours avec modèles pour l'anglais et l'allemand * [[http://www.nooj4nlp.net/|Nooj]] - Analyseur fondé sur transducteur fini * Les analyseurs syntaxiques ci-dessous incluent des analyseurs morphologiques == - Syntaxe == * [[http://nlp.stanford.edu/software/lex-parser.shtml|Stanford parser]] - Analyseur syntaxique probabiliste, avec modèles disponibles pour l'anglais, français, allemand, chinois et arabe. * [[http://code.google.com/p/berkeleyparser/|Berkeley parser]] - Analyseur syntaxique probabiliste, avec modèles disponibles pour l'anglais, français, allemand, bulgare, chinois et arabe. * [[http://macaon.lif.univ-mrs.fr/|Macaon]] - Analyseur syntaxique probabiliste, avec modèles disponibles pour le français et pour l'anglais * [[http://www.sussex.ac.uk/Users/johnca/rasp/|RASP]] - Analyseur syntaxique de l'anglais * [[http://pageperso.lif.univ-mrs.fr/~paul.sabatier/ILLICO/illico.html|Illico]] - Analyseur syntaxique du français == - Autres == * [[http://nlp.stanford.edu/software/CRF-NER.shtml|Stanford NER]] - Reconaisseur d'entités nommées pour l'anglais, l'allemand et le chinois. ==== - Traduction ==== == - Systèmes de traduction probabilistes == * [[http://www.statmt.org/moses/|Moses]] - boîte à outils pour construction de systèmes de traduction probabilistes à partir de corpus parallèles (indépendant de la langue) == - Démos en ligne (plusieurs couples de langues) == * [[http://translate.google.com/|Google Translate]] - Systèmes de traduction probabilistes de Google * [[http://www.reverso.net/|Reverso]] - Système de traduction classique * [[http://www.systransoft.com/|Systran]] - Système de traduction classique * [[http://www.linguee.fr/|Linguee]] - Effectuer des recherches dans des corpus parallèles ==== - Classification de textes ==== * [[https://github.com/saffsd/langid.py|langid.py]] - Identification automatique de la langue d'un texte ==== - Extraction d'informations ==== == - Lexicales == * [[http://mwetoolkit.sf.net|mwetoolkit]] - Extraction d'expressions récurrentes à partir de corpus (indépendant de la langue) * [[http://search.cpan.org/dist/Text-NSP/|Text:NSP]] - Extraction d'expressions récurrentes à partir de corpus (indépendant de la langue) ==== - Boîte à outils ==== * [[https://code.google.com/p/nltk/|NLTK]] - Natural Language TookKit, bibliothèque Python contenant plusieurs outils de traitement et d'analyse pour plusieurs langues, y compris des ressources lexicales et des corpus. ==== - Modèles de langage ==== * [[http://www.speech.sri.com/projects/srilm/|SRILM]] - Boîte à outils pour la construction de modèles de langage à n-grammes probabilistes (indépendant de la langue) * [[http://sourceforge.net/apps/mediawiki/irstlm/index.php?title=Main_Page|IRSTLM]] - Boîte à outils pour la construction de modèles de langage à n-grammes probabilistes (indépendant de la langue) * [[http://randlm.sourceforge.net/|RandLM]] - Boîte à outils pour la construction de modèles de langage à n-grammes compréssés (indépendant de la langue) ==== - Lexiques ==== * [[http://wordnet.princeton.edu/|WordNet]] - Thésaurus de l'anglais, contient des relations de synonymie (synsets), antonymie, hyponymie, etc. * [[http://www.wiktionary.org/|Wiktionnaire]] - Dictionnaire collaboratif à la wikipédia, disponible en plusieurs langues * [[http://alpage.inria.fr/~sagot/wolf.html|WOLF]] - WordNet libre du français * [[http://atilf.atilf.fr/tlf.htm|TLFi]] - Trésor de la langue française informatisé * [[http://alpage.inria.fr/~sagot/lefff.html|Lefff]] - Lexique des formes fléchies du français * [[http://infolingu.univ-mlv.fr/|Lexique-grammaire]] - Tables de description grammaticale des mots et expressions du français ==== - Corpus ==== * [[http://wacky.sslmit.unibo.it/doku.php|Web as Corpus (WaC)]] - Très grands corpus monolingues extraits du web, disponibles en anglais, allemand, italien et français * [[http://dumps.wikimedia.org/|Wikipedia dumps]] - Corpus comparable extrait de Wikipédia * [[http://homepages.inf.ed.ac.uk/s0787820/bible/|Bible]] - Corpus parallèle de la Bible * [[http://opus.lingfil.uu.se/|Open Subtitles]] - Corpus parallèle de sous-titres de films et séries, documents techniques, etc. * [[http://www.statmt.org/europarl/|Europarl]] - Corpus parallèle des transcriptions du parlement Européen * [[http://www.euromatrixplus.net/multi-un/|MultiUN]] - Corpus parallèle du site web de l'ONU * [[https://wit3.fbk.eu/|TED]] - Corpus parallèle des sous-titres des conférences "TED talks" * [[http://www.nactem.ac.uk/genia/|GENIA]] - Corpus spécialisé en génétique, monolingue anglais, annoté à plusieurs niveaux syntaxiques et sémantiques