Extraction et complétion de terminologies multilingues
Dissertation, Université Sorbonne Paris Cité, 2015
Gespeichert in:
1. Verfasser: | |
---|---|
Körperschaft: | |
Weitere Verfasser: | , |
Format: | UnknownFormat |
Sprache: | fre |
Veröffentlicht: |
Frankreich
Verlag nicht ermittelbar
2015
|
Schriftenreihe: | Lille thèses
|
Schlagworte: | |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Dissertation, Université Sorbonne Paris Cité, 2015 Les processus d'extraction terminologique automatique ont été jusqu'ici majoritairement conçus pour être appliqués à de corpus monolingues et dans des registres de langue uniformes. Cette thèse propose une séquence de traitements pour l'extraction automatique de « termes de terrain » qui soit faiblement dépendante de la langue, du registre de langue ou du domaine. Suivant une réflexion fondée sur différents aspects de typologie linguistique appliquée à sept langues, nous proposons des prétraitements textuels préliminaires au calcul de traits numériques pour l'entraînement de modèles statistiques de type CRF. Un ensemble de modèles sont sélectionnés grâce à une évaluation automatisée pour chaque langue. Une seconde série d'évaluations est ensuite réalisée pour étudier l'exploitabilité de ces modèles pour d'autres langues que celles sur lesquelles ils ont été entraînés. Il ressort de ces expériences que cette méthode aboutit à une extraction de termes de terrain de qualité satisfaisante. Les meilleurs scores obtenus (pour une évaluation monolingue des modèles) atteignent 0, 9 de f-score. La seconde partie de notre travail présente nos travaux relatifs à la complétion automatique de terminologies structurées multilingues. Nous avons proposé 2 algorithmes de complétion qui prennent en entrée un graphe de traduction multilingue (construit à partir de ressources libres) et une terminologie multilingue structurée. ils proposent alors de nouveaux candidats termes pour cette dernière. Notre approche permet de compléter la terminologie structurée dans une langue qu'elle couvre déjà, mais également d'étendre sa couverture à de nouvelles langue This work focuses on the analysis of verbatim produced in the context of employee surveys carried out within multinational companies and processed by the Verbatim Analysis - VERA company. It involves the design and development of a processing pi¬peline for automatically extracting terminologies in a virtually language-independent, register-independent and domain-independent way |
---|---|
Beschreibung: | XX, 309 Seiten Illustrationen 105 x 148 mm |