Extraction et complétion de terminologies multilingues

Dissertation, Université Sorbonne Paris Cité, 2015

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Hanoka-Maitenaz, Valérie (VerfasserIn)
Körperschaft: Université Sorbonne Paris Cité (BerichterstatterIn)
Weitere Verfasser: Danlos, Laurence (AkademischeR BetreuerIn), Sagot, Benoît (AkademischeR BetreuerIn)
Format: UnknownFormat
Sprache:fre
Veröffentlicht: Frankreich Verlag nicht ermittelbar 2015
Schriftenreihe:Lille thèses
Schlagworte:
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Dissertation, Université Sorbonne Paris Cité, 2015
Les processus d'extraction terminologique automatique ont été jusqu'ici majoritairement conçus pour être appliqués à de corpus monolingues et dans des registres de langue uniformes. Cette thèse propose une séquence de traitements pour l'extraction automatique de « termes de terrain » qui soit faiblement dépendante de la langue, du registre de langue ou du domaine. Suivant une réflexion fondée sur différents aspects de typologie linguistique appliquée à sept langues, nous proposons des prétraitements textuels préliminaires au calcul de traits numériques pour l'entraînement de modèles statistiques de type CRF. Un ensemble de modèles sont sélectionnés grâce à une évaluation automatisée pour chaque langue. Une seconde série d'évaluations est ensuite réalisée pour étudier l'exploitabilité de ces modèles pour d'autres langues que celles sur lesquelles ils ont été entraînés. Il ressort de ces expériences que cette méthode aboutit à une extraction de termes de terrain de qualité satisfaisante. Les meilleurs scores obtenus (pour une évaluation monolingue des modèles) atteignent 0, 9 de f-score. La seconde partie de notre travail présente nos travaux relatifs à la complétion automatique de terminologies structurées multilingues. Nous avons proposé 2 algorithmes de complétion qui prennent en entrée un graphe de traduction multilingue (construit à partir de ressources libres) et une terminologie multilingue structurée. ils proposent alors de nouveaux candidats termes pour cette dernière. Notre approche permet de compléter la terminologie structurée dans une langue qu'elle couvre déjà, mais également d'étendre sa couverture à de nouvelles langue
This work focuses on the analysis of verbatim produced in the context of employee surveys carried out within multinational companies and processed by the Verbatim Analysis - VERA company. It involves the design and development of a processing pi¬peline for automatically extracting terminologies in a virtually language-independent, register-independent and domain-independent way
Beschreibung:XX, 309 Seiten
Illustrationen
105 x 148 mm