Étiquetage probabiliste avec un grand jeu d'étiquettes en vue de l'analyse syntaxique complète

Reproduction de : Thèse de doctorat : Linguistique théorique, descriptive et automatique : Paris 7 : 2005

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Toussenel, François (VerfasserIn)
Körperschaften: Université Paris Diderot - Paris 7 (1970-2019) (BerichterstatterIn), École doctorale Sciences du langage (Paris / 1992-2019) (BerichterstatterIn)
Weitere Verfasser: Danlos, Laurence (AkademischeR BetreuerIn)
Format: UnknownFormat
Sprache:fre
Veröffentlicht: Frankreich Verlag nicht ermittelbar 2018
Schriftenreihe:Lille-thèses
Schlagworte:
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Reproduction de : Thèse de doctorat : Linguistique théorique, descriptive et automatique : Paris 7 : 2005
Dissertation, Université Paris Diderot - Paris 7, 2005
Nous parcourons les limites de l'approche d'étiquetage en arbres élémentaires par modèle de Markov caché comme étape préparatoire à l'analyse syntaxique complète utilisant une large grammaire d'arbres adjoints lexicalisée extraite automatiquement d'un corpus arboré. Après avoir identifié deux sources majeures de difficulté pour cette approche (des problèmes statistiques dus à un fort manque de données, et un conflit entre la nature globale des informations véhiculées par les schémas d'arbre et la vision locale du modèle de Markov caché), nous avons exploré trois voies d'amélioration de la phase d'étiquetage. Les deux premières (généralisation des données d'apprentissage et sous-spécification) utilisent une décomposition des schémas d'arbre en traits. La troisième, qui s'attaque à la seconde source de difficulté, utilise la structure des schémas d'arbre correspondant aux supertags pour éliminer les séquences de supertags qui ne pourront donner d'analyse complète
We explore the limits of the approach of supertagging using a hidden Markov model as a pre-processing step before full parsing, using a large Lexicalized Tree Adjoining Grammar automatically extracted from a treebank. We identify two major sources of difficulty in this approach (statistical issues due to heavy data sparseness, and a clash between the global nature of information provided by the supertags and the local vision of the hidden Markov model), and then we explore three possible ways to improve the tagging step. The first two (generalization of learning data and underspecification) make use of a feature structure to represent the supertags. The third way addresses the second source of difficulty and relies on the structure of the supertags to prune the sequences of supertags which can never result in a full parse
Beschreibung:33 réf
Beschreibung:130 Seiten
Illustrationen
105 x 148 mm