Pitch of voiced speech in the short-time Fourier transform algorithms, ground truths, and evaluation methods

Dissertation, Carl von Ossietzky Universität Oldenburg, 2021

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Bechtold, Bastian (VerfasserIn)
Weitere Verfasser: Par, Steven van de (AkademischeR BetreuerIn), Bitzer, Jörg (AkademischeR BetreuerIn), Zölzer, Udo (AkademischeR BetreuerIn)
Format: UnknownFormat
Sprache:eng
Veröffentlicht: Oldenburg 2021
Schlagworte:
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Dissertation, Carl von Ossietzky Universität Oldenburg, 2021
Diese Dissertation untersucht Algorithmen zum Schätzen der Tonhöhe menschlicher Sprache. Es existieren viele solcher Algorithmen, die auch in Rauschen präzise arbeiten. Die Tonhöhe ist allerdings eine menschliche Empfindung, und steht Algorithmen nicht zur Verfügung. Die Bewertung ihrer Genauigkeit ist daher schwer, und immer abhängig von der Verwendeten Wahrheit. Diese Dissertation stellt einen neuen Tonhöhen-Schätzungs-Algorithmus vor, der besonders robust gegen Rauschen ist, zeigt eine neue Tonhöhen-Wahrheit die besser passt als bestehende Wahrheiten, und endet mit einer Vergleichsstudie bestehender Algorithmen von noch nie dagewesenem Umfang. Diese Studie zeigt überraschend große versteckte Biase in bestehenden Sprach-Datenbanken und Auswertungsmethoden auf. Es gibt daher keinen besten Algorithmus, sondern die Wahl des Algorithmusses sollte unbedingt spezifisch auf die zu erwartenden Signale abgestimmt sein.
This dissertation investigates algorithms for estimating pitch in the human voice. Many such algorithms exist, and claim to be accurate even in high levels of noise. Pitch, however, is a human percept that strictly speaking only exists in the human brain, and is not directly available for testing algorithms. Evaluating algorithm accuracy is therefore difficult, and highly dependent on the choice of truth used for comparison. This dissertation introduces a new pitch estimation algorithm for the human voice that is accurate and robust to noise, proposes a new pitch ground truth that is a better fit for the task than previous truths, and evaluates existing pitch estimation algorithms in a comparison study of unprecedented scope. The results of this comparison reveal a surprising amount of hidden bias in existing speech corpora, as well as evaluation methods. Thus, the choice of algorithm should be highly dependent on the expected signals, with no one clear best choice for all applications.
Beschreibung:248 Seiten
Illustrationen, Diagramme