The representation of speech variability and variation in deep neural networks PhD Thesis
Saarländische Universitäts- und Landesbibliothek, Saarland University, Saarbruecken, Germany, 2024.The central aim of this thesis is to bridge between the study of human speech variability and representation learning, focusing on how modern deep neural networks (DNNs) process and encode speech variability and variation in their latent representations. Diverging from prior machine learning research which has primarily focused on improving model performance in the face of variability, this thesis seeks to provide better insights into how different dimensions of speech variability shape neural network representations. The first part of this thesis, concerned with neural models of spoken language identification, introduces two studies investigating the model’s adaptability to domain variability and the extent to which the model representations capture cross-linguistic variation. The second part of this thesis focuses on neural models of spoken-word representations, presenting three studies that explore various dimensions of variability including: the encoding of word-form variability in the model representational geometry, the variability of linguistic experience and its role in shaping non-native spoken-word representations, and the integration of high-level lexical knowledge into the model to abstract from variability in word acoustic realization. The third and final part of this thesis analyzes the latent discrete representations in transformer-based speech models trained with self-supervision and codebook learning, and demonstrates that information-theoretic metrics reflect acoustic-phonetic variability in segment realization. In summary, this thesis makes tangible contributions by uncovering how neural models encode domain, acoustic-phonetic, and cross-linguistic variation, exploring the role of L1/L2 similarity on non-native spoken-word processing, and characterizing the relationship between discrete speech representations and abstract phonetic categories such as phonemes. Throughout six diverse studies, this thesis takes an interdisciplinary perspective and demonstrates the utility of machine learning models as a potent scientific tool to answer novel and linguistically-informed research questions that are grounded in the fields of sociolinguistics, speech perception, and cognitive modeling research.
Das zentrale Ziel dieser Dissertation ist es, die Forschungslücke zwischen der Untersuchung von Variabilität und Variation in der menschlichen Sprache und der maschinellen Verarbeitung von Sprache auf der Grundlage von Repräsentationslernen zu schließen, um neue Erkenntnisse darüber zu gewinnen, wie moderne tiefe neuronale Netze (DNNs) verschiedene Dimensionen der Sprachvariabilität in ihren Repräsentationen verarbeiten und kodieren. Obwohl einige Aspekte der Variabilität in früheren Forschungsarbeiten zur computergestützten Sprachverarbeitung behandelt wurden, lag der Hauptschwerpunkt bei vorherigen Ansätzen des maschinellen Lernens stets auf der Entwicklung von Modellen, die robust gegenüber Variationen in den Aufnahme- und Akustikbedingungen sind, sowie auf der Generalisierungsfähigkeit gegenüber Unstimmigkeiten zwischen Trainingsund Testdaten aufgrund von Domänen-, Sprecher- und linguistischen Variationen. Daher konzentrierten sich die Forschungsbemühungen in der bisherigen Sprachrepr äsentationsforschung in erster Linie auf die Verbesserung der Leistungsmetriken für eine bestimmte Aufgabe bei Vorhandensein einer Variabilitätsquelle. Anstelle dieses leistungsorientierten Ansatzes nimmt diese Dissertation eine andere Perspektive ein und zielt darauf ab, zu analysieren und zu verstehen, wie das Repräsentationsprofil von neuronalen Sprachnetzwerken durch verschiedene Dimensionen der Sprachvariabilität geformt wird, wie z.B. Domänenvariabilität, sprachübergreifende Variation, Variabilität innerhalb der Kategorie, Variabilität in der sprachlichen Erfahrung und akustische Variabilität abstrakter phonetischer Kategorien In dieser Dissertation werden sechs Studien vorgestellt, die in drei verschiedene Teile gegliedert sind, wobei jeder Teil einer Sprachverarbeitungsaufgabe gewidmet ist. Im ersten Teil der Dissertation stelle ich zwei Studien vor, die sich mit neuronalen Modellen zur Identifikation gesprochener Sprache (SLID) befassen, um ihre Anpassungsfähigkeit an Domänenvariabilität zu untersuchen (Studie I) und zu analysieren, inwieweit sie sprachübergreifende Variationen darstellen (Studie II). In Studie I zeige ich, dass DNNs – wie erwartet – nicht robust gegen Domänenvariabilität sind, jedoch können bestimmte Trainingsstrategien (z.B adversarial learning) effektiv sein, um zu verhindern, dass das Modell Abkürzungen in den Daten lernt, um seine domänenübergreifende Generalisierung zu verbessern. In Studie II zeige ich, dass die Repräsentationen neuronaler Netze sprachübergreifende Ähnlichkeit erfassen und in einer Weise geclustert sind, die Sprachverwandtschaft widerspiegelt. Im zweiten Teil der Dissertation stelle ich drei Studien vor, die sich mit neuronalen Modellen des Keyword-Spotting und der akustischen Worteinbettung befassen, um die Variabilität von gesprochenen Wortrealisierungen zu untersuchen. Zunächst gehe ich näher auf die Geometrie des Repräsentationsraums für gesprochene Wörter ein, um zu untersuchen, wie er die Variabilität von Beispielen innerhalb einer Kategorie kodiert und wie sich die Variabilität in den Anfangsbedingungen des Modells auf die Repräsentationen auswirkt, sobald sie konvergiert sind (Studie IV). Anschließend wird eine Studie vorgestellt, die darauf abzielt, die Variabilität der sprachlichen Erfahrung und ihre Rolle bei der Verarbeitung nicht-muttersprachlicher Sprache zu modellieren (Studie V). Konkret wird in dieser Studie die sprachliche Erfahrung als die Muttersprache (L1) des Modells während des Trainings charakterisiert und die Verarbeitung nichtmuttersprachlicher gesprochener Wörter simuliert, indem das Ausmaß gemessen wird, in dem nicht-muttersprachliche Modelle muttersprachliche Repräsentationen von gesprochenen Wörtern erzeugen. Schließlich stelle ich ein Berechnungsmodell für die Repräsentation gesprochener Wörter vor, das von der menschlichen Sprachverarbeitung inspiriert ist und eine Zuordnung zwischen der akustischen Form und einer semantischen Repräsentation auf abstrakter Ebene erlernt, die lexikalisches Wissen kodiert (Studie V). Ich zeige, dass die Integration von lexikalischem Wissen in das Training gesprochener Wortrepräsentationen die Fähigkeit des Modells verbessert, zwischen lexikalischen Kategorien zu unterscheiden, und das Modell ermutigt, von der Variabilität des Sprechers und des lexikalischen Kontexts zu abstrahieren. Im dritten Teil konzentriere ich mich auf die diskreten Repräsentationen von Sprache, die sich beim Training von Transformer-Modellen durch Selbstüberwachtesund Codebuchlernen entstehen. In diesem Teil wird ein Ansatz zur Charakterisierung der Beziehung zwischen diskreten Sprachrepräsentationen und abstrakten phonetischen Kategorien wie Phonemen vorgestellt. Konkret schlägt das Kapitel zunächst einen informationstheoretischen Rahmen vor, in dem jede phonetische Kategorie als eine Verteilung über diskrete Einheiten dargestellt wird. Die Studie zeigt, dass die Entropie phonetischer Verteilungen die akustisch-phonetische Variabilität der zugrunde liegenden Sprachlaute widerspiegelt, wobei Sonoranten im Durchschnitt entropischer sind als Obstruenten. Darüber hinaus zeigt sich, dass phonetisch ähnliche Laute auf niedriger Ebene ähnliche Verteilungen aufweisen, während eine Clusteranalyse zeigt, dass die höchste Ebene der Aufteilung Obstruenten und Sonoranten trennt. Insgesamt bietet diese Dissertation wertvolle Einblicke in die Art und Weise, wie DNNs Sprachvariabilität über mehrere Dimensionen hinweg verarbeiten und kodieren. Dies verbessert unser Verständnis von Sprachverarbeitung und trägt zur Entwicklung robusterer und linguistisch informierter Sprachtechnologieanwendungen bei.
@phdthesis{Abdullah_Diss,
title = {The representation of speech variability and variation in deep neural networks},
author = {Badr M. Abdullah},
url = {https://jahrbib.sulb.uni-saarland.de/handle/20.500.11880/38479},
doi = {https://doi.org/10.22028/D291-42719},
year = {2024},
date = {2024},
school = {Saarland University},
publisher = {Saarl{\"a}ndische Universit{\"a}ts- und Landesbibliothek},
address = {Saarbruecken, Germany},
abstract = {The central aim of this thesis is to bridge between the study of human speech variability and representation learning, focusing on how modern deep neural networks (DNNs) process and encode speech variability and variation in their latent representations. Diverging from prior machine learning research which has primarily focused on improving model performance in the face of variability, this thesis seeks to provide better insights into how different dimensions of speech variability shape neural network representations. The first part of this thesis, concerned with neural models of spoken language identification, introduces two studies investigating the model’s adaptability to domain variability and the extent to which the model representations capture cross-linguistic variation. The second part of this thesis focuses on neural models of spoken-word representations, presenting three studies that explore various dimensions of variability including: the encoding of word-form variability in the model representational geometry, the variability of linguistic experience and its role in shaping non-native spoken-word representations, and the integration of high-level lexical knowledge into the model to abstract from variability in word acoustic realization. The third and final part of this thesis analyzes the latent discrete representations in transformer-based speech models trained with self-supervision and codebook learning, and demonstrates that information-theoretic metrics reflect acoustic-phonetic variability in segment realization. In summary, this thesis makes tangible contributions by uncovering how neural models encode domain, acoustic-phonetic, and cross-linguistic variation, exploring the role of L1/L2 similarity on non-native spoken-word processing, and characterizing the relationship between discrete speech representations and abstract phonetic categories such as phonemes. Throughout six diverse studies, this thesis takes an interdisciplinary perspective and demonstrates the utility of machine learning models as a potent scientific tool to answer novel and linguistically-informed research questions that are grounded in the fields of sociolinguistics, speech perception, and cognitive modeling research.
Das zentrale Ziel dieser Dissertation ist es, die Forschungsl{\"u}cke zwischen der Untersuchung von Variabilit{\"a}t und Variation in der menschlichen Sprache und der maschinellen Verarbeitung von Sprache auf der Grundlage von Repr{\"a}sentationslernen zu schlie{\ss}en, um neue Erkenntnisse dar{\"u}ber zu gewinnen, wie moderne tiefe neuronale Netze (DNNs) verschiedene Dimensionen der Sprachvariabilit{\"a}t in ihren Repr{\"a}sentationen verarbeiten und kodieren. Obwohl einige Aspekte der Variabilit{\"a}t in fr{\"u}heren Forschungsarbeiten zur computergest{\"u}tzten Sprachverarbeitung behandelt wurden, lag der Hauptschwerpunkt bei vorherigen Ans{\"a}tzen des maschinellen Lernens stets auf der Entwicklung von Modellen, die robust gegen{\"u}ber Variationen in den Aufnahme- und Akustikbedingungen sind, sowie auf der Generalisierungsf{\"a}higkeit gegen{\"u}ber Unstimmigkeiten zwischen Trainingsund Testdaten aufgrund von Dom{\"a}nen-, Sprecher- und linguistischen Variationen. Daher konzentrierten sich die Forschungsbem{\"u}hungen in der bisherigen Sprachrepr {\"a}sentationsforschung in erster Linie auf die Verbesserung der Leistungsmetriken f{\"u}r eine bestimmte Aufgabe bei Vorhandensein einer Variabilit{\"a}tsquelle. Anstelle dieses leistungsorientierten Ansatzes nimmt diese Dissertation eine andere Perspektive ein und zielt darauf ab, zu analysieren und zu verstehen, wie das Repr{\"a}sentationsprofil von neuronalen Sprachnetzwerken durch verschiedene Dimensionen der Sprachvariabilit{\"a}t geformt wird, wie z.B. Dom{\"a}nenvariabilit{\"a}t, sprach{\"u}bergreifende Variation, Variabilit{\"a}t innerhalb der Kategorie, Variabilit{\"a}t in der sprachlichen Erfahrung und akustische Variabilit{\"a}t abstrakter phonetischer Kategorien In dieser Dissertation werden sechs Studien vorgestellt, die in drei verschiedene Teile gegliedert sind, wobei jeder Teil einer Sprachverarbeitungsaufgabe gewidmet ist. Im ersten Teil der Dissertation stelle ich zwei Studien vor, die sich mit neuronalen Modellen zur Identifikation gesprochener Sprache (SLID) befassen, um ihre Anpassungsf{\"a}higkeit an Dom{\"a}nenvariabilit{\"a}t zu untersuchen (Studie I) und zu analysieren, inwieweit sie sprach{\"u}bergreifende Variationen darstellen (Studie II). In Studie I zeige ich, dass DNNs - wie erwartet - nicht robust gegen Dom{\"a}nenvariabilit{\"a}t sind, jedoch k{\"o}nnen bestimmte Trainingsstrategien (z.B adversarial learning) effektiv sein, um zu verhindern, dass das Modell Abk{\"u}rzungen in den Daten lernt, um seine dom{\"a}nen{\"u}bergreifende Generalisierung zu verbessern. In Studie II zeige ich, dass die Repr{\"a}sentationen neuronaler Netze sprach{\"u}bergreifende {\"A}hnlichkeit erfassen und in einer Weise geclustert sind, die Sprachverwandtschaft widerspiegelt. Im zweiten Teil der Dissertation stelle ich drei Studien vor, die sich mit neuronalen Modellen des Keyword-Spotting und der akustischen Worteinbettung befassen, um die Variabilit{\"a}t von gesprochenen Wortrealisierungen zu untersuchen. Zun{\"a}chst gehe ich n{\"a}her auf die Geometrie des Repr{\"a}sentationsraums f{\"u}r gesprochene W{\"o}rter ein, um zu untersuchen, wie er die Variabilit{\"a}t von Beispielen innerhalb einer Kategorie kodiert und wie sich die Variabilit{\"a}t in den Anfangsbedingungen des Modells auf die Repr{\"a}sentationen auswirkt, sobald sie konvergiert sind (Studie IV). Anschlie{\ss}end wird eine Studie vorgestellt, die darauf abzielt, die Variabilit{\"a}t der sprachlichen Erfahrung und ihre Rolle bei der Verarbeitung nicht-muttersprachlicher Sprache zu modellieren (Studie V). Konkret wird in dieser Studie die sprachliche Erfahrung als die Muttersprache (L1) des Modells w{\"a}hrend des Trainings charakterisiert und die Verarbeitung nichtmuttersprachlicher gesprochener W{\"o}rter simuliert, indem das Ausma{\ss} gemessen wird, in dem nicht-muttersprachliche Modelle muttersprachliche Repr{\"a}sentationen von gesprochenen W{\"o}rtern erzeugen. Schlie{\ss}lich stelle ich ein Berechnungsmodell f{\"u}r die Repr{\"a}sentation gesprochener W{\"o}rter vor, das von der menschlichen Sprachverarbeitung inspiriert ist und eine Zuordnung zwischen der akustischen Form und einer semantischen Repr{\"a}sentation auf abstrakter Ebene erlernt, die lexikalisches Wissen kodiert (Studie V). Ich zeige, dass die Integration von lexikalischem Wissen in das Training gesprochener Wortrepr{\"a}sentationen die F{\"a}higkeit des Modells verbessert, zwischen lexikalischen Kategorien zu unterscheiden, und das Modell ermutigt, von der Variabilit{\"a}t des Sprechers und des lexikalischen Kontexts zu abstrahieren. Im dritten Teil konzentriere ich mich auf die diskreten Repr{\"a}sentationen von Sprache, die sich beim Training von Transformer-Modellen durch Selbst{\"u}berwachtesund Codebuchlernen entstehen. In diesem Teil wird ein Ansatz zur Charakterisierung der Beziehung zwischen diskreten Sprachrepr{\"a}sentationen und abstrakten phonetischen Kategorien wie Phonemen vorgestellt. Konkret schl{\"a}gt das Kapitel zun{\"a}chst einen informationstheoretischen Rahmen vor, in dem jede phonetische Kategorie als eine Verteilung {\"u}ber diskrete Einheiten dargestellt wird. Die Studie zeigt, dass die Entropie phonetischer Verteilungen die akustisch-phonetische Variabilit{\"a}t der zugrunde liegenden Sprachlaute widerspiegelt, wobei Sonoranten im Durchschnitt entropischer sind als Obstruenten. Dar{\"u}ber hinaus zeigt sich, dass phonetisch {\"a}hnliche Laute auf niedriger Ebene {\"a}hnliche Verteilungen aufweisen, w{\"a}hrend eine Clusteranalyse zeigt, dass die h{\"o}chste Ebene der Aufteilung Obstruenten und Sonoranten trennt. Insgesamt bietet diese Dissertation wertvolle Einblicke in die Art und Weise, wie DNNs Sprachvariabilit{\"a}t {\"u}ber mehrere Dimensionen hinweg verarbeiten und kodieren. Dies verbessert unser Verst{\"a}ndnis von Sprachverarbeitung und tr{\"a}gt zur Entwicklung robusterer und linguistisch informierter Sprachtechnologieanwendungen bei.},
pubstate = {published},
type = {phdthesis}
}
Project: C4