Publications

Dipper, Stefanie; Haiber, Cora; Schröter, Anna Maria; Wiemann, Alexandra; Brinkschulte, Maike

Universal Dependencies: Extensions for Modern and Historical German Inproceedings

Calzolari, Nicoletta; Kan, Min-Yen; Hoste, Veronique; Lenci, Alessandro; Sakti, Sakriani; Xue, Nianwen (Ed.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA and ICCL, pp. 17101-17111, Torino, Italia, 2024.

In this paper we present extensions of the UD scheme for modern and historical German. The extensions relate in part to fundamental differences such as those between different kinds of arguments and modifiers. We illustrate the extensions with examples from the MHG data and discuss a number of MHG-specific constructions. At the current time, we have annotated a corpus of Middle High German with almost 29K tokens using this scheme, which to our knowledge is the first UD treebank for Middle High German. Inter-annotator agreement is very high: the annotators achieve a score of α = 0.85. A statistical analysis of the annotations shows some interesting differences in the distribution of labels between modern and historical German.

@inproceedings{dipper-etal-2024-universal-dependencies,
title = {Universal Dependencies: Extensions for Modern and Historical German},
author = {Stefanie Dipper and Cora Haiber and Anna Maria Schr{\"o}ter and Alexandra Wiemann and Maike Brinkschulte},
editor = {Nicoletta Calzolari and Min-Yen Kan and Veronique Hoste and Alessandro Lenci and Sakriani Sakti and Nianwen Xue},
url = {https://aclanthology.org/2024.lrec-main.1485},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages = {17101-17111},
publisher = {ELRA and ICCL},
address = {Torino, Italia},
abstract = {In this paper we present extensions of the UD scheme for modern and historical German. The extensions relate in part to fundamental differences such as those between different kinds of arguments and modifiers. We illustrate the extensions with examples from the MHG data and discuss a number of MHG-specific constructions. At the current time, we have annotated a corpus of Middle High German with almost 29K tokens using this scheme, which to our knowledge is the first UD treebank for Middle High German. Inter-annotator agreement is very high: the annotators achieve a score of α = 0.85. A statistical analysis of the annotations shows some interesting differences in the distribution of labels between modern and historical German.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C6

Ortmann, Katrin; Dipper, Stefanie

Nähetexte automatisch erkennen: Entwicklung eines linguistischen Scores für konzeptionelle Mündlichkeit in historischen Texten. Book Chapter

Imo, Wolfgang; Wesche, Jörg (Ed.): Sprechen und Gespräch in historischer Perspektive: Sprach-und literaturwissenschaftliche Zugänge, Metzler, pp. 17-36, Berlin, Heidelberg, 2024.

Dieser Beitrag stellt einen automatisch bestimmbaren Score zur Einschätzung der konzeptionellen Mündlichkeit eines historischen Textes vor. Der Score basiert auf einer Reihe von linguistischen Merkmalen wie durchschnittlicher Wortlänge, Häufigkeit von Personalpronomen der 1.Person, Verhältnis Vollverben zu Nomen oder dem Anteil von Inhaltswörtern am Gesamttext. Diese Merkmale werden bei der Berechnung des Mündlichkeits-Scores unterschiedlich gewichtet. Die Gewichte wurden mit Hilfe des Kasseler Junktionskorpus (Ágel und Hennig 2008) festgelegt, dessen Texte von Expert/innen mit Nähewerten versehen wurden. In einer 5-fachen Kreuzvalidierung zeigt sich,dass der automatisch bestimmte Mündlichkeits-Score in einem sehr hohen Maß mit dem Experten-Score korreliert (r = 0.9175).

@inbook{Ortmann_Dipper_2024,
title = {N{\"a}hetexte automatisch erkennen: Entwicklung eines linguistischen Scores f{\"u}r konzeptionelle M{\"u}ndlichkeit in historischen Texten.},
author = {Katrin Ortmann and Stefanie Dipper},
editor = {Wolfgang Imo and J{\"o}rg Wesche},
url = {https://link.springer.com/chapter/10.1007/978-3-662-67677-6_2},
year = {2024},
date = {2024},
booktitle = {Sprechen und Gespr{\"a}ch in historischer Perspektive: Sprach-und literaturwissenschaftliche Zug{\"a}nge},
pages = {17-36},
publisher = {Metzler},
address = {Berlin, Heidelberg},
abstract = {

Dieser Beitrag stellt einen automatisch bestimmbaren Score zur Einsch{\"a}tzung der konzeptionellen M{\"u}ndlichkeit eines historischen Textes vor. Der Score basiert auf einer Reihe von linguistischen Merkmalen wie durchschnittlicher Wortl{\"a}nge, H{\"a}ufigkeit von Personalpronomen der 1.Person, Verh{\"a}ltnis Vollverben zu Nomen oder dem Anteil von Inhaltsw{\"o}rtern am Gesamttext. Diese Merkmale werden bei der Berechnung des M{\"u}ndlichkeits-Scores unterschiedlich gewichtet. Die Gewichte wurden mit Hilfe des Kasseler Junktionskorpus ({\'A}gel und Hennig 2008) festgelegt, dessen Texte von Expert/innen mit N{\"a}hewerten versehen wurden. In einer 5-fachen Kreuzvalidierung zeigt sich,dass der automatisch bestimmte M{\"u}ndlichkeits-Score in einem sehr hohen Ma{\ss} mit dem Experten-Score korreliert (r = 0.9175).
},
pubstate = {published},
type = {inbook}
}

Copy BibTeX to Clipboard

Project:   C6

Alves, Diego; Fischer, Stefan; Degaetano-Ortlieb, Stefania; Teich, Elke

Multi-word Expressions in English Scientific Writing Inproceedings

Bizzoni, Yuri; Degaetano-Ortlieb, Stefania; Kazantseva, Anna; Szpakowicz, Stan (Ed.): Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2024), Association for Computational Linguistics, pp. 67-76, St. Julians, Malta, 2024.

Multi-Word Expressions (MWEs) play a pivotal role in language use overall and in register formation more specifically, e.g. encoding field-specific terminology. Our study focuses on the identification and categorization of MWEs used in scientific writing, considering their formal characteristics as well as their developmental trajectory over time from the mid-17th century to the present. For this, we develop an approach combining three different types of methods to identify MWEs (Universal Dependency annotation, Partitioner and the Academic Formulas List) and selected measures to characterize MWE properties (e.g., dispersion by Kullback-Leibler Divergence and several association measures). This allows us to inspect MWEs types in a novel data-driven way regarding their functions and change over time in specialized discourse.

@inproceedings{alves-etal-2024-multi,
title = {Multi-word Expressions in English Scientific Writing},
author = {Diego Alves and Stefan Fischer and Stefania Degaetano-Ortlieb and Elke Teich},
editor = {Yuri Bizzoni and Stefania Degaetano-Ortlieb and Anna Kazantseva and Stan Szpakowicz},
url = {https://aclanthology.org/2024.latechclfl-1.8},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2024)},
pages = {67-76},
publisher = {Association for Computational Linguistics},
address = {St. Julians, Malta},
abstract = {Multi-Word Expressions (MWEs) play a pivotal role in language use overall and in register formation more specifically, e.g. encoding field-specific terminology. Our study focuses on the identification and categorization of MWEs used in scientific writing, considering their formal characteristics as well as their developmental trajectory over time from the mid-17th century to the present. For this, we develop an approach combining three different types of methods to identify MWEs (Universal Dependency annotation, Partitioner and the Academic Formulas List) and selected measures to characterize MWE properties (e.g., dispersion by Kullback-Leibler Divergence and several association measures). This allows us to inspect MWEs types in a novel data-driven way regarding their functions and change over time in specialized discourse.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B1

Ibrahim, Omnia; Yuen, Ivan; Xue, Wei ; Andreeva, Bistra; Möbius, Bernd

Listener-oriented consequences of predictability-based acoustic adjustment Inproceedings

Baumann, Timo (Ed.): Elektronische Sprachsignalverarbeitung 2024, Tagungsband der 35. Konferenz (Regensburg), TUD Press, pp. 196-202, 2024, ISBN 978-3-95908-325-6.

This paper investigated whether predictability-based adjustments in production have listener-oriented consequences in perception. By manipulating the acoustic features of a target syllable in different predictability contexts in German, we tested 40 listeners’ perceptual preference for the manipulation. Four source words underwent acoustic modifications on the target syllable. Our results revealed a general preference for the original (unmodified) version over the modified one. However, listeners generally favored the unmodified version more when the source word had a higher predictable context compared to a less predictable one. The results showed that predictability-based adjustments have perceptual consequences and that listeners have predictability-based expectations in perception.

@inproceedings{Ibrahim_etal_2024,
title = {Listener-oriented consequences of predictability-based acoustic adjustment},
author = {Omnia Ibrahim and Ivan Yuen and Wei Xue and Bistra Andreeva and Bernd M{\"o}bius},
editor = {Timo Baumann},
url = {https://opus4.kobv.de/opus4-oth-regensburg/frontdoor/index/index/docId/7098},
doi = {https://doi.org/10.35096/othr/pub-7098},
year = {2024},
date = {2024},
booktitle = {Elektronische Sprachsignalverarbeitung 2024, Tagungsband der 35. Konferenz (Regensburg)},
isbn = {978-3-95908-325-6},
pages = {196-202},
publisher = {TUD Press},
abstract = {This paper investigated whether predictability-based adjustments in production have listener-oriented consequences in perception. By manipulating the acoustic features of a target syllable in different predictability contexts in German, we tested 40 listeners’ perceptual preference for the manipulation. Four source words underwent acoustic modifications on the target syllable. Our results revealed a general preference for the original (unmodified) version over the modified one. However, listeners generally favored the unmodified version more when the source word had a higher predictable context compared to a less predictable one. The results showed that predictability-based adjustments have perceptual consequences and that listeners have predictability-based expectations in perception.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C1

Yung, Frances Pik Yu; Ahmad, Mansoor; Scholman, Merel; Demberg, Vera

Prompting Implicit Discourse Relation Annotation Inproceedings

Proceedings of Linguistic Annotation Workshop of European Chapter of the Association for Computational Linguistics, 2024.

Pre-trained large language models, such as ChatGPT, archive outstanding performance in various reasoning tasks without supervised training and were found to have outperformed crowdsourcing workers. Nonetheless, ChatGPT’s performance in the task of implicit discourse relation classification, prompted by a standard multiple-choice question, is still far from satisfactory and considerably inferior to state-of-the-art supervised approaches. This work investigates several proven prompting techniques to improve ChatGPT’s recognition of discourse relations. In particular, we experimented with breaking down the classification task that involves numerous abstract labels into smaller subtasks. Nonetheless, experiment results show that the inference accuracy hardly changes even with sophisticated prompt engineering, suggesting that implicit discourse relation classification is not yet resolvable under zero-shot or few-shot settings.

@inproceedings{yung-etal-2024-prompting,
title = {Prompting Implicit Discourse Relation Annotation},
author = {Frances Pik Yu Yung and Mansoor Ahmad and Merel Scholman and Vera Demberg},
url = {https://arxiv.org/abs/2402.04918},
year = {2024},
date = {2024},
booktitle = {Proceedings of Linguistic Annotation Workshop of European Chapter of the Association for Computational Linguistics},
abstract = {Pre-trained large language models, such as ChatGPT, archive outstanding performance in various reasoning tasks without supervised training and were found to have outperformed crowdsourcing workers. Nonetheless, ChatGPT's performance in the task of implicit discourse relation classification, prompted by a standard multiple-choice question, is still far from satisfactory and considerably inferior to state-of-the-art supervised approaches. This work investigates several proven prompting techniques to improve ChatGPT's recognition of discourse relations. In particular, we experimented with breaking down the classification task that involves numerous abstract labels into smaller subtasks. Nonetheless, experiment results show that the inference accuracy hardly changes even with sophisticated prompt engineering, suggesting that implicit discourse relation classification is not yet resolvable under zero-shot or few-shot settings.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B2

Yung, Frances Pik Yu; Scholman, Merel; Zikanova, Sarka; Demberg, Vera

DiscoGeM 2.0: A parallel corpus of English, German, French and Czech implicit discourse relations Inproceedings

Calzolari, Nicoletta; Kan, Min-Yen; Hoste, Veronique; Lenci, Alessandro; Sakti, Sakriani; Xue, Nianwen (Ed.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA and ICCL, pp. 4940-4956, Torino, Italia, 2024.

We present DiscoGeM 2.0, a crowdsourced, parallel corpus of 12,834 implicit discourse relations, with English, German, French and Czech data. We propose and validate a new single-step crowdsourcing annotation method and apply it to collect new annotations in German, French and Czech. The corpus was constructed by having crowdsourced annotators choose a suitable discourse connective for each relation from a set of unambiguous candidates. Every instance was annotated by 10 workers. Our corpus hence represents the first multi-lingual resource that contains distributions of discourse interpretations for implicit relations. The results show that the connective insertion method of discourse annotation can be reliably extended to other languages. The resulting multi-lingual annotations also reveal that implicit relations inferred in one language may differ from those inferred in the translation, meaning the annotations are not always directly transferable. DiscoGem 2.0 promotes the investigation of cross-linguistic differences in discourse marking and could improve automatic discourse parsing applications. It is openly downloadable here: https://github.com/merelscholman/DiscoGeM.

@inproceedings{yung-etal-2024-discogem-2,
title = {DiscoGeM 2.0: A parallel corpus of English, German, French and Czech implicit discourse relations},
author = {Frances Pik Yu Yung and Merel Scholman and Sarka Zikanova and Vera Demberg},
editor = {Nicoletta Calzolari and Min-Yen Kan and Veronique Hoste and Alessandro Lenci and Sakriani Sakti and Nianwen Xue},
url = {https://aclanthology.org/2024.lrec-main.443},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages = {4940-4956},
publisher = {ELRA and ICCL},
address = {Torino, Italia},
abstract = {We present DiscoGeM 2.0, a crowdsourced, parallel corpus of 12,834 implicit discourse relations, with English, German, French and Czech data. We propose and validate a new single-step crowdsourcing annotation method and apply it to collect new annotations in German, French and Czech. The corpus was constructed by having crowdsourced annotators choose a suitable discourse connective for each relation from a set of unambiguous candidates. Every instance was annotated by 10 workers. Our corpus hence represents the first multi-lingual resource that contains distributions of discourse interpretations for implicit relations. The results show that the connective insertion method of discourse annotation can be reliably extended to other languages. The resulting multi-lingual annotations also reveal that implicit relations inferred in one language may differ from those inferred in the translation, meaning the annotations are not always directly transferable. DiscoGem 2.0 promotes the investigation of cross-linguistic differences in discourse marking and could improve automatic discourse parsing applications. It is openly downloadable here: https://github.com/merelscholman/DiscoGeM.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B2

Lin, Pin-Jie; Scholman, Merel; Saeed, Muhammed; Demberg, Vera

Modeling Orthographic Variation Improves NLP Performance for Nigerian Pidgin Inproceedings

Calzolari, Nicoletta; Kan, Min-Yen; Hoste, Veronique; Lenci, Alessandro; Sakti, Sakriani; Xue, Nianwen (Ed.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA and ICCL, pp. 11510-11522, Torino, Italia, 2024.

Nigerian Pidgin is an English-derived contact language and is traditionally an oral language, spoken by approximately 100 million people. No orthographic standard has yet been adopted, and thus the few available Pidgin datasets that exist are characterised by noise in the form of orthographic variations. This contributes to under-performance of models in critical NLP tasks. The current work is the first to describe various types of orthographic variations commonly found in Nigerian Pidgin texts, and model this orthographic variation. The variations identified in the dataset form the basis of a phonetic-theoretic framework for word editing, which is used to generate orthographic variations to augment training data. We test the effect of this data augmentation on two critical NLP tasks: machine translation and sentiment analysis. The proposed variation generation framework augments the training data with new orthographic variants which are relevant for the test set but did not occur in the training set originally. Our results demonstrate the positive effect of augmenting the training data with a combination of real texts from other corpora as well as synthesized orthographic variation, resulting in performance improvements of 2.1 points in sentiment analysis and 1.4 BLEU points in translation to English.

@inproceedings{lin-etal-2024-modeling-orthographic,
title = {Modeling Orthographic Variation Improves NLP Performance for Nigerian Pidgin},
author = {Pin-Jie Lin and Merel Scholman and Muhammed Saeed and Vera Demberg},
editor = {Nicoletta Calzolari and Min-Yen Kan and Veronique Hoste and Alessandro Lenci and Sakriani Sakti and Nianwen Xue},
url = {https://aclanthology.org/2024.lrec-main.1006},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages = {11510-11522},
publisher = {ELRA and ICCL},
address = {Torino, Italia},
abstract = {Nigerian Pidgin is an English-derived contact language and is traditionally an oral language, spoken by approximately 100 million people. No orthographic standard has yet been adopted, and thus the few available Pidgin datasets that exist are characterised by noise in the form of orthographic variations. This contributes to under-performance of models in critical NLP tasks. The current work is the first to describe various types of orthographic variations commonly found in Nigerian Pidgin texts, and model this orthographic variation. The variations identified in the dataset form the basis of a phonetic-theoretic framework for word editing, which is used to generate orthographic variations to augment training data. We test the effect of this data augmentation on two critical NLP tasks: machine translation and sentiment analysis. The proposed variation generation framework augments the training data with new orthographic variants which are relevant for the test set but did not occur in the training set originally. Our results demonstrate the positive effect of augmenting the training data with a combination of real texts from other corpora as well as synthesized orthographic variation, resulting in performance improvements of 2.1 points in sentiment analysis and 1.4 BLEU points in translation to English.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B2

Scholman, Merel; Marchal, Marian; Demberg, Vera

Connective comprehension in adults: The influence of lexical transparency, frequency, and individual differences Journal Article

Discourse Processes, 2024.

The comprehension of connectives is crucial for understanding the discourse relations that make up a text. We studied connective comprehension in English to investigate whether adult comprehenders acquire the meaning and intended use of connectives to a similar extent and how connective features and individual differences impact connective comprehension. A coherence judgment study indicated that differences in how well people comprehend connectives depend on the lexical transparency but not on the frequency of the connective. Furthermore, individual variation between participants can be explained by their vocabulary size, nonverbal IQ, and cognitive reasoning style. Print exposure was not found to be relevant. These findings provide further insight into the factors that influence discourse processing and highlight the need to consider individual differences in discourse comprehension research as well as the need to examine a wider range of connectives in empirical studies of discourse markers.

@article{Scholman_etal_2024,
title = {Connective comprehension in adults: The influence of lexical transparency, frequency, and individual differences},
author = {Merel Scholman and Marian Marchal and Vera Demberg},
url = {https://www.tandfonline.com/doi/full/10.1080/0163853X.2024.2325262},
doi = {https://doi.org/10.1080/0163853X.2024.2325262},
year = {2024},
date = {2024},
journal = {Discourse Processes},
abstract = {

The comprehension of connectives is crucial for understanding the discourse relations that make up a text. We studied connective comprehension in English to investigate whether adult comprehenders acquire the meaning and intended use of connectives to a similar extent and how connective features and individual differences impact connective comprehension. A coherence judgment study indicated that differences in how well people comprehend connectives depend on the lexical transparency but not on the frequency of the connective. Furthermore, individual variation between participants can be explained by their vocabulary size, nonverbal IQ, and cognitive reasoning style. Print exposure was not found to be relevant. These findings provide further insight into the factors that influence discourse processing and highlight the need to consider individual differences in discourse comprehension research as well as the need to examine a wider range of connectives in empirical studies of discourse markers.

},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   B2

Krielke, Marie-Pauline

Cross-linguistic Dependency Length Minimization in scientific language: Syntactic complexity reduction in English and German in the Late Modern period Journal Article

Languages in Contrast, 24, pp. 133 - 163, 2024, ISSN 1387-6759.

We use Universal Dependencies (UD) for the study of cross-linguistic diachronic syntactic complexity reduction. Specifically, we look at whether and how scientific English and German minimize the length of syntactic dependency relations in the Late Modern period (ca. 1650–1900). Our linguistic analysis follows the assumption that over time, scientific discourse cross-linguistically develops towards an increasingly efficient syntactic code by minimizing Dependency Length (DL) as a factor of syntactic complexity. For each language, we analyse a large UD-annotated scientific and general language corpus for comparison. While on a macro level, our analysis suggests that there is an overall diachronic cross-linguistic and cross-register reduction in Average Dependency Length (ADL), on the micro level we find that only scientific language shows a sentence length independent reduction of ADL, while general language shows an overall decrease of ADL due to sentence length reduction. We further analyse the syntactic constructions responsible for this reduction in both languages, showing that both scientific English and German increasingly make use of short, intra-phrasal dependency relations while long dependency relations such as clausal embeddings become rather disfavoured over time.

@article{Krielke-2024,
title = {Cross-linguistic Dependency Length Minimization in scientific language: Syntactic complexity reduction in English and German in the Late Modern period},
author = {Marie-Pauline Krielke},
url = {https://www.jbe-platform.com/content/journals/10.1075/lic.00038.kri},
doi = {https://doi.org/10.1075/lic.00038.kri},
year = {2024},
date = {2024},
journal = {Languages in Contrast},
pages = {133 - 163},
volume = {24},
number = {1},
abstract = {

We use Universal Dependencies (UD) for the study of cross-linguistic diachronic syntactic complexity reduction. Specifically, we look at whether and how scientific English and German minimize the length of syntactic dependency relations in the Late Modern period (ca. 1650–1900). Our linguistic analysis follows the assumption that over time, scientific discourse cross-linguistically develops towards an increasingly efficient syntactic code by minimizing Dependency Length (DL) as a factor of syntactic complexity. For each language, we analyse a large UD-annotated scientific and general language corpus for comparison. While on a macro level, our analysis suggests that there is an overall diachronic cross-linguistic and cross-register reduction in Average Dependency Length (ADL), on the micro level we find that only scientific language shows a sentence length independent reduction of ADL, while general language shows an overall decrease of ADL due to sentence length reduction. We further analyse the syntactic constructions responsible for this reduction in both languages, showing that both scientific English and German increasingly make use of short, intra-phrasal dependency relations while long dependency relations such as clausal embeddings become rather disfavoured over time.

},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   B1

Mosbach, Marius

Analyzing pre-trained and fine-tuned language models PhD Thesis

Saarländische Universitäts- und Landesbibliothek, Saarland University, Saarbruecken, Germany, 2024.

The field of natural language processing (NLP) has recently undergone a paradigm shift. Since the introduction of transformer-based language models in 2018, the current generation of natural language processing models continues to demonstrate impressive capabilities on a variety of academic benchmarks and real-world applications. This paradigm shift is based on a simple but general pipeline which consists of pre-training neural language models on large quantities of text, followed by an adaptation step that fine-tunes the pre-trained model to perform a specific NLP task of interest. Despite the impressive progress on academic benchmarks and the widespread deployment of pre-trained and fine-tuned language models in industry, these models do not come without shortcomings which often have immediate consequences for the robustness and generalization of fine-tuned language models. Moreover, these shortcomings demonstrate that we still lack a fundamental understanding of how and why pre-trained and fine-tuned language models work as well as the individual steps of the pipeline that produce them. This thesis makes several contributions towards improving our understanding of pre-trained and fine-tuned language models by carrying out a detailed analysis of various parts of the modern NLP pipeline. Our contributions range from analyzing the linguistic knowledge of pre-trained language models and how it is affected by fine-tuning, to a rigorous analysis of the fine-tuning process itself and how the choice of adaptation technique affects the generalization of models. Overall, we provide new insights about previously unexplained phenomena and the capabilities of pre-trained and fine-tuned language models.


Im Bereich der Verarbeitung natürlicher Sprache (NLP) hat sich ein Paradigmenwechsel vollzogen. Seit der Einführung von transformer-basierten Sprachmodellen im Jahr 2018 zeigt die aktuelle Generation neuronaler Sprachverarbeitungsmodelle beeindruckende Fähigkeiten bei einer Vielzahl von akademischen Benchmarks und realen Anwendungen. Dieser Paradigmenwechsel basiert auf einer einfachen, aber allgemeinen Pipeline, die aus dem Vortrainieren von neuronalen Sprachmodellen auf großen Textmengen besteht, gefolgt von einem Anpassungsschritt, der das vortrainierte Modell modifiziert, um eine bestimmte NLP-Aufgabe durchzuführen. Trotz des beeindruckenden Fortschritts bei akademischen Benchmarks und des weit verbreiteten Einsatzes von vortrainierten und angepassten Sprachmodellen in der Industrie sind diese Modelle nicht ohne Mängel, und oft haben diese Mängel unmittelbare Auswirkungen auf die Robustheit und Generalisierung der Sprachmodelle. Darüber hinaus zeigen sie, dass uns einerseits noch immer ein grundlegendes Verständnis dafür fehlt, wie und warum vortrainierte und angepasste Sprachmodelle funktionieren, andererseits fehlt ein grundlegendes Verständnis der einzelnen Schritte der Pipeline. Diese Arbeit leistet mehrere Beiträge zur Verbesserung unseres Verständnisses von vortrainierten und angepassten Sprachmodellen, indem sie eine detaillierte Analyse verschiedener Teile der modernen NLP-Pipeline durchführt. Unsere Beiträge reichen von der Analyse des linguistischen Wissens von vortrainierten Sprachmodellen und wie dieses durch die Anpassung beeinflusst wird bis hin zu einer rigorosen Analyse des Anpassungsprozesses selbst und wie die Wahl der Anpassungstechnik die Generalisierung von Modellen beeinflusst, und liefern insgesamt neue Erkenntnisse über bisher unerklärte Phänomene und Fähigkeiten von vortrainierten und angepassten Sprachmodellen.

@phdthesis{Mosbach-2024-Thesis,
title = {Analyzing pre-trained and fine-tuned language models},
author = {Marius Mosbach},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/37254},
doi = {https://doi.org/10.22028/D291-41531},
year = {2024},
date = {2024-02-19},
school = {Saarland University},
publisher = {Saarl{\"a}ndische Universit{\"a}ts- und Landesbibliothek},
address = {Saarbruecken, Germany},
abstract = {The field of natural language processing (NLP) has recently undergone a paradigm shift. Since the introduction of transformer-based language models in 2018, the current generation of natural language processing models continues to demonstrate impressive capabilities on a variety of academic benchmarks and real-world applications. This paradigm shift is based on a simple but general pipeline which consists of pre-training neural language models on large quantities of text, followed by an adaptation step that fine-tunes the pre-trained model to perform a specific NLP task of interest. Despite the impressive progress on academic benchmarks and the widespread deployment of pre-trained and fine-tuned language models in industry, these models do not come without shortcomings which often have immediate consequences for the robustness and generalization of fine-tuned language models. Moreover, these shortcomings demonstrate that we still lack a fundamental understanding of how and why pre-trained and fine-tuned language models work as well as the individual steps of the pipeline that produce them. This thesis makes several contributions towards improving our understanding of pre-trained and fine-tuned language models by carrying out a detailed analysis of various parts of the modern NLP pipeline. Our contributions range from analyzing the linguistic knowledge of pre-trained language models and how it is affected by fine-tuning, to a rigorous analysis of the fine-tuning process itself and how the choice of adaptation technique affects the generalization of models. Overall, we provide new insights about previously unexplained phenomena and the capabilities of pre-trained and fine-tuned language models.


Im Bereich der Verarbeitung nat{\"u}rlicher Sprache (NLP) hat sich ein Paradigmenwechsel vollzogen. Seit der Einf{\"u}hrung von transformer-basierten Sprachmodellen im Jahr 2018 zeigt die aktuelle Generation neuronaler Sprachverarbeitungsmodelle beeindruckende F{\"a}higkeiten bei einer Vielzahl von akademischen Benchmarks und realen Anwendungen. Dieser Paradigmenwechsel basiert auf einer einfachen, aber allgemeinen Pipeline, die aus dem Vortrainieren von neuronalen Sprachmodellen auf gro{\ss}en Textmengen besteht, gefolgt von einem Anpassungsschritt, der das vortrainierte Modell modifiziert, um eine bestimmte NLP-Aufgabe durchzuf{\"u}hren. Trotz des beeindruckenden Fortschritts bei akademischen Benchmarks und des weit verbreiteten Einsatzes von vortrainierten und angepassten Sprachmodellen in der Industrie sind diese Modelle nicht ohne M{\"a}ngel, und oft haben diese M{\"a}ngel unmittelbare Auswirkungen auf die Robustheit und Generalisierung der Sprachmodelle. Dar{\"u}ber hinaus zeigen sie, dass uns einerseits noch immer ein grundlegendes Verst{\"a}ndnis daf{\"u}r fehlt, wie und warum vortrainierte und angepasste Sprachmodelle funktionieren, andererseits fehlt ein grundlegendes Verst{\"a}ndnis der einzelnen Schritte der Pipeline. Diese Arbeit leistet mehrere Beitr{\"a}ge zur Verbesserung unseres Verst{\"a}ndnisses von vortrainierten und angepassten Sprachmodellen, indem sie eine detaillierte Analyse verschiedener Teile der modernen NLP-Pipeline durchf{\"u}hrt. Unsere Beitr{\"a}ge reichen von der Analyse des linguistischen Wissens von vortrainierten Sprachmodellen und wie dieses durch die Anpassung beeinflusst wird bis hin zu einer rigorosen Analyse des Anpassungsprozesses selbst und wie die Wahl der Anpassungstechnik die Generalisierung von Modellen beeinflusst, und liefern insgesamt neue Erkenntnisse {\"u}ber bisher unerkl{\"a}rte Ph{\"a}nomene und F{\"a}higkeiten von vortrainierten und angepassten Sprachmodellen.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   B4

Aurnhammer, Christoph

Expectation-based retrieval and integration in language comprehension PhD Thesis

Saarländische Universitäts- und Landesbibliothek, Saarland University, Saarbruecken, Germany, 2024.

To understand language, comprehenders must retrieve the meaning associated with the words they perceive from memory and they must integrate retrieved word meanings into a representation of utterance meaning. During incremental comprehension, both processes are constrained by what has been understood so far and hence are expectation-based mechanisms. Psycholinguistic experiments measuring the electrical activity of the brain have provided key evidence that may elucidate how the language comprehension system organises and implements expectation-based retrieval and integration. However, the field has converged neither on a generally accepted formalisation of these processes nor on their mapping to the two most salient components of the event-related potential signal, the N400 and the P600. Retrieval-Integration theory offers a mechanistic account of the underpinnings of language comprehension and posits that retrieval is indexed by the N400 and integration is indexed by the P600. Following these core assumptions, this thesis demonstrates the expectation-based nature of language comprehension in which both retrieval (N400) and integration (P600) are influenced by expectations derived from an incrementally constructed utterance meaning representation. Critically, our results also indicate that lexical association to the preceding context modulates the N400 but not the P600, affirming the relation of the N400 to retrieval, rather than to integration. Zooming in on the role of integration, we reveal an important novel dimension to the interpretation of the P600 by demonstrating that P600 amplitude — and not N400 amplitude — is continuously related to utterance meaning plausibility. Finally, we examine the single-trial dynamics of retrieval and integration, establishing that words that are more effortful to retrieve tend to be more effortful to integrate, as evidenced by a within-trial correlation of N400 and P600 amplitude. These results are in direct opposition to traditional and more recent proposals arguing that (1) the N400 indexes integration processes, (2) integration — as indexed by the N400 — is merely “quasi-compositional”, and (3) the P600 is a reflection of conflicting interpretations generated in a multi-stream architecture. Rather, our findings indicate that (1) integration is continuously indexed by the P600, (2) integration is fully compositional, and (3) a single-stream architecture in which the N400 continuously indexes retrieval and the P600 continuously indexes integration is sufficient to account for the key ERP data. We conclude that retrieval and integration are two central mechanisms underlying language processing and that the N400 and the P600 should be considered part of the default ERP signature of utterance comprehension. Future study of expectation-based language processing should adopt a comprehension-centric view on expectancy and hence focus on integration effort, as indexed by the P600.


Um Sprache zu verstehen, müssen Menschen die Bedeutung einzelner Worte abrufen und sie müssen die Bedeutungen dieser Worte in eine Bedeutungsrepräsentation der Äußerung integrieren. Diese Prozesse erfolgen inkrementell: Mehr oder weniger jedes wahrgenommene Wort eines Satzes wird sofort einem Bedeutungsabrufungsprozess unterzogen und die abgerufene Wortbedeutung wird in die Äußerungsbedeutung integriert. Die inkrementelle Sprachverarbeitung ist dabei nicht allein von den wahrgenommen Informationen bestimmt sondern stark erwartungsbasiert: Das bislang Verstandene weckt Erwartungen darüber, was als nächstes kommuniziert wird. Zum Beispiel erleichtert das Verarbeiten des Teilsatzes „Gestern schärfte der Holzfäller die …“ die Bedeutungsabrufung und Bedeutungsintegration für das Wort „Axt“ (Beispiel aus Kapitel 3). Lautet der Teilsatz jedoch „Gestern aß der Holzfäller die …“ sollte keine Erleichterung für Abrufung und Integration desWortes „Axt“ gegeben sein. Zentraler Baustein hierfür ist die inkrementell erstellte Bedeutungsrepräsentation des Teilsatzes. Die Teilsatzbedeutung kann mögliche zukünftigeWortbedeutungen voraktivieren und dadurch deren Abrufung erleichtern. Ebenso kann die bislang erstellte Bedeutung der Äußerung die Integration vonWortbedeutungen in die angepasste Äußerungsbedeutung erleichtern, wenn die neuen Informationen dem Weltwissen gemäß erwartbar sind. Der Einfluss der Bedeutungsrepräsentation einer Äußerung auf Abrufung und Integration lässt sich mit dem generellen Begriff der Erwartbarkeit eines Wortes beschreiben. Diese Dissertation fußt auf der Annahme, dass das Sprachverständnis maßgeblich durch die erwartungsbasierten Prozesse der Bedeutungsabrufung und Bedeutungsintegration geprägt ist. Wenn diese beiden Prozesse tatsächlich maßgebliche Bestandteile des Sprachverständnisses sind, stellt sich die Frage, wie der kognitive Aufwand der Abrufung und der Integration gemessen werden kann. Ein vielversprechender Ansatz um zu verstehen, wie Menschen Bedeutung abrufen und integrieren, wäre es, die „Hardware“, welche diese kognitiven Prozesse implementiert – nämlich das menschliche Gehirn – direkt zu messen, während Versuchspersonen Sprache verarbeiten. In der Tat wurden entscheidende Erkenntnisse über das Wie und Wann des Sprachverständnisses im Gehirn durch die Messung ereigniskorrelierter Potentiale (EKP) gewonnen. EKP werden aus dem Elektroenzephalogramm (EEG) berechnet und offenbaren die auf der Kopfhaut gemessene elektrische Aktivität des Gehirns im Verlauf der Zeit nach der Präsentation eines Stimulus. In den Experimenten, welche für diese Arbeit durchgeführt wurden, werden als Stimuli einzelne Worte, welche zusammen einen Satz formen, präsentiert. Dadurch lässt sich zum Beispiel das EKP erwartbarerWorte mit jenem nicht erwartbarer Worte vergleichen („Gestern [schärfte/aß] der Holzfäller die Axt“). Unterschiede in der Erwartbarkeit eines Wortes gehen im EKP – unter anderem – mit Unterschieden in der Amplitude sogenannter EKP-Komponenten, zeitlich abgegrenzter Teile des EKPs, einher. Zwei EKP-Komponenten haben im Besonderen zu wichtigen Erkenntnissen für die Erforschung des Sprachverständnisses geführt: Die N400-Komponente, ein negativer Ausschlag des EKPs, welcher etwa 400 Millisekunden nach der Präsentation eines Stimulus seine maximale Amplitude erreicht, und die P600-Komponente, eine anhaltende, positive Abweichung des Signals, welche etwa ab 600 Millisekunden nach der Präsentation des Stimulus sichtbar wird. Seit der Entdeckung dieser EKP-Komponenten hat die elektrophysiologische Forschung die Sensitivität beider Komponenten hinsichtlich verschiedener sprachlicher sowie nicht-sprachlicher Variablen untersucht. Trotz der Vielzahl der EKP-Resultate, welche innerhalb der Sprachverarbeitungsforschung vorgelegt wurden, ist das Forschungsfeld weder bei einer allgemein anerkannten formellen Beschreibung der zum Sprachverständnis notwendigen Prozesse (z.B. Abrufung und Integration) noch zu einer unumstrittenen Zuordnung dieser Prozesse zu EKPKomponenten (z.B. N400 und P600) angelangt. Die daraus resultierende Ungewissheit behindert Fortschritte in der Beschreibung der neurokognitiven Implementation des Sprachverständnisses, was in der Konsequenz die effektive Entwicklung experimenteller Sprachstudien sowie deren eindeutige Auswertung erschwert. Zur Lösung dieses Problems können komputationale Modelle des Sprachverständnisprozesses entwickelt werden, welche, erstens, die enthaltenen Prozesse (z.B. Abrufung und Integration) mit mathematischer Genauigkeit beschreiben. Aufgrund dieser exakten Beschreibungen können dann, zweitens, explizite und überprüfbare Vorhersagen für neuronale Indikatoren (z.B. N400 und P600) getroffen werden. Die zu Anfang ausgeführte Beschreibung des Sprachverarbeitungsprozesses durch die Funktionen der Bedeutungsabrufung und der Bedeutungsintegration entspricht dem komputationalem Retrieval-Integration-Modells der Elektrophysiologie des Sprachverständnisses (Brouwer et al., 2017; Brouwer et al., 2012, kurz RI-Modell). Gemäß dem RI-Modell indiziert die Amplitude der N400 die kognitive Leistung beim Abrufen von Wortbedeutungen, wobei negativere Werte höherem Aufwand entsprechen. Die Amplitude der P600 wird als Index der kognitiven Leistung bei der Beudeutungsintegration betrachtet, wobei positivere Werte höherem Aufwand entsprechen. Das Ziel dieser Dissertation ist es, spezifische Vorhersagen des RIModells empirisch zu validieren, wobei diese mit alternativen Interpretationen der N400 und P600 sowie mit alternativen Modellen verglichen werden. Zu diesem Zwecke werden zunächst die EKP-Methode sowie wegweisende Resultate zusammengefasst (Kapitel 2). Basierend auf diesem Überblick werden die funktionalen Interpretationen der N400 und P600 sowie deren Rolle in Modellen der Elektrophysiologie der Sprachverarbeitung nachgezeichnet. Dem folgen drei Studien, welche entscheidende Hypothesen des RI-Modells empirisch untersuchen. Die erste Hypothese betrifft die zentrale Rolle, welche die erwartungsbasierte Sprachverarbeitung innerhalb des RI-Modells einnimmt: Der Aufwand sowohl von Abrufung als auch von Integration sollte stark durch die Erwartbarkeit eines Wortes moduliert werden. Neue erhobene EKP-Daten zeigen (Kapitel 3), dass unerwartete Worte tatsächlich sowohl die N400 als auch die P600 modulieren („Gestern [schärfte/aß] der Holzfäller […] die Axt“). Die gleichzeitige Modulation von N400 und P600 bedeutet jedoch, dass aufgrund dieser Daten alleine nicht entschieden werden kann, welchem Prozess – Abrufung oder Integration – die beiden EKPKomponenten entsprechen. Um dieses Problem zu lösen, wurde zusätzlich eine Manipulation der lexikalischen Assoziation vorgenommen („Gestern [schärfte/aß] der Holzfäller, [bevor er das Holz stapelte/bevor er den Film schaute], die Axt“). Der eingeschobene, assoziierte Nebensatz („bevor er das Holz stapelte“) sollte die Wortbedeutung des Zielwortes („Axt“) voraktivieren und dadurch dessen Abrufung zusätzlich erleichtern, jedoch ohne dabei Einfluss auf den Aufwand der Bedeutungsintegration zu nehmen. Die Ergebnisse zeigen, dass die Präsentation lexikalisch assoziierter Worte zu einer weiteren Reduktion der N400 führt, aber keinen Einfluss auf die P600 hat, was darauf hindeutet, dass die N400 Bedeutungsabrufung indiziert, während die P600 eindeutig der Bedeutungsintegration zuordenbar ist. Nachfolgend wurden Verhaltensstudien durchgeführt, in denen Lesezeiten gemessen wurden, welche ermitteln, wie lange Leser auf einzelnen Worten verweilen, was Aufschluss über den kognitiven Aufwand bei der Sprachverarbeitung geben kann. Diese Verhaltensdaten ähneln den Modulationsmustern der P600, was eine direkte Verbindung von Lesezeiten und der P600 mit dem Aufwand bei der Wortintegration nahelegt. Modulationen der Lesezeiten durch lexikalische Assoziation fielen kürzer und weniger reliabel aus, was es möglich erscheinen lässt, dass die etablierte Verbindung von Lesezeiten zur N400 nur korrelativ sein könnte. In der Summe stützen die erhobenen Lesezeitdaten die oben ausgeführte Interpretation der EKP Daten. Eine zentrale Vorhersage des RI-Modells ist, dass die P600-Komponente von jedem Wort innerhalb einer Äußerung erzeugt wird und dass die Amplitude der P600 kontinuierlich den Aufwand der Integration indiziert. Als Teil dieser Dissertation werden erstmals EKP-Daten, welche diese Hypothese unterstützen, präsentiert. Eine post-hoc Analyse der EKP-Daten des ersten Experiments zeigt, dass sowohl die N400 als auch die P600 bei Zielworten der Kontrollkondition, welche keiner Manipulation unterlag, graduell mit der Erwartbarkeit des Zielwortes variieren. Dies würde nahelegen, dass die P600 nicht allein durch eindeutig unplausible Sätze hervorgerufen wird, sondern tatsächlich einen kontinuierlichen Index des Integrationsaufwandes darstellt. Die zweite experimentelle Studie ist speziell der Erforschung dieser Hypothese gewidmet (Kapitel 4). In diesem Experiment wird zunächst ein Kontextparagraph präsentiert, welcher den Beginn einer kurzen Geschichte enthält: „Ein Tourist wollte seinen riesigen Koffer mit in das Flugzeug nehmen. Der Koffer war allerdings so schwer, dass die Dame am Check-in entschied, dem Touristen eine extra Gebühr zu berechnen. Daraufhin öffnete der Tourist seinen Koffer und warf einige Sachen hinaus. Somit wog der Koffer des einfallsreichen Touristen weniger als das Maximum von 30 Kilogramm.“ Diesem Kontextparagraphen folgen abschließende Sätze, in welchen das Zielwort („Tourist“) plausibel, weniger plausibel, oder implausibel ist („Dann [verabschiedete / wog / unterschrieb] die Dame den Touristen…“). Eine zuerst durchgeführte Verhaltensstudie zeigt Verlangsamungen der Lesezeit als Funktion der Plausibilität, was die erfolgreiche Manipulation der Stimuli unterstreicht. Die Ergebnisse der danach durchgeführten EKP-Studie demonstrieren eindeutig, dass die Amplitude der P600 kontinuierlich als Funktion der Plausibilität variiert. Das experimentelle Design erlaubt zudem die Interpretation der N400 als Index der Bedeutungsabrufung zu überprüfen: Die wiederholte Präsentation des Zielwortes im vorangegangenen Kontextparagraph sollte die Bedeutungsabrufung in allen drei Konditionen gleichermaßen erleichtern – unabhängig von Unterschieden in der Plausibilität. In der Tat zeigen die EKP-Daten keinerlei Modulation der N400, was also die Zuordnung dieser EKP-Komponente zum Abrufungsprozess stützt. Zusätzlich testet dieses Design die Vorhersagen einer Gruppe von alternativen Modellen des Sprachverständnisses, sogenannten Multi-Stream-Modellen. Multi- Stream-Modelle sagen eine verstärkte N400 für eine Kondition („Dann unterschrieb die Dame den Tourist“) und eine verstärkte P600 für eine andere Kondition („Dann wog die Dame den Tourist“) vorher. Dies ist abhängig davon, ob der implausible Satz eine alternative, plausible Interpretation nahelegt („Dann wog die Dame den Koffer“ anstelle von „Dann wog die Dame den Touristen“) oder nicht („Dann unterschrieb die Dame den Koffer“). Da keine der Konditionen eine verstärkte N400 hervorruft, wurde die Vorhersage der Multi-Stream-Modelle durch dieses zweite Experiment falsifiziert. Stattdessen bestätigen die Ergebnisse die Vorhersagen des Single- Stream RI-Modells und stellen starke Evidenzen für die Interpretation der P600 als kontinuierlichen Index der Bedeutungsintegration bereit. Aus der Architektur des RI-Modells und der Erkenntnis, dass sowohl Bedeutungsabrufung als auch Bedeutungsintegration stark erwartungsbasiert sind, folgt eine weitere Vorhersage: Die Amplitude der N400 (je negativer die Amplitude desto höher der Abrufungsaufwand) und die Amplitude der P600 (je positiver die Amplitude desto höher der Integrationsaufwand) müssen negativ korreliert sein. Auf Prozessebene bedeutet dies: Worte, welche mehr Bedeutungsabrufung erfordern, sollten generell auch schwieriger zu integrieren sein. Diese Vorhersage steht wiederum im Kontrast zu Multi-Stream-Modellen, welche vorhersagen, dass durch jedes Wort entweder eine Verstärkung der N400 oder der P600 produziert werden sollte. Diese unterschiedlichen Hypothesen werden in neuen statistischen Analysen zuvor erhobener EKP-Daten überprüft (Kapitel 5). Die Resultate zeigen erstmals, dass die Amplituden der N400 und der P600 auf der Ebene einzelner EEG-Signale – und nicht nur auf der Ebene von durchschnittlichen EKP – korreliert sind. Diese Ergebnisse stärken damit weiter das RI-Modell und sind schwer mit der Architektur eines Multi-Stream-Modells zu vereinbaren. Zusammengefasst zeigt diese Doktorarbeit die separierbaren Einflüsse von lexikalischer Assoziation und Erwartbarkeit auf die N400. Die P600 wird dagegen nicht durch lexikalische Assoziationen moduliert, sondern reagiert darauf, wie stark die Satzbedeutung als Funktion der Erwartbarkeit und Plausibilität angepasst werden muss. Dabei ist die P600 keine kategorische Reaktion auf implausible Stimuli, sondern stellt einen kontinuierlichen Index des Bedeutungsintegrationsaufwandes dar. Des Weiteren konnte gezeigt werden, dass graduelle Modulationen der N400 und der P600 innerhalb einzelner EEG-Signale korrelieren, was auf die Organisation der erwartungsbasierten Prozesse Abrufung und Integration in einer Single- Stream-Architektur hindeutet. Für beide experimentellen Designs wurden neben EKP-Daten auch Lesezeitdaten erhoben, welche im Kontext verständnisbasierter Erwartbarkeit eine direkte Verbindung von Lesezeiten mit der P600 nahelegen. Die Ergebnisse dieser Dissertation sind unvereinbar mit traditionellen sowie neueren Theorien, welche argumentieren, dass die N400 Aspekte der Bedeutungsintegration indiziert. Im Speziellen widersprechen die Ergebnisse mehreren Schlüsselhypothesen von Multi-Stream-Modellen, welche aussagen, dass die N400 strukturunsensible Integration indiziert, während die P600 Konflikte zwischen strukturunsensibler und struktursensibler Integration widerspiegelt. Stattdessen lassen sich die Resultate mit wesentlich weniger Annahmen durch das Single-Stream-Modell der Retrieval-Integration-Theorie erklären (siehe Diskussion in Kapitel 6). Demnach fußt das Sprachverständnis imWesentlichen auf den Mechanismen der Bedeutungsabrufung sowie der Bedeutungsintegration, welche im EKP-Signal als N400- und P600-Komponente messbar sind. Beide Komponenten werden standardmäßig durch jedes Wort einer Äußerung hervorgerufen, wobei ihre Amplituden kontinuierlich den kognitiven Aufwand der Bedeutungsabrufung (N400) sowie der Bedeutungsintegration (P600) indizieren. Basierend auf den Ergebnissen dieser Dissertation ziehe ich den Schluss, dass eine an Erkenntnissen über das Sprachverständnis interessierte Forschung der P600 zentrale Bedeutung beimessen sollte. Anhang A enthält eine theorieneutrale Abhandlung über die rERP Methode (Smith & Kutas, 2015a), einem statistischen Analyseverfahren, welches in der gesamten Dissertation zur Auswertung von EKP- und Lesezeitdaten zum Einsatz kommt. Alle Daten und sämtlicher Code, welche zur Reproduktion der Analysen und Graphiken dieser Arbeit, einschließlich des Anhangs, notwendig sind, werden im Thesis Repository bereitgestellt (https://www.github.com/caurnhammer/ AurnhammerThesis). Jedwede Studien, welche mit menschlichen Partizipanten durchgeführt wurden, erhielten eine Ethik-Zulassung durch die Deutsche Gesellschaft für Sprachwissenschaft (DGfS). Teile dieser Arbeit basieren auf Veröffentlichungen in wissenschaftlichen Journalen (Kapitel 3: Aurnhammer et al., 2021; Kapitel 4: Aurnhammer, Delogu, et al., 2023; Kapitel 5: Aurnhammer, Crocker, and Brouwer, 2023).

@phdthesis{aurnhammer2024thesis,
title = {Expectation-based retrieval and integration in language comprehension},
author = {Christoph Aurnhammer},
url = {https://doi.org/10.22028/D291-41500},
doi = {https://doi.org/10.22028/D291-41500},
year = {2024},
date = {2024},
school = {Saarland University},
publisher = {Saarl{\"a}ndische Universit{\"a}ts- und Landesbibliothek},
address = {Saarbruecken, Germany},
abstract = {To understand language, comprehenders must retrieve the meaning associated with the words they perceive from memory and they must integrate retrieved word meanings into a representation of utterance meaning. During incremental comprehension, both processes are constrained by what has been understood so far and hence are expectation-based mechanisms. Psycholinguistic experiments measuring the electrical activity of the brain have provided key evidence that may elucidate how the language comprehension system organises and implements expectation-based retrieval and integration. However, the field has converged neither on a generally accepted formalisation of these processes nor on their mapping to the two most salient components of the event-related potential signal, the N400 and the P600. Retrieval-Integration theory offers a mechanistic account of the underpinnings of language comprehension and posits that retrieval is indexed by the N400 and integration is indexed by the P600. Following these core assumptions, this thesis demonstrates the expectation-based nature of language comprehension in which both retrieval (N400) and integration (P600) are influenced by expectations derived from an incrementally constructed utterance meaning representation. Critically, our results also indicate that lexical association to the preceding context modulates the N400 but not the P600, affirming the relation of the N400 to retrieval, rather than to integration. Zooming in on the role of integration, we reveal an important novel dimension to the interpretation of the P600 by demonstrating that P600 amplitude — and not N400 amplitude — is continuously related to utterance meaning plausibility. Finally, we examine the single-trial dynamics of retrieval and integration, establishing that words that are more effortful to retrieve tend to be more effortful to integrate, as evidenced by a within-trial correlation of N400 and P600 amplitude. These results are in direct opposition to traditional and more recent proposals arguing that (1) the N400 indexes integration processes, (2) integration — as indexed by the N400 — is merely “quasi-compositional”, and (3) the P600 is a reflection of conflicting interpretations generated in a multi-stream architecture. Rather, our findings indicate that (1) integration is continuously indexed by the P600, (2) integration is fully compositional, and (3) a single-stream architecture in which the N400 continuously indexes retrieval and the P600 continuously indexes integration is sufficient to account for the key ERP data. We conclude that retrieval and integration are two central mechanisms underlying language processing and that the N400 and the P600 should be considered part of the default ERP signature of utterance comprehension. Future study of expectation-based language processing should adopt a comprehension-centric view on expectancy and hence focus on integration effort, as indexed by the P600.


Um Sprache zu verstehen, m{\"u}ssen Menschen die Bedeutung einzelner Worte abrufen und sie m{\"u}ssen die Bedeutungen dieser Worte in eine Bedeutungsrepr{\"a}sentation der {\"A}u{\ss}erung integrieren. Diese Prozesse erfolgen inkrementell: Mehr oder weniger jedes wahrgenommene Wort eines Satzes wird sofort einem Bedeutungsabrufungsprozess unterzogen und die abgerufene Wortbedeutung wird in die {\"A}u{\ss}erungsbedeutung integriert. Die inkrementelle Sprachverarbeitung ist dabei nicht allein von den wahrgenommen Informationen bestimmt sondern stark erwartungsbasiert: Das bislang Verstandene weckt Erwartungen dar{\"u}ber, was als n{\"a}chstes kommuniziert wird. Zum Beispiel erleichtert das Verarbeiten des Teilsatzes „Gestern sch{\"a}rfte der Holzf{\"a}ller die ...“ die Bedeutungsabrufung und Bedeutungsintegration f{\"u}r das Wort „Axt“ (Beispiel aus Kapitel 3). Lautet der Teilsatz jedoch „Gestern a{\ss} der Holzf{\"a}ller die ...“ sollte keine Erleichterung f{\"u}r Abrufung und Integration desWortes „Axt“ gegeben sein. Zentraler Baustein hierf{\"u}r ist die inkrementell erstellte Bedeutungsrepr{\"a}sentation des Teilsatzes. Die Teilsatzbedeutung kann m{\"o}gliche zuk{\"u}nftigeWortbedeutungen voraktivieren und dadurch deren Abrufung erleichtern. Ebenso kann die bislang erstellte Bedeutung der {\"A}u{\ss}erung die Integration vonWortbedeutungen in die angepasste {\"A}u{\ss}erungsbedeutung erleichtern, wenn die neuen Informationen dem Weltwissen gem{\"a}{\ss} erwartbar sind. Der Einfluss der Bedeutungsrepr{\"a}sentation einer {\"A}u{\ss}erung auf Abrufung und Integration l{\"a}sst sich mit dem generellen Begriff der Erwartbarkeit eines Wortes beschreiben. Diese Dissertation fu{\ss}t auf der Annahme, dass das Sprachverst{\"a}ndnis ma{\ss}geblich durch die erwartungsbasierten Prozesse der Bedeutungsabrufung und Bedeutungsintegration gepr{\"a}gt ist. Wenn diese beiden Prozesse tats{\"a}chlich ma{\ss}gebliche Bestandteile des Sprachverst{\"a}ndnisses sind, stellt sich die Frage, wie der kognitive Aufwand der Abrufung und der Integration gemessen werden kann. Ein vielversprechender Ansatz um zu verstehen, wie Menschen Bedeutung abrufen und integrieren, w{\"a}re es, die „Hardware“, welche diese kognitiven Prozesse implementiert – n{\"a}mlich das menschliche Gehirn – direkt zu messen, w{\"a}hrend Versuchspersonen Sprache verarbeiten. In der Tat wurden entscheidende Erkenntnisse {\"u}ber das Wie und Wann des Sprachverst{\"a}ndnisses im Gehirn durch die Messung ereigniskorrelierter Potentiale (EKP) gewonnen. EKP werden aus dem Elektroenzephalogramm (EEG) berechnet und offenbaren die auf der Kopfhaut gemessene elektrische Aktivit{\"a}t des Gehirns im Verlauf der Zeit nach der Pr{\"a}sentation eines Stimulus. In den Experimenten, welche f{\"u}r diese Arbeit durchgef{\"u}hrt wurden, werden als Stimuli einzelne Worte, welche zusammen einen Satz formen, pr{\"a}sentiert. Dadurch l{\"a}sst sich zum Beispiel das EKP erwartbarerWorte mit jenem nicht erwartbarer Worte vergleichen („Gestern [sch{\"a}rfte/a{\ss}] der Holzf{\"a}ller die Axt“). Unterschiede in der Erwartbarkeit eines Wortes gehen im EKP – unter anderem – mit Unterschieden in der Amplitude sogenannter EKP-Komponenten, zeitlich abgegrenzter Teile des EKPs, einher. Zwei EKP-Komponenten haben im Besonderen zu wichtigen Erkenntnissen f{\"u}r die Erforschung des Sprachverst{\"a}ndnisses gef{\"u}hrt: Die N400-Komponente, ein negativer Ausschlag des EKPs, welcher etwa 400 Millisekunden nach der Pr{\"a}sentation eines Stimulus seine maximale Amplitude erreicht, und die P600-Komponente, eine anhaltende, positive Abweichung des Signals, welche etwa ab 600 Millisekunden nach der Pr{\"a}sentation des Stimulus sichtbar wird. Seit der Entdeckung dieser EKP-Komponenten hat die elektrophysiologische Forschung die Sensitivit{\"a}t beider Komponenten hinsichtlich verschiedener sprachlicher sowie nicht-sprachlicher Variablen untersucht. Trotz der Vielzahl der EKP-Resultate, welche innerhalb der Sprachverarbeitungsforschung vorgelegt wurden, ist das Forschungsfeld weder bei einer allgemein anerkannten formellen Beschreibung der zum Sprachverst{\"a}ndnis notwendigen Prozesse (z.B. Abrufung und Integration) noch zu einer unumstrittenen Zuordnung dieser Prozesse zu EKPKomponenten (z.B. N400 und P600) angelangt. Die daraus resultierende Ungewissheit behindert Fortschritte in der Beschreibung der neurokognitiven Implementation des Sprachverst{\"a}ndnisses, was in der Konsequenz die effektive Entwicklung experimenteller Sprachstudien sowie deren eindeutige Auswertung erschwert. Zur L{\"o}sung dieses Problems k{\"o}nnen komputationale Modelle des Sprachverst{\"a}ndnisprozesses entwickelt werden, welche, erstens, die enthaltenen Prozesse (z.B. Abrufung und Integration) mit mathematischer Genauigkeit beschreiben. Aufgrund dieser exakten Beschreibungen k{\"o}nnen dann, zweitens, explizite und {\"u}berpr{\"u}fbare Vorhersagen f{\"u}r neuronale Indikatoren (z.B. N400 und P600) getroffen werden. Die zu Anfang ausgef{\"u}hrte Beschreibung des Sprachverarbeitungsprozesses durch die Funktionen der Bedeutungsabrufung und der Bedeutungsintegration entspricht dem komputationalem Retrieval-Integration-Modells der Elektrophysiologie des Sprachverst{\"a}ndnisses (Brouwer et al., 2017; Brouwer et al., 2012, kurz RI-Modell). Gem{\"a}{\ss} dem RI-Modell indiziert die Amplitude der N400 die kognitive Leistung beim Abrufen von Wortbedeutungen, wobei negativere Werte h{\"o}herem Aufwand entsprechen. Die Amplitude der P600 wird als Index der kognitiven Leistung bei der Beudeutungsintegration betrachtet, wobei positivere Werte h{\"o}herem Aufwand entsprechen. Das Ziel dieser Dissertation ist es, spezifische Vorhersagen des RIModells empirisch zu validieren, wobei diese mit alternativen Interpretationen der N400 und P600 sowie mit alternativen Modellen verglichen werden. Zu diesem Zwecke werden zun{\"a}chst die EKP-Methode sowie wegweisende Resultate zusammengefasst (Kapitel 2). Basierend auf diesem {\"U}berblick werden die funktionalen Interpretationen der N400 und P600 sowie deren Rolle in Modellen der Elektrophysiologie der Sprachverarbeitung nachgezeichnet. Dem folgen drei Studien, welche entscheidende Hypothesen des RI-Modells empirisch untersuchen. Die erste Hypothese betrifft die zentrale Rolle, welche die erwartungsbasierte Sprachverarbeitung innerhalb des RI-Modells einnimmt: Der Aufwand sowohl von Abrufung als auch von Integration sollte stark durch die Erwartbarkeit eines Wortes moduliert werden. Neue erhobene EKP-Daten zeigen (Kapitel 3), dass unerwartete Worte tats{\"a}chlich sowohl die N400 als auch die P600 modulieren („Gestern [sch{\"a}rfte/a{\ss}] der Holzf{\"a}ller [...] die Axt“). Die gleichzeitige Modulation von N400 und P600 bedeutet jedoch, dass aufgrund dieser Daten alleine nicht entschieden werden kann, welchem Prozess – Abrufung oder Integration – die beiden EKPKomponenten entsprechen. Um dieses Problem zu l{\"o}sen, wurde zus{\"a}tzlich eine Manipulation der lexikalischen Assoziation vorgenommen („Gestern [sch{\"a}rfte/a{\ss}] der Holzf{\"a}ller, [bevor er das Holz stapelte/bevor er den Film schaute], die Axt“). Der eingeschobene, assoziierte Nebensatz („bevor er das Holz stapelte“) sollte die Wortbedeutung des Zielwortes („Axt“) voraktivieren und dadurch dessen Abrufung zus{\"a}tzlich erleichtern, jedoch ohne dabei Einfluss auf den Aufwand der Bedeutungsintegration zu nehmen. Die Ergebnisse zeigen, dass die Pr{\"a}sentation lexikalisch assoziierter Worte zu einer weiteren Reduktion der N400 f{\"u}hrt, aber keinen Einfluss auf die P600 hat, was darauf hindeutet, dass die N400 Bedeutungsabrufung indiziert, w{\"a}hrend die P600 eindeutig der Bedeutungsintegration zuordenbar ist. Nachfolgend wurden Verhaltensstudien durchgef{\"u}hrt, in denen Lesezeiten gemessen wurden, welche ermitteln, wie lange Leser auf einzelnen Worten verweilen, was Aufschluss {\"u}ber den kognitiven Aufwand bei der Sprachverarbeitung geben kann. Diese Verhaltensdaten {\"a}hneln den Modulationsmustern der P600, was eine direkte Verbindung von Lesezeiten und der P600 mit dem Aufwand bei der Wortintegration nahelegt. Modulationen der Lesezeiten durch lexikalische Assoziation fielen k{\"u}rzer und weniger reliabel aus, was es m{\"o}glich erscheinen l{\"a}sst, dass die etablierte Verbindung von Lesezeiten zur N400 nur korrelativ sein k{\"o}nnte. In der Summe st{\"u}tzen die erhobenen Lesezeitdaten die oben ausgef{\"u}hrte Interpretation der EKP Daten. Eine zentrale Vorhersage des RI-Modells ist, dass die P600-Komponente von jedem Wort innerhalb einer {\"A}u{\ss}erung erzeugt wird und dass die Amplitude der P600 kontinuierlich den Aufwand der Integration indiziert. Als Teil dieser Dissertation werden erstmals EKP-Daten, welche diese Hypothese unterst{\"u}tzen, pr{\"a}sentiert. Eine post-hoc Analyse der EKP-Daten des ersten Experiments zeigt, dass sowohl die N400 als auch die P600 bei Zielworten der Kontrollkondition, welche keiner Manipulation unterlag, graduell mit der Erwartbarkeit des Zielwortes variieren. Dies w{\"u}rde nahelegen, dass die P600 nicht allein durch eindeutig unplausible S{\"a}tze hervorgerufen wird, sondern tats{\"a}chlich einen kontinuierlichen Index des Integrationsaufwandes darstellt. Die zweite experimentelle Studie ist speziell der Erforschung dieser Hypothese gewidmet (Kapitel 4). In diesem Experiment wird zun{\"a}chst ein Kontextparagraph pr{\"a}sentiert, welcher den Beginn einer kurzen Geschichte enth{\"a}lt: „Ein Tourist wollte seinen riesigen Koffer mit in das Flugzeug nehmen. Der Koffer war allerdings so schwer, dass die Dame am Check-in entschied, dem Touristen eine extra Geb{\"u}hr zu berechnen. Daraufhin {\"o}ffnete der Tourist seinen Koffer und warf einige Sachen hinaus. Somit wog der Koffer des einfallsreichen Touristen weniger als das Maximum von 30 Kilogramm.“ Diesem Kontextparagraphen folgen abschlie{\ss}ende S{\"a}tze, in welchen das Zielwort („Tourist“) plausibel, weniger plausibel, oder implausibel ist („Dann [verabschiedete / wog / unterschrieb] die Dame den Touristen...“). Eine zuerst durchgef{\"u}hrte Verhaltensstudie zeigt Verlangsamungen der Lesezeit als Funktion der Plausibilit{\"a}t, was die erfolgreiche Manipulation der Stimuli unterstreicht. Die Ergebnisse der danach durchgef{\"u}hrten EKP-Studie demonstrieren eindeutig, dass die Amplitude der P600 kontinuierlich als Funktion der Plausibilit{\"a}t variiert. Das experimentelle Design erlaubt zudem die Interpretation der N400 als Index der Bedeutungsabrufung zu {\"u}berpr{\"u}fen: Die wiederholte Pr{\"a}sentation des Zielwortes im vorangegangenen Kontextparagraph sollte die Bedeutungsabrufung in allen drei Konditionen gleicherma{\ss}en erleichtern - unabh{\"a}ngig von Unterschieden in der Plausibilit{\"a}t. In der Tat zeigen die EKP-Daten keinerlei Modulation der N400, was also die Zuordnung dieser EKP-Komponente zum Abrufungsprozess st{\"u}tzt. Zus{\"a}tzlich testet dieses Design die Vorhersagen einer Gruppe von alternativen Modellen des Sprachverst{\"a}ndnisses, sogenannten Multi-Stream-Modellen. Multi- Stream-Modelle sagen eine verst{\"a}rkte N400 f{\"u}r eine Kondition („Dann unterschrieb die Dame den Tourist“) und eine verst{\"a}rkte P600 f{\"u}r eine andere Kondition („Dann wog die Dame den Tourist“) vorher. Dies ist abh{\"a}ngig davon, ob der implausible Satz eine alternative, plausible Interpretation nahelegt („Dann wog die Dame den Koffer“ anstelle von „Dann wog die Dame den Touristen“) oder nicht („Dann unterschrieb die Dame den Koffer“). Da keine der Konditionen eine verst{\"a}rkte N400 hervorruft, wurde die Vorhersage der Multi-Stream-Modelle durch dieses zweite Experiment falsifiziert. Stattdessen best{\"a}tigen die Ergebnisse die Vorhersagen des Single- Stream RI-Modells und stellen starke Evidenzen f{\"u}r die Interpretation der P600 als kontinuierlichen Index der Bedeutungsintegration bereit. Aus der Architektur des RI-Modells und der Erkenntnis, dass sowohl Bedeutungsabrufung als auch Bedeutungsintegration stark erwartungsbasiert sind, folgt eine weitere Vorhersage: Die Amplitude der N400 (je negativer die Amplitude desto h{\"o}her der Abrufungsaufwand) und die Amplitude der P600 (je positiver die Amplitude desto h{\"o}her der Integrationsaufwand) m{\"u}ssen negativ korreliert sein. Auf Prozessebene bedeutet dies: Worte, welche mehr Bedeutungsabrufung erfordern, sollten generell auch schwieriger zu integrieren sein. Diese Vorhersage steht wiederum im Kontrast zu Multi-Stream-Modellen, welche vorhersagen, dass durch jedes Wort entweder eine Verst{\"a}rkung der N400 oder der P600 produziert werden sollte. Diese unterschiedlichen Hypothesen werden in neuen statistischen Analysen zuvor erhobener EKP-Daten {\"u}berpr{\"u}ft (Kapitel 5). Die Resultate zeigen erstmals, dass die Amplituden der N400 und der P600 auf der Ebene einzelner EEG-Signale – und nicht nur auf der Ebene von durchschnittlichen EKP – korreliert sind. Diese Ergebnisse st{\"a}rken damit weiter das RI-Modell und sind schwer mit der Architektur eines Multi-Stream-Modells zu vereinbaren. Zusammengefasst zeigt diese Doktorarbeit die separierbaren Einfl{\"u}sse von lexikalischer Assoziation und Erwartbarkeit auf die N400. Die P600 wird dagegen nicht durch lexikalische Assoziationen moduliert, sondern reagiert darauf, wie stark die Satzbedeutung als Funktion der Erwartbarkeit und Plausibilit{\"a}t angepasst werden muss. Dabei ist die P600 keine kategorische Reaktion auf implausible Stimuli, sondern stellt einen kontinuierlichen Index des Bedeutungsintegrationsaufwandes dar. Des Weiteren konnte gezeigt werden, dass graduelle Modulationen der N400 und der P600 innerhalb einzelner EEG-Signale korrelieren, was auf die Organisation der erwartungsbasierten Prozesse Abrufung und Integration in einer Single- Stream-Architektur hindeutet. F{\"u}r beide experimentellen Designs wurden neben EKP-Daten auch Lesezeitdaten erhoben, welche im Kontext verst{\"a}ndnisbasierter Erwartbarkeit eine direkte Verbindung von Lesezeiten mit der P600 nahelegen. Die Ergebnisse dieser Dissertation sind unvereinbar mit traditionellen sowie neueren Theorien, welche argumentieren, dass die N400 Aspekte der Bedeutungsintegration indiziert. Im Speziellen widersprechen die Ergebnisse mehreren Schl{\"u}sselhypothesen von Multi-Stream-Modellen, welche aussagen, dass die N400 strukturunsensible Integration indiziert, w{\"a}hrend die P600 Konflikte zwischen strukturunsensibler und struktursensibler Integration widerspiegelt. Stattdessen lassen sich die Resultate mit wesentlich weniger Annahmen durch das Single-Stream-Modell der Retrieval-Integration-Theorie erkl{\"a}ren (siehe Diskussion in Kapitel 6). Demnach fu{\ss}t das Sprachverst{\"a}ndnis imWesentlichen auf den Mechanismen der Bedeutungsabrufung sowie der Bedeutungsintegration, welche im EKP-Signal als N400- und P600-Komponente messbar sind. Beide Komponenten werden standardm{\"a}{\ss}ig durch jedes Wort einer {\"A}u{\ss}erung hervorgerufen, wobei ihre Amplituden kontinuierlich den kognitiven Aufwand der Bedeutungsabrufung (N400) sowie der Bedeutungsintegration (P600) indizieren. Basierend auf den Ergebnissen dieser Dissertation ziehe ich den Schluss, dass eine an Erkenntnissen {\"u}ber das Sprachverst{\"a}ndnis interessierte Forschung der P600 zentrale Bedeutung beimessen sollte. Anhang A enth{\"a}lt eine theorieneutrale Abhandlung {\"u}ber die rERP Methode (Smith & Kutas, 2015a), einem statistischen Analyseverfahren, welches in der gesamten Dissertation zur Auswertung von EKP- und Lesezeitdaten zum Einsatz kommt. Alle Daten und s{\"a}mtlicher Code, welche zur Reproduktion der Analysen und Graphiken dieser Arbeit, einschlie{\ss}lich des Anhangs, notwendig sind, werden im Thesis Repository bereitgestellt (https://www.github.com/caurnhammer/ AurnhammerThesis). Jedwede Studien, welche mit menschlichen Partizipanten durchgef{\"u}hrt wurden, erhielten eine Ethik-Zulassung durch die Deutsche Gesellschaft f{\"u}r Sprachwissenschaft (DGfS). Teile dieser Arbeit basieren auf Ver{\"o}ffentlichungen in wissenschaftlichen Journalen (Kapitel 3: Aurnhammer et al., 2021; Kapitel 4: Aurnhammer, Delogu, et al., 2023; Kapitel 5: Aurnhammer, Crocker, and Brouwer, 2023).},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A1

Meßmer, Julia; Bader, Regine; Mecklinger, Axel

Schema-congruency supports the formation of unitized representations: Evidence from event-related potentials Journal Article

Neuropsychologia, 194, pp. 108782, 2024, ISSN 0028-3932.

The main goal of the present study was to investigate whether schema-based encoding of novel word pairs (i.e., novel compound words) supports the formation of unitized representations and thus, associative familiarity-based recognition. We report two experiments that both comprise an incidental learning task, in which novel noun-noun compound words were presented in semantically congruent contexts, enabling schema-supported processing of both constituents, contrasted with a schema-neutral condition. In Experiment 1, the effects of schema congruency on memory performance were larger for associative memory performance than for item memory performance in a memory test in which intact, recombined, and new compound words had to be discriminated. This supports the view that schema congruency boosts associative memory by promoting unitization. When contrasting event-related potentials (ERPs) for hits with correct rejections or associative misses, an N400 attenuation effect (520–676 ms) indicating absolute familiarity was present in the congruent condition, but not in the neutral condition. In line with this, a direct comparison of ERPs on hits across conditions revealed more positive waveforms in the congruent than in the neutral condition. This suggests that absolute familiarity contributes to associative recognition memory when schema-supported processing is established. In Experiment 2, we tested whether schema congruency enables the formation of semantically overlapping representations. Therefore, we included semantically similar lure compound words in the test phase and compared false alarm rates to these lures across conditions. In line with our hypothesis, we found higher false alarm rates in the congruent as compared to the neutral condition. In conclusion, we provide converging evidence for the view that schema congruency enables the formation of unitized representations and supports familiarity-based memory retrieval.

    @article{MEMER2024108782,
    title = {Schema-congruency supports the formation of unitized representations: Evidence from event-related potentials},
    author = {Julia Me{\ss}mer and Regine Bader and Axel Mecklinger},
    url = {https://www.sciencedirect.com/science/article/pii/S0028393223003160},
    doi = {https://doi.org/10.1016/j.neuropsychologia.2023.108782},
    year = {2024},
    date = {2024},
    journal = {Neuropsychologia},
    pages = {108782},
    volume = {194},
    abstract = {The main goal of the present study was to investigate whether schema-based encoding of novel word pairs (i.e., novel compound words) supports the formation of unitized representations and thus, associative familiarity-based recognition. We report two experiments that both comprise an incidental learning task, in which novel noun-noun compound words were presented in semantically congruent contexts, enabling schema-supported processing of both constituents, contrasted with a schema-neutral condition. In Experiment 1, the effects of schema congruency on memory performance were larger for associative memory performance than for item memory performance in a memory test in which intact, recombined, and new compound words had to be discriminated. This supports the view that schema congruency boosts associative memory by promoting unitization. When contrasting event-related potentials (ERPs) for hits with correct rejections or associative misses, an N400 attenuation effect (520–676 ms) indicating absolute familiarity was present in the congruent condition, but not in the neutral condition. In line with this, a direct comparison of ERPs on hits across conditions revealed more positive waveforms in the congruent than in the neutral condition. This suggests that absolute familiarity contributes to associative recognition memory when schema-supported processing is established. In Experiment 2, we tested whether schema congruency enables the formation of semantically overlapping representations. Therefore, we included semantically similar lure compound words in the test phase and compared false alarm rates to these lures across conditions. In line with our hypothesis, we found higher false alarm rates in the congruent as compared to the neutral condition. In conclusion, we provide converging evidence for the view that schema congruency enables the formation of unitized representations and supports familiarity-based memory retrieval.

      },
      pubstate = {published},
      type = {article}
      }

      Copy BibTeX to Clipboard

      Project:   A6

      Steuer, Julius; Mosbach, Marius; Klakow, Dietrich

      Large GPT-like Models are Bad Babies: A Closer Look at the Relationship between Linguistic Competence and Psycholinguistic Measures Inproceedings

      Warstadt, Alex; Mueller, Aaron; Choshen, Leshem; Wilcox, Ethan; Zhuang, Chengxu; Ciro, Juan; Rafael, Mosquera; Paranjabe, Bhargavi; Williams, Adina; Linzen, Tal; Cotterell, Ryan (Ed.): Proceedings of the BabyLM Challenge at the 27th Conference on Computational Natural Language Learning, Association for Computational Linguistics, pp. 142-157, Singapore, 2023.

      Research on the cognitive plausibility of language models (LMs) has so far mostly concentrated on modelling psycholinguistic response variables such as reading times, gaze durations and N400/P600 EEG signals, while mostly leaving out the dimension of what Mahowald et al. (2023) described as formal and functional linguistic competence, and developmental plausibility. We address this gap by training a series of GPT-like language models of different sizes on the strict version of the BabyLM pretraining corpus, evaluating on the challenge tasks (BLiMP, GLUE, MSGS) and an additional reading time prediction task. We find a positive correlation between LM size and performance on all three challenge tasks, with different preferences for model width and depth in each of the tasks. In contrast, a negative correlation was found between LM size and reading time fit of linear mixed-effects models using LM surprisal as a predictor, with the second-smallest LM achieving the largest log-likelihood reduction over a baseline model without surprisal. This suggests that modelling processing effort and linguistic competence may require an approach different from training GPT-like LMs on a developmentally plausible corpus.

      @inproceedings{steuer-etal-2023-large,
      title = {Large GPT-like Models are Bad Babies: A Closer Look at the Relationship between Linguistic Competence and Psycholinguistic Measures},
      author = {Julius Steuer and Marius Mosbach and Dietrich Klakow},
      editor = {Alex Warstadt and Aaron Mueller and Leshem Choshen and Ethan Wilcox and Chengxu Zhuang and Juan Ciro and Mosquera Rafael and Bhargavi Paranjabe and Adina Williams and Tal Linzen and Ryan Cotterell},
      url = {https://aclanthology.org/2023.conll-babylm.12/},
      doi = {https://doi.org/10.18653/v1/2023.conll-babylm.12},
      year = {2023},
      date = {2023},
      booktitle = {Proceedings of the BabyLM Challenge at the 27th Conference on Computational Natural Language Learning},
      pages = {142-157},
      publisher = {Association for Computational Linguistics},
      address = {Singapore},
      abstract = {Research on the cognitive plausibility of language models (LMs) has so far mostly concentrated on modelling psycholinguistic response variables such as reading times, gaze durations and N400/P600 EEG signals, while mostly leaving out the dimension of what Mahowald et al. (2023) described as formal and functional linguistic competence, and developmental plausibility. We address this gap by training a series of GPT-like language models of different sizes on the strict version of the BabyLM pretraining corpus, evaluating on the challenge tasks (BLiMP, GLUE, MSGS) and an additional reading time prediction task. We find a positive correlation between LM size and performance on all three challenge tasks, with different preferences for model width and depth in each of the tasks. In contrast, a negative correlation was found between LM size and reading time fit of linear mixed-effects models using LM surprisal as a predictor, with the second-smallest LM achieving the largest log-likelihood reduction over a baseline model without surprisal. This suggests that modelling processing effort and linguistic competence may require an approach different from training GPT-like LMs on a developmentally plausible corpus.},
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   B4

      Talamo, Luigi

      Using a parallel corpus to study patterns of word order variation: Determiners and quantifiers within the noun phrase in European languages Journal Article

      Linguistic Typology at the Crossroads, 3, pp. 100–131, Bologna, Italy, 2023.
      Despite the wealth of studies on word order, there have been very few studies on the order of minor word categories such as determiners and quantifiers. This is likely due to the difficulty of formulating valid cross-linguistic definitions for these categories, which also appear problematic from a computational perspective. A solution lies in the formulation of comparative concepts and in their computational implementation by combining different layers of annotation with manually compiled list of lexemes; the proposed methodology is exemplified by a study on the position of these categories with respect to the nominal head, which is conducted on a parallel corpus of 17 European languages and uses Shannon’s entropy to quantify word order variation. Whereas the entropy for the article-noun pattern is, as expected, extremely low, the proposed methodology sheds light on the variation of the demonstrative-noun and the quantifier-noun patterns in three languages of the sample.

      @article{talamo_2023,
      title = {Using a parallel corpus to study patterns of word order variation: Determiners and quantifiers within the noun phrase in European languages},
      author = {Luigi Talamo},
      url = {https://typologyatcrossroads.unibo.it/article/view/15653},
      doi = {https://doi.org/10.6092/issn.2785-0943/15653},
      year = {2023},
      date = {2023},
      journal = {Linguistic Typology at the Crossroads},
      pages = {100–131},
      address = {Bologna, Italy},
      volume = {3},
      number = {2},
      abstract = {

      Despite the wealth of studies on word order, there have been very few studies on the order of minor word categories such as determiners and quantifiers. This is likely due to the difficulty of formulating valid cross-linguistic definitions for these categories, which also appear problematic from a computational perspective. A solution lies in the formulation of comparative concepts and in their computational implementation by combining different layers of annotation with manually compiled list of lexemes; the proposed methodology is exemplified by a study on the position of these categories with respect to the nominal head, which is conducted on a parallel corpus of 17 European languages and uses Shannon’s entropy to quantify word order variation. Whereas the entropy for the article-noun pattern is, as expected, extremely low, the proposed methodology sheds light on the variation of the demonstrative-noun and the quantifier-noun patterns in three languages of the sample.
      },
      pubstate = {published},
      type = {article}
      }

      Copy BibTeX to Clipboard

      Project:   C7

      Hong, Xudong; Demberg, Vera; Sayeed, Asad; Zheng, Qiankun; Schiele, Bernt

      Visual Coherence Loss for Coherent and Visually Grounded Story Generation Inproceedings

      Rogers, Anna; Boyd-Graber, Jordan; Okazaki, Naoaki (Ed.): Findings of the Association for Computational Linguistics: ACL 2023, Association for Computational Linguistics, pp. 9456-9470, Toronto, Canada, 2023.

      Local coherence is essential for long-form text generation models. We identify two important aspects of local coherence within the visual storytelling task: (1) the model needs to represent re-occurrences of characters within the image sequence in order to mention them correctly in the story; (2) character representations should enable us to find instances of the same characters and distinguish different characters. In this paper, we propose a loss function inspired by a linguistic theory of coherence for self-supervised learning for image sequence representations. We further propose combining features from an object and a face detector to construct stronger character features. To evaluate input-output relevance that current reference-based metrics don{‚}t measure, we propose a character matching metric to check whether the models generate referring expressions correctly for characters in input image sequences. Experiments on a visual story generation dataset show that our proposed features and loss function are effective for generating more coherent and visually grounded stories.

      @inproceedings{hong-etal-2023-visual,
      title = {Visual Coherence Loss for Coherent and Visually Grounded Story Generation},
      author = {Xudong Hong and Vera Demberg and Asad Sayeed and Qiankun Zheng and Bernt Schiele},
      editor = {Anna Rogers and Jordan Boyd-Graber and Naoaki Okazaki},
      url = {https://aclanthology.org/2023.findings-acl.603},
      doi = {https://doi.org/10.18653/v1/2023.findings-acl.603},
      year = {2023},
      date = {2023},
      booktitle = {Findings of the Association for Computational Linguistics: ACL 2023},
      pages = {9456-9470},
      publisher = {Association for Computational Linguistics},
      address = {Toronto, Canada},
      abstract = {Local coherence is essential for long-form text generation models. We identify two important aspects of local coherence within the visual storytelling task: (1) the model needs to represent re-occurrences of characters within the image sequence in order to mention them correctly in the story; (2) character representations should enable us to find instances of the same characters and distinguish different characters. In this paper, we propose a loss function inspired by a linguistic theory of coherence for self-supervised learning for image sequence representations. We further propose combining features from an object and a face detector to construct stronger character features. To evaluate input-output relevance that current reference-based metrics don{'}t measure, we propose a character matching metric to check whether the models generate referring expressions correctly for characters in input image sequences. Experiments on a visual story generation dataset show that our proposed features and loss function are effective for generating more coherent and visually grounded stories.},
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   A3

      Ryzhova, Margarita; Mayn, Alexandra; Demberg, Vera

      What inferences do people actually make upon encountering informationally redundant utterances? An individual differences study Inproceedings

      Proceedings of the 45th Annual Meeting of the Cognitive Science Society (CogSci 2023), 45, Sydney, Australia, 2023.

      Utterances mentioning a highly predictable event are known to elicit atypicality inferences (Kravtchenko and Demberg, 2015; 2022). In those studies, pragmatic inferences are measured based on typicality ratings. It is assumed that comprehenders notice the redundancy and „repair“ the utterance informativity by inferring that the mentioned event is atypical for the referent, resulting in a lower typicality rating. However, the actual inferences that people make have never been elicited. We extend the original experimental design by asking participants to explain their ratings and administering several individual differences tests. This allows us to test (1) whether low ratings indeed correspond to the assumed inferences (they mostly do, but occasionally participants seem to make the inference but then reject it and give high ratings), and (2) whether the tendency to make atypicality inferences is modulated by cognitive factors. We find that people with higher reasoning abilities are more likely to draw inferences.

      @inproceedings{ryzhova_etal_2023_inferences,
      title = {What inferences do people actually make upon encountering informationally redundant utterances? An individual differences study},
      author = {Margarita Ryzhova and Alexandra Mayn and Vera Demberg},
      url = {https://escholarship.org/uc/item/88g7g5z0},
      year = {2023},
      date = {2023},
      booktitle = {Proceedings of the 45th Annual Meeting of the Cognitive Science Society (CogSci 2023)},
      address = {Sydney, Australia},
      abstract = {Utterances mentioning a highly predictable event are known to elicit atypicality inferences (Kravtchenko and Demberg, 2015; 2022). In those studies, pragmatic inferences are measured based on typicality ratings. It is assumed that comprehenders notice the redundancy and "repair'' the utterance informativity by inferring that the mentioned event is atypical for the referent, resulting in a lower typicality rating. However, the actual inferences that people make have never been elicited. We extend the original experimental design by asking participants to explain their ratings and administering several individual differences tests. This allows us to test (1) whether low ratings indeed correspond to the assumed inferences (they mostly do, but occasionally participants seem to make the inference but then reject it and give high ratings), and (2) whether the tendency to make atypicality inferences is modulated by cognitive factors. We find that people with higher reasoning abilities are more likely to draw inferences.},
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   A8

      Varghese, Nobel; Yung, Frances Pik Yu; Anuranjana, Kaveri; Demberg, Vera

      Exploiting Knowledge about Discourse Relations for Implicit Discourse Relation Classification Inproceedings

      Strube, Michael; Braud, Chloe; Hardmeier, Christian; Jessy Li, Junyi; Loaiciga, Sharid; Zeldes, Amir (Ed.): Proceedings of the 4th Workshop on Computational Approaches to Discourse (CODI 2023), Association for Computational Linguistics, pp. 99-105, Toronto, Canada, 2023.

      In discourse relation recognition, the classification labels are typically represented as one-hot vectors. However, the categories are in fact not all independent of one another on the contrary, there are several frameworks that describe the labels‘ similarities (by e.g. sorting them into a hierarchy or describing them interms of features (Sanders et al., 2021)). Recently, several methods for representing the similarities between labels have been proposed (Zhang et al., 2018; Wang et al., 2018; Xiong et al., 2021). We here explore and extend the Label Confusion Model (Guo et al., 2021) for learning a representation for discourse relation labels. We explore alternative ways of informing the model about the similarities between relations, by representing relations in terms of their names (and parent category), their typical markers, or in terms of CCR features that describe the relations. Experimental results show that exploiting label similarity improves classification results.

      @inproceedings{varghese-etal-2023-exploiting,
      title = {Exploiting Knowledge about Discourse Relations for Implicit Discourse Relation Classification},
      author = {Nobel Varghese and Frances Pik Yu Yung and Kaveri Anuranjana and Vera Demberg},
      editor = {Michael Strube and Chloe Braud and Christian Hardmeier and Junyi Jessy Li and Sharid Loaiciga and Amir Zeldes},
      url = {https://doi.org/10.18653/v1/2023.codi-1.13},
      doi = {https://doi.org/10.18653/v1/2023.codi-1.13},
      year = {2023},
      date = {2023},
      booktitle = {Proceedings of the 4th Workshop on Computational Approaches to Discourse (CODI 2023)},
      pages = {99-105},
      publisher = {Association for Computational Linguistics},
      address = {Toronto, Canada},
      abstract = {In discourse relation recognition, the classification labels are typically represented as one-hot vectors. However, the categories are in fact not all independent of one another on the contrary, there are several frameworks that describe the labels' similarities (by e.g. sorting them into a hierarchy or describing them interms of features (Sanders et al., 2021)). Recently, several methods for representing the similarities between labels have been proposed (Zhang et al., 2018; Wang et al., 2018; Xiong et al., 2021). We here explore and extend the Label Confusion Model (Guo et al., 2021) for learning a representation for discourse relation labels. We explore alternative ways of informing the model about the similarities between relations, by representing relations in terms of their names (and parent category), their typical markers, or in terms of CCR features that describe the relations. Experimental results show that exploiting label similarity improves classification results.},
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   B2

      van Os, Marjolein

      Rational speech comprehension: effects of predictability and background noise PhD Thesis

      Saarland University, Saarbruecken, Germany, 2023.

      Having a conversation is something we are capable of without a second thought. However, this is not as simple as it seems. While there can be a myriad of difficulties arising, one common occurrence is the presence of background noise during every-day language use. This negatively affects speech recognition on the listener’s part. One strategy the listener has to cope with this, is to rely on predictive processes, where the upcoming words of the speaker are predicted from the context. The present dissertation concerns the interplay of background noise and prediction. This interplay can be summarized by the question whether listeners rely more on bottom-up information (the acoustic speech signal) or top-down information (for example context-based predictions). While previous studies have investigated how background noise and context predictability interact, and how different speech sounds are affected by (different types of) background noise, the three factors have so far not been studied together in a single experiment. These manipulations of the listening condition result in fine-grained differences in the intelligibility of the speech signal and subsequently affect to what extent listeners rely on the bottom-up information. This allows us to test the predictions of the Noisy Channel Model, a model that explains human speech comprehension in background noise. So far, the predictions of this model have been primarily tested using written stimuli and never with acoustical noise. In the word recognition experiments we collect confidence ratings to investigate false hearing effects. Additionally, we were interested in consequences of these adverse listening conditions and addressed the question how recognition memory is affected by background noise and contextual predictability, studying false memory effects in particular. This dissertation presents results from three experiments that were set up to address these questions. The first two experiments used a word recognition paradigm in which participants listened to recordings of sentences that were embedded in background noise in some conditions. Our stimuli contained different speech sound contrasts. We varied the level as well as the type of background noise across the two experiments. Because they lead to varying degrees of relying on either bottom-up or top-down processes, these differences in listening conditions allowed us to test the predictions of the Noisy Channel Model. Across experiments, we also varied the tested population. In Experiment 2 we recruited older adults as well as younger adults. As older adults differ from younger adults in their trade-off between top-down and bottom-up information. This allowed us to test their recognition accuracy in listening situations with small-grained differences regarding the intelligibility (through the overlap between the speech signal and noise). We can further test the predictions of the Noisy Channel Model, and investigate false hearing effects. The third experiment investigated consequences of listening in background noise, as we tested the effects of both noise and predictability on recognition memory. Taken together, the results from the three experiments lead us to four conclusions. First, we find that the three factors of noise type, speech sound, and predictability of the context interact during speech comprehension. Second, this leads to small-grained differences in the intelligibility of the stimuli, which in turn affects how the listener relies on either the bottom-up signal or top-down predictions. Across the experiments, our findings support the predictions made by the Noisy Channel Model, namely that the reliance on predictive processes is dependent on the effort that is required to process the speech signal and the amount of overlap between speech and background noise. Third, this was the case even for older adults, who did not show the expected false hearing effects. Instead, they behaved rationally, taking into account possible age-related hearing loss and a stronger reliance on prediction. Finally, we additionally showed that the difficulty of the listening condition affects meta-cognitive judgements, operationalised through confidence ratings: the more difficult the listening condition, the lower listeners’ confidence was, both for word recognition and memory. Against our expectations, we did not find evidence of false memory. Future studies should investigate in exactly which situations this effect occurs, as our experimental design differed from those of previous studies. In sum, the findings in this dissertation contribute to our understanding of speech recognition in adverse listening conditions, in particular background noise, and of how predictive processes can both help and hinder speech perception. Our results consistently support the predictions of the Noisy Channel Model, indicating that human listeners behave rationally. Their reliance on either the bottom-up acoustic signal or top-down predictions depends on the clarity of the speech signal, and here they take into account fine-grained differences. In this way, they can maximize the chance of successful communication while minimizing effort.


      Wenn wir in unserem täglichen Leben Sprache verwenden, geschieht dies sehr selten in einer ruhigen Umgebung. Die meiste Zeit, in der wir Sprache unter natürlichen Bedingungen hören, sind Hintergrundgeräusche vorhanden. Wir nehmen dies kaum wahr, und in der Regel ist der Geräuschpegel so gering, dass er nicht zu großen Störungen der Kommunikation führt. Denken Sie an das Brummen von vorbeifahrenden Autos, an Gespräche anderer Menschen, an die Arbeit von Maschinen oder an das Geräusch von Tellern und Besteck in einem Restaurant. Wir sind in der Lage, fast mühelos mit anderen zu kommunizieren, obwohl diese Geräusche mit dem Sprachsignal konkurrieren. Wie schaffen Menschen das? Ist dieser Prozess des Zuhörens bei Hintergrundgeräuschen wirklich so mühelos, wie es scheint? Und können die Strategien, die zur Bewältigung der zusätzlichen kognitiven Belastung eingesetzt werden, auch Nachteile mit sich bringen? Ziel der vorliegenden Dissertation ist es, die Literatur zum Sprachverständnis bei Hintergrundgeräuschen weiterzuentwickeln, indem die folgenden Fragen beantwortet werden: Wie interagieren Vorhersagbarkeit, Hintergrundgeräusche und Sprachgeräusche in den Reizen? Gibt es bei dieser Interaktion Unterschiede zwischen verschiedenen Arten von Hintergrundgeräuschen? Wie lassen sich diese Unterschiede in der Erkennungsgenauigkeit erklären? Darüber hinaus untersuchen wir, wie sich diese Hörbedingungen auf ältere Erwachsene auswirken und welche Auswirkungen sie auf die Kommunikation über die Worterkennung hinaus haben. Eine Strategie, die dazu beiträgt, die Belastung des Sprachverstehens durch Hintergrundgeräusche zu verringern, besteht darin, sich auf Vorhersagen zu stützen. Oft ist es möglich, z. B. Weltwissen, Wissen über den Sprecher oder den vorangegangenen Kontext in einem Dialog zu nutzen, um vorherzusagen, was als Nächstes gesagt werden könnte. Verschiedene Studien haben ergeben, dass ein hoher Vorhersagewert eines Satzes den Zuhörern in ruhiger Umgebung hilft, ihn zu verarbeiten, aber auch besonders in lauten Hörsituationen, wo er zu einer besseren Erkennung führt als ein niedriger Vorhersagewert (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Verschiedene Spracherkennungstheorien berücksichtigen dies und erklären, wie Bottom-up-Informationen aus dem auditiven Sprachsignal mit Topdown- Informationen kombiniert werden, z. B. mit Vorhersagen, die auf dem Kontext basieren (Levy, 2008; Levy et al., 2009; Luce & Pisoni, 1998; Norris & McQueen, 2008; Oden & Massaro, 1978). Diese Interaktion von Bottom-Up- und Top-Down- Informationsströmen bildet die Grundlage dieser Dissertation. Bislang wurde in empirischen Studien untersucht, wie sich die Variation der Vorhersagbarkeit des Zielwortes auf das Sprachverstehen im Störgeräusch auswirkt (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Die Ergebnisse dieser Studien stimmen überein: Ein vorhersehbarer Kontext erleichtert das Sprachverstehen im Störgeräusch. Ein anderer Zweig der Literatur hat untersucht, wie Hintergrundgeräusche die Erkennung verschiedener Phoneme beeinflussen (Alwan et al., 2011; Cooke, 2009; Gordon-Salant, 1985; Phatak et al., 2008; Pickett, 1957). Diese Studien konzentrieren sich oft auf die isolierten Phoneme und testen feste Kontexte in Nonsense-Silben statt in Wörtern. Somit wird die Vorhersagbarkeit der Elemente nicht manipuliert, obwohl diese die Erkennung beeinflusst. Die drei Faktoren Kontextvorhersagbarkeit, Hintergrundgeräusche und Phoneme wurden bisher noch nicht gemeinsam in einer Studie untersucht. Es ist möglich, dass diese Faktoren zusammenwirken, z. B. der Effekt der Vorhersagbarkeit auf bestimmte Phoneme könnte stärker sein, wenn Hintergrundgeräusche die Erkennung behindern. Die vorliegende Dissertation soll diese Lücke in der Literatur füllen. In diesem Zusammenhang wollen wir untersuchen, wie sich verschiedene Arten von Lärm auf die Spracherkennung auswirken. In früheren Arbeiten wurde diese Frage bereits untersucht, doch die Ergebnisse waren nicht eindeutig (Danhauer & Leppler, 1979; Gordon-Salant, 1985; Horii et al., 1971; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Einige Studien kommen zu dem Ergebnis, dass weißes Rauschen zu größeren Interferenzen führt, während andere Studien feststellen, dass Babbelgeräusche oder sprachförmige Geräusche schwieriger sind. Diese unterschiedlichen Ergebnisse in Bezug auf die Art des Lärms lassen vermuten, dass hier andere Faktoren eine Rolle spielen, z. B. die Eigenschaften der getesteten Stimuli. Dieser offenen Frage wollen wir nachgehen. Ein Modell, das vorgeschlagen wurde, um das menschliche Sprachverstehen bei Hintergrundgeräuschen zu erklären, ist das Noisy Channel Model (Levy, 2008; Levy et al., 2009; Shannon, 1949). Diesem Modell zufolge kombinieren Hörer auf rationale Weise Bottom-up-Informationen mit Top-down-Informationen, wobei der Rückgriff auf eine der beiden Arten von Informationen von der Klarheit der Hörsituation abhängt. Frühere Studien haben die Vorhersagen dieses Modells vor allem im schriftlichen Bereich getestet, indem sie syntaktische Änderungen verwendeten und die Interpretation unplausibler Sätze prüften (Gibson et al., 2013; Poppels & Levy, 2016; Ryskin et al., 2018). Sie manipulierten den Grad des wahrgenommenen Lärms durch die Anzahl der Füllwörter mit syntaktischen Fehlern und qualifizierten den Abstand zwischen den plausiblen und unplausiblen Sätzen durch die Anzahl der eingefügten und gelöschten Wörter. In den Studien wurden Belege gefunden, die die Vorhersagen des Noisy Channel Models unterstützen. Ein Schritt in Richtung eines naturalistischeren Sprachverständnisses im Rauschen wurde unternommen, indem die gleichen Stimuli in gesprochener Form getestet wurden (Gibson et al., 2016; Gibson et al., 2017). Obwohl das Noisy Channel Model konstruiert wurde, um das menschliche Sprachverständnis bei Lärm zu erklären, wurden seine Vorhersagen bisher in keiner Studie bei akustischem Lärm untersucht. Die vorliegende Dissertation soll neue Erkenntnisse liefern. Unsere Stimuli unterscheiden sich von den bisher überwiegend getesteten und sind so konstruiert, dass die Vorhersagbarkeit des Zielwortes sowie die Überlappung zwischen Sprach- und Geräuschsignal variiert. Somit würden unsere Ergebnisse die Situationen erweitern, in denen die Vorhersagen des Noisy Channel Model zutreffen könnten. Wir werden dies in verschiedenen Hörsituationen mit unterschiedlichen Arten von Hintergrundgeräuschen, Stimuli-Charakteristika und Populationen testen. Außerdem setzen wir das Noisy Channel Model in Beziehung zu anderen Modellen der Sprachwahrnehmung. Die Unterschiede zwischen jüngeren und älteren Erwachsenen erlauben uns, die Vorhersagen des Geräuschkanalmodells im Detail zu testen. Ältere Erwachsene haben einen anderen Trade-Off zwischen Top-down- und Bottom-up-Informationen als jüngere Erwachsene. Ihr Gehör ist durch altersbedingten Hörverlust beeinträchtigt, und diese Beeinträchtigung führt zu größeren Schwierigkeiten beim Verstehen von Sprache unter ungünstigen Hörbedingungen (Li et al., 2004; Pichora-Fuller et al., 1995; Pichora-Fuller et al., 2017; Schneider et al., 2005). Andererseits bleiben ihre prädiktiven Prozesse intakt, und es hat sich gezeigt, dass ältere Erwachsene sich stärker auf diese verlassen, um Hörprobleme zu überwinden (Stine & Wingfield, 1994; Wingfield et al., 1995; Wingfield et al., 2005). Diese Unterschiede im Vergleich zu jüngeren Erwachsenen machen die Population der älteren Erwachsenen theoretisch besonders interessant für Tests. Wir wollen untersuchen, ob es tatsächlich so ist, dass ältere Erwachsene in Fällen, in denen der Satzkontext irreführend ist, mehr Hörfehler zeigen als jüngere Erwachsene. Wir variieren die Hörbedingungen, um feinkörnige Unterschiede in der Überlappung zwischen dem Sprachsignal und dem Hintergrundgeräusch zu konstruieren, wodurch sich der Schwierigkeitsgrad der Hörbedingung ändert. iner der Unterschiede zwischen jüngeren und älteren Erwachsenen wurde in Bezug auf den Effekt des „false hearing“ festgestellt (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Dabei handelt es sich um ein Phänomen, bei dem ein Hörer sehr sicher ist, ein bestimmtes Wort richtig erkannt zu haben, aber in Wirklichkeit falsch liegt. In diesen Fällen wurde das Wort oft durch Top-Down-Prozesse und nicht durch das akustische Sprachsignal selbst erkannt. Da sie im Allgemeinen stärker auf prädiktive Prozesse angewiesen sind, hat man festgestellt, dass der false-hearing-Effekt bei älteren Erwachsenen größer ist als bei jüngeren. Wir wollen dies untersuchen und erwarten, dass der false-hearing-Effekt stärker ist, wenn die Hörbedingungen schwieriger sind (aufgrund des Geräuschpegels oder einer größeren Überlappung zwischen den Sprachklängen in den Stimuli und dem Hintergrundgeräusch). Die Vertrauensbewertungen, die die Versuchspersonen abgeben, werden zusätzlich Aufschluss über ihre metakognitiven Prozesse während des Hörens geben (siehe unten). In den meisten Studien, die das Sprachverständnis untersuchen, werden die Versuchspersonen gebeten, einfach zu berichten, was sie gehört haben. Anschließend wird die Genauigkeit ermittelt. Dies beantwortet zwar die Fragen nach der Verständlichkeit von Sprache und der Schwierigkeit der Hörbedingungen, lässt aber andere Punkte offen. Im Alltag wird Sprache zur Kommunikation genutzt, die mehr erfordert als die Wiedergabe des Gehörten. Daher sollte untersucht werden, wie sich unterschiedliche Hörbedingungen auf nachfolgende übergeordnete Prozesse auswirken, die in der Kommunikation häufig eine Rolle spielen, um festzustellen, wie sich das Hören im Lärm (oder unter anderen, möglicherweise ungünstigen Bedingungen) auf das Gespräch zwischen Gesprächspartnern auswirkt, das über das bloße Erkennen des Gesagten hinausgeht. In dieser Dissertation wollen wir die Folgen des Sprachverstehens unter verschiedenen Hörbedingungen testen, wobei wir den Hintergrundlärm und die Vorhersagbarkeit variieren. Einerseits bitten wir die Versuchspersonen uns nach jedem experimentellen Versuch mitzuteilen, wie sicher sie sich sind, die richtige Antwort gegeben zu haben. Auf diese Weise können wir nicht nur den false-hearing- Effekt untersuchen, sondern auch feststellen, wie sie die Hörbedingungen erlebt haben und wie sich dies auf ihre subjektive Empfindung das Wort verstanden zu haben. Dies kann damit zusammenhängen, ob sie die richtige Antwort geben oder nicht, muss es aber nicht. Andererseits legen wir den Versuchspersonen in einem unserer Experimente nach der Hörphase einen Gedächtnistest vor, um zu testen, wie sich die Schwierigkeit der Geräuschbedingung und die Vorhersagbarkeit des Zielworts auf die spätere Erinnerung auswirken. Zu wissen, wie das Gedächtnis durch die Hörbedingungen beeinflusst wird, ist wichtig, da es Aufschluss über den Umgang mit Situationen geben kann, in denen Hintergrundgeräusche unvermeidlich sind, aber Anweisungen verstanden und erinnert werden müssen. Frühere Arbeiten haben die Auswirkungen der Vorhersagbarkeit auf die Gedächtnisleistung untersucht und dabei ein interessantes Phänomen aufgedeckt. In den Studien wurde festgestellt, dass Wörter, die vorhergesagt, den Versuchspersonen aber nicht tatsächlich präsentiert wurden, im Gedächtnis bleiben und die Gedächtnisleistung später in Form von so genannten falschen Erinnerungen beeinträchtigen (Haeuser & Kray, 2022a; Hubbard et al., 2019). In diesen Studien geben die Versuchspersonen an, sich an diese Begriffe zu erinnern, obwohl sie sie gar nicht gesehen haben. Dieser Effekt wurde bisher noch nicht für Elemente untersucht, die in Hintergrundgeräusche eingebettet sind, und wir wollen testen, ob wir hier mehr falsche Erinnerungen finden werden, da sich die Versuchspersonen unter solch schwierigen Hörbedingungen stärker auf Vorhersageprozesse verlassen, was zu falschen Erinnerungen führt. Wir haben drei Experimente durchgeführt, um diese Fragen zu beantworten. Im ersten Experiment manipulierten wir die Vorhersagbarkeit (hoch oder niedrig), die Art des Geräuschs (Babbel oder weißes Rauschen) und das akustische Signal (verschiedene Sprachlaute; Plosive, Vokale und Frikative) und untersuchten so die Interaktion der drei Faktoren. Diese Versuchsanordnung ermöglicht es uns auch, die Auswirkungen von Babbelgeräuschen auf der einen und weißem Rauschen auf der anderen Seite zu vergleichen, um die bisher nicht eindeutigen Ergebnisse in der Literatur zu berücksichtigen (Danhauer & Leppler, 1979; Horii et al., 1971; Gordon-Salant, 1985; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Das Experiment testet die Vorhersagen des Noisy-Channel-Modells für das Verstehen gesprochener Sprache. Dieses Modell wurde vorgeschlagen, um das Sprachverstehen in verrauschten Umgebungen zu erklären (Levy, 2008; Levy et al., 2009; Shannon, 1949). Es geht davon aus, dass Versteher sich nicht ausschließlich auf den Bottom-Up-Signal verlassen, sondern das Eingangssignal rational mit Top-Down-Vorhersagen kombinieren. Bislang wurde diese Hypothese vor allem im schriftlichen Bereich getestet, wo die Top-Down- Vorhersagen mit dem Bottom-Up-Signal in Konflikt stehen. Unsere Hörbedingungen unterscheiden sich hinsichtlich ihrer Editierdistanz in einerWeise, die auf früheren Arbeiten über die Verwechselbarkeit von Sprachlauten im Lärm beruht und zu feinkörnigen Unterschieden führt. Unsere Ergebnisse stimmen mit den Vorhersagen des Noisy- Channel-Modells überein: Hörer kombinieren probabilistisch Top-Down-Vorhersagen, die auf dem Kontext basieren, mit verrauschten Bottom-Up-Informationen aus dem akustischen Signal, um gesprochene Sprache besser zu verstehen. Das zweite Experiment testet das Sprachverstehen bei gleichzeitigen Störgeräuschen bei jüngeren und älteren Erwachsenen. Diese beiden Populationen unterscheiden sich hinsichtlich der Spracherkennung und der Art und Weise, wie Informationen aus dem Bottom-Up-Audiosignal und Top-Down-Vorhersagen kombiniert werden. So können wir die Vorhersagen des Noisy-Channel-Modells anhand dieser beiden Populationen weiter testen. Darüber hinaus haben frühere Studien, insbesondere bei älteren Erwachsenen, false-hearing-Effekte festgestellt, bei dem sie sehr zuversichtlich waren, während der Worterkennung eine korrekte Antwort zu geben, die aber tatsächlich falsch war (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Wir untersuchen dieses Phänomen und gehen der Frage nach, inwieweit die metakognitiven Entscheidungen unserer Versuchspersonen ihr Vertrauen in das akustische Signal oder den semantischen Kontext widerspiegeln. Auch hier variieren wir das Rauschen, konzentrieren uns aber jetzt auf den Rauschpegel (0 SNR dB oder -5 SNR dB) und nicht auf die Art des Rauschens (wir verwenden nur Babble Noise). Unsere Ergebnisse zeigen, dass das Ausmaß des Fehlhörens direkt mit der Wahrnehmbarkeit des Sprachsignals zusammenhängt und dass die eigen Einschätzung der Versuchspersonen, ob das Wort im Signal so gesprochen wurde, ebenfalls damit übereinstimmen: Je mehr Überschneidungen zwischen Sprachsignal und Störgeräusch, desto weniger waren die Versuchspersonen sich sicher, dass sie die richtige Antwort gegeben haben. Wir finden keine Hinweise auf false-hearing-Effekte, was auf die von uns getestete Population zurückzuführen sein könnte. Stattdessen hing die Höhe der Sicherheitsbewertungen von der Schwierigkeit der Hörbedingung ab. Das dritte Experiment untersucht die Folgen des Hörens von mehr oder weniger vorhersehbarer Sprache im Hintergrundgeräusch, indem es die Versuchspersonen nicht nur fragt, was sie gehört haben. Wir testen, wie das spätere Wiedererkennungsgedächtnis der Versuchspersonen durch diese verschiedenen Hörbedingungen beeinflusst wird. In früheren Studien wurden Effekte falschen Erinnerns festgestellt, bei denen Elemente, die (in hohem Maße) vorhergesagt, aber nicht tatsächlich präsentiert wurden, im Gedächtnis verbleiben, so dass sie von den Veruschspersonen in Gedächtnistests wiedergegeben werden (Haeuser & Kray, 2022a; Hubbard et al., 2019). Wir wollen testen, ob dieser Effekt bei Hintergrundgeräuschen stärker ist, da sich die Hörer unter diesen Bedingungen stärker auf prädiktive Prozesse verlassen. In unserem Experiment hörten die Versuchspersonen zunächst Sätze, die entweder in Störgeräusche eingebettet oder in Ruhe präsentiert wurden. Die Vorhersagbarkeit des Zielworts wurde durch Änderung der Wortreihenfolge des Satzes beeinflusst, und wir variierten auch die Häufigkeit der Zielwörter. In einem Test zum Wiedererkennen von Überraschungen fragten wir die Versuchspersonen, ob sie das dargebotene Wort schon einmal gesehen hatten, wobei es drei Arten von Wörtern gab: alte Begriffe, die sie schon einmal gehört hatten, neue Begriffe, die sie noch nie gehört hatten und die in keinem Zusammenhang mit den Sätzen standen, und semantische Köder, die sie noch nie gehört hatten, die aber semantisch mit den alten Begriffen verbunden waren. Die Ergebnisse zeigten, dass die Gedächtnisleistung für die semantischen Köder nicht durch Faktoren auf Satzebene, wie Hintergrundgeräusche oder Vorhersagbarkeit, beeinflusst wurde. Während dies bei den alten Elemente der Fall war, zeigen diese Ergebnisse zusammengenommen, dass wir keine Hinweise auf falsche Erinnerneffekte bei den Köder-Elemente gefunden haben, sondern dass die Genauigkeit bei den alten Elemente, ähnlich wie in den beiden vorangegangenen Experimenten, von der Schwierigkeit der Hörbedingung abhing. Wir erweitern die Literatur, indem wir drei Faktoren kombinieren, die beim Sprachverstehen im Lärm interagieren, nämlich die Art des Lärms, bestimmte Sprachlaute in den Stimuli und die Vorhersagbarkeit des Kontexts. Die ersten beiden Faktoren interagieren, was zu einer Variation des Anteils des Sprachsignals führt, der verdeckt wird. In früheren Studien wurde diese Wechselwirkung zwar untersucht, allerdings vorwiegend bei isolierten Silben (Alwan et al., 2011; Cooke, 2009; Gordon- Salant, 1985; Phatak et al., 2008; Pickett, 1957). Da Hörer im Alltag in der Lage sind, Vorhersagen auf der Grundlage des semantischen Kontexts zu treffen, um ihren Erkennungsprozess zu steuern, ist es wichtig, auch den Effekt eines mehr oder weniger vorhersagenden Satzkontexts zu berücksichtigen. Wir zeigen, dass die drei Faktoren zusammenwirken und zu geringfügigen Unterschieden in der Verständlichkeit der Stimuli führen, je nach Art des Hintergrundrauschens und der Phoneme im akustischen Signal. Daher ist der Effekt der Vorhersagbarkeit stärker, wenn das Hintergrundgeräusch stärker mit einem bestimmten Sprachklang interferiert. Dies wirkt sich darauf aus, wie sehr sich der Hörer bei der Spracherkennung auf Top-down- oder Bottom-up-Prozesse verlässt. Der Rückgriff auf prädiktive Prozesse kann zu falsch erkannten Wörtern führen, wenn der Satzkontext irreführend ist. Wir zeigen, dass die Vorhersagen des Noisy-Channel-Modells auch dann zutreffen, wenn sie in einem anderen Versuchsaufbau als bisher getestet werden, nämlich mit einem anderen Satz von Stimuli und in akustischem Hintergrundrauschen. Wir verwendeten gesprochene Stimuli, die in Hintergrundgeräusche unterschiedlicher Art und Lautstärke eingebettet waren, und manipulierten die wahrgenommene Geräuschmenge durch die Überlappung des Sprachsignals und des akustischen Rauschens, indem wir Stimuli mit unterschiedlichen Klangkontrasten konstruierten (Minimalpaare mit Plosiven, Frikativen und Affrikaten sowie Vokalen). Da unter diesen verschiedenen Hörbedingungen die Klarheit des Sprachsignals und damit der erforderliche Verarbeitungsaufwand variiert, macht das Noisy Channel Model feinkörnige Vorhersagen darüber, wie sehr sich Hörer entweder auf das akustische Signal von unten nach oben oder auf prädiktive Prozesse von oben nach unten verlassen. Wir haben zusätzlich zwei verschiedene Populationen getestet, nämlich jüngere und ältere Erwachsene. Bei älteren Erwachsenen wurde bereits festgestellt, dass sie sich stärker auf prädiktive Prozesse verlassen als jüngere Erwachsene, so dass wir die Vorhersagen des Noisy- Channel-Modells weiter testen konnten. Auch hier wurden die Vorhersagen durch unsere Daten bestätigt. Insgesamt bieten unsere Ergebnisse eine zusätzliche und übereinstimmende Unterstützung für das Noisy-Channel-Modell. Wir replizieren den Befund, dass ältere Erwachsene dazu neigen, sich mehr auf den Satzkontext zu verlassen als jüngere Erwachsene. Während dies in der bisherigen Literatur häufig berichtet wurde, zeigen wir diesen Effekt in einer Online-Studie mit einer jüngeren Versuchspersonengruppe (50-65 Jahre) als in diesen Studien üblich (65+). Wir haben auch den false-hearing-Effekt untersucht. Bei diesem Effekt ist das Vertrauen in falsche Antworten hoch, und es wurde festgestellt, dass dieser Effekt bei älteren Erwachsenen stärker ist als bei jüngeren Erwachsenen. Dies wird auf den altersbedingten Abbau der kognitiven Kontrolle zurückgeführt. In unserem Experiment konnten wir den Befund des false hearings nicht replizieren. Stattdessen fanden wir eine Tendenz zu geringerer Zuversicht bei falschen Antworten, die mit der Schwierigkeit der Hörbedingung übereinstimmt: Je mehr Überschneidungen zwischen Sprachlauten und Geräuschen oder je höher der Geräuschpegel, desto geringer war die Zuversicht unserer Hörer, sowohl bei jüngeren als auch bei älteren Erwachsenen. Eine mögliche Erklärung für das Fehlen des false-hearing-Effekts ist das relativ junge Alter unserer Gruppe älterer Versuchspersonen. Wir untersuchten die Folgen des Hörens bei Hintergrundgeräuschen, d.h. die Art und Weise, wie Prozesse höherer Ordnung durch unterschiedliche Hörbedingungen (unterschiedliche Geräusche und Vorhersagbarkeit) beeinflusst werden. Dies ist wichtig, um die Auswirkungen von Hintergrundgeräuschen und Vorhersagbarkeit auf die Kommunikation zu untersuchen, die viel mehr umfasst als nur das Erkennen von Wörtern. Wir zeigen, dass der Schwierigkeitsgrad der Hörbedingung die metakognitiven Urteile beeinflusst, operationalisiert durch Sicherheitsbewertungen: Je schwieriger die Hörbedingung war, desto geringer war die Sicherheit der Hörer, was auf ein Bewusstsein für die Veränderung der Bedingung hinweist. Darüber hinaus untersuchten wir, wie Hintergrundgeräusche und Veränderungen in der Vorhersagbarkeit das spätere Wiedererkennungsgedächtnis für experimentelle Elemente beeinflussen. Wir zeigen, dass diese Faktoren bei zuvor präsentierten Elemente die Gedächtnisleistung beeinflussen. Was wir jedoch nicht beobachten können, ist ein falsche Erinnerung für nicht präsentierte, aber semantisch verwandte Elemente. Zusammenfassend lässt sich sagen, dass die Ergebnisse dieser Dissertation zu unserem Verständnis der Spracherkennung unter ungünstigen Hörbedingungen, insbesondere bei Hintergrundgeräuschen, beitragen und zeigen, wie prädiktive Prozesse die Sprachwahrnehmung sowohl fördern als auch behindern können.

      @phdthesis{Os_Diss_2023,
      title = {Rational speech comprehension: effects of predictability and background noise},
      author = {Marjolein van Os},
      url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/36584},
      doi = {https://doi.org/10.22028/D291-40555},
      year = {2023},
      date = {2023},
      school = {Saarland University},
      address = {Saarbruecken, Germany},
      abstract = {Having a conversation is something we are capable of without a second thought. However, this is not as simple as it seems. While there can be a myriad of difficulties arising, one common occurrence is the presence of background noise during every-day language use. This negatively affects speech recognition on the listener’s part. One strategy the listener has to cope with this, is to rely on predictive processes, where the upcoming words of the speaker are predicted from the context. The present dissertation concerns the interplay of background noise and prediction. This interplay can be summarized by the question whether listeners rely more on bottom-up information (the acoustic speech signal) or top-down information (for example context-based predictions). While previous studies have investigated how background noise and context predictability interact, and how different speech sounds are affected by (different types of) background noise, the three factors have so far not been studied together in a single experiment. These manipulations of the listening condition result in fine-grained differences in the intelligibility of the speech signal and subsequently affect to what extent listeners rely on the bottom-up information. This allows us to test the predictions of the Noisy Channel Model, a model that explains human speech comprehension in background noise. So far, the predictions of this model have been primarily tested using written stimuli and never with acoustical noise. In the word recognition experiments we collect confidence ratings to investigate false hearing effects. Additionally, we were interested in consequences of these adverse listening conditions and addressed the question how recognition memory is affected by background noise and contextual predictability, studying false memory effects in particular. This dissertation presents results from three experiments that were set up to address these questions. The first two experiments used a word recognition paradigm in which participants listened to recordings of sentences that were embedded in background noise in some conditions. Our stimuli contained different speech sound contrasts. We varied the level as well as the type of background noise across the two experiments. Because they lead to varying degrees of relying on either bottom-up or top-down processes, these differences in listening conditions allowed us to test the predictions of the Noisy Channel Model. Across experiments, we also varied the tested population. In Experiment 2 we recruited older adults as well as younger adults. As older adults differ from younger adults in their trade-off between top-down and bottom-up information. This allowed us to test their recognition accuracy in listening situations with small-grained differences regarding the intelligibility (through the overlap between the speech signal and noise). We can further test the predictions of the Noisy Channel Model, and investigate false hearing effects. The third experiment investigated consequences of listening in background noise, as we tested the effects of both noise and predictability on recognition memory. Taken together, the results from the three experiments lead us to four conclusions. First, we find that the three factors of noise type, speech sound, and predictability of the context interact during speech comprehension. Second, this leads to small-grained differences in the intelligibility of the stimuli, which in turn affects how the listener relies on either the bottom-up signal or top-down predictions. Across the experiments, our findings support the predictions made by the Noisy Channel Model, namely that the reliance on predictive processes is dependent on the effort that is required to process the speech signal and the amount of overlap between speech and background noise. Third, this was the case even for older adults, who did not show the expected false hearing effects. Instead, they behaved rationally, taking into account possible age-related hearing loss and a stronger reliance on prediction. Finally, we additionally showed that the difficulty of the listening condition affects meta-cognitive judgements, operationalised through confidence ratings: the more difficult the listening condition, the lower listeners’ confidence was, both for word recognition and memory. Against our expectations, we did not find evidence of false memory. Future studies should investigate in exactly which situations this effect occurs, as our experimental design differed from those of previous studies. In sum, the findings in this dissertation contribute to our understanding of speech recognition in adverse listening conditions, in particular background noise, and of how predictive processes can both help and hinder speech perception. Our results consistently support the predictions of the Noisy Channel Model, indicating that human listeners behave rationally. Their reliance on either the bottom-up acoustic signal or top-down predictions depends on the clarity of the speech signal, and here they take into account fine-grained differences. In this way, they can maximize the chance of successful communication while minimizing effort.


      Wenn wir in unserem t{\"a}glichen Leben Sprache verwenden, geschieht dies sehr selten in einer ruhigen Umgebung. Die meiste Zeit, in der wir Sprache unter nat{\"u}rlichen Bedingungen h{\"o}ren, sind Hintergrundger{\"a}usche vorhanden. Wir nehmen dies kaum wahr, und in der Regel ist der Ger{\"a}uschpegel so gering, dass er nicht zu gro{\ss}en St{\"o}rungen der Kommunikation f{\"u}hrt. Denken Sie an das Brummen von vorbeifahrenden Autos, an Gespr{\"a}che anderer Menschen, an die Arbeit von Maschinen oder an das Ger{\"a}usch von Tellern und Besteck in einem Restaurant. Wir sind in der Lage, fast m{\"u}helos mit anderen zu kommunizieren, obwohl diese Ger{\"a}usche mit dem Sprachsignal konkurrieren. Wie schaffen Menschen das? Ist dieser Prozess des Zuh{\"o}rens bei Hintergrundger{\"a}uschen wirklich so m{\"u}helos, wie es scheint? Und k{\"o}nnen die Strategien, die zur Bew{\"a}ltigung der zus{\"a}tzlichen kognitiven Belastung eingesetzt werden, auch Nachteile mit sich bringen? Ziel der vorliegenden Dissertation ist es, die Literatur zum Sprachverst{\"a}ndnis bei Hintergrundger{\"a}uschen weiterzuentwickeln, indem die folgenden Fragen beantwortet werden: Wie interagieren Vorhersagbarkeit, Hintergrundger{\"a}usche und Sprachger{\"a}usche in den Reizen? Gibt es bei dieser Interaktion Unterschiede zwischen verschiedenen Arten von Hintergrundger{\"a}uschen? Wie lassen sich diese Unterschiede in der Erkennungsgenauigkeit erkl{\"a}ren? Dar{\"u}ber hinaus untersuchen wir, wie sich diese H{\"o}rbedingungen auf {\"a}ltere Erwachsene auswirken und welche Auswirkungen sie auf die Kommunikation {\"u}ber die Worterkennung hinaus haben. Eine Strategie, die dazu beitr{\"a}gt, die Belastung des Sprachverstehens durch Hintergrundger{\"a}usche zu verringern, besteht darin, sich auf Vorhersagen zu st{\"u}tzen. Oft ist es m{\"o}glich, z. B. Weltwissen, Wissen {\"u}ber den Sprecher oder den vorangegangenen Kontext in einem Dialog zu nutzen, um vorherzusagen, was als N{\"a}chstes gesagt werden k{\"o}nnte. Verschiedene Studien haben ergeben, dass ein hoher Vorhersagewert eines Satzes den Zuh{\"o}rern in ruhiger Umgebung hilft, ihn zu verarbeiten, aber auch besonders in lauten H{\"o}rsituationen, wo er zu einer besseren Erkennung f{\"u}hrt als ein niedriger Vorhersagewert (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Verschiedene Spracherkennungstheorien ber{\"u}cksichtigen dies und erkl{\"a}ren, wie Bottom-up-Informationen aus dem auditiven Sprachsignal mit Topdown- Informationen kombiniert werden, z. B. mit Vorhersagen, die auf dem Kontext basieren (Levy, 2008; Levy et al., 2009; Luce & Pisoni, 1998; Norris & McQueen, 2008; Oden & Massaro, 1978). Diese Interaktion von Bottom-Up- und Top-Down- Informationsstr{\"o}men bildet die Grundlage dieser Dissertation. Bislang wurde in empirischen Studien untersucht, wie sich die Variation der Vorhersagbarkeit des Zielwortes auf das Sprachverstehen im St{\"o}rger{\"a}usch auswirkt (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Die Ergebnisse dieser Studien stimmen {\"u}berein: Ein vorhersehbarer Kontext erleichtert das Sprachverstehen im St{\"o}rger{\"a}usch. Ein anderer Zweig der Literatur hat untersucht, wie Hintergrundger{\"a}usche die Erkennung verschiedener Phoneme beeinflussen (Alwan et al., 2011; Cooke, 2009; Gordon-Salant, 1985; Phatak et al., 2008; Pickett, 1957). Diese Studien konzentrieren sich oft auf die isolierten Phoneme und testen feste Kontexte in Nonsense-Silben statt in W{\"o}rtern. Somit wird die Vorhersagbarkeit der Elemente nicht manipuliert, obwohl diese die Erkennung beeinflusst. Die drei Faktoren Kontextvorhersagbarkeit, Hintergrundger{\"a}usche und Phoneme wurden bisher noch nicht gemeinsam in einer Studie untersucht. Es ist m{\"o}glich, dass diese Faktoren zusammenwirken, z. B. der Effekt der Vorhersagbarkeit auf bestimmte Phoneme k{\"o}nnte st{\"a}rker sein, wenn Hintergrundger{\"a}usche die Erkennung behindern. Die vorliegende Dissertation soll diese L{\"u}cke in der Literatur f{\"u}llen. In diesem Zusammenhang wollen wir untersuchen, wie sich verschiedene Arten von L{\"a}rm auf die Spracherkennung auswirken. In fr{\"u}heren Arbeiten wurde diese Frage bereits untersucht, doch die Ergebnisse waren nicht eindeutig (Danhauer & Leppler, 1979; Gordon-Salant, 1985; Horii et al., 1971; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Einige Studien kommen zu dem Ergebnis, dass wei{\ss}es Rauschen zu gr{\"o}{\ss}eren Interferenzen f{\"u}hrt, w{\"a}hrend andere Studien feststellen, dass Babbelger{\"a}usche oder sprachf{\"o}rmige Ger{\"a}usche schwieriger sind. Diese unterschiedlichen Ergebnisse in Bezug auf die Art des L{\"a}rms lassen vermuten, dass hier andere Faktoren eine Rolle spielen, z. B. die Eigenschaften der getesteten Stimuli. Dieser offenen Frage wollen wir nachgehen. Ein Modell, das vorgeschlagen wurde, um das menschliche Sprachverstehen bei Hintergrundger{\"a}uschen zu erkl{\"a}ren, ist das Noisy Channel Model (Levy, 2008; Levy et al., 2009; Shannon, 1949). Diesem Modell zufolge kombinieren H{\"o}rer auf rationale Weise Bottom-up-Informationen mit Top-down-Informationen, wobei der R{\"u}ckgriff auf eine der beiden Arten von Informationen von der Klarheit der H{\"o}rsituation abh{\"a}ngt. Fr{\"u}here Studien haben die Vorhersagen dieses Modells vor allem im schriftlichen Bereich getestet, indem sie syntaktische {\"A}nderungen verwendeten und die Interpretation unplausibler S{\"a}tze pr{\"u}ften (Gibson et al., 2013; Poppels & Levy, 2016; Ryskin et al., 2018). Sie manipulierten den Grad des wahrgenommenen L{\"a}rms durch die Anzahl der F{\"u}llw{\"o}rter mit syntaktischen Fehlern und qualifizierten den Abstand zwischen den plausiblen und unplausiblen S{\"a}tzen durch die Anzahl der eingef{\"u}gten und gel{\"o}schten W{\"o}rter. In den Studien wurden Belege gefunden, die die Vorhersagen des Noisy Channel Models unterst{\"u}tzen. Ein Schritt in Richtung eines naturalistischeren Sprachverst{\"a}ndnisses im Rauschen wurde unternommen, indem die gleichen Stimuli in gesprochener Form getestet wurden (Gibson et al., 2016; Gibson et al., 2017). Obwohl das Noisy Channel Model konstruiert wurde, um das menschliche Sprachverst{\"a}ndnis bei L{\"a}rm zu erkl{\"a}ren, wurden seine Vorhersagen bisher in keiner Studie bei akustischem L{\"a}rm untersucht. Die vorliegende Dissertation soll neue Erkenntnisse liefern. Unsere Stimuli unterscheiden sich von den bisher {\"u}berwiegend getesteten und sind so konstruiert, dass die Vorhersagbarkeit des Zielwortes sowie die {\"U}berlappung zwischen Sprach- und Ger{\"a}uschsignal variiert. Somit w{\"u}rden unsere Ergebnisse die Situationen erweitern, in denen die Vorhersagen des Noisy Channel Model zutreffen k{\"o}nnten. Wir werden dies in verschiedenen H{\"o}rsituationen mit unterschiedlichen Arten von Hintergrundger{\"a}uschen, Stimuli-Charakteristika und Populationen testen. Au{\ss}erdem setzen wir das Noisy Channel Model in Beziehung zu anderen Modellen der Sprachwahrnehmung. Die Unterschiede zwischen j{\"u}ngeren und {\"a}lteren Erwachsenen erlauben uns, die Vorhersagen des Ger{\"a}uschkanalmodells im Detail zu testen. {\"A}ltere Erwachsene haben einen anderen Trade-Off zwischen Top-down- und Bottom-up-Informationen als j{\"u}ngere Erwachsene. Ihr Geh{\"o}r ist durch altersbedingten H{\"o}rverlust beeintr{\"a}chtigt, und diese Beeintr{\"a}chtigung f{\"u}hrt zu gr{\"o}{\ss}eren Schwierigkeiten beim Verstehen von Sprache unter ung{\"u}nstigen H{\"o}rbedingungen (Li et al., 2004; Pichora-Fuller et al., 1995; Pichora-Fuller et al., 2017; Schneider et al., 2005). Andererseits bleiben ihre pr{\"a}diktiven Prozesse intakt, und es hat sich gezeigt, dass {\"a}ltere Erwachsene sich st{\"a}rker auf diese verlassen, um H{\"o}rprobleme zu {\"u}berwinden (Stine & Wingfield, 1994; Wingfield et al., 1995; Wingfield et al., 2005). Diese Unterschiede im Vergleich zu j{\"u}ngeren Erwachsenen machen die Population der {\"a}lteren Erwachsenen theoretisch besonders interessant f{\"u}r Tests. Wir wollen untersuchen, ob es tats{\"a}chlich so ist, dass {\"a}ltere Erwachsene in F{\"a}llen, in denen der Satzkontext irref{\"u}hrend ist, mehr H{\"o}rfehler zeigen als j{\"u}ngere Erwachsene. Wir variieren die H{\"o}rbedingungen, um feink{\"o}rnige Unterschiede in der {\"U}berlappung zwischen dem Sprachsignal und dem Hintergrundger{\"a}usch zu konstruieren, wodurch sich der Schwierigkeitsgrad der H{\"o}rbedingung {\"a}ndert. iner der Unterschiede zwischen j{\"u}ngeren und {\"a}lteren Erwachsenen wurde in Bezug auf den Effekt des "false hearing" festgestellt (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Dabei handelt es sich um ein Ph{\"a}nomen, bei dem ein H{\"o}rer sehr sicher ist, ein bestimmtes Wort richtig erkannt zu haben, aber in Wirklichkeit falsch liegt. In diesen F{\"a}llen wurde das Wort oft durch Top-Down-Prozesse und nicht durch das akustische Sprachsignal selbst erkannt. Da sie im Allgemeinen st{\"a}rker auf pr{\"a}diktive Prozesse angewiesen sind, hat man festgestellt, dass der false-hearing-Effekt bei {\"a}lteren Erwachsenen gr{\"o}{\ss}er ist als bei j{\"u}ngeren. Wir wollen dies untersuchen und erwarten, dass der false-hearing-Effekt st{\"a}rker ist, wenn die H{\"o}rbedingungen schwieriger sind (aufgrund des Ger{\"a}uschpegels oder einer gr{\"o}{\ss}eren {\"U}berlappung zwischen den Sprachkl{\"a}ngen in den Stimuli und dem Hintergrundger{\"a}usch). Die Vertrauensbewertungen, die die Versuchspersonen abgeben, werden zus{\"a}tzlich Aufschluss {\"u}ber ihre metakognitiven Prozesse w{\"a}hrend des H{\"o}rens geben (siehe unten). In den meisten Studien, die das Sprachverst{\"a}ndnis untersuchen, werden die Versuchspersonen gebeten, einfach zu berichten, was sie geh{\"o}rt haben. Anschlie{\ss}end wird die Genauigkeit ermittelt. Dies beantwortet zwar die Fragen nach der Verst{\"a}ndlichkeit von Sprache und der Schwierigkeit der H{\"o}rbedingungen, l{\"a}sst aber andere Punkte offen. Im Alltag wird Sprache zur Kommunikation genutzt, die mehr erfordert als die Wiedergabe des Geh{\"o}rten. Daher sollte untersucht werden, wie sich unterschiedliche H{\"o}rbedingungen auf nachfolgende {\"u}bergeordnete Prozesse auswirken, die in der Kommunikation h{\"a}ufig eine Rolle spielen, um festzustellen, wie sich das H{\"o}ren im L{\"a}rm (oder unter anderen, m{\"o}glicherweise ung{\"u}nstigen Bedingungen) auf das Gespr{\"a}ch zwischen Gespr{\"a}chspartnern auswirkt, das {\"u}ber das blo{\ss}e Erkennen des Gesagten hinausgeht. In dieser Dissertation wollen wir die Folgen des Sprachverstehens unter verschiedenen H{\"o}rbedingungen testen, wobei wir den Hintergrundl{\"a}rm und die Vorhersagbarkeit variieren. Einerseits bitten wir die Versuchspersonen uns nach jedem experimentellen Versuch mitzuteilen, wie sicher sie sich sind, die richtige Antwort gegeben zu haben. Auf diese Weise k{\"o}nnen wir nicht nur den false-hearing- Effekt untersuchen, sondern auch feststellen, wie sie die H{\"o}rbedingungen erlebt haben und wie sich dies auf ihre subjektive Empfindung das Wort verstanden zu haben. Dies kann damit zusammenh{\"a}ngen, ob sie die richtige Antwort geben oder nicht, muss es aber nicht. Andererseits legen wir den Versuchspersonen in einem unserer Experimente nach der H{\"o}rphase einen Ged{\"a}chtnistest vor, um zu testen, wie sich die Schwierigkeit der Ger{\"a}uschbedingung und die Vorhersagbarkeit des Zielworts auf die sp{\"a}tere Erinnerung auswirken. Zu wissen, wie das Ged{\"a}chtnis durch die H{\"o}rbedingungen beeinflusst wird, ist wichtig, da es Aufschluss {\"u}ber den Umgang mit Situationen geben kann, in denen Hintergrundger{\"a}usche unvermeidlich sind, aber Anweisungen verstanden und erinnert werden m{\"u}ssen. Fr{\"u}here Arbeiten haben die Auswirkungen der Vorhersagbarkeit auf die Ged{\"a}chtnisleistung untersucht und dabei ein interessantes Ph{\"a}nomen aufgedeckt. In den Studien wurde festgestellt, dass W{\"o}rter, die vorhergesagt, den Versuchspersonen aber nicht tats{\"a}chlich pr{\"a}sentiert wurden, im Ged{\"a}chtnis bleiben und die Ged{\"a}chtnisleistung sp{\"a}ter in Form von so genannten falschen Erinnerungen beeintr{\"a}chtigen (Haeuser & Kray, 2022a; Hubbard et al., 2019). In diesen Studien geben die Versuchspersonen an, sich an diese Begriffe zu erinnern, obwohl sie sie gar nicht gesehen haben. Dieser Effekt wurde bisher noch nicht f{\"u}r Elemente untersucht, die in Hintergrundger{\"a}usche eingebettet sind, und wir wollen testen, ob wir hier mehr falsche Erinnerungen finden werden, da sich die Versuchspersonen unter solch schwierigen H{\"o}rbedingungen st{\"a}rker auf Vorhersageprozesse verlassen, was zu falschen Erinnerungen f{\"u}hrt. Wir haben drei Experimente durchgef{\"u}hrt, um diese Fragen zu beantworten. Im ersten Experiment manipulierten wir die Vorhersagbarkeit (hoch oder niedrig), die Art des Ger{\"a}uschs (Babbel oder wei{\ss}es Rauschen) und das akustische Signal (verschiedene Sprachlaute; Plosive, Vokale und Frikative) und untersuchten so die Interaktion der drei Faktoren. Diese Versuchsanordnung erm{\"o}glicht es uns auch, die Auswirkungen von Babbelger{\"a}uschen auf der einen und wei{\ss}em Rauschen auf der anderen Seite zu vergleichen, um die bisher nicht eindeutigen Ergebnisse in der Literatur zu ber{\"u}cksichtigen (Danhauer & Leppler, 1979; Horii et al., 1971; Gordon-Salant, 1985; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Das Experiment testet die Vorhersagen des Noisy-Channel-Modells f{\"u}r das Verstehen gesprochener Sprache. Dieses Modell wurde vorgeschlagen, um das Sprachverstehen in verrauschten Umgebungen zu erkl{\"a}ren (Levy, 2008; Levy et al., 2009; Shannon, 1949). Es geht davon aus, dass Versteher sich nicht ausschlie{\ss}lich auf den Bottom-Up-Signal verlassen, sondern das Eingangssignal rational mit Top-Down-Vorhersagen kombinieren. Bislang wurde diese Hypothese vor allem im schriftlichen Bereich getestet, wo die Top-Down- Vorhersagen mit dem Bottom-Up-Signal in Konflikt stehen. Unsere H{\"o}rbedingungen unterscheiden sich hinsichtlich ihrer Editierdistanz in einerWeise, die auf fr{\"u}heren Arbeiten {\"u}ber die Verwechselbarkeit von Sprachlauten im L{\"a}rm beruht und zu feink{\"o}rnigen Unterschieden f{\"u}hrt. Unsere Ergebnisse stimmen mit den Vorhersagen des Noisy- Channel-Modells {\"u}berein: H{\"o}rer kombinieren probabilistisch Top-Down-Vorhersagen, die auf dem Kontext basieren, mit verrauschten Bottom-Up-Informationen aus dem akustischen Signal, um gesprochene Sprache besser zu verstehen. Das zweite Experiment testet das Sprachverstehen bei gleichzeitigen St{\"o}rger{\"a}uschen bei j{\"u}ngeren und {\"a}lteren Erwachsenen. Diese beiden Populationen unterscheiden sich hinsichtlich der Spracherkennung und der Art und Weise, wie Informationen aus dem Bottom-Up-Audiosignal und Top-Down-Vorhersagen kombiniert werden. So k{\"o}nnen wir die Vorhersagen des Noisy-Channel-Modells anhand dieser beiden Populationen weiter testen. Dar{\"u}ber hinaus haben fr{\"u}here Studien, insbesondere bei {\"a}lteren Erwachsenen, false-hearing-Effekte festgestellt, bei dem sie sehr zuversichtlich waren, w{\"a}hrend der Worterkennung eine korrekte Antwort zu geben, die aber tats{\"a}chlich falsch war (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Wir untersuchen dieses Ph{\"a}nomen und gehen der Frage nach, inwieweit die metakognitiven Entscheidungen unserer Versuchspersonen ihr Vertrauen in das akustische Signal oder den semantischen Kontext widerspiegeln. Auch hier variieren wir das Rauschen, konzentrieren uns aber jetzt auf den Rauschpegel (0 SNR dB oder -5 SNR dB) und nicht auf die Art des Rauschens (wir verwenden nur Babble Noise). Unsere Ergebnisse zeigen, dass das Ausma{\ss} des Fehlh{\"o}rens direkt mit der Wahrnehmbarkeit des Sprachsignals zusammenh{\"a}ngt und dass die eigen Einsch{\"a}tzung der Versuchspersonen, ob das Wort im Signal so gesprochen wurde, ebenfalls damit {\"u}bereinstimmen: Je mehr {\"U}berschneidungen zwischen Sprachsignal und St{\"o}rger{\"a}usch, desto weniger waren die Versuchspersonen sich sicher, dass sie die richtige Antwort gegeben haben. Wir finden keine Hinweise auf false-hearing-Effekte, was auf die von uns getestete Population zur{\"u}ckzuf{\"u}hren sein k{\"o}nnte. Stattdessen hing die H{\"o}he der Sicherheitsbewertungen von der Schwierigkeit der H{\"o}rbedingung ab. Das dritte Experiment untersucht die Folgen des H{\"o}rens von mehr oder weniger vorhersehbarer Sprache im Hintergrundger{\"a}usch, indem es die Versuchspersonen nicht nur fragt, was sie geh{\"o}rt haben. Wir testen, wie das sp{\"a}tere Wiedererkennungsged{\"a}chtnis der Versuchspersonen durch diese verschiedenen H{\"o}rbedingungen beeinflusst wird. In fr{\"u}heren Studien wurden Effekte falschen Erinnerns festgestellt, bei denen Elemente, die (in hohem Ma{\ss}e) vorhergesagt, aber nicht tats{\"a}chlich pr{\"a}sentiert wurden, im Ged{\"a}chtnis verbleiben, so dass sie von den Veruschspersonen in Ged{\"a}chtnistests wiedergegeben werden (Haeuser & Kray, 2022a; Hubbard et al., 2019). Wir wollen testen, ob dieser Effekt bei Hintergrundger{\"a}uschen st{\"a}rker ist, da sich die H{\"o}rer unter diesen Bedingungen st{\"a}rker auf pr{\"a}diktive Prozesse verlassen. In unserem Experiment h{\"o}rten die Versuchspersonen zun{\"a}chst S{\"a}tze, die entweder in St{\"o}rger{\"a}usche eingebettet oder in Ruhe pr{\"a}sentiert wurden. Die Vorhersagbarkeit des Zielworts wurde durch {\"A}nderung der Wortreihenfolge des Satzes beeinflusst, und wir variierten auch die H{\"a}ufigkeit der Zielw{\"o}rter. In einem Test zum Wiedererkennen von {\"U}berraschungen fragten wir die Versuchspersonen, ob sie das dargebotene Wort schon einmal gesehen hatten, wobei es drei Arten von W{\"o}rtern gab: alte Begriffe, die sie schon einmal geh{\"o}rt hatten, neue Begriffe, die sie noch nie geh{\"o}rt hatten und die in keinem Zusammenhang mit den S{\"a}tzen standen, und semantische K{\"o}der, die sie noch nie geh{\"o}rt hatten, die aber semantisch mit den alten Begriffen verbunden waren. Die Ergebnisse zeigten, dass die Ged{\"a}chtnisleistung f{\"u}r die semantischen K{\"o}der nicht durch Faktoren auf Satzebene, wie Hintergrundger{\"a}usche oder Vorhersagbarkeit, beeinflusst wurde. W{\"a}hrend dies bei den alten Elemente der Fall war, zeigen diese Ergebnisse zusammengenommen, dass wir keine Hinweise auf falsche Erinnerneffekte bei den K{\"o}der-Elemente gefunden haben, sondern dass die Genauigkeit bei den alten Elemente, {\"a}hnlich wie in den beiden vorangegangenen Experimenten, von der Schwierigkeit der H{\"o}rbedingung abhing. Wir erweitern die Literatur, indem wir drei Faktoren kombinieren, die beim Sprachverstehen im L{\"a}rm interagieren, n{\"a}mlich die Art des L{\"a}rms, bestimmte Sprachlaute in den Stimuli und die Vorhersagbarkeit des Kontexts. Die ersten beiden Faktoren interagieren, was zu einer Variation des Anteils des Sprachsignals f{\"u}hrt, der verdeckt wird. In fr{\"u}heren Studien wurde diese Wechselwirkung zwar untersucht, allerdings vorwiegend bei isolierten Silben (Alwan et al., 2011; Cooke, 2009; Gordon- Salant, 1985; Phatak et al., 2008; Pickett, 1957). Da H{\"o}rer im Alltag in der Lage sind, Vorhersagen auf der Grundlage des semantischen Kontexts zu treffen, um ihren Erkennungsprozess zu steuern, ist es wichtig, auch den Effekt eines mehr oder weniger vorhersagenden Satzkontexts zu ber{\"u}cksichtigen. Wir zeigen, dass die drei Faktoren zusammenwirken und zu geringf{\"u}gigen Unterschieden in der Verst{\"a}ndlichkeit der Stimuli f{\"u}hren, je nach Art des Hintergrundrauschens und der Phoneme im akustischen Signal. Daher ist der Effekt der Vorhersagbarkeit st{\"a}rker, wenn das Hintergrundger{\"a}usch st{\"a}rker mit einem bestimmten Sprachklang interferiert. Dies wirkt sich darauf aus, wie sehr sich der H{\"o}rer bei der Spracherkennung auf Top-down- oder Bottom-up-Prozesse verl{\"a}sst. Der R{\"u}ckgriff auf pr{\"a}diktive Prozesse kann zu falsch erkannten W{\"o}rtern f{\"u}hren, wenn der Satzkontext irref{\"u}hrend ist. Wir zeigen, dass die Vorhersagen des Noisy-Channel-Modells auch dann zutreffen, wenn sie in einem anderen Versuchsaufbau als bisher getestet werden, n{\"a}mlich mit einem anderen Satz von Stimuli und in akustischem Hintergrundrauschen. Wir verwendeten gesprochene Stimuli, die in Hintergrundger{\"a}usche unterschiedlicher Art und Lautst{\"a}rke eingebettet waren, und manipulierten die wahrgenommene Ger{\"a}uschmenge durch die {\"U}berlappung des Sprachsignals und des akustischen Rauschens, indem wir Stimuli mit unterschiedlichen Klangkontrasten konstruierten (Minimalpaare mit Plosiven, Frikativen und Affrikaten sowie Vokalen). Da unter diesen verschiedenen H{\"o}rbedingungen die Klarheit des Sprachsignals und damit der erforderliche Verarbeitungsaufwand variiert, macht das Noisy Channel Model feink{\"o}rnige Vorhersagen dar{\"u}ber, wie sehr sich H{\"o}rer entweder auf das akustische Signal von unten nach oben oder auf pr{\"a}diktive Prozesse von oben nach unten verlassen. Wir haben zus{\"a}tzlich zwei verschiedene Populationen getestet, n{\"a}mlich j{\"u}ngere und {\"a}ltere Erwachsene. Bei {\"a}lteren Erwachsenen wurde bereits festgestellt, dass sie sich st{\"a}rker auf pr{\"a}diktive Prozesse verlassen als j{\"u}ngere Erwachsene, so dass wir die Vorhersagen des Noisy- Channel-Modells weiter testen konnten. Auch hier wurden die Vorhersagen durch unsere Daten best{\"a}tigt. Insgesamt bieten unsere Ergebnisse eine zus{\"a}tzliche und {\"u}bereinstimmende Unterst{\"u}tzung f{\"u}r das Noisy-Channel-Modell. Wir replizieren den Befund, dass {\"a}ltere Erwachsene dazu neigen, sich mehr auf den Satzkontext zu verlassen als j{\"u}ngere Erwachsene. W{\"a}hrend dies in der bisherigen Literatur h{\"a}ufig berichtet wurde, zeigen wir diesen Effekt in einer Online-Studie mit einer j{\"u}ngeren Versuchspersonengruppe (50-65 Jahre) als in diesen Studien {\"u}blich (65+). Wir haben auch den false-hearing-Effekt untersucht. Bei diesem Effekt ist das Vertrauen in falsche Antworten hoch, und es wurde festgestellt, dass dieser Effekt bei {\"a}lteren Erwachsenen st{\"a}rker ist als bei j{\"u}ngeren Erwachsenen. Dies wird auf den altersbedingten Abbau der kognitiven Kontrolle zur{\"u}ckgef{\"u}hrt. In unserem Experiment konnten wir den Befund des false hearings nicht replizieren. Stattdessen fanden wir eine Tendenz zu geringerer Zuversicht bei falschen Antworten, die mit der Schwierigkeit der H{\"o}rbedingung {\"u}bereinstimmt: Je mehr {\"U}berschneidungen zwischen Sprachlauten und Ger{\"a}uschen oder je h{\"o}her der Ger{\"a}uschpegel, desto geringer war die Zuversicht unserer H{\"o}rer, sowohl bei j{\"u}ngeren als auch bei {\"a}lteren Erwachsenen. Eine m{\"o}gliche Erkl{\"a}rung f{\"u}r das Fehlen des false-hearing-Effekts ist das relativ junge Alter unserer Gruppe {\"a}lterer Versuchspersonen. Wir untersuchten die Folgen des H{\"o}rens bei Hintergrundger{\"a}uschen, d.h. die Art und Weise, wie Prozesse h{\"o}herer Ordnung durch unterschiedliche H{\"o}rbedingungen (unterschiedliche Ger{\"a}usche und Vorhersagbarkeit) beeinflusst werden. Dies ist wichtig, um die Auswirkungen von Hintergrundger{\"a}uschen und Vorhersagbarkeit auf die Kommunikation zu untersuchen, die viel mehr umfasst als nur das Erkennen von W{\"o}rtern. Wir zeigen, dass der Schwierigkeitsgrad der H{\"o}rbedingung die metakognitiven Urteile beeinflusst, operationalisiert durch Sicherheitsbewertungen: Je schwieriger die H{\"o}rbedingung war, desto geringer war die Sicherheit der H{\"o}rer, was auf ein Bewusstsein f{\"u}r die Ver{\"a}nderung der Bedingung hinweist. Dar{\"u}ber hinaus untersuchten wir, wie Hintergrundger{\"a}usche und Ver{\"a}nderungen in der Vorhersagbarkeit das sp{\"a}tere Wiedererkennungsged{\"a}chtnis f{\"u}r experimentelle Elemente beeinflussen. Wir zeigen, dass diese Faktoren bei zuvor pr{\"a}sentierten Elemente die Ged{\"a}chtnisleistung beeinflussen. Was wir jedoch nicht beobachten k{\"o}nnen, ist ein falsche Erinnerung f{\"u}r nicht pr{\"a}sentierte, aber semantisch verwandte Elemente. Zusammenfassend l{\"a}sst sich sagen, dass die Ergebnisse dieser Dissertation zu unserem Verst{\"a}ndnis der Spracherkennung unter ung{\"u}nstigen H{\"o}rbedingungen, insbesondere bei Hintergrundger{\"a}uschen, beitragen und zeigen, wie pr{\"a}diktive Prozesse die Sprachwahrnehmung sowohl f{\"o}rdern als auch behindern k{\"o}nnen.},
      pubstate = {published},
      type = {phdthesis}
      }

      Copy BibTeX to Clipboard

      Project:   A4

      Krielke, Marie-Pauline

      Optimizing scientific communication: the role of relative clauses as markers of complexity in English and German scientific writing between 1650 and 1900 PhD Thesis

      Saarland University, Saarbruecken, Germany, 2023.

      The aim of this thesis is to show that both scientific English and German have become increasingly optimized for scientific communication from 1650 to 1900 by adapting the usage of relative clauses as markers of grammatical complexity. While the lexico-grammatical changes in terms of features and their frequency distribution in scientific writing during this period are well documented, in the present work we are interested in the underlying factors driving these changes and how they affect efficient scientific communication. As the scientific register emerges and evolves, it continuously adapts to the changing communicative needs posed by extra-linguistic pressures arising from the scientific community and its achievements. We assume that, over time, scientific language maintains communicative efficiency by balancing lexico-semantic expansion with a reduction in (lexico-)grammatical complexity on different linguistic levels. This is based on the idea that linguistic complexity affects processing difficulty and, in turn, communicative efficiency. To achieve optimization, complexity is adjusted on the level of lexico-grammar, which is related to expectation-based processing cost, and syntax, which is linked to working memory-based processing cost. We conduct five corpus-based studies comparing English and German scientific writing to general language. The first two investigate the development of relative clauses in terms of lexico-grammar, measuring the paradigmatic richness and syntagmatic predictability of relativizers as indicators of expectation-based processing cost. The results confirm that both levels undergo a reduction in complexity over time. The other three studies focus on the syntactic complexity of relative clauses, investigating syntactic intricacy, locality, and accessibility. Results show that intricacy and locality decrease, leading to lower grammatical complexity and thus mitigating memory-based processing cost. However, accessibility is not a factor of complexity reduction over time. Our studies reveal a register-specific diachronic complexity reduction in scientific language both in lexico-grammar and syntax. The cross-linguistic comparison shows that English is more advanced in its register-specific development while German lags behind due to a later establishment of the vernacular as a language of scientific communication.

      @phdthesis{Krielke_Diss_2023,
      title = {Optimizing scientific communication: the role of relative clauses as markers of complexity in English and German scientific writing between 1650 and 1900},
      author = {Marie-Pauline Krielke},
      url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/36825},
      doi = {https://doi.org/10.22028/D291-40997},
      year = {2023},
      date = {2023},
      school = {Saarland University},
      address = {Saarbruecken, Germany},
      abstract = {The aim of this thesis is to show that both scientific English and German have become increasingly optimized for scientific communication from 1650 to 1900 by adapting the usage of relative clauses as markers of grammatical complexity. While the lexico-grammatical changes in terms of features and their frequency distribution in scientific writing during this period are well documented, in the present work we are interested in the underlying factors driving these changes and how they affect efficient scientific communication. As the scientific register emerges and evolves, it continuously adapts to the changing communicative needs posed by extra-linguistic pressures arising from the scientific community and its achievements. We assume that, over time, scientific language maintains communicative efficiency by balancing lexico-semantic expansion with a reduction in (lexico-)grammatical complexity on different linguistic levels. This is based on the idea that linguistic complexity affects processing difficulty and, in turn, communicative efficiency. To achieve optimization, complexity is adjusted on the level of lexico-grammar, which is related to expectation-based processing cost, and syntax, which is linked to working memory-based processing cost. We conduct five corpus-based studies comparing English and German scientific writing to general language. The first two investigate the development of relative clauses in terms of lexico-grammar, measuring the paradigmatic richness and syntagmatic predictability of relativizers as indicators of expectation-based processing cost. The results confirm that both levels undergo a reduction in complexity over time. The other three studies focus on the syntactic complexity of relative clauses, investigating syntactic intricacy, locality, and accessibility. Results show that intricacy and locality decrease, leading to lower grammatical complexity and thus mitigating memory-based processing cost. However, accessibility is not a factor of complexity reduction over time. Our studies reveal a register-specific diachronic complexity reduction in scientific language both in lexico-grammar and syntax. The cross-linguistic comparison shows that English is more advanced in its register-specific development while German lags behind due to a later establishment of the vernacular as a language of scientific communication.},
      pubstate = {published},
      type = {phdthesis}
      }

      Copy BibTeX to Clipboard

      Project:   B1

      Gautam, Vagrant; Zhang, Miaoran; Klakow, Dietrich

      A Lightweight Method to Generate Unanswerable Questions in English Inproceedings

      Bouamor, Houda; Pino, Juan; Bali, Kalika (Ed.): Findings of the Association for Computational Linguistics: EMNLP 2023, Association for Computational Linguistics, pp. 7349-7360, Singapore, 2023.

      If a question cannot be answered with the available information, robust systems for question answering (QA) should know *not* to answer. One way to build QA models that do this is with additional training data comprised of unanswerable questions, created either by employing annotators or through automated methods for unanswerable question generation. To show that the model complexity of existing automated approaches is not justified, we examine a simpler data augmentation method for unanswerable question generation in English: performing antonym and entity swaps on answerable questions. Compared to the prior state-of-the-art, data generated with our training-free and lightweight strategy results in better models (+1.6 F1 points on SQuAD 2.0 data with BERT-large), and has higher human-judged relatedness and readability. We quantify the raw benefits of our approach compared to no augmentation across multiple encoder models, using different amounts of generated data, and also on TydiQA-MinSpan data (+9.3 F1 points with BERT-large). Our results establish swaps as a simple but strong baseline for future work.

      @inproceedings{gautam-etal-2023-lightweight,
      title = {A Lightweight Method to Generate Unanswerable Questions in English},
      author = {Vagrant Gautam and Miaoran Zhang and Dietrich Klakow},
      editor = {Houda Bouamor and Juan Pino and Kalika Bali},
      url = {https://aclanthology.org/2023.findings-emnlp.491},
      doi = {https://doi.org/10.18653/v1/2023.findings-emnlp.491},
      year = {2023},
      date = {2023},
      booktitle = {Findings of the Association for Computational Linguistics: EMNLP 2023},
      pages = {7349-7360},
      publisher = {Association for Computational Linguistics},
      address = {Singapore},
      abstract = {If a question cannot be answered with the available information, robust systems for question answering (QA) should know *not* to answer. One way to build QA models that do this is with additional training data comprised of unanswerable questions, created either by employing annotators or through automated methods for unanswerable question generation. To show that the model complexity of existing automated approaches is not justified, we examine a simpler data augmentation method for unanswerable question generation in English: performing antonym and entity swaps on answerable questions. Compared to the prior state-of-the-art, data generated with our training-free and lightweight strategy results in better models (+1.6 F1 points on SQuAD 2.0 data with BERT-large), and has higher human-judged relatedness and readability. We quantify the raw benefits of our approach compared to no augmentation across multiple encoder models, using different amounts of generated data, and also on TydiQA-MinSpan data (+9.3 F1 points with BERT-large). Our results establish swaps as a simple but strong baseline for future work.

      },
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   B4

      Successfully