Publications

Dipper, Stefanie; Haiber, Cora; Schröter, Anna Maria; Wiemann, Alexandra; Brinkschulte, Maike

Universal Dependencies: Extensions for Modern and Historical German Inproceedings

Calzolari, Nicoletta; Kan, Min-Yen; Hoste, Veronique; Lenci, Alessandro; Sakti, Sakriani; Xue, Nianwen (Ed.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA and ICCL, pp. 17101-17111, Torino, Italia, 2024.

In this paper we present extensions of the UD scheme for modern and historical German. The extensions relate in part to fundamental differences such as those between different kinds of arguments and modifiers. We illustrate the extensions with examples from the MHG data and discuss a number of MHG-specific constructions. At the current time, we have annotated a corpus of Middle High German with almost 29K tokens using this scheme, which to our knowledge is the first UD treebank for Middle High German. Inter-annotator agreement is very high: the annotators achieve a score of α = 0.85. A statistical analysis of the annotations shows some interesting differences in the distribution of labels between modern and historical German.

@inproceedings{dipper-etal-2024-universal-dependencies,
title = {Universal Dependencies: Extensions for Modern and Historical German},
author = {Stefanie Dipper and Cora Haiber and Anna Maria Schr{\"o}ter and Alexandra Wiemann and Maike Brinkschulte},
editor = {Nicoletta Calzolari and Min-Yen Kan and Veronique Hoste and Alessandro Lenci and Sakriani Sakti and Nianwen Xue},
url = {https://aclanthology.org/2024.lrec-main.1485},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages = {17101-17111},
publisher = {ELRA and ICCL},
address = {Torino, Italia},
abstract = {In this paper we present extensions of the UD scheme for modern and historical German. The extensions relate in part to fundamental differences such as those between different kinds of arguments and modifiers. We illustrate the extensions with examples from the MHG data and discuss a number of MHG-specific constructions. At the current time, we have annotated a corpus of Middle High German with almost 29K tokens using this scheme, which to our knowledge is the first UD treebank for Middle High German. Inter-annotator agreement is very high: the annotators achieve a score of α = 0.85. A statistical analysis of the annotations shows some interesting differences in the distribution of labels between modern and historical German.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C6

Ortmann, Katrin; Dipper, Stefanie

Nähetexte automatisch erkennen: Entwicklung eines linguistischen Scores für konzeptionelle Mündlichkeit in historischen Texten. Book Chapter

Imo, Wolfgang; Wesche, Jörg (Ed.): Sprechen und Gespräch in historischer Perspektive: Sprach-und literaturwissenschaftliche Zugänge, Metzler, pp. 17-36, Berlin, Heidelberg, 2024.

Dieser Beitrag stellt einen automatisch bestimmbaren Score zur Einschätzung der konzeptionellen Mündlichkeit eines historischen Textes vor. Der Score basiert auf einer Reihe von linguistischen Merkmalen wie durchschnittlicher Wortlänge, Häufigkeit von Personalpronomen der 1.Person, Verhältnis Vollverben zu Nomen oder dem Anteil von Inhaltswörtern am Gesamttext. Diese Merkmale werden bei der Berechnung des Mündlichkeits-Scores unterschiedlich gewichtet. Die Gewichte wurden mit Hilfe des Kasseler Junktionskorpus (Ágel und Hennig 2008) festgelegt, dessen Texte von Expert/innen mit Nähewerten versehen wurden. In einer 5-fachen Kreuzvalidierung zeigt sich,dass der automatisch bestimmte Mündlichkeits-Score in einem sehr hohen Maß mit dem Experten-Score korreliert (r = 0.9175).

@inbook{Ortmann_Dipper_2024,
title = {N{\"a}hetexte automatisch erkennen: Entwicklung eines linguistischen Scores f{\"u}r konzeptionelle M{\"u}ndlichkeit in historischen Texten.},
author = {Katrin Ortmann and Stefanie Dipper},
editor = {Wolfgang Imo and J{\"o}rg Wesche},
url = {https://link.springer.com/chapter/10.1007/978-3-662-67677-6_2},
year = {2024},
date = {2024},
booktitle = {Sprechen und Gespr{\"a}ch in historischer Perspektive: Sprach-und literaturwissenschaftliche Zug{\"a}nge},
pages = {17-36},
publisher = {Metzler},
address = {Berlin, Heidelberg},
abstract = {

Dieser Beitrag stellt einen automatisch bestimmbaren Score zur Einsch{\"a}tzung der konzeptionellen M{\"u}ndlichkeit eines historischen Textes vor. Der Score basiert auf einer Reihe von linguistischen Merkmalen wie durchschnittlicher Wortl{\"a}nge, H{\"a}ufigkeit von Personalpronomen der 1.Person, Verh{\"a}ltnis Vollverben zu Nomen oder dem Anteil von Inhaltsw{\"o}rtern am Gesamttext. Diese Merkmale werden bei der Berechnung des M{\"u}ndlichkeits-Scores unterschiedlich gewichtet. Die Gewichte wurden mit Hilfe des Kasseler Junktionskorpus ({\'A}gel und Hennig 2008) festgelegt, dessen Texte von Expert/innen mit N{\"a}hewerten versehen wurden. In einer 5-fachen Kreuzvalidierung zeigt sich,dass der automatisch bestimmte M{\"u}ndlichkeits-Score in einem sehr hohen Ma{\ss} mit dem Experten-Score korreliert (r = 0.9175).
},
pubstate = {published},
type = {inbook}
}

Copy BibTeX to Clipboard

Project:   C6

Alves, Diego; Fischer, Stefan; Degaetano-Ortlieb, Stefania; Teich, Elke

Multi-word Expressions in English Scientific Writing Inproceedings

Bizzoni, Yuri; Degaetano-Ortlieb, Stefania; Kazantseva, Anna; Szpakowicz, Stan (Ed.): Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2024), Association for Computational Linguistics, pp. 67-76, St. Julians, Malta, 2024.

Multi-Word Expressions (MWEs) play a pivotal role in language use overall and in register formation more specifically, e.g. encoding field-specific terminology. Our study focuses on the identification and categorization of MWEs used in scientific writing, considering their formal characteristics as well as their developmental trajectory over time from the mid-17th century to the present. For this, we develop an approach combining three different types of methods to identify MWEs (Universal Dependency annotation, Partitioner and the Academic Formulas List) and selected measures to characterize MWE properties (e.g., dispersion by Kullback-Leibler Divergence and several association measures). This allows us to inspect MWEs types in a novel data-driven way regarding their functions and change over time in specialized discourse.

@inproceedings{alves-etal-2024-multi,
title = {Multi-word Expressions in English Scientific Writing},
author = {Diego Alves and Stefan Fischer and Stefania Degaetano-Ortlieb and Elke Teich},
editor = {Yuri Bizzoni and Stefania Degaetano-Ortlieb and Anna Kazantseva and Stan Szpakowicz},
url = {https://aclanthology.org/2024.latechclfl-1.8},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2024)},
pages = {67-76},
publisher = {Association for Computational Linguistics},
address = {St. Julians, Malta},
abstract = {Multi-Word Expressions (MWEs) play a pivotal role in language use overall and in register formation more specifically, e.g. encoding field-specific terminology. Our study focuses on the identification and categorization of MWEs used in scientific writing, considering their formal characteristics as well as their developmental trajectory over time from the mid-17th century to the present. For this, we develop an approach combining three different types of methods to identify MWEs (Universal Dependency annotation, Partitioner and the Academic Formulas List) and selected measures to characterize MWE properties (e.g., dispersion by Kullback-Leibler Divergence and several association measures). This allows us to inspect MWEs types in a novel data-driven way regarding their functions and change over time in specialized discourse.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B1

Ibrahim, Omnia; Yuen, Ivan; Xue, Wei; Andreeva, Bistra; Möbius, Bernd

Listener-oriented consequences of predictability-based acoustic adjustment Inproceedings

Baumann, Timo (Ed.): Elektronische Sprachsignalverarbeitung 2024, Tagungsband der 35. Konferenz (Regensburg), TUD Press, pp. 196-202, 2024, ISBN 978-3-95908-325-6.

This paper investigated whether predictability-based adjustments in production have listener-oriented consequences in perception. By manipulating the acoustic features of a target syllable in different predictability contexts in German, we tested 40 listeners’ perceptual preference for the manipulation. Four source words underwent acoustic modifications on the target syllable. Our results revealed a general preference for the original (unmodified) version over the modified one. However, listeners generally favored the unmodified version more when the source word had a higher predictable context compared to a less predictable one. The results showed that predictability-based adjustments have perceptual consequences and that listeners have predictability-based expectations in perception.

@inproceedings{Ibrahim_etal_2024,
title = {Listener-oriented consequences of predictability-based acoustic adjustment},
author = {Omnia Ibrahim and Ivan Yuen and Wei Xue and Bistra Andreeva and Bernd M{\"o}bius},
editor = {Timo Baumann},
url = {https://opus4.kobv.de/opus4-oth-regensburg/frontdoor/index/index/docId/7098},
doi = {https://doi.org/10.35096/othr/pub-7098},
year = {2024},
date = {2024},
booktitle = {Elektronische Sprachsignalverarbeitung 2024, Tagungsband der 35. Konferenz (Regensburg)},
isbn = {978-3-95908-325-6},
pages = {196-202},
publisher = {TUD Press},
abstract = {This paper investigated whether predictability-based adjustments in production have listener-oriented consequences in perception. By manipulating the acoustic features of a target syllable in different predictability contexts in German, we tested 40 listeners’ perceptual preference for the manipulation. Four source words underwent acoustic modifications on the target syllable. Our results revealed a general preference for the original (unmodified) version over the modified one. However, listeners generally favored the unmodified version more when the source word had a higher predictable context compared to a less predictable one. The results showed that predictability-based adjustments have perceptual consequences and that listeners have predictability-based expectations in perception.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C1

Yung, Frances Pik Yu; Ahmad, Mansoor; Scholman, Merel; Demberg, Vera

Prompting Implicit Discourse Relation Annotation Inproceedings

Proceedings of Linguistic Annotation Workshop of European Chapter of the Association for Computational Linguistics, 2024.

Pre-trained large language models, such as ChatGPT, archive outstanding performance in various reasoning tasks without supervised training and were found to have outperformed crowdsourcing workers. Nonetheless, ChatGPT’s performance in the task of implicit discourse relation classification, prompted by a standard multiple-choice question, is still far from satisfactory and considerably inferior to state-of-the-art supervised approaches. This work investigates several proven prompting techniques to improve ChatGPT’s recognition of discourse relations. In particular, we experimented with breaking down the classification task that involves numerous abstract labels into smaller subtasks. Nonetheless, experiment results show that the inference accuracy hardly changes even with sophisticated prompt engineering, suggesting that implicit discourse relation classification is not yet resolvable under zero-shot or few-shot settings.

@inproceedings{yung-etal-2024-prompting,
title = {Prompting Implicit Discourse Relation Annotation},
author = {Frances Pik Yu Yung and Mansoor Ahmad and Merel Scholman and Vera Demberg},
url = {https://arxiv.org/abs/2402.04918},
year = {2024},
date = {2024},
booktitle = {Proceedings of Linguistic Annotation Workshop of European Chapter of the Association for Computational Linguistics},
abstract = {Pre-trained large language models, such as ChatGPT, archive outstanding performance in various reasoning tasks without supervised training and were found to have outperformed crowdsourcing workers. Nonetheless, ChatGPT's performance in the task of implicit discourse relation classification, prompted by a standard multiple-choice question, is still far from satisfactory and considerably inferior to state-of-the-art supervised approaches. This work investigates several proven prompting techniques to improve ChatGPT's recognition of discourse relations. In particular, we experimented with breaking down the classification task that involves numerous abstract labels into smaller subtasks. Nonetheless, experiment results show that the inference accuracy hardly changes even with sophisticated prompt engineering, suggesting that implicit discourse relation classification is not yet resolvable under zero-shot or few-shot settings.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B2

Yung, Frances Pik Yu; Scholman, Merel; Zikanova, Sarka; Demberg, Vera

DiscoGeM 2.0: A parallel corpus of English, German, French and Czech implicit discourse relations Inproceedings

Calzolari, Nicoletta; Kan, Min-Yen; Hoste, Veronique; Lenci, Alessandro; Sakti, Sakriani; Xue, Nianwen (Ed.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA and ICCL, pp. 4940-4956, Torino, Italia, 2024.

We present DiscoGeM 2.0, a crowdsourced, parallel corpus of 12,834 implicit discourse relations, with English, German, French and Czech data. We propose and validate a new single-step crowdsourcing annotation method and apply it to collect new annotations in German, French and Czech. The corpus was constructed by having crowdsourced annotators choose a suitable discourse connective for each relation from a set of unambiguous candidates. Every instance was annotated by 10 workers. Our corpus hence represents the first multi-lingual resource that contains distributions of discourse interpretations for implicit relations. The results show that the connective insertion method of discourse annotation can be reliably extended to other languages. The resulting multi-lingual annotations also reveal that implicit relations inferred in one language may differ from those inferred in the translation, meaning the annotations are not always directly transferable. DiscoGem 2.0 promotes the investigation of cross-linguistic differences in discourse marking and could improve automatic discourse parsing applications. It is openly downloadable here: https://github.com/merelscholman/DiscoGeM.

@inproceedings{yung-etal-2024-discogem-2,
title = {DiscoGeM 2.0: A parallel corpus of English, German, French and Czech implicit discourse relations},
author = {Frances Pik Yu Yung and Merel Scholman and Sarka Zikanova and Vera Demberg},
editor = {Nicoletta Calzolari and Min-Yen Kan and Veronique Hoste and Alessandro Lenci and Sakriani Sakti and Nianwen Xue},
url = {https://aclanthology.org/2024.lrec-main.443},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages = {4940-4956},
publisher = {ELRA and ICCL},
address = {Torino, Italia},
abstract = {We present DiscoGeM 2.0, a crowdsourced, parallel corpus of 12,834 implicit discourse relations, with English, German, French and Czech data. We propose and validate a new single-step crowdsourcing annotation method and apply it to collect new annotations in German, French and Czech. The corpus was constructed by having crowdsourced annotators choose a suitable discourse connective for each relation from a set of unambiguous candidates. Every instance was annotated by 10 workers. Our corpus hence represents the first multi-lingual resource that contains distributions of discourse interpretations for implicit relations. The results show that the connective insertion method of discourse annotation can be reliably extended to other languages. The resulting multi-lingual annotations also reveal that implicit relations inferred in one language may differ from those inferred in the translation, meaning the annotations are not always directly transferable. DiscoGem 2.0 promotes the investigation of cross-linguistic differences in discourse marking and could improve automatic discourse parsing applications. It is openly downloadable here: https://github.com/merelscholman/DiscoGeM.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B2

Lin, Pin-Jie; Scholman, Merel; Saeed, Muhammed; Demberg, Vera

Modeling Orthographic Variation Improves NLP Performance for Nigerian Pidgin Inproceedings

Calzolari, Nicoletta; Kan, Min-Yen; Hoste, Veronique; Lenci, Alessandro; Sakti, Sakriani; Xue, Nianwen (Ed.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA and ICCL, pp. 11510-11522, Torino, Italia, 2024.

Nigerian Pidgin is an English-derived contact language and is traditionally an oral language, spoken by approximately 100 million people. No orthographic standard has yet been adopted, and thus the few available Pidgin datasets that exist are characterised by noise in the form of orthographic variations. This contributes to under-performance of models in critical NLP tasks. The current work is the first to describe various types of orthographic variations commonly found in Nigerian Pidgin texts, and model this orthographic variation. The variations identified in the dataset form the basis of a phonetic-theoretic framework for word editing, which is used to generate orthographic variations to augment training data. We test the effect of this data augmentation on two critical NLP tasks: machine translation and sentiment analysis. The proposed variation generation framework augments the training data with new orthographic variants which are relevant for the test set but did not occur in the training set originally. Our results demonstrate the positive effect of augmenting the training data with a combination of real texts from other corpora as well as synthesized orthographic variation, resulting in performance improvements of 2.1 points in sentiment analysis and 1.4 BLEU points in translation to English.

@inproceedings{lin-etal-2024-modeling-orthographic,
title = {Modeling Orthographic Variation Improves NLP Performance for Nigerian Pidgin},
author = {Pin-Jie Lin and Merel Scholman and Muhammed Saeed and Vera Demberg},
editor = {Nicoletta Calzolari and Min-Yen Kan and Veronique Hoste and Alessandro Lenci and Sakriani Sakti and Nianwen Xue},
url = {https://aclanthology.org/2024.lrec-main.1006},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages = {11510-11522},
publisher = {ELRA and ICCL},
address = {Torino, Italia},
abstract = {Nigerian Pidgin is an English-derived contact language and is traditionally an oral language, spoken by approximately 100 million people. No orthographic standard has yet been adopted, and thus the few available Pidgin datasets that exist are characterised by noise in the form of orthographic variations. This contributes to under-performance of models in critical NLP tasks. The current work is the first to describe various types of orthographic variations commonly found in Nigerian Pidgin texts, and model this orthographic variation. The variations identified in the dataset form the basis of a phonetic-theoretic framework for word editing, which is used to generate orthographic variations to augment training data. We test the effect of this data augmentation on two critical NLP tasks: machine translation and sentiment analysis. The proposed variation generation framework augments the training data with new orthographic variants which are relevant for the test set but did not occur in the training set originally. Our results demonstrate the positive effect of augmenting the training data with a combination of real texts from other corpora as well as synthesized orthographic variation, resulting in performance improvements of 2.1 points in sentiment analysis and 1.4 BLEU points in translation to English.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B2

Scholman, Merel; Marchal, Marian; Demberg, Vera

Connective comprehension in adults: The influence of lexical transparency, frequency, and individual differences Journal Article

Discourse Processes, 2024.

The comprehension of connectives is crucial for understanding the discourse relations that make up a text. We studied connective comprehension in English to investigate whether adult comprehenders acquire the meaning and intended use of connectives to a similar extent and how connective features and individual differences impact connective comprehension. A coherence judgment study indicated that differences in how well people comprehend connectives depend on the lexical transparency but not on the frequency of the connective. Furthermore, individual variation between participants can be explained by their vocabulary size, nonverbal IQ, and cognitive reasoning style. Print exposure was not found to be relevant. These findings provide further insight into the factors that influence discourse processing and highlight the need to consider individual differences in discourse comprehension research as well as the need to examine a wider range of connectives in empirical studies of discourse markers.

@article{Scholman_etal_2024,
title = {Connective comprehension in adults: The influence of lexical transparency, frequency, and individual differences},
author = {Merel Scholman and Marian Marchal and Vera Demberg},
url = {https://www.tandfonline.com/doi/full/10.1080/0163853X.2024.2325262},
doi = {https://doi.org/10.1080/0163853X.2024.2325262},
year = {2024},
date = {2024},
journal = {Discourse Processes},
abstract = {

The comprehension of connectives is crucial for understanding the discourse relations that make up a text. We studied connective comprehension in English to investigate whether adult comprehenders acquire the meaning and intended use of connectives to a similar extent and how connective features and individual differences impact connective comprehension. A coherence judgment study indicated that differences in how well people comprehend connectives depend on the lexical transparency but not on the frequency of the connective. Furthermore, individual variation between participants can be explained by their vocabulary size, nonverbal IQ, and cognitive reasoning style. Print exposure was not found to be relevant. These findings provide further insight into the factors that influence discourse processing and highlight the need to consider individual differences in discourse comprehension research as well as the need to examine a wider range of connectives in empirical studies of discourse markers.

},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   B2

Krielke, Marie-Pauline

Cross-linguistic Dependency Length Minimization in scientific language: Syntactic complexity reduction in English and German in the Late Modern period Journal Article

Languages in Contrast, 24, pp. 133 - 163, 2024, ISSN 1387-6759.

We use Universal Dependencies (UD) for the study of cross-linguistic diachronic syntactic complexity reduction. Specifically, we look at whether and how scientific English and German minimize the length of syntactic dependency relations in the Late Modern period (ca. 1650–1900). Our linguistic analysis follows the assumption that over time, scientific discourse cross-linguistically develops towards an increasingly efficient syntactic code by minimizing Dependency Length (DL) as a factor of syntactic complexity. For each language, we analyse a large UD-annotated scientific and general language corpus for comparison. While on a macro level, our analysis suggests that there is an overall diachronic cross-linguistic and cross-register reduction in Average Dependency Length (ADL), on the micro level we find that only scientific language shows a sentence length independent reduction of ADL, while general language shows an overall decrease of ADL due to sentence length reduction. We further analyse the syntactic constructions responsible for this reduction in both languages, showing that both scientific English and German increasingly make use of short, intra-phrasal dependency relations while long dependency relations such as clausal embeddings become rather disfavoured over time.

@article{Krielke-2024,
title = {Cross-linguistic Dependency Length Minimization in scientific language: Syntactic complexity reduction in English and German in the Late Modern period},
author = {Marie-Pauline Krielke},
url = {https://www.jbe-platform.com/content/journals/10.1075/lic.00038.kri},
doi = {https://doi.org/10.1075/lic.00038.kri},
year = {2024},
date = {2024},
journal = {Languages in Contrast},
pages = {133 - 163},
volume = {24},
number = {1},
abstract = {

We use Universal Dependencies (UD) for the study of cross-linguistic diachronic syntactic complexity reduction. Specifically, we look at whether and how scientific English and German minimize the length of syntactic dependency relations in the Late Modern period (ca. 1650–1900). Our linguistic analysis follows the assumption that over time, scientific discourse cross-linguistically develops towards an increasingly efficient syntactic code by minimizing Dependency Length (DL) as a factor of syntactic complexity. For each language, we analyse a large UD-annotated scientific and general language corpus for comparison. While on a macro level, our analysis suggests that there is an overall diachronic cross-linguistic and cross-register reduction in Average Dependency Length (ADL), on the micro level we find that only scientific language shows a sentence length independent reduction of ADL, while general language shows an overall decrease of ADL due to sentence length reduction. We further analyse the syntactic constructions responsible for this reduction in both languages, showing that both scientific English and German increasingly make use of short, intra-phrasal dependency relations while long dependency relations such as clausal embeddings become rather disfavoured over time.

},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   B1

Mosbach, Marius

Analyzing pre-trained and fine-tuned language models PhD Thesis

Saarländische Universitäts- und Landesbibliothek, Saarland University, Saarbruecken, Germany, 2024.

The field of natural language processing (NLP) has recently undergone a paradigm shift. Since the introduction of transformer-based language models in 2018, the current generation of natural language processing models continues to demonstrate impressive capabilities on a variety of academic benchmarks and real-world applications. This paradigm shift is based on a simple but general pipeline which consists of pre-training neural language models on large quantities of text, followed by an adaptation step that fine-tunes the pre-trained model to perform a specific NLP task of interest. Despite the impressive progress on academic benchmarks and the widespread deployment of pre-trained and fine-tuned language models in industry, these models do not come without shortcomings which often have immediate consequences for the robustness and generalization of fine-tuned language models. Moreover, these shortcomings demonstrate that we still lack a fundamental understanding of how and why pre-trained and fine-tuned language models work as well as the individual steps of the pipeline that produce them. This thesis makes several contributions towards improving our understanding of pre-trained and fine-tuned language models by carrying out a detailed analysis of various parts of the modern NLP pipeline. Our contributions range from analyzing the linguistic knowledge of pre-trained language models and how it is affected by fine-tuning, to a rigorous analysis of the fine-tuning process itself and how the choice of adaptation technique affects the generalization of models. Overall, we provide new insights about previously unexplained phenomena and the capabilities of pre-trained and fine-tuned language models.


Im Bereich der Verarbeitung natürlicher Sprache (NLP) hat sich ein Paradigmenwechsel vollzogen. Seit der Einführung von transformer-basierten Sprachmodellen im Jahr 2018 zeigt die aktuelle Generation neuronaler Sprachverarbeitungsmodelle beeindruckende Fähigkeiten bei einer Vielzahl von akademischen Benchmarks und realen Anwendungen. Dieser Paradigmenwechsel basiert auf einer einfachen, aber allgemeinen Pipeline, die aus dem Vortrainieren von neuronalen Sprachmodellen auf großen Textmengen besteht, gefolgt von einem Anpassungsschritt, der das vortrainierte Modell modifiziert, um eine bestimmte NLP-Aufgabe durchzuführen. Trotz des beeindruckenden Fortschritts bei akademischen Benchmarks und des weit verbreiteten Einsatzes von vortrainierten und angepassten Sprachmodellen in der Industrie sind diese Modelle nicht ohne Mängel, und oft haben diese Mängel unmittelbare Auswirkungen auf die Robustheit und Generalisierung der Sprachmodelle. Darüber hinaus zeigen sie, dass uns einerseits noch immer ein grundlegendes Verständnis dafür fehlt, wie und warum vortrainierte und angepasste Sprachmodelle funktionieren, andererseits fehlt ein grundlegendes Verständnis der einzelnen Schritte der Pipeline. Diese Arbeit leistet mehrere Beiträge zur Verbesserung unseres Verständnisses von vortrainierten und angepassten Sprachmodellen, indem sie eine detaillierte Analyse verschiedener Teile der modernen NLP-Pipeline durchführt. Unsere Beiträge reichen von der Analyse des linguistischen Wissens von vortrainierten Sprachmodellen und wie dieses durch die Anpassung beeinflusst wird bis hin zu einer rigorosen Analyse des Anpassungsprozesses selbst und wie die Wahl der Anpassungstechnik die Generalisierung von Modellen beeinflusst, und liefern insgesamt neue Erkenntnisse über bisher unerklärte Phänomene und Fähigkeiten von vortrainierten und angepassten Sprachmodellen.

@phdthesis{Mosbach-2024-Thesis,
title = {Analyzing pre-trained and fine-tuned language models},
author = {Marius Mosbach},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/37254},
doi = {https://doi.org/10.22028/D291-41531},
year = {2024},
date = {2024-02-19},
school = {Saarland University},
publisher = {Saarl{\"a}ndische Universit{\"a}ts- und Landesbibliothek},
address = {Saarbruecken, Germany},
abstract = {The field of natural language processing (NLP) has recently undergone a paradigm shift. Since the introduction of transformer-based language models in 2018, the current generation of natural language processing models continues to demonstrate impressive capabilities on a variety of academic benchmarks and real-world applications. This paradigm shift is based on a simple but general pipeline which consists of pre-training neural language models on large quantities of text, followed by an adaptation step that fine-tunes the pre-trained model to perform a specific NLP task of interest. Despite the impressive progress on academic benchmarks and the widespread deployment of pre-trained and fine-tuned language models in industry, these models do not come without shortcomings which often have immediate consequences for the robustness and generalization of fine-tuned language models. Moreover, these shortcomings demonstrate that we still lack a fundamental understanding of how and why pre-trained and fine-tuned language models work as well as the individual steps of the pipeline that produce them. This thesis makes several contributions towards improving our understanding of pre-trained and fine-tuned language models by carrying out a detailed analysis of various parts of the modern NLP pipeline. Our contributions range from analyzing the linguistic knowledge of pre-trained language models and how it is affected by fine-tuning, to a rigorous analysis of the fine-tuning process itself and how the choice of adaptation technique affects the generalization of models. Overall, we provide new insights about previously unexplained phenomena and the capabilities of pre-trained and fine-tuned language models.


Im Bereich der Verarbeitung nat{\"u}rlicher Sprache (NLP) hat sich ein Paradigmenwechsel vollzogen. Seit der Einf{\"u}hrung von transformer-basierten Sprachmodellen im Jahr 2018 zeigt die aktuelle Generation neuronaler Sprachverarbeitungsmodelle beeindruckende F{\"a}higkeiten bei einer Vielzahl von akademischen Benchmarks und realen Anwendungen. Dieser Paradigmenwechsel basiert auf einer einfachen, aber allgemeinen Pipeline, die aus dem Vortrainieren von neuronalen Sprachmodellen auf gro{\ss}en Textmengen besteht, gefolgt von einem Anpassungsschritt, der das vortrainierte Modell modifiziert, um eine bestimmte NLP-Aufgabe durchzuf{\"u}hren. Trotz des beeindruckenden Fortschritts bei akademischen Benchmarks und des weit verbreiteten Einsatzes von vortrainierten und angepassten Sprachmodellen in der Industrie sind diese Modelle nicht ohne M{\"a}ngel, und oft haben diese M{\"a}ngel unmittelbare Auswirkungen auf die Robustheit und Generalisierung der Sprachmodelle. Dar{\"u}ber hinaus zeigen sie, dass uns einerseits noch immer ein grundlegendes Verst{\"a}ndnis daf{\"u}r fehlt, wie und warum vortrainierte und angepasste Sprachmodelle funktionieren, andererseits fehlt ein grundlegendes Verst{\"a}ndnis der einzelnen Schritte der Pipeline. Diese Arbeit leistet mehrere Beitr{\"a}ge zur Verbesserung unseres Verst{\"a}ndnisses von vortrainierten und angepassten Sprachmodellen, indem sie eine detaillierte Analyse verschiedener Teile der modernen NLP-Pipeline durchf{\"u}hrt. Unsere Beitr{\"a}ge reichen von der Analyse des linguistischen Wissens von vortrainierten Sprachmodellen und wie dieses durch die Anpassung beeinflusst wird bis hin zu einer rigorosen Analyse des Anpassungsprozesses selbst und wie die Wahl der Anpassungstechnik die Generalisierung von Modellen beeinflusst, und liefern insgesamt neue Erkenntnisse {\"u}ber bisher unerkl{\"a}rte Ph{\"a}nomene und F{\"a}higkeiten von vortrainierten und angepassten Sprachmodellen.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   B4

Aurnhammer, Christoph

Expectation-based retrieval and integration in language comprehension PhD Thesis

Saarländische Universitäts- und Landesbibliothek, Saarland University, Saarbruecken, Germany, 2024.

To understand language, comprehenders must retrieve the meaning associated with the words they perceive from memory and they must integrate retrieved word meanings into a representation of utterance meaning. During incremental comprehension, both processes are constrained by what has been understood so far and hence are expectation-based mechanisms. Psycholinguistic experiments measuring the electrical activity of the brain have provided key evidence that may elucidate how the language comprehension system organises and implements expectation-based retrieval and integration. However, the field has converged neither on a generally accepted formalisation of these processes nor on their mapping to the two most salient components of the event-related potential signal, the N400 and the P600. Retrieval-Integration theory offers a mechanistic account of the underpinnings of language comprehension and posits that retrieval is indexed by the N400 and integration is indexed by the P600. Following these core assumptions, this thesis demonstrates the expectation-based nature of language comprehension in which both retrieval (N400) and integration (P600) are influenced by expectations derived from an incrementally constructed utterance meaning representation. Critically, our results also indicate that lexical association to the preceding context modulates the N400 but not the P600, affirming the relation of the N400 to retrieval, rather than to integration. Zooming in on the role of integration, we reveal an important novel dimension to the interpretation of the P600 by demonstrating that P600 amplitude — and not N400 amplitude — is continuously related to utterance meaning plausibility. Finally, we examine the single-trial dynamics of retrieval and integration, establishing that words that are more effortful to retrieve tend to be more effortful to integrate, as evidenced by a within-trial correlation of N400 and P600 amplitude. These results are in direct opposition to traditional and more recent proposals arguing that (1) the N400 indexes integration processes, (2) integration — as indexed by the N400 — is merely “quasi-compositional”, and (3) the P600 is a reflection of conflicting interpretations generated in a multi-stream architecture. Rather, our findings indicate that (1) integration is continuously indexed by the P600, (2) integration is fully compositional, and (3) a single-stream architecture in which the N400 continuously indexes retrieval and the P600 continuously indexes integration is sufficient to account for the key ERP data. We conclude that retrieval and integration are two central mechanisms underlying language processing and that the N400 and the P600 should be considered part of the default ERP signature of utterance comprehension. Future study of expectation-based language processing should adopt a comprehension-centric view on expectancy and hence focus on integration effort, as indexed by the P600.


Um Sprache zu verstehen, müssen Menschen die Bedeutung einzelner Worte abrufen und sie müssen die Bedeutungen dieser Worte in eine Bedeutungsrepräsentation der Äußerung integrieren. Diese Prozesse erfolgen inkrementell: Mehr oder weniger jedes wahrgenommene Wort eines Satzes wird sofort einem Bedeutungsabrufungsprozess unterzogen und die abgerufene Wortbedeutung wird in die Äußerungsbedeutung integriert. Die inkrementelle Sprachverarbeitung ist dabei nicht allein von den wahrgenommen Informationen bestimmt sondern stark erwartungsbasiert: Das bislang Verstandene weckt Erwartungen darüber, was als nächstes kommuniziert wird. Zum Beispiel erleichtert das Verarbeiten des Teilsatzes „Gestern schärfte der Holzfäller die …“ die Bedeutungsabrufung und Bedeutungsintegration für das Wort „Axt“ (Beispiel aus Kapitel 3). Lautet der Teilsatz jedoch „Gestern aß der Holzfäller die …“ sollte keine Erleichterung für Abrufung und Integration desWortes „Axt“ gegeben sein. Zentraler Baustein hierfür ist die inkrementell erstellte Bedeutungsrepräsentation des Teilsatzes. Die Teilsatzbedeutung kann mögliche zukünftigeWortbedeutungen voraktivieren und dadurch deren Abrufung erleichtern. Ebenso kann die bislang erstellte Bedeutung der Äußerung die Integration vonWortbedeutungen in die angepasste Äußerungsbedeutung erleichtern, wenn die neuen Informationen dem Weltwissen gemäß erwartbar sind. Der Einfluss der Bedeutungsrepräsentation einer Äußerung auf Abrufung und Integration lässt sich mit dem generellen Begriff der Erwartbarkeit eines Wortes beschreiben. Diese Dissertation fußt auf der Annahme, dass das Sprachverständnis maßgeblich durch die erwartungsbasierten Prozesse der Bedeutungsabrufung und Bedeutungsintegration geprägt ist. Wenn diese beiden Prozesse tatsächlich maßgebliche Bestandteile des Sprachverständnisses sind, stellt sich die Frage, wie der kognitive Aufwand der Abrufung und der Integration gemessen werden kann. Ein vielversprechender Ansatz um zu verstehen, wie Menschen Bedeutung abrufen und integrieren, wäre es, die „Hardware“, welche diese kognitiven Prozesse implementiert – nämlich das menschliche Gehirn – direkt zu messen, während Versuchspersonen Sprache verarbeiten. In der Tat wurden entscheidende Erkenntnisse über das Wie und Wann des Sprachverständnisses im Gehirn durch die Messung ereigniskorrelierter Potentiale (EKP) gewonnen. EKP werden aus dem Elektroenzephalogramm (EEG) berechnet und offenbaren die auf der Kopfhaut gemessene elektrische Aktivität des Gehirns im Verlauf der Zeit nach der Präsentation eines Stimulus. In den Experimenten, welche für diese Arbeit durchgeführt wurden, werden als Stimuli einzelne Worte, welche zusammen einen Satz formen, präsentiert. Dadurch lässt sich zum Beispiel das EKP erwartbarerWorte mit jenem nicht erwartbarer Worte vergleichen („Gestern [schärfte/aß] der Holzfäller die Axt“). Unterschiede in der Erwartbarkeit eines Wortes gehen im EKP – unter anderem – mit Unterschieden in der Amplitude sogenannter EKP-Komponenten, zeitlich abgegrenzter Teile des EKPs, einher. Zwei EKP-Komponenten haben im Besonderen zu wichtigen Erkenntnissen für die Erforschung des Sprachverständnisses geführt: Die N400-Komponente, ein negativer Ausschlag des EKPs, welcher etwa 400 Millisekunden nach der Präsentation eines Stimulus seine maximale Amplitude erreicht, und die P600-Komponente, eine anhaltende, positive Abweichung des Signals, welche etwa ab 600 Millisekunden nach der Präsentation des Stimulus sichtbar wird. Seit der Entdeckung dieser EKP-Komponenten hat die elektrophysiologische Forschung die Sensitivität beider Komponenten hinsichtlich verschiedener sprachlicher sowie nicht-sprachlicher Variablen untersucht. Trotz der Vielzahl der EKP-Resultate, welche innerhalb der Sprachverarbeitungsforschung vorgelegt wurden, ist das Forschungsfeld weder bei einer allgemein anerkannten formellen Beschreibung der zum Sprachverständnis notwendigen Prozesse (z.B. Abrufung und Integration) noch zu einer unumstrittenen Zuordnung dieser Prozesse zu EKPKomponenten (z.B. N400 und P600) angelangt. Die daraus resultierende Ungewissheit behindert Fortschritte in der Beschreibung der neurokognitiven Implementation des Sprachverständnisses, was in der Konsequenz die effektive Entwicklung experimenteller Sprachstudien sowie deren eindeutige Auswertung erschwert. Zur Lösung dieses Problems können komputationale Modelle des Sprachverständnisprozesses entwickelt werden, welche, erstens, die enthaltenen Prozesse (z.B. Abrufung und Integration) mit mathematischer Genauigkeit beschreiben. Aufgrund dieser exakten Beschreibungen können dann, zweitens, explizite und überprüfbare Vorhersagen für neuronale Indikatoren (z.B. N400 und P600) getroffen werden. Die zu Anfang ausgeführte Beschreibung des Sprachverarbeitungsprozesses durch die Funktionen der Bedeutungsabrufung und der Bedeutungsintegration entspricht dem komputationalem Retrieval-Integration-Modells der Elektrophysiologie des Sprachverständnisses (Brouwer et al., 2017; Brouwer et al., 2012, kurz RI-Modell). Gemäß dem RI-Modell indiziert die Amplitude der N400 die kognitive Leistung beim Abrufen von Wortbedeutungen, wobei negativere Werte höherem Aufwand entsprechen. Die Amplitude der P600 wird als Index der kognitiven Leistung bei der Beudeutungsintegration betrachtet, wobei positivere Werte höherem Aufwand entsprechen. Das Ziel dieser Dissertation ist es, spezifische Vorhersagen des RIModells empirisch zu validieren, wobei diese mit alternativen Interpretationen der N400 und P600 sowie mit alternativen Modellen verglichen werden. Zu diesem Zwecke werden zunächst die EKP-Methode sowie wegweisende Resultate zusammengefasst (Kapitel 2). Basierend auf diesem Überblick werden die funktionalen Interpretationen der N400 und P600 sowie deren Rolle in Modellen der Elektrophysiologie der Sprachverarbeitung nachgezeichnet. Dem folgen drei Studien, welche entscheidende Hypothesen des RI-Modells empirisch untersuchen. Die erste Hypothese betrifft die zentrale Rolle, welche die erwartungsbasierte Sprachverarbeitung innerhalb des RI-Modells einnimmt: Der Aufwand sowohl von Abrufung als auch von Integration sollte stark durch die Erwartbarkeit eines Wortes moduliert werden. Neue erhobene EKP-Daten zeigen (Kapitel 3), dass unerwartete Worte tatsächlich sowohl die N400 als auch die P600 modulieren („Gestern [schärfte/aß] der Holzfäller […] die Axt“). Die gleichzeitige Modulation von N400 und P600 bedeutet jedoch, dass aufgrund dieser Daten alleine nicht entschieden werden kann, welchem Prozess – Abrufung oder Integration – die beiden EKPKomponenten entsprechen. Um dieses Problem zu lösen, wurde zusätzlich eine Manipulation der lexikalischen Assoziation vorgenommen („Gestern [schärfte/aß] der Holzfäller, [bevor er das Holz stapelte/bevor er den Film schaute], die Axt“). Der eingeschobene, assoziierte Nebensatz („bevor er das Holz stapelte“) sollte die Wortbedeutung des Zielwortes („Axt“) voraktivieren und dadurch dessen Abrufung zusätzlich erleichtern, jedoch ohne dabei Einfluss auf den Aufwand der Bedeutungsintegration zu nehmen. Die Ergebnisse zeigen, dass die Präsentation lexikalisch assoziierter Worte zu einer weiteren Reduktion der N400 führt, aber keinen Einfluss auf die P600 hat, was darauf hindeutet, dass die N400 Bedeutungsabrufung indiziert, während die P600 eindeutig der Bedeutungsintegration zuordenbar ist. Nachfolgend wurden Verhaltensstudien durchgeführt, in denen Lesezeiten gemessen wurden, welche ermitteln, wie lange Leser auf einzelnen Worten verweilen, was Aufschluss über den kognitiven Aufwand bei der Sprachverarbeitung geben kann. Diese Verhaltensdaten ähneln den Modulationsmustern der P600, was eine direkte Verbindung von Lesezeiten und der P600 mit dem Aufwand bei der Wortintegration nahelegt. Modulationen der Lesezeiten durch lexikalische Assoziation fielen kürzer und weniger reliabel aus, was es möglich erscheinen lässt, dass die etablierte Verbindung von Lesezeiten zur N400 nur korrelativ sein könnte. In der Summe stützen die erhobenen Lesezeitdaten die oben ausgeführte Interpretation der EKP Daten. Eine zentrale Vorhersage des RI-Modells ist, dass die P600-Komponente von jedem Wort innerhalb einer Äußerung erzeugt wird und dass die Amplitude der P600 kontinuierlich den Aufwand der Integration indiziert. Als Teil dieser Dissertation werden erstmals EKP-Daten, welche diese Hypothese unterstützen, präsentiert. Eine post-hoc Analyse der EKP-Daten des ersten Experiments zeigt, dass sowohl die N400 als auch die P600 bei Zielworten der Kontrollkondition, welche keiner Manipulation unterlag, graduell mit der Erwartbarkeit des Zielwortes variieren. Dies würde nahelegen, dass die P600 nicht allein durch eindeutig unplausible Sätze hervorgerufen wird, sondern tatsächlich einen kontinuierlichen Index des Integrationsaufwandes darstellt. Die zweite experimentelle Studie ist speziell der Erforschung dieser Hypothese gewidmet (Kapitel 4). In diesem Experiment wird zunächst ein Kontextparagraph präsentiert, welcher den Beginn einer kurzen Geschichte enthält: „Ein Tourist wollte seinen riesigen Koffer mit in das Flugzeug nehmen. Der Koffer war allerdings so schwer, dass die Dame am Check-in entschied, dem Touristen eine extra Gebühr zu berechnen. Daraufhin öffnete der Tourist seinen Koffer und warf einige Sachen hinaus. Somit wog der Koffer des einfallsreichen Touristen weniger als das Maximum von 30 Kilogramm.“ Diesem Kontextparagraphen folgen abschließende Sätze, in welchen das Zielwort („Tourist“) plausibel, weniger plausibel, oder implausibel ist („Dann [verabschiedete / wog / unterschrieb] die Dame den Touristen…“). Eine zuerst durchgeführte Verhaltensstudie zeigt Verlangsamungen der Lesezeit als Funktion der Plausibilität, was die erfolgreiche Manipulation der Stimuli unterstreicht. Die Ergebnisse der danach durchgeführten EKP-Studie demonstrieren eindeutig, dass die Amplitude der P600 kontinuierlich als Funktion der Plausibilität variiert. Das experimentelle Design erlaubt zudem die Interpretation der N400 als Index der Bedeutungsabrufung zu überprüfen: Die wiederholte Präsentation des Zielwortes im vorangegangenen Kontextparagraph sollte die Bedeutungsabrufung in allen drei Konditionen gleichermaßen erleichtern – unabhängig von Unterschieden in der Plausibilität. In der Tat zeigen die EKP-Daten keinerlei Modulation der N400, was also die Zuordnung dieser EKP-Komponente zum Abrufungsprozess stützt. Zusätzlich testet dieses Design die Vorhersagen einer Gruppe von alternativen Modellen des Sprachverständnisses, sogenannten Multi-Stream-Modellen. Multi- Stream-Modelle sagen eine verstärkte N400 für eine Kondition („Dann unterschrieb die Dame den Tourist“) und eine verstärkte P600 für eine andere Kondition („Dann wog die Dame den Tourist“) vorher. Dies ist abhängig davon, ob der implausible Satz eine alternative, plausible Interpretation nahelegt („Dann wog die Dame den Koffer“ anstelle von „Dann wog die Dame den Touristen“) oder nicht („Dann unterschrieb die Dame den Koffer“). Da keine der Konditionen eine verstärkte N400 hervorruft, wurde die Vorhersage der Multi-Stream-Modelle durch dieses zweite Experiment falsifiziert. Stattdessen bestätigen die Ergebnisse die Vorhersagen des Single- Stream RI-Modells und stellen starke Evidenzen für die Interpretation der P600 als kontinuierlichen Index der Bedeutungsintegration bereit. Aus der Architektur des RI-Modells und der Erkenntnis, dass sowohl Bedeutungsabrufung als auch Bedeutungsintegration stark erwartungsbasiert sind, folgt eine weitere Vorhersage: Die Amplitude der N400 (je negativer die Amplitude desto höher der Abrufungsaufwand) und die Amplitude der P600 (je positiver die Amplitude desto höher der Integrationsaufwand) müssen negativ korreliert sein. Auf Prozessebene bedeutet dies: Worte, welche mehr Bedeutungsabrufung erfordern, sollten generell auch schwieriger zu integrieren sein. Diese Vorhersage steht wiederum im Kontrast zu Multi-Stream-Modellen, welche vorhersagen, dass durch jedes Wort entweder eine Verstärkung der N400 oder der P600 produziert werden sollte. Diese unterschiedlichen Hypothesen werden in neuen statistischen Analysen zuvor erhobener EKP-Daten überprüft (Kapitel 5). Die Resultate zeigen erstmals, dass die Amplituden der N400 und der P600 auf der Ebene einzelner EEG-Signale – und nicht nur auf der Ebene von durchschnittlichen EKP – korreliert sind. Diese Ergebnisse stärken damit weiter das RI-Modell und sind schwer mit der Architektur eines Multi-Stream-Modells zu vereinbaren. Zusammengefasst zeigt diese Doktorarbeit die separierbaren Einflüsse von lexikalischer Assoziation und Erwartbarkeit auf die N400. Die P600 wird dagegen nicht durch lexikalische Assoziationen moduliert, sondern reagiert darauf, wie stark die Satzbedeutung als Funktion der Erwartbarkeit und Plausibilität angepasst werden muss. Dabei ist die P600 keine kategorische Reaktion auf implausible Stimuli, sondern stellt einen kontinuierlichen Index des Bedeutungsintegrationsaufwandes dar. Des Weiteren konnte gezeigt werden, dass graduelle Modulationen der N400 und der P600 innerhalb einzelner EEG-Signale korrelieren, was auf die Organisation der erwartungsbasierten Prozesse Abrufung und Integration in einer Single- Stream-Architektur hindeutet. Für beide experimentellen Designs wurden neben EKP-Daten auch Lesezeitdaten erhoben, welche im Kontext verständnisbasierter Erwartbarkeit eine direkte Verbindung von Lesezeiten mit der P600 nahelegen. Die Ergebnisse dieser Dissertation sind unvereinbar mit traditionellen sowie neueren Theorien, welche argumentieren, dass die N400 Aspekte der Bedeutungsintegration indiziert. Im Speziellen widersprechen die Ergebnisse mehreren Schlüsselhypothesen von Multi-Stream-Modellen, welche aussagen, dass die N400 strukturunsensible Integration indiziert, während die P600 Konflikte zwischen strukturunsensibler und struktursensibler Integration widerspiegelt. Stattdessen lassen sich die Resultate mit wesentlich weniger Annahmen durch das Single-Stream-Modell der Retrieval-Integration-Theorie erklären (siehe Diskussion in Kapitel 6). Demnach fußt das Sprachverständnis imWesentlichen auf den Mechanismen der Bedeutungsabrufung sowie der Bedeutungsintegration, welche im EKP-Signal als N400- und P600-Komponente messbar sind. Beide Komponenten werden standardmäßig durch jedes Wort einer Äußerung hervorgerufen, wobei ihre Amplituden kontinuierlich den kognitiven Aufwand der Bedeutungsabrufung (N400) sowie der Bedeutungsintegration (P600) indizieren. Basierend auf den Ergebnissen dieser Dissertation ziehe ich den Schluss, dass eine an Erkenntnissen über das Sprachverständnis interessierte Forschung der P600 zentrale Bedeutung beimessen sollte. Anhang A enthält eine theorieneutrale Abhandlung über die rERP Methode (Smith & Kutas, 2015a), einem statistischen Analyseverfahren, welches in der gesamten Dissertation zur Auswertung von EKP- und Lesezeitdaten zum Einsatz kommt. Alle Daten und sämtlicher Code, welche zur Reproduktion der Analysen und Graphiken dieser Arbeit, einschließlich des Anhangs, notwendig sind, werden im Thesis Repository bereitgestellt (https://www.github.com/caurnhammer/ AurnhammerThesis). Jedwede Studien, welche mit menschlichen Partizipanten durchgeführt wurden, erhielten eine Ethik-Zulassung durch die Deutsche Gesellschaft für Sprachwissenschaft (DGfS). Teile dieser Arbeit basieren auf Veröffentlichungen in wissenschaftlichen Journalen (Kapitel 3: Aurnhammer et al., 2021; Kapitel 4: Aurnhammer, Delogu, et al., 2023; Kapitel 5: Aurnhammer, Crocker, and Brouwer, 2023).

@phdthesis{aurnhammer2024thesis,
title = {Expectation-based retrieval and integration in language comprehension},
author = {Christoph Aurnhammer},
url = {https://doi.org/10.22028/D291-41500},
doi = {https://doi.org/10.22028/D291-41500},
year = {2024},
date = {2024},
school = {Saarland University},
publisher = {Saarl{\"a}ndische Universit{\"a}ts- und Landesbibliothek},
address = {Saarbruecken, Germany},
abstract = {To understand language, comprehenders must retrieve the meaning associated with the words they perceive from memory and they must integrate retrieved word meanings into a representation of utterance meaning. During incremental comprehension, both processes are constrained by what has been understood so far and hence are expectation-based mechanisms. Psycholinguistic experiments measuring the electrical activity of the brain have provided key evidence that may elucidate how the language comprehension system organises and implements expectation-based retrieval and integration. However, the field has converged neither on a generally accepted formalisation of these processes nor on their mapping to the two most salient components of the event-related potential signal, the N400 and the P600. Retrieval-Integration theory offers a mechanistic account of the underpinnings of language comprehension and posits that retrieval is indexed by the N400 and integration is indexed by the P600. Following these core assumptions, this thesis demonstrates the expectation-based nature of language comprehension in which both retrieval (N400) and integration (P600) are influenced by expectations derived from an incrementally constructed utterance meaning representation. Critically, our results also indicate that lexical association to the preceding context modulates the N400 but not the P600, affirming the relation of the N400 to retrieval, rather than to integration. Zooming in on the role of integration, we reveal an important novel dimension to the interpretation of the P600 by demonstrating that P600 amplitude — and not N400 amplitude — is continuously related to utterance meaning plausibility. Finally, we examine the single-trial dynamics of retrieval and integration, establishing that words that are more effortful to retrieve tend to be more effortful to integrate, as evidenced by a within-trial correlation of N400 and P600 amplitude. These results are in direct opposition to traditional and more recent proposals arguing that (1) the N400 indexes integration processes, (2) integration — as indexed by the N400 — is merely “quasi-compositional”, and (3) the P600 is a reflection of conflicting interpretations generated in a multi-stream architecture. Rather, our findings indicate that (1) integration is continuously indexed by the P600, (2) integration is fully compositional, and (3) a single-stream architecture in which the N400 continuously indexes retrieval and the P600 continuously indexes integration is sufficient to account for the key ERP data. We conclude that retrieval and integration are two central mechanisms underlying language processing and that the N400 and the P600 should be considered part of the default ERP signature of utterance comprehension. Future study of expectation-based language processing should adopt a comprehension-centric view on expectancy and hence focus on integration effort, as indexed by the P600.


Um Sprache zu verstehen, m{\"u}ssen Menschen die Bedeutung einzelner Worte abrufen und sie m{\"u}ssen die Bedeutungen dieser Worte in eine Bedeutungsrepr{\"a}sentation der {\"A}u{\ss}erung integrieren. Diese Prozesse erfolgen inkrementell: Mehr oder weniger jedes wahrgenommene Wort eines Satzes wird sofort einem Bedeutungsabrufungsprozess unterzogen und die abgerufene Wortbedeutung wird in die {\"A}u{\ss}erungsbedeutung integriert. Die inkrementelle Sprachverarbeitung ist dabei nicht allein von den wahrgenommen Informationen bestimmt sondern stark erwartungsbasiert: Das bislang Verstandene weckt Erwartungen dar{\"u}ber, was als n{\"a}chstes kommuniziert wird. Zum Beispiel erleichtert das Verarbeiten des Teilsatzes „Gestern sch{\"a}rfte der Holzf{\"a}ller die ...“ die Bedeutungsabrufung und Bedeutungsintegration f{\"u}r das Wort „Axt“ (Beispiel aus Kapitel 3). Lautet der Teilsatz jedoch „Gestern a{\ss} der Holzf{\"a}ller die ...“ sollte keine Erleichterung f{\"u}r Abrufung und Integration desWortes „Axt“ gegeben sein. Zentraler Baustein hierf{\"u}r ist die inkrementell erstellte Bedeutungsrepr{\"a}sentation des Teilsatzes. Die Teilsatzbedeutung kann m{\"o}gliche zuk{\"u}nftigeWortbedeutungen voraktivieren und dadurch deren Abrufung erleichtern. Ebenso kann die bislang erstellte Bedeutung der {\"A}u{\ss}erung die Integration vonWortbedeutungen in die angepasste {\"A}u{\ss}erungsbedeutung erleichtern, wenn die neuen Informationen dem Weltwissen gem{\"a}{\ss} erwartbar sind. Der Einfluss der Bedeutungsrepr{\"a}sentation einer {\"A}u{\ss}erung auf Abrufung und Integration l{\"a}sst sich mit dem generellen Begriff der Erwartbarkeit eines Wortes beschreiben. Diese Dissertation fu{\ss}t auf der Annahme, dass das Sprachverst{\"a}ndnis ma{\ss}geblich durch die erwartungsbasierten Prozesse der Bedeutungsabrufung und Bedeutungsintegration gepr{\"a}gt ist. Wenn diese beiden Prozesse tats{\"a}chlich ma{\ss}gebliche Bestandteile des Sprachverst{\"a}ndnisses sind, stellt sich die Frage, wie der kognitive Aufwand der Abrufung und der Integration gemessen werden kann. Ein vielversprechender Ansatz um zu verstehen, wie Menschen Bedeutung abrufen und integrieren, w{\"a}re es, die „Hardware“, welche diese kognitiven Prozesse implementiert – n{\"a}mlich das menschliche Gehirn – direkt zu messen, w{\"a}hrend Versuchspersonen Sprache verarbeiten. In der Tat wurden entscheidende Erkenntnisse {\"u}ber das Wie und Wann des Sprachverst{\"a}ndnisses im Gehirn durch die Messung ereigniskorrelierter Potentiale (EKP) gewonnen. EKP werden aus dem Elektroenzephalogramm (EEG) berechnet und offenbaren die auf der Kopfhaut gemessene elektrische Aktivit{\"a}t des Gehirns im Verlauf der Zeit nach der Pr{\"a}sentation eines Stimulus. In den Experimenten, welche f{\"u}r diese Arbeit durchgef{\"u}hrt wurden, werden als Stimuli einzelne Worte, welche zusammen einen Satz formen, pr{\"a}sentiert. Dadurch l{\"a}sst sich zum Beispiel das EKP erwartbarerWorte mit jenem nicht erwartbarer Worte vergleichen („Gestern [sch{\"a}rfte/a{\ss}] der Holzf{\"a}ller die Axt“). Unterschiede in der Erwartbarkeit eines Wortes gehen im EKP – unter anderem – mit Unterschieden in der Amplitude sogenannter EKP-Komponenten, zeitlich abgegrenzter Teile des EKPs, einher. Zwei EKP-Komponenten haben im Besonderen zu wichtigen Erkenntnissen f{\"u}r die Erforschung des Sprachverst{\"a}ndnisses gef{\"u}hrt: Die N400-Komponente, ein negativer Ausschlag des EKPs, welcher etwa 400 Millisekunden nach der Pr{\"a}sentation eines Stimulus seine maximale Amplitude erreicht, und die P600-Komponente, eine anhaltende, positive Abweichung des Signals, welche etwa ab 600 Millisekunden nach der Pr{\"a}sentation des Stimulus sichtbar wird. Seit der Entdeckung dieser EKP-Komponenten hat die elektrophysiologische Forschung die Sensitivit{\"a}t beider Komponenten hinsichtlich verschiedener sprachlicher sowie nicht-sprachlicher Variablen untersucht. Trotz der Vielzahl der EKP-Resultate, welche innerhalb der Sprachverarbeitungsforschung vorgelegt wurden, ist das Forschungsfeld weder bei einer allgemein anerkannten formellen Beschreibung der zum Sprachverst{\"a}ndnis notwendigen Prozesse (z.B. Abrufung und Integration) noch zu einer unumstrittenen Zuordnung dieser Prozesse zu EKPKomponenten (z.B. N400 und P600) angelangt. Die daraus resultierende Ungewissheit behindert Fortschritte in der Beschreibung der neurokognitiven Implementation des Sprachverst{\"a}ndnisses, was in der Konsequenz die effektive Entwicklung experimenteller Sprachstudien sowie deren eindeutige Auswertung erschwert. Zur L{\"o}sung dieses Problems k{\"o}nnen komputationale Modelle des Sprachverst{\"a}ndnisprozesses entwickelt werden, welche, erstens, die enthaltenen Prozesse (z.B. Abrufung und Integration) mit mathematischer Genauigkeit beschreiben. Aufgrund dieser exakten Beschreibungen k{\"o}nnen dann, zweitens, explizite und {\"u}berpr{\"u}fbare Vorhersagen f{\"u}r neuronale Indikatoren (z.B. N400 und P600) getroffen werden. Die zu Anfang ausgef{\"u}hrte Beschreibung des Sprachverarbeitungsprozesses durch die Funktionen der Bedeutungsabrufung und der Bedeutungsintegration entspricht dem komputationalem Retrieval-Integration-Modells der Elektrophysiologie des Sprachverst{\"a}ndnisses (Brouwer et al., 2017; Brouwer et al., 2012, kurz RI-Modell). Gem{\"a}{\ss} dem RI-Modell indiziert die Amplitude der N400 die kognitive Leistung beim Abrufen von Wortbedeutungen, wobei negativere Werte h{\"o}herem Aufwand entsprechen. Die Amplitude der P600 wird als Index der kognitiven Leistung bei der Beudeutungsintegration betrachtet, wobei positivere Werte h{\"o}herem Aufwand entsprechen. Das Ziel dieser Dissertation ist es, spezifische Vorhersagen des RIModells empirisch zu validieren, wobei diese mit alternativen Interpretationen der N400 und P600 sowie mit alternativen Modellen verglichen werden. Zu diesem Zwecke werden zun{\"a}chst die EKP-Methode sowie wegweisende Resultate zusammengefasst (Kapitel 2). Basierend auf diesem {\"U}berblick werden die funktionalen Interpretationen der N400 und P600 sowie deren Rolle in Modellen der Elektrophysiologie der Sprachverarbeitung nachgezeichnet. Dem folgen drei Studien, welche entscheidende Hypothesen des RI-Modells empirisch untersuchen. Die erste Hypothese betrifft die zentrale Rolle, welche die erwartungsbasierte Sprachverarbeitung innerhalb des RI-Modells einnimmt: Der Aufwand sowohl von Abrufung als auch von Integration sollte stark durch die Erwartbarkeit eines Wortes moduliert werden. Neue erhobene EKP-Daten zeigen (Kapitel 3), dass unerwartete Worte tats{\"a}chlich sowohl die N400 als auch die P600 modulieren („Gestern [sch{\"a}rfte/a{\ss}] der Holzf{\"a}ller [...] die Axt“). Die gleichzeitige Modulation von N400 und P600 bedeutet jedoch, dass aufgrund dieser Daten alleine nicht entschieden werden kann, welchem Prozess – Abrufung oder Integration – die beiden EKPKomponenten entsprechen. Um dieses Problem zu l{\"o}sen, wurde zus{\"a}tzlich eine Manipulation der lexikalischen Assoziation vorgenommen („Gestern [sch{\"a}rfte/a{\ss}] der Holzf{\"a}ller, [bevor er das Holz stapelte/bevor er den Film schaute], die Axt“). Der eingeschobene, assoziierte Nebensatz („bevor er das Holz stapelte“) sollte die Wortbedeutung des Zielwortes („Axt“) voraktivieren und dadurch dessen Abrufung zus{\"a}tzlich erleichtern, jedoch ohne dabei Einfluss auf den Aufwand der Bedeutungsintegration zu nehmen. Die Ergebnisse zeigen, dass die Pr{\"a}sentation lexikalisch assoziierter Worte zu einer weiteren Reduktion der N400 f{\"u}hrt, aber keinen Einfluss auf die P600 hat, was darauf hindeutet, dass die N400 Bedeutungsabrufung indiziert, w{\"a}hrend die P600 eindeutig der Bedeutungsintegration zuordenbar ist. Nachfolgend wurden Verhaltensstudien durchgef{\"u}hrt, in denen Lesezeiten gemessen wurden, welche ermitteln, wie lange Leser auf einzelnen Worten verweilen, was Aufschluss {\"u}ber den kognitiven Aufwand bei der Sprachverarbeitung geben kann. Diese Verhaltensdaten {\"a}hneln den Modulationsmustern der P600, was eine direkte Verbindung von Lesezeiten und der P600 mit dem Aufwand bei der Wortintegration nahelegt. Modulationen der Lesezeiten durch lexikalische Assoziation fielen k{\"u}rzer und weniger reliabel aus, was es m{\"o}glich erscheinen l{\"a}sst, dass die etablierte Verbindung von Lesezeiten zur N400 nur korrelativ sein k{\"o}nnte. In der Summe st{\"u}tzen die erhobenen Lesezeitdaten die oben ausgef{\"u}hrte Interpretation der EKP Daten. Eine zentrale Vorhersage des RI-Modells ist, dass die P600-Komponente von jedem Wort innerhalb einer {\"A}u{\ss}erung erzeugt wird und dass die Amplitude der P600 kontinuierlich den Aufwand der Integration indiziert. Als Teil dieser Dissertation werden erstmals EKP-Daten, welche diese Hypothese unterst{\"u}tzen, pr{\"a}sentiert. Eine post-hoc Analyse der EKP-Daten des ersten Experiments zeigt, dass sowohl die N400 als auch die P600 bei Zielworten der Kontrollkondition, welche keiner Manipulation unterlag, graduell mit der Erwartbarkeit des Zielwortes variieren. Dies w{\"u}rde nahelegen, dass die P600 nicht allein durch eindeutig unplausible S{\"a}tze hervorgerufen wird, sondern tats{\"a}chlich einen kontinuierlichen Index des Integrationsaufwandes darstellt. Die zweite experimentelle Studie ist speziell der Erforschung dieser Hypothese gewidmet (Kapitel 4). In diesem Experiment wird zun{\"a}chst ein Kontextparagraph pr{\"a}sentiert, welcher den Beginn einer kurzen Geschichte enth{\"a}lt: „Ein Tourist wollte seinen riesigen Koffer mit in das Flugzeug nehmen. Der Koffer war allerdings so schwer, dass die Dame am Check-in entschied, dem Touristen eine extra Geb{\"u}hr zu berechnen. Daraufhin {\"o}ffnete der Tourist seinen Koffer und warf einige Sachen hinaus. Somit wog der Koffer des einfallsreichen Touristen weniger als das Maximum von 30 Kilogramm.“ Diesem Kontextparagraphen folgen abschlie{\ss}ende S{\"a}tze, in welchen das Zielwort („Tourist“) plausibel, weniger plausibel, oder implausibel ist („Dann [verabschiedete / wog / unterschrieb] die Dame den Touristen...“). Eine zuerst durchgef{\"u}hrte Verhaltensstudie zeigt Verlangsamungen der Lesezeit als Funktion der Plausibilit{\"a}t, was die erfolgreiche Manipulation der Stimuli unterstreicht. Die Ergebnisse der danach durchgef{\"u}hrten EKP-Studie demonstrieren eindeutig, dass die Amplitude der P600 kontinuierlich als Funktion der Plausibilit{\"a}t variiert. Das experimentelle Design erlaubt zudem die Interpretation der N400 als Index der Bedeutungsabrufung zu {\"u}berpr{\"u}fen: Die wiederholte Pr{\"a}sentation des Zielwortes im vorangegangenen Kontextparagraph sollte die Bedeutungsabrufung in allen drei Konditionen gleicherma{\ss}en erleichtern - unabh{\"a}ngig von Unterschieden in der Plausibilit{\"a}t. In der Tat zeigen die EKP-Daten keinerlei Modulation der N400, was also die Zuordnung dieser EKP-Komponente zum Abrufungsprozess st{\"u}tzt. Zus{\"a}tzlich testet dieses Design die Vorhersagen einer Gruppe von alternativen Modellen des Sprachverst{\"a}ndnisses, sogenannten Multi-Stream-Modellen. Multi- Stream-Modelle sagen eine verst{\"a}rkte N400 f{\"u}r eine Kondition („Dann unterschrieb die Dame den Tourist“) und eine verst{\"a}rkte P600 f{\"u}r eine andere Kondition („Dann wog die Dame den Tourist“) vorher. Dies ist abh{\"a}ngig davon, ob der implausible Satz eine alternative, plausible Interpretation nahelegt („Dann wog die Dame den Koffer“ anstelle von „Dann wog die Dame den Touristen“) oder nicht („Dann unterschrieb die Dame den Koffer“). Da keine der Konditionen eine verst{\"a}rkte N400 hervorruft, wurde die Vorhersage der Multi-Stream-Modelle durch dieses zweite Experiment falsifiziert. Stattdessen best{\"a}tigen die Ergebnisse die Vorhersagen des Single- Stream RI-Modells und stellen starke Evidenzen f{\"u}r die Interpretation der P600 als kontinuierlichen Index der Bedeutungsintegration bereit. Aus der Architektur des RI-Modells und der Erkenntnis, dass sowohl Bedeutungsabrufung als auch Bedeutungsintegration stark erwartungsbasiert sind, folgt eine weitere Vorhersage: Die Amplitude der N400 (je negativer die Amplitude desto h{\"o}her der Abrufungsaufwand) und die Amplitude der P600 (je positiver die Amplitude desto h{\"o}her der Integrationsaufwand) m{\"u}ssen negativ korreliert sein. Auf Prozessebene bedeutet dies: Worte, welche mehr Bedeutungsabrufung erfordern, sollten generell auch schwieriger zu integrieren sein. Diese Vorhersage steht wiederum im Kontrast zu Multi-Stream-Modellen, welche vorhersagen, dass durch jedes Wort entweder eine Verst{\"a}rkung der N400 oder der P600 produziert werden sollte. Diese unterschiedlichen Hypothesen werden in neuen statistischen Analysen zuvor erhobener EKP-Daten {\"u}berpr{\"u}ft (Kapitel 5). Die Resultate zeigen erstmals, dass die Amplituden der N400 und der P600 auf der Ebene einzelner EEG-Signale – und nicht nur auf der Ebene von durchschnittlichen EKP – korreliert sind. Diese Ergebnisse st{\"a}rken damit weiter das RI-Modell und sind schwer mit der Architektur eines Multi-Stream-Modells zu vereinbaren. Zusammengefasst zeigt diese Doktorarbeit die separierbaren Einfl{\"u}sse von lexikalischer Assoziation und Erwartbarkeit auf die N400. Die P600 wird dagegen nicht durch lexikalische Assoziationen moduliert, sondern reagiert darauf, wie stark die Satzbedeutung als Funktion der Erwartbarkeit und Plausibilit{\"a}t angepasst werden muss. Dabei ist die P600 keine kategorische Reaktion auf implausible Stimuli, sondern stellt einen kontinuierlichen Index des Bedeutungsintegrationsaufwandes dar. Des Weiteren konnte gezeigt werden, dass graduelle Modulationen der N400 und der P600 innerhalb einzelner EEG-Signale korrelieren, was auf die Organisation der erwartungsbasierten Prozesse Abrufung und Integration in einer Single- Stream-Architektur hindeutet. F{\"u}r beide experimentellen Designs wurden neben EKP-Daten auch Lesezeitdaten erhoben, welche im Kontext verst{\"a}ndnisbasierter Erwartbarkeit eine direkte Verbindung von Lesezeiten mit der P600 nahelegen. Die Ergebnisse dieser Dissertation sind unvereinbar mit traditionellen sowie neueren Theorien, welche argumentieren, dass die N400 Aspekte der Bedeutungsintegration indiziert. Im Speziellen widersprechen die Ergebnisse mehreren Schl{\"u}sselhypothesen von Multi-Stream-Modellen, welche aussagen, dass die N400 strukturunsensible Integration indiziert, w{\"a}hrend die P600 Konflikte zwischen strukturunsensibler und struktursensibler Integration widerspiegelt. Stattdessen lassen sich die Resultate mit wesentlich weniger Annahmen durch das Single-Stream-Modell der Retrieval-Integration-Theorie erkl{\"a}ren (siehe Diskussion in Kapitel 6). Demnach fu{\ss}t das Sprachverst{\"a}ndnis imWesentlichen auf den Mechanismen der Bedeutungsabrufung sowie der Bedeutungsintegration, welche im EKP-Signal als N400- und P600-Komponente messbar sind. Beide Komponenten werden standardm{\"a}{\ss}ig durch jedes Wort einer {\"A}u{\ss}erung hervorgerufen, wobei ihre Amplituden kontinuierlich den kognitiven Aufwand der Bedeutungsabrufung (N400) sowie der Bedeutungsintegration (P600) indizieren. Basierend auf den Ergebnissen dieser Dissertation ziehe ich den Schluss, dass eine an Erkenntnissen {\"u}ber das Sprachverst{\"a}ndnis interessierte Forschung der P600 zentrale Bedeutung beimessen sollte. Anhang A enth{\"a}lt eine theorieneutrale Abhandlung {\"u}ber die rERP Methode (Smith & Kutas, 2015a), einem statistischen Analyseverfahren, welches in der gesamten Dissertation zur Auswertung von EKP- und Lesezeitdaten zum Einsatz kommt. Alle Daten und s{\"a}mtlicher Code, welche zur Reproduktion der Analysen und Graphiken dieser Arbeit, einschlie{\ss}lich des Anhangs, notwendig sind, werden im Thesis Repository bereitgestellt (https://www.github.com/caurnhammer/ AurnhammerThesis). Jedwede Studien, welche mit menschlichen Partizipanten durchgef{\"u}hrt wurden, erhielten eine Ethik-Zulassung durch die Deutsche Gesellschaft f{\"u}r Sprachwissenschaft (DGfS). Teile dieser Arbeit basieren auf Ver{\"o}ffentlichungen in wissenschaftlichen Journalen (Kapitel 3: Aurnhammer et al., 2021; Kapitel 4: Aurnhammer, Delogu, et al., 2023; Kapitel 5: Aurnhammer, Crocker, and Brouwer, 2023).},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A1

Meßmer, Julia; Bader, Regine; Mecklinger, Axel

Schema-congruency supports the formation of unitized representations: Evidence from event-related potentials Journal Article

Neuropsychologia, 194, pp. 108782, 2024, ISSN 0028-3932.

The main goal of the present study was to investigate whether schema-based encoding of novel word pairs (i.e., novel compound words) supports the formation of unitized representations and thus, associative familiarity-based recognition. We report two experiments that both comprise an incidental learning task, in which novel noun-noun compound words were presented in semantically congruent contexts, enabling schema-supported processing of both constituents, contrasted with a schema-neutral condition. In Experiment 1, the effects of schema congruency on memory performance were larger for associative memory performance than for item memory performance in a memory test in which intact, recombined, and new compound words had to be discriminated. This supports the view that schema congruency boosts associative memory by promoting unitization. When contrasting event-related potentials (ERPs) for hits with correct rejections or associative misses, an N400 attenuation effect (520–676 ms) indicating absolute familiarity was present in the congruent condition, but not in the neutral condition. In line with this, a direct comparison of ERPs on hits across conditions revealed more positive waveforms in the congruent than in the neutral condition. This suggests that absolute familiarity contributes to associative recognition memory when schema-supported processing is established. In Experiment 2, we tested whether schema congruency enables the formation of semantically overlapping representations. Therefore, we included semantically similar lure compound words in the test phase and compared false alarm rates to these lures across conditions. In line with our hypothesis, we found higher false alarm rates in the congruent as compared to the neutral condition. In conclusion, we provide converging evidence for the view that schema congruency enables the formation of unitized representations and supports familiarity-based memory retrieval.

    @article{MEMER2024108782,
    title = {Schema-congruency supports the formation of unitized representations: Evidence from event-related potentials},
    author = {Julia Me{\ss}mer and Regine Bader and Axel Mecklinger},
    url = {https://www.sciencedirect.com/science/article/pii/S0028393223003160},
    doi = {https://doi.org/10.1016/j.neuropsychologia.2023.108782},
    year = {2024},
    date = {2024},
    journal = {Neuropsychologia},
    pages = {108782},
    volume = {194},
    abstract = {The main goal of the present study was to investigate whether schema-based encoding of novel word pairs (i.e., novel compound words) supports the formation of unitized representations and thus, associative familiarity-based recognition. We report two experiments that both comprise an incidental learning task, in which novel noun-noun compound words were presented in semantically congruent contexts, enabling schema-supported processing of both constituents, contrasted with a schema-neutral condition. In Experiment 1, the effects of schema congruency on memory performance were larger for associative memory performance than for item memory performance in a memory test in which intact, recombined, and new compound words had to be discriminated. This supports the view that schema congruency boosts associative memory by promoting unitization. When contrasting event-related potentials (ERPs) for hits with correct rejections or associative misses, an N400 attenuation effect (520–676 ms) indicating absolute familiarity was present in the congruent condition, but not in the neutral condition. In line with this, a direct comparison of ERPs on hits across conditions revealed more positive waveforms in the congruent than in the neutral condition. This suggests that absolute familiarity contributes to associative recognition memory when schema-supported processing is established. In Experiment 2, we tested whether schema congruency enables the formation of semantically overlapping representations. Therefore, we included semantically similar lure compound words in the test phase and compared false alarm rates to these lures across conditions. In line with our hypothesis, we found higher false alarm rates in the congruent as compared to the neutral condition. In conclusion, we provide converging evidence for the view that schema congruency enables the formation of unitized representations and supports familiarity-based memory retrieval.

      },
      pubstate = {published},
      type = {article}
      }

      Copy BibTeX to Clipboard

      Project:   A6

      Marchal, Marian

      Searching for signals : readers' sensitivity to signals for discourse relations PhD Thesis

      Saarland University, Saarbruecken, Germany, 2024.

      For comprehension to be successful, readers and listeners need to understand the meaning of individual words and sentences, but also have to know how these words and sentences are related to each other. That is, comprehenders need to establish a coherent mental representation of the discourse (Sanders et al., 1992; Zwaan & Rapp, 2006; Van den Broek, 2010). Discourse relations, which refer to the relations between segments in a text (Hobbs, 1979; Sanders et al., 1992; Zufferey & Degand, 2024), are an important part of such a mental representation. Readers and listeners can infer these relations based on linguistic information (e.g. connectives) as well as extra-linguistic information (e.g. world knowledge). This dissertation set out to investigate to what extent readers use these different types of information. Specifically, we examined four factors that could influence how readers exploit linguistic signals for discourse relations: characteristics of the linguistic signal, of the discourse relation, of the reader and of the language. Connectives, such as because or but, are the most salient linguistic signals for discourse relations and have been shown to help readers to process the discourse relation (e.g. Cozijn et al., 2011; Kleijn et al., 2019; Köhne-Fuetterer et al., 2021). However, most relations are signaled by linguistic cues other than connectives (cf. Das & Taboada, 2018b) and much less is known about whether readers exploit these signals. We discuss five features in which connective and non-connective cues differ and argue that readers’ sensitivity to linguistic signals depends on the salience and informativeness of the cue. Furthermore, we extend previous research on the role of linguistic cues in discourse relation processing, by investigating a non-lexical signal of discourse relations, showing that such a cue can influence readers’ off-line expectations about upcoming discourse relations. Secondly, to what extent readers rely on linguistic information may depend on the discourse relation. Discourse relations have been shown differ with respect to their processing difficulty (e.g. Sanders & Noordman, 2000). In line with the causality-by-default hypothesis (Sanders, 2005), we find evidence that the presence of a connective facilitates reading more in non-causal than in causal relations. In addition, we show that the processing difficulty of a relation is dependent on how predictable the relation type and its content is. However, we do not find evidence that predictability of the relation influences whether readers rely on the presence of a connective. Thirdly, we provide evidence that readers draw on their domain knowledge when inferring discourse relations. The availability of domain knowledge was also found to influence whether readers can exploit non-connective signals for discourse relations, since these signals sometimes require domain knowledge. Finally, we explored whether the use of non-linguistic signals depends on language typology. We hypothesized that speakers of synthetic languages would rely more on the presence of linguistic signals for discourse relations than speakers of analytic languages, but find no evidence for this. In sum, readers draw on both linguistic and non-linguistic information to establish a coherent mental representation. In addition, the research in this dissertation shows that the extent to which readers exploit linguistic cues depends on characteristics of the signal, the discourse relation and the reader. By investigating the processes involved in establishing coherence, this research provides theoretical insights into language understanding and human cognition, but can also inform research on how to improve readers’ text comprehension as well as the readability of texts.


      Sprache ist ein zentraler Aspekt des täglichen Lebens. Wir verwenden Sprache, um unseren Freunden Witze zu erzählen, den Ideen eines Freundes zuzuhören, einen Artikel über die letzten Wahlen zu lesen und eine E-Mail von einem Kollegen zu beantworten. Diese Vorgänge scheinen uns oft mühelos, aber Sprache zu produzieren und zu verstehen ist ein komplizierter Prozess, und eine Fähigkeit, die nur dem Menschen eigen ist. Um zum Beispiel einen geschriebenen Satz zu verstehen, muss man nicht nur eine Abfolge an Buchstaben in sinnvolle Wörter entschlüsseln, sondern auch verstehen, wie diese Wörter strukturiert sind, um einen sinnvollen Satz zu bilden. Bei längeren Textausschnitten, die auch als Diskurs bezeichnet werden, müssen die Leser außerdem verstehen, wie die verschiedenen Sätze miteinander in Relation stehen und wie die im Text beschriebenen Konzepte mit dem vorhandenen Weltwissen zusammenhängen. Erst dann ergibt der Diskurs einen Sinn. Theorien des Diskursverständnisses gehen davon aus, dass Leser und Hörer eine mentale Repräsentation des Textes aufbauen. Damit das Verstehen erfolgreich ist, muss diese mentale Repräsentation kohärent sein (Hobbs, 1979; Sanders et al., 1992; Kehler, 2006). Dies bedeutet dass die Teilaspekte der mentalen Repräsentation auf sinnvolle Weise miteinander verbunden sein sollten. Selbst wenn die Teilaspekte eines Textes scheinbar nicht miteinander verbunden sind, versuchen die Leser dennoch, Kohärenz herzustellen (Hobbs, 1979). Betrachten Sie den folgenden Diskurs: Anna fährt mit dem Fahrrad zur Arbeit. Sie liebt Pizza. Auf den ersten Blick ergibt das keinen Sinn, aber der Leser wird trotzdem versuchen, diesen Text zu verstehen. Er könnte annehmen, dass Annas Vorliebe für Pizza dazu geführt hat, dass sie in letzter Zeit sehr viel gegessen hat und nun versucht, diese Kalorien auszugleichen, indem sie mit dem Fahrrad zur Arbeit fährt. So hat er Kohärenz hergestellt, indem er hergeleitet hat, wie diese Sätze zusammenhängen: Annas Liebe zu Pizza ist der Grund, warum sie mit dem Fahrrad zur Arbeit fährt. Diese Relationen zwischen Sätzen in einem Diskurs bzw. ihre mentalen Repräsentationen werden als Diskursrelationen bezeichnet (Sanders et al., 1992; Zufferey & Degand, 2024) und die Teile der Diskursrelation werden Argumente genannt. Diskursrelationen sind der Schwerpunkt der Forschung in dieser Dissertation. Wie stellen die Leser Kohärenz her? Eine Möglichkeit, wie Leser dies tun, ist die Verwendung sprachlicher Signale. Die auffälligsten Signale für Diskursrelationen sind Konnektive wie weil, aber und deshalb. Sie wurden ausgiebig erforscht und frühere Arbeiten haben gezeigt, dass sie Lesern helfen, die Diskursrelation zu verarbeiten (z.B., Cozijn et al., 2011), bevorstehendes Material vorherzusagen (z.B., Köhne-Fuetterer et al., 2021) und einen Text besser zu verstehen (z.B., Kleijn et al., 2019). Es gibt jedoch auch andere Anhaltspunkte, die dem Leser helfen können, eine Relation zwischen den Sätzen zu erkennen. Zur Veranschaulichung: Im Diskurs Anna liebt Pizza. John hasst sie. sind die Verben Antonyme, die signalisieren, dass die beiden Sätze im Gegensatz zueinander stehen. Im Vergleich zu Konnektiven ist über die Rolle dieser nicht-konnektiven Signale bei der Verarbeitung und dem Verständnis von Diskurs weit weniger bekannt. Schließlich könnten die Leser auf ihr Hintergrundwissen zurückgreifen, um die Relation zu verstehen. Zum Beispiel in dem Diskurs Anna wurde sehr braun. Sie fuhr in den Urlaub nach Griechenland. kann die kausale Relation zwischen Bräunung und Urlaub in Griechenland aus dem Wissen abgeleitet werden, dass Griechenland im Allgemeinen sehr sonnig ist. Leser können also sprachliche und außersprachliche Informationsquellen nutzen, um daraus zu schließen, wie die Teile eines Diskurses zusammenhängen. Es ist jedoch noch unklar, ob Menschen dies immer tun. Verlassen sich zum Beispiel Sprecher verschiedener Sprachen in ähnlicher Weise auf Konnektive als Hinweise auf die Diskursrelation? Und nutzen Leser auch nicht-konnektive Signale, um Kohärenz herzustellen? In dieser Dissertation wurde daher untersucht, welche Faktoren die Sensibilität der Leser für sprachliche Signale von Diskursrelationen beeinflussen. Genauer gesagt wurden vier Faktoren untersucht, die Einfluss darauf haben könnten, wie Leser sprachliche Informationen über Diskursrelationen nutzen: Merkmale des Signals, der Diskursrelation, des Lesers und der Sprache. Zur Untersuchung dieser Faktoren präsentieren wir einen Überblick über frühere Arbeiten sowie vier empirische Studien. Kapitel 3 gibt einen Überblick über die bisherige Literatur zur Natur sprachlicher Signale und ihrer Rolle bei der mentalen Repräsentation und Verarbeitung, um zu untersuchen, wie die Eigenschaften des Signals die Sensibilität der Leser für das Signal beeinflussen. Wir definieren Diskursrelationssignal als jedwedes sprachliche Element, das Informationen über die Diskursrelation liefert. Wir zeigen, dass sich diese Signale in Bezug auf verschiedene Merkmale unterscheiden. So sind einige Diskurssignale, wie z.B. Konnektive, auf die Signalisierung von Diskursrelationen spezialisiert und tragen nicht zu den Wahrheitsbedingungen der Argumente bei. Andere Diskurssignale, wie Antonyme, liefern nicht nur Informationen über die Diskursrelation, sondern haben auch propositionale Bedeutung. Zweitens sind einige Signale informativer darüber, welche Diskursrelation signalisiert wird, als andere. Zum Beispiel wird weil nur in kausalen result-Relationen verwendet, während gleichzeitig sowohl in zeitlichen synchronous- als auch in negativen contrast-Relationen verwendet werden kann. Drittens unterscheiden sich Diskurssignale darin, ob ihre Form kontextabhängig ist. Konnektive werden grammatikalisiert und sind daher unveränderlich, wohingegen ganze Phrasen wie aus diesem Grund, wegen des Wetters oder Antonyme durchaus veränderlich sind. Viertens: Die bisherigen Beispiele für Diskurssignale sind alle lexikalisch. Dies muss jedoch nicht der Fall sein. Es ist bekannt, dass auch die syntaktische Struktur (Crible & Pickering, 2020) und die Prosodie (Hu et al., 2023) Unterschiede zwischen den Relationstypen signalisieren. Schließlich haben sprachliche Signale, die nicht auf die Signalisierung der Diskursrelation spezialisiert sind, eine andere primäre Bedeutung. Diese Bedeutung kann der der Diskursrelation ähnlich sein, wie z.B. die Negation im Fall von contrast-Relationen, sie kann aber auch unabhängig davon sein (wie im Fall bestimmter syntaktischer Strukturen). Auf der Grundlage von Erkenntnissen aus der bisherigen Literatur argumentieren wir, dass diese Eigenschaften beeinflussen, wie empfindlich Leser auf das sprachliche Signal reagieren. Je auffälliger und informativer das Diskurssignal ist, desto stärker ist seine Wirkung auf die Diskursverarbeitung und -repräsentation. Diese Hypothese wird durch die Ergebnisse von zwei empirischen Studien gestützt. In Kapitel 6 untersuchten wir die Sensibilität der Leser für einen nicht-spezialisierten, nicht-lexikalischen Hinweis auf Diskursrelationen: freie Gerundien. Freie Gerundien sind Nebensätze, die mit einem Partizip Präsens beginnen, wie in Painting his house, Mo wore an old sweater. (Mo trug beim Streichen seines Hauses einen alten Pullover.) Eine Korpusuntersuchung zeigt, dass freie Gerundien häufig in result-Relationen vorkommen. Darüber hinaus erwarteten die Leser mehr result-Relationen, wenn sie in einer Fortsetzungsaufgabe ein freies Gerundium vorfanden. Wir fanden jedoch keine Hinweise darauf, dass die Leser bei anderen Aufgaben auf diese Art von Signalen reagieren. Bei einer Aufgabe zur Auswahl von Paraphrasen hing die Präferenz der Leser für freie Gerundien nicht von der Art der Relation (d. h. result oder specification) ab. Darüber hinaus zeigte ein self-paced reading Experiment nicht, dass das Vorhandensein eines freien Gerundiums beim Lesen von result-Relationen förderlich ist. Diese Ergebnisse stehen im Gegensatz zu denen aus Kapitel 5, die zeigen, dass das Vorhandensein eines Konnektivs zu einer schnelleren Verarbeitung von result-Relationen führt. Im Gegensatz zu freien Gerundien sind Konnektive jedoch informativere und speziellere Signale, die zudem unveränderlich und lexikalisch sind. In Kapitel 4 haben wir untersucht, wie die Sensibilität der Leser für Konnektive von den Eigenschaften der Diskursrelation abhängt. Genauer gesagt haben wir zweiself-paced reading Experimente durchgeführt, in denen wir den erleichternden Effekt des Vorhandenseins eines Konnektivs in result-Relationen mit contrast-Relationen (Experiment 1) und mit concession-Relationen (Experiment 2) verglichen haben. Entgegen unseren Erwartungen, die wir aus früheren Arbeiten ableiten konnten, fanden wir in Experiment 1 keinen Effekt des Konnektivs für eine der beiden Relationen, was möglicherweise auf methodische Limitationen zurückzuführen ist. In Experiment 2 wurde die Relation jedoch schneller gelesen, wenn ein Konnektiv vorhanden war, im Vergleich dazu wenn es nicht vorhanden war. Dieser Effekt hing vom Relationstyp ab. Genauer gesagt erleichterte das Konnektiv das Lesen bei concession-Relationen, nicht aber bei result-Relationen. Dies deutet darauf hin, dass sich die Leser mehr auf ein Konnektiv verlassen, wenn die Relation ohne das Konnektiv schwieriger zu erschließen ist. Bei result-Relationen könnten die Leser zu dieser Interpretation gelangen, unabhängig davon, ob ein Konnektiv (vgl. causality-by-default hypothesis Sanders, 2005) vorhanden ist. In den Experimenten in Kapitel 4 wurde auch untersucht, ob die Wirkung eines Konnektivs unterschiedlich auf das Lesen im Deutschen im Vergleich zum Englischen ist (d. h. Eigenschaften der Sprache). Synthetische Sprachen, wie das Deutsche, haben mehr Flexionsmorphologie und ein höheres Morphem-Wort-Verhältnis als analytische Sprachen, wie das Englische. So kodiert das Deutsche, nicht aber das Englische, Unterschiede zwischen der ersten und zweiten Person bei Verben und dem Kasus bei Substantiven. In synthetischen Sprachen ist die Bedeutung häufiger im sprachlichen Signal kodiert, während Sprecher analytischer Sprachen die Bedeutung häufiger aus dem Kontext erschließen müssen. Wir stellten daher die Hypothese auf, dass Sprecher des Deutschen stärker auf das Vorhandensein eines Konnektivs reagieren würden als Sprecher des Englischen (Blumenthal-Dramé, 2021). Wir fanden jedoch in keinem der beiden Experimente Belege für diese Hypothese. In Kapitel 5 haben wir untersucht, ob die Sensibilität der Leser für das Vorhandensein eines Konnektivs von einer anderen Eigenschaft der Relation, der Vorhersagbarkeit der Relation, abhängt. Frühere Studien haben gezeigt, während des Verstehens von Sprache ständig Vorhersagen getroffen werden (z.B. Altmann & Kamide, 1999; Heilbron et al., 2022) und dass die Verarbeitungsschwierigkeit eines Wortes proportional zu seiner Unerwartetheit ist (vgl. Levy, 2008; Wilcox et al., 2023). Wir untersuchten, ob dies auch für die Verarbeitung von Diskursrelationen gilt. Genauer gesagt untersuchten wir zwei Arten von Unerwartetheit: die des Relationstyps (d. h., ob die Relation ein result war oder nicht) und die des Inhalts der Relation. Zur Veranschaulichung: Wenn man Angela hatte monatelang die Miete nicht bezahlt liest, könnten die Leser Erwartungen darüber haben, ob der Sprecher als nächstes darüber sprechen wird, warum Angela die Miete nicht bezahlt hat (d. h. eine reason-Relation) oder darüber, was die Konsequenzen dieses Zahlungsrückstands sind (d. h. eine result-Relation). Mit anderen Worten, sie sagen den Relationstyp voraus. Darüber hinaus könnten Leser vorhersagen, was solche Folgen sein könnten (z.B. der Besuch eines verärgerten Vermieters oder eine Zwangsräumung). Dabei handelt es sich um eine Vorhersage über den Inhalt der Relation. Wir stellten die Hypothese auf, dass die Schwierigkeit der Verarbeitung von Angela wurde zwangsgeräumt proportional zur Unerwartetheit des Relationstyps und des Inhalts angesichts des Kontexts sein würde. Darüber hinaus wollten wir untersuchen, ob dies den erleichternden Effekt des Konnektivs erklären würde: Das Konnektiv könnte die Unerwartetheit des bevorstehenden Relationstyps und -inhalts verringern und damit die Verarbeitungsschwierigkeiten reduzieren. In einem Experiment zur Satzvervollständigung konnten wir tatsächlich zeigen, dass result-Relationen eher erwartet werden, wenn ein Konnektiv vorhanden ist, und dass dies den Lesern hilft, genauere Vorhersagen über den Inhalt zu treffen. In einem anschließenden self-paced reading Experiment und Eye-Tracking fanden wir Hinweise darauf, dass vorhersehbare Inhalte schneller gelesen werden. Wenn die Relation result erwarteter war, wurde die Relation ebenfalls schneller gelesen, aber nur, wenn diese genauere Vorhersagen über den Inhalt ermöglichte. Überraschenderweise stellten wir fest, dass first-pass Lesezeiten bei vorhersehbareren result-Relationen länger waren, wenn man andere Arten von Unerwartetheit (z.B. über die Inhalt des Relations) berücksichtigt. Möglicherweise wollen die Leser ihre Vorhersage über die Art der Relation bestätigen, wenn sich ihre Vorhersage über den Inhalt nicht bestätigte. Darüber hinaus war der erleichternde Effekt des Konnektivs unabhängig von den Auswirkungen der Unerwartetheit. Zusammengefasst fanden wir keine Hinweise darauf, dass die Sensibilität der Leser für das Vorhandensein eines Konnektivs davon abhängt, wie vorhersehbar der Relationstyp oder der Inhalt ist. In Kapitel 7 wurde untersucht, ob und wie die Eigenschaften des Lesers an sich einen Einfluss darauf haben, ob er sprachliche Signale ausnutzt. Genauer gesagt fragten wir ob Fachwissen die Interpretation von Diskursrelationen und die Nutzung sprachlicher Signale durch den Leser beeinflusst. Wir baten Experten aus den Bereichen Biomedizin und Wirtschaft Konnektive in Texte aus ihrer eigenen Domäne (z.B. biomedizinische Experten, die biomedizinische Forschungsarbeiten lesen) und aus der anderen Domäne (z.B. biomedizinische Experten, die Wirtschaftszeitungen lesen) einzufügen. Diese Konnektive wurden in Relationsklassen eingeteilt, um ihre Genauigkeit bei der Ableitung der Zielrelation zu untersuchen. Biomedizinische Experten waren bei der Ableitung von Relationen in biomedizinischen Texten erfolgreicher als Wirtschaftsexperten, was zeigt, dass die Leser ihr Fachwissen nutzen, um Diskursrelationen abzuleiten. Bei der Interpretation von Relationen in den Wirtschaftszeitungen wurde kein solcher Unterschied festgestellt, wahrscheinlich weil diese sich an ein breiteres Publikum richten als biomedizinische Forschungsarbeiten. Wenn die Relation nicht auf der Grundlage des vorhandenen Wissens abgeleitet werden kann, nehmen die Leser unspezifizierte Interpretationen vor. Darüber hinaus zeigen wir, dass Leser sprachliche Signale für Diskursrelationen nutzen, aber dass solche Hinweise manchmal Fachwissen erfordern. Um zum Beispiel zu verstehen, dass zwei Begriffe Antonyme sind, müssen die Leser zunächst wissen, was diese Begriffe bedeuten. Doch selbst wenn diese Signale nur allgemeines Wissen erfordern, nutzten Leser mit geringen Kenntnissen sie nicht immer. Dies deutet darauf hin, dass nicht-konnektive Signale vom Leser nur genutzt werden um bereits bestehende Interpretationen von Diskursrelationen zu bestätigen. Die Untersuchungen in dieser Dissertation liefern wertvolle Einblicke in verschiedene Theorien der Sprachverarbeitung. Zunächst einmal zeigen die Ergebnisse in Bezug auf die Diskursverarbeitung, dass Leser sowohl sprachliche (Konnektive und nichtkonnektive Signale) als auch außersprachliche Informationsquellen (Hintergrundwissen) nutzen, um Kohärenz herzustellen. Wir zeigen auch, dass die Sensibilität der Leser für Signale von Diskursrelationen von den Eigenschaften des Signals, der Relation und auch des Lesers selbst abhängt. So ist die Wirkung eines sprachlichen Signals stärker, wenn es auffälliger und informativer ist, die Relation nicht kausal ist und der Leser sich auf vorhandenes Wissen verlassen kann, um die Bedeutung des Signals zu bestätigen. Zweitens leisten die hier vorgestellten Untersuchungen einen Beitrag zu informationstheoretischen Konzepten der Sprachverarbeitung, indem sie zeigen, dass die Unerwartetheit des Inhalts und der Diskursstruktur die Verarbeitungsschwierigkeiten beeinflussen, aber nicht die erleichternde Wirkung des Konnektivs erklären. Drittens leistet die vorliegende Dissertation einen Beitrag zur Forschung über statistisches Lernen, indem sie aufzeigt, dass Leser sich der Korrelationen zwischen syntaktischer Struktur und Bedeutung auf Diskursebene bewusst sind. Viertens zeigt die Arbeit im Hinblick auf die Forschung zu individuellen Unterschieden, dass die Interpretation von Diskursrelationen und die Verwendung von sprachlichen Signalen vom Hintergrundwissen der Leser abhängt. Fünftens erweitern wir die sprachübergreifende Forschung zur Sprachverarbeitung und stellen fest, dass es sprachübergreifende Ähnlichkeiten bei der Verwendung von Konnektiven zur Verarbeitung von Diskursrelationen gibt. Schliesslich unterstreicht diese Dissertation auch die Bedeutung konvergenter Evidenz, indem sie zeigt, dass die Kombination von verschiedenen wissenschaftlichen Methoden die Theoriebildung erleichtern kann.

      @phdthesis{Marchal_Diss_2024,
      title = {Searching for signals : readers' sensitivity to signals for discourse relations},
      author = {Marian Marchal},
      url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/40058},
      doi = {https://doi.org/20.500.11880/40058},
      year = {2024},
      date = {2024},
      school = {Saarland University},
      address = {Saarbruecken, Germany},
      abstract = {For comprehension to be successful, readers and listeners need to understand the meaning of individual words and sentences, but also have to know how these words and sentences are related to each other. That is, comprehenders need to establish a coherent mental representation of the discourse (Sanders et al., 1992; Zwaan & Rapp, 2006; Van den Broek, 2010). Discourse relations, which refer to the relations between segments in a text (Hobbs, 1979; Sanders et al., 1992; Zufferey & Degand, 2024), are an important part of such a mental representation. Readers and listeners can infer these relations based on linguistic information (e.g. connectives) as well as extra-linguistic information (e.g. world knowledge). This dissertation set out to investigate to what extent readers use these different types of information. Specifically, we examined four factors that could influence how readers exploit linguistic signals for discourse relations: characteristics of the linguistic signal, of the discourse relation, of the reader and of the language. Connectives, such as because or but, are the most salient linguistic signals for discourse relations and have been shown to help readers to process the discourse relation (e.g. Cozijn et al., 2011; Kleijn et al., 2019; K{\"o}hne-Fuetterer et al., 2021). However, most relations are signaled by linguistic cues other than connectives (cf. Das & Taboada, 2018b) and much less is known about whether readers exploit these signals. We discuss five features in which connective and non-connective cues differ and argue that readers’ sensitivity to linguistic signals depends on the salience and informativeness of the cue. Furthermore, we extend previous research on the role of linguistic cues in discourse relation processing, by investigating a non-lexical signal of discourse relations, showing that such a cue can influence readers’ off-line expectations about upcoming discourse relations. Secondly, to what extent readers rely on linguistic information may depend on the discourse relation. Discourse relations have been shown differ with respect to their processing difficulty (e.g. Sanders & Noordman, 2000). In line with the causality-by-default hypothesis (Sanders, 2005), we find evidence that the presence of a connective facilitates reading more in non-causal than in causal relations. In addition, we show that the processing difficulty of a relation is dependent on how predictable the relation type and its content is. However, we do not find evidence that predictability of the relation influences whether readers rely on the presence of a connective. Thirdly, we provide evidence that readers draw on their domain knowledge when inferring discourse relations. The availability of domain knowledge was also found to influence whether readers can exploit non-connective signals for discourse relations, since these signals sometimes require domain knowledge. Finally, we explored whether the use of non-linguistic signals depends on language typology. We hypothesized that speakers of synthetic languages would rely more on the presence of linguistic signals for discourse relations than speakers of analytic languages, but find no evidence for this. In sum, readers draw on both linguistic and non-linguistic information to establish a coherent mental representation. In addition, the research in this dissertation shows that the extent to which readers exploit linguistic cues depends on characteristics of the signal, the discourse relation and the reader. By investigating the processes involved in establishing coherence, this research provides theoretical insights into language understanding and human cognition, but can also inform research on how to improve readers’ text comprehension as well as the readability of texts.


      Sprache ist ein zentraler Aspekt des t{\"a}glichen Lebens. Wir verwenden Sprache, um unseren Freunden Witze zu erz{\"a}hlen, den Ideen eines Freundes zuzuh{\"o}ren, einen Artikel {\"u}ber die letzten Wahlen zu lesen und eine E-Mail von einem Kollegen zu beantworten. Diese Vorg{\"a}nge scheinen uns oft m{\"u}helos, aber Sprache zu produzieren und zu verstehen ist ein komplizierter Prozess, und eine F{\"a}higkeit, die nur dem Menschen eigen ist. Um zum Beispiel einen geschriebenen Satz zu verstehen, muss man nicht nur eine Abfolge an Buchstaben in sinnvolle W{\"o}rter entschl{\"u}sseln, sondern auch verstehen, wie diese W{\"o}rter strukturiert sind, um einen sinnvollen Satz zu bilden. Bei l{\"a}ngeren Textausschnitten, die auch als Diskurs bezeichnet werden, m{\"u}ssen die Leser au{\ss}erdem verstehen, wie die verschiedenen S{\"a}tze miteinander in Relation stehen und wie die im Text beschriebenen Konzepte mit dem vorhandenen Weltwissen zusammenh{\"a}ngen. Erst dann ergibt der Diskurs einen Sinn. Theorien des Diskursverst{\"a}ndnisses gehen davon aus, dass Leser und H{\"o}rer eine mentale Repr{\"a}sentation des Textes aufbauen. Damit das Verstehen erfolgreich ist, muss diese mentale Repr{\"a}sentation koh{\"a}rent sein (Hobbs, 1979; Sanders et al., 1992; Kehler, 2006). Dies bedeutet dass die Teilaspekte der mentalen Repr{\"a}sentation auf sinnvolle Weise miteinander verbunden sein sollten. Selbst wenn die Teilaspekte eines Textes scheinbar nicht miteinander verbunden sind, versuchen die Leser dennoch, Koh{\"a}renz herzustellen (Hobbs, 1979). Betrachten Sie den folgenden Diskurs: Anna f{\"a}hrt mit dem Fahrrad zur Arbeit. Sie liebt Pizza. Auf den ersten Blick ergibt das keinen Sinn, aber der Leser wird trotzdem versuchen, diesen Text zu verstehen. Er k{\"o}nnte annehmen, dass Annas Vorliebe f{\"u}r Pizza dazu gef{\"u}hrt hat, dass sie in letzter Zeit sehr viel gegessen hat und nun versucht, diese Kalorien auszugleichen, indem sie mit dem Fahrrad zur Arbeit f{\"a}hrt. So hat er Koh{\"a}renz hergestellt, indem er hergeleitet hat, wie diese S{\"a}tze zusammenh{\"a}ngen: Annas Liebe zu Pizza ist der Grund, warum sie mit dem Fahrrad zur Arbeit f{\"a}hrt. Diese Relationen zwischen S{\"a}tzen in einem Diskurs bzw. ihre mentalen Repr{\"a}sentationen werden als Diskursrelationen bezeichnet (Sanders et al., 1992; Zufferey & Degand, 2024) und die Teile der Diskursrelation werden Argumente genannt. Diskursrelationen sind der Schwerpunkt der Forschung in dieser Dissertation. Wie stellen die Leser Koh{\"a}renz her? Eine M{\"o}glichkeit, wie Leser dies tun, ist die Verwendung sprachlicher Signale. Die auff{\"a}lligsten Signale f{\"u}r Diskursrelationen sind Konnektive wie weil, aber und deshalb. Sie wurden ausgiebig erforscht und fr{\"u}here Arbeiten haben gezeigt, dass sie Lesern helfen, die Diskursrelation zu verarbeiten (z.B., Cozijn et al., 2011), bevorstehendes Material vorherzusagen (z.B., K{\"o}hne-Fuetterer et al., 2021) und einen Text besser zu verstehen (z.B., Kleijn et al., 2019). Es gibt jedoch auch andere Anhaltspunkte, die dem Leser helfen k{\"o}nnen, eine Relation zwischen den S{\"a}tzen zu erkennen. Zur Veranschaulichung: Im Diskurs Anna liebt Pizza. John hasst sie. sind die Verben Antonyme, die signalisieren, dass die beiden S{\"a}tze im Gegensatz zueinander stehen. Im Vergleich zu Konnektiven ist {\"u}ber die Rolle dieser nicht-konnektiven Signale bei der Verarbeitung und dem Verst{\"a}ndnis von Diskurs weit weniger bekannt. Schlie{\ss}lich k{\"o}nnten die Leser auf ihr Hintergrundwissen zur{\"u}ckgreifen, um die Relation zu verstehen. Zum Beispiel in dem Diskurs Anna wurde sehr braun. Sie fuhr in den Urlaub nach Griechenland. kann die kausale Relation zwischen Br{\"a}unung und Urlaub in Griechenland aus dem Wissen abgeleitet werden, dass Griechenland im Allgemeinen sehr sonnig ist. Leser k{\"o}nnen also sprachliche und au{\ss}ersprachliche Informationsquellen nutzen, um daraus zu schlie{\ss}en, wie die Teile eines Diskurses zusammenh{\"a}ngen. Es ist jedoch noch unklar, ob Menschen dies immer tun. Verlassen sich zum Beispiel Sprecher verschiedener Sprachen in {\"a}hnlicher Weise auf Konnektive als Hinweise auf die Diskursrelation? Und nutzen Leser auch nicht-konnektive Signale, um Koh{\"a}renz herzustellen? In dieser Dissertation wurde daher untersucht, welche Faktoren die Sensibilit{\"a}t der Leser f{\"u}r sprachliche Signale von Diskursrelationen beeinflussen. Genauer gesagt wurden vier Faktoren untersucht, die Einfluss darauf haben k{\"o}nnten, wie Leser sprachliche Informationen {\"u}ber Diskursrelationen nutzen: Merkmale des Signals, der Diskursrelation, des Lesers und der Sprache. Zur Untersuchung dieser Faktoren pr{\"a}sentieren wir einen {\"U}berblick {\"u}ber fr{\"u}here Arbeiten sowie vier empirische Studien. Kapitel 3 gibt einen {\"U}berblick {\"u}ber die bisherige Literatur zur Natur sprachlicher Signale und ihrer Rolle bei der mentalen Repr{\"a}sentation und Verarbeitung, um zu untersuchen, wie die Eigenschaften des Signals die Sensibilit{\"a}t der Leser f{\"u}r das Signal beeinflussen. Wir definieren Diskursrelationssignal als jedwedes sprachliche Element, das Informationen {\"u}ber die Diskursrelation liefert. Wir zeigen, dass sich diese Signale in Bezug auf verschiedene Merkmale unterscheiden. So sind einige Diskurssignale, wie z.B. Konnektive, auf die Signalisierung von Diskursrelationen spezialisiert und tragen nicht zu den Wahrheitsbedingungen der Argumente bei. Andere Diskurssignale, wie Antonyme, liefern nicht nur Informationen {\"u}ber die Diskursrelation, sondern haben auch propositionale Bedeutung. Zweitens sind einige Signale informativer dar{\"u}ber, welche Diskursrelation signalisiert wird, als andere. Zum Beispiel wird weil nur in kausalen result-Relationen verwendet, w{\"a}hrend gleichzeitig sowohl in zeitlichen synchronous- als auch in negativen contrast-Relationen verwendet werden kann. Drittens unterscheiden sich Diskurssignale darin, ob ihre Form kontextabh{\"a}ngig ist. Konnektive werden grammatikalisiert und sind daher unver{\"a}nderlich, wohingegen ganze Phrasen wie aus diesem Grund, wegen des Wetters oder Antonyme durchaus ver{\"a}nderlich sind. Viertens: Die bisherigen Beispiele f{\"u}r Diskurssignale sind alle lexikalisch. Dies muss jedoch nicht der Fall sein. Es ist bekannt, dass auch die syntaktische Struktur (Crible & Pickering, 2020) und die Prosodie (Hu et al., 2023) Unterschiede zwischen den Relationstypen signalisieren. Schlie{\ss}lich haben sprachliche Signale, die nicht auf die Signalisierung der Diskursrelation spezialisiert sind, eine andere prim{\"a}re Bedeutung. Diese Bedeutung kann der der Diskursrelation {\"a}hnlich sein, wie z.B. die Negation im Fall von contrast-Relationen, sie kann aber auch unabh{\"a}ngig davon sein (wie im Fall bestimmter syntaktischer Strukturen). Auf der Grundlage von Erkenntnissen aus der bisherigen Literatur argumentieren wir, dass diese Eigenschaften beeinflussen, wie empfindlich Leser auf das sprachliche Signal reagieren. Je auff{\"a}lliger und informativer das Diskurssignal ist, desto st{\"a}rker ist seine Wirkung auf die Diskursverarbeitung und -repr{\"a}sentation. Diese Hypothese wird durch die Ergebnisse von zwei empirischen Studien gest{\"u}tzt. In Kapitel 6 untersuchten wir die Sensibilit{\"a}t der Leser f{\"u}r einen nicht-spezialisierten, nicht-lexikalischen Hinweis auf Diskursrelationen: freie Gerundien. Freie Gerundien sind Nebens{\"a}tze, die mit einem Partizip Pr{\"a}sens beginnen, wie in Painting his house, Mo wore an old sweater. (Mo trug beim Streichen seines Hauses einen alten Pullover.) Eine Korpusuntersuchung zeigt, dass freie Gerundien h{\"a}ufig in result-Relationen vorkommen. Dar{\"u}ber hinaus erwarteten die Leser mehr result-Relationen, wenn sie in einer Fortsetzungsaufgabe ein freies Gerundium vorfanden. Wir fanden jedoch keine Hinweise darauf, dass die Leser bei anderen Aufgaben auf diese Art von Signalen reagieren. Bei einer Aufgabe zur Auswahl von Paraphrasen hing die Pr{\"a}ferenz der Leser f{\"u}r freie Gerundien nicht von der Art der Relation (d. h. result oder specification) ab. Dar{\"u}ber hinaus zeigte ein self-paced reading Experiment nicht, dass das Vorhandensein eines freien Gerundiums beim Lesen von result-Relationen f{\"o}rderlich ist. Diese Ergebnisse stehen im Gegensatz zu denen aus Kapitel 5, die zeigen, dass das Vorhandensein eines Konnektivs zu einer schnelleren Verarbeitung von result-Relationen f{\"u}hrt. Im Gegensatz zu freien Gerundien sind Konnektive jedoch informativere und speziellere Signale, die zudem unver{\"a}nderlich und lexikalisch sind. In Kapitel 4 haben wir untersucht, wie die Sensibilit{\"a}t der Leser f{\"u}r Konnektive von den Eigenschaften der Diskursrelation abh{\"a}ngt. Genauer gesagt haben wir zweiself-paced reading Experimente durchgef{\"u}hrt, in denen wir den erleichternden Effekt des Vorhandenseins eines Konnektivs in result-Relationen mit contrast-Relationen (Experiment 1) und mit concession-Relationen (Experiment 2) verglichen haben. Entgegen unseren Erwartungen, die wir aus fr{\"u}heren Arbeiten ableiten konnten, fanden wir in Experiment 1 keinen Effekt des Konnektivs f{\"u}r eine der beiden Relationen, was m{\"o}glicherweise auf methodische Limitationen zur{\"u}ckzuf{\"u}hren ist. In Experiment 2 wurde die Relation jedoch schneller gelesen, wenn ein Konnektiv vorhanden war, im Vergleich dazu wenn es nicht vorhanden war. Dieser Effekt hing vom Relationstyp ab. Genauer gesagt erleichterte das Konnektiv das Lesen bei concession-Relationen, nicht aber bei result-Relationen. Dies deutet darauf hin, dass sich die Leser mehr auf ein Konnektiv verlassen, wenn die Relation ohne das Konnektiv schwieriger zu erschlie{\ss}en ist. Bei result-Relationen k{\"o}nnten die Leser zu dieser Interpretation gelangen, unabh{\"a}ngig davon, ob ein Konnektiv (vgl. causality-by-default hypothesis Sanders, 2005) vorhanden ist. In den Experimenten in Kapitel 4 wurde auch untersucht, ob die Wirkung eines Konnektivs unterschiedlich auf das Lesen im Deutschen im Vergleich zum Englischen ist (d. h. Eigenschaften der Sprache). Synthetische Sprachen, wie das Deutsche, haben mehr Flexionsmorphologie und ein h{\"o}heres Morphem-Wort-Verh{\"a}ltnis als analytische Sprachen, wie das Englische. So kodiert das Deutsche, nicht aber das Englische, Unterschiede zwischen der ersten und zweiten Person bei Verben und dem Kasus bei Substantiven. In synthetischen Sprachen ist die Bedeutung h{\"a}ufiger im sprachlichen Signal kodiert, w{\"a}hrend Sprecher analytischer Sprachen die Bedeutung h{\"a}ufiger aus dem Kontext erschlie{\ss}en m{\"u}ssen. Wir stellten daher die Hypothese auf, dass Sprecher des Deutschen st{\"a}rker auf das Vorhandensein eines Konnektivs reagieren w{\"u}rden als Sprecher des Englischen (Blumenthal-Dram{\'e}, 2021). Wir fanden jedoch in keinem der beiden Experimente Belege f{\"u}r diese Hypothese. In Kapitel 5 haben wir untersucht, ob die Sensibilit{\"a}t der Leser f{\"u}r das Vorhandensein eines Konnektivs von einer anderen Eigenschaft der Relation, der Vorhersagbarkeit der Relation, abh{\"a}ngt. Fr{\"u}here Studien haben gezeigt, w{\"a}hrend des Verstehens von Sprache st{\"a}ndig Vorhersagen getroffen werden (z.B. Altmann & Kamide, 1999; Heilbron et al., 2022) und dass die Verarbeitungsschwierigkeit eines Wortes proportional zu seiner Unerwartetheit ist (vgl. Levy, 2008; Wilcox et al., 2023). Wir untersuchten, ob dies auch f{\"u}r die Verarbeitung von Diskursrelationen gilt. Genauer gesagt untersuchten wir zwei Arten von Unerwartetheit: die des Relationstyps (d. h., ob die Relation ein result war oder nicht) und die des Inhalts der Relation. Zur Veranschaulichung: Wenn man Angela hatte monatelang die Miete nicht bezahlt liest, k{\"o}nnten die Leser Erwartungen dar{\"u}ber haben, ob der Sprecher als n{\"a}chstes dar{\"u}ber sprechen wird, warum Angela die Miete nicht bezahlt hat (d. h. eine reason-Relation) oder dar{\"u}ber, was die Konsequenzen dieses Zahlungsr{\"u}ckstands sind (d. h. eine result-Relation). Mit anderen Worten, sie sagen den Relationstyp voraus. Dar{\"u}ber hinaus k{\"o}nnten Leser vorhersagen, was solche Folgen sein k{\"o}nnten (z.B. der Besuch eines ver{\"a}rgerten Vermieters oder eine Zwangsr{\"a}umung). Dabei handelt es sich um eine Vorhersage {\"u}ber den Inhalt der Relation. Wir stellten die Hypothese auf, dass die Schwierigkeit der Verarbeitung von Angela wurde zwangsger{\"a}umt proportional zur Unerwartetheit des Relationstyps und des Inhalts angesichts des Kontexts sein w{\"u}rde. Dar{\"u}ber hinaus wollten wir untersuchen, ob dies den erleichternden Effekt des Konnektivs erkl{\"a}ren w{\"u}rde: Das Konnektiv k{\"o}nnte die Unerwartetheit des bevorstehenden Relationstyps und -inhalts verringern und damit die Verarbeitungsschwierigkeiten reduzieren. In einem Experiment zur Satzvervollst{\"a}ndigung konnten wir tats{\"a}chlich zeigen, dass result-Relationen eher erwartet werden, wenn ein Konnektiv vorhanden ist, und dass dies den Lesern hilft, genauere Vorhersagen {\"u}ber den Inhalt zu treffen. In einem anschlie{\ss}enden self-paced reading Experiment und Eye-Tracking fanden wir Hinweise darauf, dass vorhersehbare Inhalte schneller gelesen werden. Wenn die Relation result erwarteter war, wurde die Relation ebenfalls schneller gelesen, aber nur, wenn diese genauere Vorhersagen {\"u}ber den Inhalt erm{\"o}glichte. {\"U}berraschenderweise stellten wir fest, dass first-pass Lesezeiten bei vorhersehbareren result-Relationen l{\"a}nger waren, wenn man andere Arten von Unerwartetheit (z.B. {\"u}ber die Inhalt des Relations) ber{\"u}cksichtigt. M{\"o}glicherweise wollen die Leser ihre Vorhersage {\"u}ber die Art der Relation best{\"a}tigen, wenn sich ihre Vorhersage {\"u}ber den Inhalt nicht best{\"a}tigte. Dar{\"u}ber hinaus war der erleichternde Effekt des Konnektivs unabh{\"a}ngig von den Auswirkungen der Unerwartetheit. Zusammengefasst fanden wir keine Hinweise darauf, dass die Sensibilit{\"a}t der Leser f{\"u}r das Vorhandensein eines Konnektivs davon abh{\"a}ngt, wie vorhersehbar der Relationstyp oder der Inhalt ist. In Kapitel 7 wurde untersucht, ob und wie die Eigenschaften des Lesers an sich einen Einfluss darauf haben, ob er sprachliche Signale ausnutzt. Genauer gesagt fragten wir ob Fachwissen die Interpretation von Diskursrelationen und die Nutzung sprachlicher Signale durch den Leser beeinflusst. Wir baten Experten aus den Bereichen Biomedizin und Wirtschaft Konnektive in Texte aus ihrer eigenen Dom{\"a}ne (z.B. biomedizinische Experten, die biomedizinische Forschungsarbeiten lesen) und aus der anderen Dom{\"a}ne (z.B. biomedizinische Experten, die Wirtschaftszeitungen lesen) einzuf{\"u}gen. Diese Konnektive wurden in Relationsklassen eingeteilt, um ihre Genauigkeit bei der Ableitung der Zielrelation zu untersuchen. Biomedizinische Experten waren bei der Ableitung von Relationen in biomedizinischen Texten erfolgreicher als Wirtschaftsexperten, was zeigt, dass die Leser ihr Fachwissen nutzen, um Diskursrelationen abzuleiten. Bei der Interpretation von Relationen in den Wirtschaftszeitungen wurde kein solcher Unterschied festgestellt, wahrscheinlich weil diese sich an ein breiteres Publikum richten als biomedizinische Forschungsarbeiten. Wenn die Relation nicht auf der Grundlage des vorhandenen Wissens abgeleitet werden kann, nehmen die Leser unspezifizierte Interpretationen vor. Dar{\"u}ber hinaus zeigen wir, dass Leser sprachliche Signale f{\"u}r Diskursrelationen nutzen, aber dass solche Hinweise manchmal Fachwissen erfordern. Um zum Beispiel zu verstehen, dass zwei Begriffe Antonyme sind, m{\"u}ssen die Leser zun{\"a}chst wissen, was diese Begriffe bedeuten. Doch selbst wenn diese Signale nur allgemeines Wissen erfordern, nutzten Leser mit geringen Kenntnissen sie nicht immer. Dies deutet darauf hin, dass nicht-konnektive Signale vom Leser nur genutzt werden um bereits bestehende Interpretationen von Diskursrelationen zu best{\"a}tigen. Die Untersuchungen in dieser Dissertation liefern wertvolle Einblicke in verschiedene Theorien der Sprachverarbeitung. Zun{\"a}chst einmal zeigen die Ergebnisse in Bezug auf die Diskursverarbeitung, dass Leser sowohl sprachliche (Konnektive und nichtkonnektive Signale) als auch au{\ss}ersprachliche Informationsquellen (Hintergrundwissen) nutzen, um Koh{\"a}renz herzustellen. Wir zeigen auch, dass die Sensibilit{\"a}t der Leser f{\"u}r Signale von Diskursrelationen von den Eigenschaften des Signals, der Relation und auch des Lesers selbst abh{\"a}ngt. So ist die Wirkung eines sprachlichen Signals st{\"a}rker, wenn es auff{\"a}lliger und informativer ist, die Relation nicht kausal ist und der Leser sich auf vorhandenes Wissen verlassen kann, um die Bedeutung des Signals zu best{\"a}tigen. Zweitens leisten die hier vorgestellten Untersuchungen einen Beitrag zu informationstheoretischen Konzepten der Sprachverarbeitung, indem sie zeigen, dass die Unerwartetheit des Inhalts und der Diskursstruktur die Verarbeitungsschwierigkeiten beeinflussen, aber nicht die erleichternde Wirkung des Konnektivs erkl{\"a}ren. Drittens leistet die vorliegende Dissertation einen Beitrag zur Forschung {\"u}ber statistisches Lernen, indem sie aufzeigt, dass Leser sich der Korrelationen zwischen syntaktischer Struktur und Bedeutung auf Diskursebene bewusst sind. Viertens zeigt die Arbeit im Hinblick auf die Forschung zu individuellen Unterschieden, dass die Interpretation von Diskursrelationen und die Verwendung von sprachlichen Signalen vom Hintergrundwissen der Leser abh{\"a}ngt. F{\"u}nftens erweitern wir die sprach{\"u}bergreifende Forschung zur Sprachverarbeitung und stellen fest, dass es sprach{\"u}bergreifende {\"A}hnlichkeiten bei der Verwendung von Konnektiven zur Verarbeitung von Diskursrelationen gibt. Schliesslich unterstreicht diese Dissertation auch die Bedeutung konvergenter Evidenz, indem sie zeigt, dass die Kombination von verschiedenen wissenschaftlichen Methoden die Theoriebildung erleichtern kann.},
      pubstate = {published},
      type = {phdthesis}
      }

      Copy BibTeX to Clipboard

      Project:   B2

      Chingacham, Anupama

      Exploring paraphrasing for enhancing speech perception in noisy environments PhD Thesis

      Saarland University, Saarbruecken, Germany, 2024.

      This thesis addresses the challenge of speech perception in noisy environments, where echoes, reverberations and background noise can distort communication. It proposes using paraphrases, instead of acoustic modifications, to improve speech intelligibility in noise without causing signal distortions. The first study investigates the effectiveness of replacing words with synonyms in noisy conditions, finding that it can enhance word recognition by up to 37% in high-noise environments. The second study expands on this by exploring sentential paraphrases, showing that choosing the right paraphrase can improve intelligibility by 33%. It also develops a paraphrase ranking model that outperforms baseline models in identifying the most intelligible paraphrases. The final study examines how Large Language Models (LLMs) can generate both semantically equivalent and acoustically intelligible paraphrases. It reveals that while LLMs struggle to improve acoustic intelligibility in standard setups, a post-processing approach called „prompt-and-select“ yields better results. Overall, the thesis contributes two new human-annotated datasets, an approach to generate unlimited synthetic data, and a novel framework for generating noise-robust speech, offering a promising direction for developing speech generation systems that adapt to noisy environments.


      Im Falle von Sprachsignalverzerrungen durch Echos, Nachhall oder Hintergrundgeräusche, wie zum Beispiel in einem belebten Café, kann das Zuhören selbst für Personen mit normalem Hörvermögen eine Herausforderung darstellen. Wenn Lärm das Zuhören behindert, kann die Bedeutung einer Nachricht, die der Hörer wahrnimmt, von der vom Sprecher beabsichtigten Bedeutung abweichen. Das kann zu Missverständnissen oder in extremen Fällen sogar zu Kommunikationsabbrüchen führen. Im Gegensatz zu menschlichen Sprechern, die ihre Sprechweise an die Hörschwierigkeiten ihres Gesprächspartners anpassen können, sind die derzeitigen Sprachdialogsysteme nur begrenzt in der Lage, geräuschrobuste Sprache zu produzieren. Die meisten algorithmischen Lösungen zur Synthese geräuschrobuster Sprache basieren auf akustischen Modifikationen, die nicht in allen Fällen von Vorteil sind, da sie zu Signalverzerrungen führen können, die die Natürlichkeit oder Qualität der synthetisierten Sprache beeinträchtigen. In dieser Arbeit wird eine alternative Strategie zur Verbesserung der Sprachwahrnehmung bei Störgeräuschen vorgeschlagen, die keine Signalverzerrungen mit sich bringt: die Verwendung von Paraphrasen. Geräusche wirken sich unterschiedlich auf verschiedene lexikalische Einheiten aus – einige sind geräuschresistenter, während andere anfälliger für Fehlwahrnehmungen sind. Daher ist die Verwendung von Paraphrasen keine Garantie für eine bessere Sprachwahrnehmung. Wenn die lexikalischen Einheiten, die zur Umschreibung verwendet werden, in einer Hörsituation ähnlich wahrgenommen werden wie die ursprüngliche Formulierung, stellen sie keine Verbesserung dar. Daher zielt die erste Studie in dieser Arbeit darauf ab, ein besseres Verständnis dafür zu erlangen, ob und inwieweit eine einfache, aber weit verbreitete Paraphrasierungsstrategie – die lexikalische Ersetzung durch Synonyme – Wortfehlwahrnehmungen im Lärm reduzieren kann. Es wurden Hörexperimente durchgeführt, um die Wahrnehmungsunterschiede zwischen Synonymen im Lärm zu erfassen. Die Analyse des zu diesem Zweck neu erstellten Datensatzes – Synonyms-in-Noise (SiN) – ergab, dass das Ersetzen einer lexikalischen Einheit durch ein Synonym mit geringerem Risiko, falsch verstanden zu werden, die Worterkennung in einer stark verrauschten Umgebung (z.B. bei Babble Noise mit einem Signal-Rausch-Verhältnis von −5 dB) um bis zu 37% verbessern kann. Außerdem wurde ein Modellierungsexperiment durchgeführt, um den beobachteten Gewinn an Verständlichkeit zu erklären. Die Ergebnisse zeigen, dass der Verständlichkeitsgewinn bei geringem und mittlerem Lärm auf die linguistischen Merkmale von Synonymen zurückzuführen ist, während der Gewinn bei starkem Lärm hauptsächlich von akustischen Merkmale bestimmt wird. Um allgemeinere Arten von Umschreibungen zu berücksichtigen, konzentriert sich die zweite Studie der Arbeit auf Satzumschreibungen und ihre Auswirkungen auf die Verständlichkeit der gesamten Äußerung. In weiteren Hörexperimenten wurden Satzparaphrasen verglichen und ein neuer Datensatz namens Paraphrasesin- Noise (PiN) erstellt. Es wurde festgestellt, dass sich die Verständlichkeitswerte von verschiedenen Satzparaphrasen auch unter stark verrauschten Bedingungen signifikant unterscheiden und die Wahl der richtigen Paraphrase innerhalb eines Paares einen Gesamtgewinn an Verständlichkeit von bis zu 33% bewirken kann. Darüber hinaus wurde in der Studie ein verständlichkeitsorientiertes Paraphrasen- Ranking-Modell vorgeschlagen, um die verständlichsten Paraphrasen anhand ihrer linguistischen und akustischen Merkmale korrekt zu identifizieren. Das vorgeschlagene Modell übertraf beide Basismodelle (Zufalls- und Mehrheitsmodell) und erreichte mit 67% die höchste Verständlichkeit bei starkem Rauschen. Die abschließende Studie dieser Arbeit zielt darauf ab, akustisch besser verständliche Paraphrasen zu generieren, die potenziell nützlich sein könnten, um geräuschadaptive Sprachdialogsysteme zu entwickeln. Wir evaluieren, inwieweit moderne Textgenerierungsmodelle wie Large Language Models (LLMs) Texte produzieren können, die sowohl textuelle Anforderungen (z.B. semantische Äquivalenz) als auch nicht-textuelle Anforderungen (z.B. akustische Verständlichkeit) erfüllen. Die Ergebnisse der Studie zeigen, dass LLMs in Standard-Prompting-Setups Schwierigkeiten haben, die akustische Verständlichkeit zu verbessern und gleichzeitig die semantische Äquivalenz effektiv zu erhalten. Außerdem wurde festgestellt, dass der vorgeschlagene Nachbearbeitungsansatz – prompt-and-select – besser abschneidet als fein abgestimmte Modelle, wenn es darum geht, Paraphrasen zu erzeugen, die akustisch besser verständlich sind. Zusammenfassend lässt sich sagen, dass in dieser Arbeit das Potenzial der Paraphrasierung zur Verbesserung der Sprachwahrnehmung im Lärm untersucht wurde. Als Ergebnis haben wir zwei neue Datensätze erstellt und einen neuen Rahmen für die Synthese von geräuschrobuster Sprache vorgeschlagen, der keine Signalverzerrungen verursacht.

      @phdthesis{Chingacham_Diss_2024,
      title = {Exploring paraphrasing for enhancing speech perception in noisy environments},
      author = {Anupama Chingacham},
      url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/39676},
      doi = {https://doi.org/20.500.11880/39676},
      year = {2024},
      date = {2024},
      school = {Saarland University},
      address = {Saarbruecken, Germany},
      abstract = {This thesis addresses the challenge of speech perception in noisy environments, where echoes, reverberations and background noise can distort communication. It proposes using paraphrases, instead of acoustic modifications, to improve speech intelligibility in noise without causing signal distortions. The first study investigates the effectiveness of replacing words with synonyms in noisy conditions, finding that it can enhance word recognition by up to 37% in high-noise environments. The second study expands on this by exploring sentential paraphrases, showing that choosing the right paraphrase can improve intelligibility by 33%. It also develops a paraphrase ranking model that outperforms baseline models in identifying the most intelligible paraphrases. The final study examines how Large Language Models (LLMs) can generate both semantically equivalent and acoustically intelligible paraphrases. It reveals that while LLMs struggle to improve acoustic intelligibility in standard setups, a post-processing approach called "prompt-and-select" yields better results. Overall, the thesis contributes two new human-annotated datasets, an approach to generate unlimited synthetic data, and a novel framework for generating noise-robust speech, offering a promising direction for developing speech generation systems that adapt to noisy environments.


      Im Falle von Sprachsignalverzerrungen durch Echos, Nachhall oder Hintergrundger{\"a}usche, wie zum Beispiel in einem belebten Caf{\'e}, kann das Zuh{\"o}ren selbst f{\"u}r Personen mit normalem H{\"o}rverm{\"o}gen eine Herausforderung darstellen. Wenn L{\"a}rm das Zuh{\"o}ren behindert, kann die Bedeutung einer Nachricht, die der H{\"o}rer wahrnimmt, von der vom Sprecher beabsichtigten Bedeutung abweichen. Das kann zu Missverst{\"a}ndnissen oder in extremen F{\"a}llen sogar zu Kommunikationsabbr{\"u}chen f{\"u}hren. Im Gegensatz zu menschlichen Sprechern, die ihre Sprechweise an die H{\"o}rschwierigkeiten ihres Gespr{\"a}chspartners anpassen k{\"o}nnen, sind die derzeitigen Sprachdialogsysteme nur begrenzt in der Lage, ger{\"a}uschrobuste Sprache zu produzieren. Die meisten algorithmischen L{\"o}sungen zur Synthese ger{\"a}uschrobuster Sprache basieren auf akustischen Modifikationen, die nicht in allen F{\"a}llen von Vorteil sind, da sie zu Signalverzerrungen f{\"u}hren k{\"o}nnen, die die Nat{\"u}rlichkeit oder Qualit{\"a}t der synthetisierten Sprache beeintr{\"a}chtigen. In dieser Arbeit wird eine alternative Strategie zur Verbesserung der Sprachwahrnehmung bei St{\"o}rger{\"a}uschen vorgeschlagen, die keine Signalverzerrungen mit sich bringt: die Verwendung von Paraphrasen. Ger{\"a}usche wirken sich unterschiedlich auf verschiedene lexikalische Einheiten aus - einige sind ger{\"a}uschresistenter, w{\"a}hrend andere anf{\"a}lliger f{\"u}r Fehlwahrnehmungen sind. Daher ist die Verwendung von Paraphrasen keine Garantie f{\"u}r eine bessere Sprachwahrnehmung. Wenn die lexikalischen Einheiten, die zur Umschreibung verwendet werden, in einer H{\"o}rsituation {\"a}hnlich wahrgenommen werden wie die urspr{\"u}ngliche Formulierung, stellen sie keine Verbesserung dar. Daher zielt die erste Studie in dieser Arbeit darauf ab, ein besseres Verst{\"a}ndnis daf{\"u}r zu erlangen, ob und inwieweit eine einfache, aber weit verbreitete Paraphrasierungsstrategie - die lexikalische Ersetzung durch Synonyme - Wortfehlwahrnehmungen im L{\"a}rm reduzieren kann. Es wurden H{\"o}rexperimente durchgef{\"u}hrt, um die Wahrnehmungsunterschiede zwischen Synonymen im L{\"a}rm zu erfassen. Die Analyse des zu diesem Zweck neu erstellten Datensatzes – Synonyms-in-Noise (SiN) – ergab, dass das Ersetzen einer lexikalischen Einheit durch ein Synonym mit geringerem Risiko, falsch verstanden zu werden, die Worterkennung in einer stark verrauschten Umgebung (z.B. bei Babble Noise mit einem Signal-Rausch-Verh{\"a}ltnis von −5 dB) um bis zu 37% verbessern kann. Au{\ss}erdem wurde ein Modellierungsexperiment durchgef{\"u}hrt, um den beobachteten Gewinn an Verst{\"a}ndlichkeit zu erkl{\"a}ren. Die Ergebnisse zeigen, dass der Verst{\"a}ndlichkeitsgewinn bei geringem und mittlerem L{\"a}rm auf die linguistischen Merkmale von Synonymen zur{\"u}ckzuf{\"u}hren ist, w{\"a}hrend der Gewinn bei starkem L{\"a}rm haupts{\"a}chlich von akustischen Merkmale bestimmt wird. Um allgemeinere Arten von Umschreibungen zu ber{\"u}cksichtigen, konzentriert sich die zweite Studie der Arbeit auf Satzumschreibungen und ihre Auswirkungen auf die Verst{\"a}ndlichkeit der gesamten {\"A}u{\ss}erung. In weiteren H{\"o}rexperimenten wurden Satzparaphrasen verglichen und ein neuer Datensatz namens Paraphrasesin- Noise (PiN) erstellt. Es wurde festgestellt, dass sich die Verst{\"a}ndlichkeitswerte von verschiedenen Satzparaphrasen auch unter stark verrauschten Bedingungen signifikant unterscheiden und die Wahl der richtigen Paraphrase innerhalb eines Paares einen Gesamtgewinn an Verst{\"a}ndlichkeit von bis zu 33% bewirken kann. Dar{\"u}ber hinaus wurde in der Studie ein verst{\"a}ndlichkeitsorientiertes Paraphrasen- Ranking-Modell vorgeschlagen, um die verst{\"a}ndlichsten Paraphrasen anhand ihrer linguistischen und akustischen Merkmale korrekt zu identifizieren. Das vorgeschlagene Modell {\"u}bertraf beide Basismodelle (Zufalls- und Mehrheitsmodell) und erreichte mit 67% die h{\"o}chste Verst{\"a}ndlichkeit bei starkem Rauschen. Die abschlie{\ss}ende Studie dieser Arbeit zielt darauf ab, akustisch besser verst{\"a}ndliche Paraphrasen zu generieren, die potenziell n{\"u}tzlich sein k{\"o}nnten, um ger{\"a}uschadaptive Sprachdialogsysteme zu entwickeln. Wir evaluieren, inwieweit moderne Textgenerierungsmodelle wie Large Language Models (LLMs) Texte produzieren k{\"o}nnen, die sowohl textuelle Anforderungen (z.B. semantische {\"A}quivalenz) als auch nicht-textuelle Anforderungen (z.B. akustische Verst{\"a}ndlichkeit) erf{\"u}llen. Die Ergebnisse der Studie zeigen, dass LLMs in Standard-Prompting-Setups Schwierigkeiten haben, die akustische Verst{\"a}ndlichkeit zu verbessern und gleichzeitig die semantische {\"A}quivalenz effektiv zu erhalten. Au{\ss}erdem wurde festgestellt, dass der vorgeschlagene Nachbearbeitungsansatz - prompt-and-select – besser abschneidet als fein abgestimmte Modelle, wenn es darum geht, Paraphrasen zu erzeugen, die akustisch besser verst{\"a}ndlich sind. Zusammenfassend l{\"a}sst sich sagen, dass in dieser Arbeit das Potenzial der Paraphrasierung zur Verbesserung der Sprachwahrnehmung im L{\"a}rm untersucht wurde. Als Ergebnis haben wir zwei neue Datens{\"a}tze erstellt und einen neuen Rahmen f{\"u}r die Synthese von ger{\"a}uschrobuster Sprache vorgeschlagen, der keine Signalverzerrungen verursacht.},
      pubstate = {published},
      type = {phdthesis}
      }

      Copy BibTeX to Clipboard

      Project:   A4

      A representation learning based approach to the study of translationese PhD Thesis

      Saarland University, Saarbruecken, Germany, 2024.

      Translated texts exhibit systematic linguistic differences compared to original texts in the same language. These differences are referred to as translationese, and can be categorised as either source language dependent or universal. Basic research on translationese aims to understand and characterise the language-specific and language-independent aspects of translationese. Additionally, translationese has practical implications in the context of natural language processing tasks that involve translation. Translationese effects can cause biased results in a variety of cross-lingual tasks. Therefore, understanding, analysing and mitigating translationese is crucial for improving the accuracy and effectiveness of cross-lingual natural language processing. Focusing on representation learning, this dissertation addresses both foundational as well as practical aspects of translationese. Our first task is to investigate the effectiveness of representation learning-based methods in mono- and multilingual translationese classification. Traditional manual featureengineering based methods for translationese classification may result in potentially partial, non-exhaustive linguistic features and often require linguistic annotation tools. In contrast, our approach involves developing a suite of representation-learning methods based on word embeddings, eliminating the need for manual feature engineering. Our experiments demonstrate superior performance, outperforming previous traditional hand-crafted linguistically inspired feature-selection methods for translationese classification on a wide range of tasks. Translationese artifacts have been found to exert a substantial influence on diverse downstream tasks involving translated data. Therefore, to mitigate the impact of translationese on downstream tasks, we propose a new approach: translationese debiasing. Our research is the first to adapt the Iterative Null Space Projection (INLP) algorithm, originally designed to mitigate gender attributes, to translationese-induced bias in both word and sentence embedding spaces. Additionally, we develop two techniques for debiasing translationese at the word level representations. We confirm the effectiveness of our debiasing approach by comparing the classification performance before and after debiasing on the translationese classification task. Additionally, we demonstrate the practical utility of our debiasing method by applying it to a natural language inference task involving translated data, where we observed improved accuracy as a result of reduced translation-induced bias. Next, we address the foundational question of whether translationese signals can be observed in semantic word embedding spaces and, if so, what practical implications this observation may have. To this end, we propose a novel approach for unsupervised tracking of translationese in semantic spaces, which does not rely on explicit linguistic labels. Our method is based on graph-isomorphism approaches that examine departures from isomorphism between embedding spaces built from original language data and translations into this language. By comparing the normalised distances between these spaces, we are able to identify systematic evidence of translationese. Specifically, we find that as isomorphism weakens, the linguistic distance between etymologically distant language families increases, providing evidence that translationese signals are linked to source language interference. Following this, we show that the proposed methods are robust under a variety of training conditions, encompassing data size, type, and choice of word embedding models. Additionally, our findings indicate our methods are language-independent, in the sense that they can be applied to multiple languages and are not limited to a specific language or language family. We extend the work on unsupervised tracking of translationese in semantic spaces to evaluate the impact of domain in translationese data. Translationese signals are subtle and may compete with other signals in the data, particularly those related to domain. To address this, we mask domain information by applying our graph-isomorphism methods to different delexicalized representations using various views, including words, parts of speech, semantic tags, and synsets. Our results demonstrate that while source-language interference is most pronounced in lexicalised embeddings (word), it is also present in delexicalised views. This indicates that our lexicalised findings are not only the result of possible topic differences between original and translated texts. Additionally, we show that, regardless of the level of linguistic representation, language family ties with characteristics similar to linguistically motivated phylogenetic trees can be inferred from the degree of departures from isomorphism, using all combinations of original target language and translations into this target language from different source languages. Finally, we explore whether the graph-based divergence from isomorphism in embeddings can serve as a viable proxy for surprisal at the the level of surface texts. To do this, we explicitly compute the correlation between (a) differences in surface string entropy of original vs. translated data computed by language models trained on originally authored data and (b) divergence from isomorphism between embedding spaces computed on the same text data. Our results show a positive correlation between these two measures with a higher departure from isomorphism between embedding spaces corresponding to a greater difference in surface entropy. Additionally, similar to the findings of graph-based divergence from isomorphism between embedding spaces where higher divergence from isomorphism implicitly indicates higher linguistic distance in terms of language families and, supposedly, surface structural linguistic distance between languages — our entropy-based findings demonstrate that the observed differences in surface string representations between the original and translated datasets also correspond, at a higher level, with the surface structural linguistic distance between the source languages themselves. These results establish an explicit link between our two measures: divergence from isomorphism between original and translated embedding spaces and entropy differences of the surface strings of the same text data.


      ÜbersetzteTexte weisen im Vergleich zu Originaltexten in derselben Sprache systematische sprachliche Unterschiede auf, die zu einer einzigartigen Teilsprache mit eigenen Unterscheidungsmerkmalen führen. Diese Unterschiede werden als Translationese (Gellerstam, 1986) bezeichnet und können entweder als ausgangssprachabhängig oder universell kategorisiert werden. Es ist wichtig zu beachten, dass Translationese keine eigenständige Sprache ist, sondern vielmehr eine Reihe von sprachlichen Merkmalen (Baker et al., 1993; Toury, 1980), die übersetzte Texte von denen unterscheiden, die ursprünglich in der Zielsprache geschrieben wurden. Verschiedene Faktoren tragen zu den Unterschieden zwischen den Originaltexten und übersetzten Texten bei, von denen viele unter die Kategorie der universellen Merkmale der Übersetzung fallen. Zu diesen universellen Merkmalen gehören die Vereinfachung, d. h. die Vereinfachung komplexer Ausgangsstrukturen in der Zielsprache, die Standardisierung, d. h. die Neigung, sich eng an die Normen der Zielsprache zu halten, und die Explizierung, d. h. die Verdeutlichung impliziter Ausgangsstrukturen in der Zielsprache. Im Gegensatz zu diesen übersetzerischen Universalien spiegelt die Interferenz den Einfluss der Ausgangssprache auf das Übersetzungsprodukt wider. Interferenz ist von Natur aus ein sprachpaarspezifisches Phänomen, bei dem isomorphe Strukturen, die Ausgangs- und Zielsprache gemeinsam haben, einander leicht ersetzen können. Dies verdeutlicht den zugrunde liegenden sprachübergreifenden Einfluss der Ausgangssprache auf das Übersetzungsergebnis. Nach dieser Definition wird das Übersetzen als eine besondere Form der sprachübergreifenden Sprachvarietät betrachtet, die einen Sonderfall innerhalb der breiteren Landschaft des Sprachkontakts darstellt. Trotz des beträchtlichen Umfangs der Forschung zu verschiedenen sprachübergreifenden Sprachvarietäten gibt es eine auffällige Lücke, wenn es um die spezifische Untersuchung des Translationese geht. Bisherige Studien haben sich vor allem auf zwei Aspekte konzentriert, nämlich auf die Identifizierung charakteristischer Merkmale von Übersetzungen und auf die Klassifizierung von Translationese, wobei sorgfältige korpusbasierte Studien (Baker et al., 1993) verwendet wurden, die Unterschiede in der Verteilung linguistischer Merkmale zwischen Originalen und übersetzten Texten aufzeigen, oder klassifikationsbasierte Ansätze bei denen ein Klassifikator trainiert wird und dann Merkmalsbedeutungsmaße verwendet werden, um darauf zu schließen, welche Merkmale bei der Klassifizierung von Übersetzungen besonders wichtig sind (Rabinovich and Wintner, 2015; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Die praktischen Implikationen von Translationswissenschaft gehen jedoch über die Identifizierung linguistischer Merkmale und die Klassifizierung hinaus. Die ausgeprägten sprachlichen Unterschiede, die zwischen Originaltexten und übersetzten Texten in derselben Sprache zu beobachten sind, lassen sich im Großen und Ganzen entweder als quellsprachenabhängig oder als universell klassifizieren. Die Durchführung von Grundlagenforschung zum Translationese ist wichtig, da sie wertvolle Einblicke sowohl in sprachspezifische als auch in sprachunabhängige Aspekte dieses sprachlichen Phänomens liefert. Die Grundlagenforschung ermöglicht ein tieferes Verständnis der zugrundeliegenden Muster und Strukturen, die das Translationese definieren, sowie der Variationen, die in verschiedenen Sprachen und Sprachfamilien beobachtet werden. Es ist jedoch auch wichtig, eine bestehende Lücke in der Erforschung des Translationese zu schließen. Translationese hat spürbare Auswirkungen auf verschiedene sprachübergreifende Aufgaben der natürlichen Sprachverarbeitung (NLP), was zu verzerrten Ergebnissen und verminderter oder künstlich aufgeblähter Leistung führen kann. Daher ist die Untersuchung und Abschwächung von Translationese für die Verbesserung der Genauigkeit und Effektivität dieser Aufgaben von entscheidender Bedeutung. Die Abschwächung von Translationese ist bisher ein wenig erforschtes Gebiet. Ein wichtiger Teil der in dieser Arbeit vorgestellten Forschung besteht darin, diese Lücke zu schließen. In dieser Arbeit konzentrieren wir uns auf das Repräsentationslernen als einen umfassenden Ansatz, um sowohl die grundlegenden als auch die praktischen Aspekte von Translationese zu behandeln. Mit dieser Forschungsarbeit wollen wir einen Beitrag zum breiteren Feld der sprachübergreifenden Sprachstudien leisten und eine bestehende Lücke im Verständnis und in der Behebung von Translationese schließen. Zunächst befassen wir uns mit den praktischen Aspekten von Translationese. Frühere Studien haben gezeigt dass die Verwendung verschiedener manuell erstellter Merkmale für überwachtes Lernen für die Klassifizierung von Translationese effektiv sein kann (Avner, Ordan, and Wintner, 2016; Baroni and Bernardini, 2005; Rabinovich, Ordan, and Wintner, 2017; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Dies hat sich als nützlich für eine Vielzahl von Aufgaben erwiesen, wie z. B. die Analyse von Übersetzungsstrategien (Lapshinova- Koltunski, 2015), die Untersuchung der Merkmale (Koppel and Ordan, 2011; Rubino, Lapshinova-Koltunski, and Genabith, 2016) von Translationese oder die Bewertung von maschinellen Übersetzungssystemen (Graham, Haddow, and Koehn, 2019; Zhang and Toral, 2019). In Anlehnung an diese Forschungslinie in der Erforschung des Translationese, konzentrieren wir uns auf zwei praktische Aufgaben: (i) mehrsprachige Klassifizierung von Translationese, und (ii) wir schlagen eine neue Aufgabe vor, nämlich die Milderung von Translationese-Artefakten. Im Rahmen von (i) entwerfen, entwickeln und evaluieren wir verschiedene Repräsentationslernansätze zur Klassifikation mehrsprachigen Translationese und vergleichende sie mit klassischen manuellen, auf Feature-Engineering basierenden Ansätzen für dieselben Daten. In (ii) führen wir die neue Aufgabe ein, Translationese Artefakte aus latenten Repräsentationsräumen zu entfernen. Dies bezieht sich auf den Prozess der Entfernung oder die Reduzierung des Einflusses von Artefakten auf die gelernten Repräsentationen von Texten, um die Eigenschaften der Originaltexte besser wiederzugeben. Translationese wurde als eine Reihe von spezifischen linguistischen Merkmalen und Konventionen charakterisiert, die Übersetzungen von Originaltexten unterscheiden (Baker et al., 1993; Teich, 2003; Toury, 1979). Frühere bahnbrechende Forschungen zur automatischen Klassifizierung von Übersetzungen (Baroni and Bernardini, 2005; Koppel and Ordan, 2011) verwendeten traditionelle, handgefertigte, linguistisch inspirierte, auf Features basierende, überwachte maschinelle Lernansätze, um Klassifikatoren zu trainieren. Häufig wurden Feature-Ranking-Methoden verwendet, um herauszufinden, welche der Features wichtige Indikatoren für Translationese sind (Avner, Ordan, and Wintner, 2016; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Manuelle, linguistisch inspirierte, auf Feature- Engineering basierende Ansätze haben den Vorteil, dass die verwendeten Merkmale (und ihre Rangfolge) für menschliche Experten leicht zu interpretieren sind. Es gibt jedoch einige Gründe, warum es problematisch sein kann, sich bei der überwachten Klassifizierung von Übersetzungen auf manuell erstellte linguistische Merkmale zu verlassen. Eines der Hauptprobleme bei diesem Ansatz ist, dass die manuell erstellten Merkmale möglicherweise nicht vollständig sind und nicht alle wichtigen Unterscheidungsmerkmale der Eingabedaten während des Trainings erfassen. Dies liegt daran, dass die Merkmale auf linguistischen Intuitionen beruhen und möglicherweise nicht alle möglichen Variationen in den Eingabedaten berücksichtigen. Darüber hinaus erfordert die Annotation linguistischer Daten in großem Umfang (automatische) Annotationswerkzeuge, und die Beschaffung linguistischer Annotationswerkzeuge, wie Tokenisierer, Tagger, morphologische Analysatoren, NERs, Chunkers, Parser usw., kann für viele Sprachen eine Herausforderung darstellen (insbesondere für Sprachen mit geringen Ressourcen), was den Nutzen dieses Ansatzes einschränkt. Darüber hinaus ist die automatische Annotation im großen Maßstab immer verrauscht, und die Merkmale können sprach- oder linguistiktheoriespezifisch sein. Teilweise als Reaktion auf die Beschränkungen der von der linguistischen Theorie inspirierten Merkmale wurden in früheren Arbeiten auch einfache lexikalisierte Merkmale wie Wort-Token und Zeichen-N-Gramme (Avner, Ordan, and Wintner, 2016) oder Merkmale auf der Grundlage von Zählmodellen, Informationsdichte, Überraschung und Komplexität für die Textklassifizierung, insbesondere bei der Bewertung der Übersetzungsqualität, untersucht. Diese Merkmale dienen als Indikatoren für Translationese sowohl von ursprünglich verfassten als auch von manuell übersetzten Texten (Rubino, Lapshinova-Koltunski, and Genabith, 2016). Diese Forschung stützt sich jedoch auf diskrete zählbasierte Ansätze, die Wörter als diskrete Einheiten behandeln, was zu begrenzten Möglichkeiten der Kontextmodellierung führt. In dieser Arbeit erforschen wir einen alternativen Ansatz zur Klassifizierung von mehrsprachigem Translationese, ohne uns auf manuelles Feature Engineering zu verlassen, was uns dazu motiviert, unsere erste Forschungsfrage zu formulieren. RQ1: Inwieweit können Techniken des Repräsentationslernens, wie z. B. Einbettungen, übersetzte und nicht übersetzte Texte ohne vorherige linguistische Annahmen unterscheiden? Der erste Beitrag dieser Dissertation in Kapitel 3 besteht darin, eine Reihe von auf Repräsentationslernen basierenden Methoden zu entwerfen, zu implementieren und zu evaluieren, so dass die manuelle Erstellung von Merkmalen überflüssig wird. Auf Merkmalen und Repräsentationen basierende Lernmethoden werden in erster Linie von Faktoren wie den Daten, der Aufgabe und dem Lerner beeinflusst, ohne sich auf vorherige linguistische Annahmen oder Vorurteile zu stützen. Dies steht im Gegensatz zu linguistisch inspirierten, handgefertigten Feature-Engineering-Ansätzen, die keine Garantie dafür bieten, dass die Features und Repräsentationen vollständig sind. Daher wollen wir die Ergebnisse, die mit auf Repräsentationslernen basierendenAnsätzen für die Klassifikation mehrsprachiger Übersetzungen erzielt werden, mit denen unserer früheren klassischen, auf manuellem Feature-Engineering basierenden Ansätze vergleichen, die linguistisch informierte Methoden und automatische Annotationswerkzeuge für dieselben Daten verwenden, um RQ1 zu behandeln. In Kapitel 3 zeigen wir, dass bereits statisch eingebettete, auf Repräsentationslernen basierende Ansätze handgefertigte, linguistisch inspirierte Feature-Selection- Methoden für die Übersetzungsklassifikation bei einer Vielzahl von Aufgaben übertreffen. Darüber hinaus führen wir Experimente mit einer Reihe von Ausgangs-/Zielspachenkombinationen in ein- und mehrsprachigen Umgebungen durch, die belegen, dass auf Repräsentationslernen basierende Methoden bei der Generalisierung auf verschiedene mehrsprachige Aufgaben effektiver sind. Darüber hinaus vergleichen wir unsere Ansätze mit sprachübergreifende neuronalen Ansätzen auf denselben Daten und heben hervor, dass die Klassifizierung von Übersetzungen tiefe neuronale Modelle mit starker Kontextmodellierung erfordert, um optimale Ergebnisse zu erzielen. Übersetzungsartefakte üben einen erheblichen Einfluss auf verschiedene nachgelagerte Aufgaben aus, die mit Übersetzung zu tun haben. In jüngster Zeit wurde die Aufmerksamkeit auf den Einfluss von Translationese auf Bewertungsmetriken gelenkt (Graham, Haddow, and Koehn, 2019; Toral, 2019; Zhang and Toral, 2019). Edunov et al. (2020) and Freitag, Caswell, and Roy (2019) identifizierten Translationese als eine signifikante Quelle für die Diskrepanz zwischen BLEU-Scores (Papineni et al., 2002) und menschlichen Bewertungen. Die Auswirkung der Übersetzungssprache in den Testsätzen ist mit der Auswirkung in den Trainingsdaten (Bogoychev and Sennrich, 2019; Kurokawa, Goutte, and Isabelle, 2009; Lembersky, Ordan, and Wintner, 2012; Riley et al., 2020a) verbunden, unterscheidet sich aber von dieser. Daher ist es für die Verbesserung der Genauigkeit und Effektivität von sprachübergreifendem NLP von entscheidender Bedeutung, Translationese in der Übersetzungsausgabe zu verstehen, zu analysieren und vor allem abzuschwächen. Dies führt uns zur Formulierung unserer nächsten Forschungsfrage. RQ2:Ist es möglich, Übersetzungsartefakte effektiv abzuschwächen? Bis heute ist diese wichtige Forschungsfrage unteruntersucht. Die RQ2 zu adressieren, ist der zweite Beitrag, den die Dissertation liefert. Wir präsentieren einen Ansatz zur Minderung der negativen Auswirkungen von Translationese auf sprachübergreifende Aufgaben. Um dies zu erreichen, schlagen wir einen neuen Ansatz vor: Translationese-Debiasing. Wir entwerfen, implementieren und evaluieren diesen Ansatz, der auf latenten Repräsentationen arbeitet. Durch die Reduzierung der Effekte von Translationese auf nachgelagerte Aufgaben zielt dieser Ansatz darauf ab, die Genauigkeit und Wirksamkeit der überlingualen natürlichen Sprachverarbeitung zu verbessern. Um dieses Ziel zu erreichen, passen wir den Iterativen Nullraumprojektionsalgorithmus (Ravfogel et al., 2020), der ursprünglich zur Reduzierung von Geschlechtsattributen in neuronalen Repräsentationen entwickelt wurde, an übersetzungsbedingte Verzerrungen in Wort- und Satzeinbettungsräumen an. Zusätzlich entwickeln wir zwei Techniken zum Debiasing von Übersetzungsfehlern auf der Wortebene. Wir evaluieren unseren Ansatz, indem wir die Klassifizierungsleistung von Übersetzungsfehlern vorund nach dem Debiasing vergleichen, und stellen erwartungsgemäß eine geringere Genauigkeit als Folge fest. Darüber hinaus evaluieren wir die Auswirkungen des Debiasing von Übersetzungsartefakten auf die extrinsische Aufgabe der Natural Language Inference (NLI) in zwei verschiedenen Datenumgebungen. Unsere Ergebnisse zeigen, dass das entzerrte Modell in der Lage ist, die Beziehungen zwischen den Sätzen in der Inferenzaufgabe besser zu erhalten und genauere Inferenzen zu produzieren. Im zweiten Teil befasst sich die Dissertation mit grundlegenden Fragen zum Tranlationese, einschließlich der Frage, ob die Signale des Translationese in semantischen Worteinbettungsräumen beobachtet werden können und welche praktischen Auswirkungen dies hat. Übersetzte Texte weisen häufig Muster von Interferenzen in aus Ausgangssprache auf, wobei Merkmale des Ausgangstextes auf den Zieltext übertragen werden Teich, 2003; Toury, 1980. Während frühere Studien mit Hilfe von überwachter Klassifikation und Feature-Engineering (Baroni and Bernardini, 2005; Koppel and Ordan, 2011; Rabinovich, Ordan, and Wintner, 2017) systematische Belege für Translationese in übersetzten Texten aufzeigen konnten, sind die Auswirkungen von Translationese auf semantische Räume noch weitgehend unerforscht. Wir entwerfen, implementieren und evaluieren einen strukturierten und nicht überwachten Ansatz zur Erkennung von Translationese in semantischen Räumen ohne die Notwendigkeit expliziter linguistischer Annotationen. Unser Ansatz verfolgt drei Ziele: erstens die Identifizierung von Translationese-Effekten in semantischen Repräsentationen von Texten; zweitens die Entwicklung einer unüberwachten Methode zur Erkennung dieser Effekte ohne menschliche Annotation; und drittens die Bewertung, ob mögliche Domänenunterschiede für einige unserer Ergebnisse verantwortlich sein könnten. Um diese Ziele zu erreichen, konzentrieren wir uns auf zwei primäre Aufgaben: (i) das Aufspüren von Translationese in semantischen Räumen (ii) die Untersuchung des Einflusses der Domäne auf diese Aufgabe. Die charakteristischen Merkmale übersetzter Texte werden traditionell in zwei Hauptkategorien eingeteilt: Eigenschaften, die sich aus der Interferenz der Ausgangssprache ergeben, und universelle Merkmale, die sich aus der Übersetzung als kommunikativem Prozess selbst ergeben. Frühere Studien verwenden eine Kombination aus lexikalischen und syntaktischen Merkmalen, um zu zeigen, dass Spuren der Ausgangssprache oder shining-through (Teich, 2003) in Übersetzungen sichtbar bleiben. Dies ist darauf zurückzuführen, dass lexikalische und syntaktische Merkmale Hinweise auf die Ausgangssprache eines übersetzten Textes geben können (z. B. Wortstellung, grammalische Strukturen). Während lexikalische und syntaktische Merkmale für die Identifizierung bestimmter Merkmale von Translationese nützlich sein können, ist es wichtig, Translationese zu identifizieren, ohne dass eine explizite Kennzeichnung oder Überwachung erforderlich ist. So können beispielsweise bestimmte Muster oder Strukturen im semantischen Raum eines übersetzten Textes auf Translationese hinweisen, auch wenn sie nicht direkt mit spezifischen lexikalischen oder syntaktischen Merkmalen übereinstimmen. Dies führt uns zu der nächsten Forschungsfrage. RQ3:Ist es möglich, Translationese in semantischen Räumen in einer unüberwachten Weise auf zu spüren?Um diese Frage zu beantworten, führt der dritte Beitrag dieser Dissertation eine neue Forschungsrichtung ein: das Aufspüren von Translationese-Signalen in einem semantischen Raum, ohne dass eine explizite Kennzeichnung oder Überwachung erforderlich ist. Im Gegensatz zu früheren Arbeiten, die sich auf überwachte Klassifikation und Feature-Engineering stützten, um Translationese zu identifizieren, ist unser Ansatz völlig unbeaufsichtigt und basiert auf einem Schlüsselkonzept: dem Begriff des Isomorphismus. Das Isomorphie-Prinzip besagt, dass Sprachen ein hohes Maß an Übereinstimmung zwischen Bedeutung und Form auf einer Eins-zu-Eins-Basis aufweisen (Barone, 2016). Im Zusammenhang mit der Erkennung von Translationese in semantischen Räumen würde Isomorphie bedeuten, dass der semantische Raum, der aus den Originaldaten der Zielsprache erstellt wurde, derselbe sein sollte wie der Raum, der aus den Übersetzungen in diese Sprache erstellt wurde, und zwar in Bezug auf die Art und Weise, wie die Wörter innerhalb des Einbettungsraums miteinander verbunden sind. Unser Ziel ist es, Translationese auf der Grundlage von Abweichungen von der Graphen-Isomorphie nachzuvollziehen, wobei die ursprüngliche Zielsprache und die Übersetzungen in diese Zielsprache als Graphenstrukturen in den semantischen Räumen dargestellt werden. Die Abweichungen von der Isomorphie zwischen diesen Graphen deuten auf systematische Anzeichen von Translationese hin. Insbesondere stellen wir fest, dass mit abnehmender Isomorphie der linguistische Abstand zwischen etymologisch weit entfernten Sprachfamilien zunimmt, was den Nachweis erbringt, dass die durch die Abweichung von der Isomorphie erkannten Translationese Signale mit der Interferenz der Ausgangssprache verbunden sind. Unsere Ergebnisse sind vergleichbar mit früheren Ansätzen, die auf oberflächlichen Merkmalen wie Wörtern, n-Grammen oder Parser-Ausgaben basieren. Anschließend zeigen wir, dass die vorgeschlagenen Methoden unter einer Vielzahl von Trainingsbedingungen robust sind, die die Datengröße, den Datentyp und die Wahl der Worteinbettungsmodelle umfassen. Außerdem zeigen unsere Ergebnisse, dass unsere Methoden sprachunabhängig sind, in dem in dem Sinne, dass sie auf mehrere Sprachen angewendet werden können und nicht auf eine bestimmte Sprache oder Sprachfamilie beschränkt sind. Schließlich setzen wir das Aufspüren von Translationese in semantischen Räumen fort und reduzieren dabei die Auswirkungen möglicher unterschiedlicher Domänen in übersetzten und ursprünglichen Daten, indem wir verschiedene Sichten auf die Daten verwenden (Wörter, PoS, Synsets und semantische Tags). Im vorangegangenen Kapitel haben wir gezeigt, dass Translationese-Signale in semantischen Worteinbettungsräumen, die aus übersetzten und Originaldaten erstellt wurden, erkannt werden können, aber es bleibt unklar, ob die Signale wirklich auf Translationese hinweisen oder ob sie von anderen Faktoren beeinflusst werden, wie z.B. von möglichen thematischen oder Domänen Unterschieden zwischen dem Original und übersetzten Texten. Translationese Signale sind subtil und können mit anderen Signalen in den Daten konkurrieren, insbesondere mit denen, die Spezifika von Domänen zusammenhängen. Dies veranlasst uns zu unserer letzten Forschungsfrage. RQ4: Inwieweit lassen sich die in der Antwort auf RQ3 beobachteten Ergebnisse auf Domänenunterschiede zwischen Original und übersetztem Text zurückführen, im Gegensatzzu echten Translationese Signalen? Unser vierter Beitrag in Kapitel 6 untersucht das Zusammenspiel verschiedener linguistischer Repräsentationen (lexikalisch, morphologisch und syntaktisch) und die Frage, ob die Maskierung lexikalischer Informationen und die dadurch bedingte Verringerung potenzieller Domänensignale die Aufgabe der unüberwachten Rückverfolgung von Übersetzungen in semantischen Räumen beeinflussen, um RQ4 anzugehen. Bei der Analyse von übersetzten Daten, die Texte enthalten, die aus mehreren Quellen (z. B. aus entfernten Sprachen wie Deutsch und Bulgarisch) in dieselbe Zielsprache (z. B. Englisch) übersetzt wurden, können die Ergebnisse unserer Analyse des semantischen Raums durch Domänenunterschiede in den Daten verzerrt werden und nicht durch eigentliche Tranlationese-Signale wie die Ausgangssprachen der Übersetzungen bedingt sein. Um dies zu berücksichtigen, maskieren wir lexikalische Domäneninformationen in den Daten. Bei diesem Ansatz werden entlexikalisierte Darstellungen verwendet, die Wörter durch Wortarten (Parts of Speech, PoS), semantische Tags oder Synsets ersetzen. Durch die Anwendung unserer Graph-Isomorphismus-Methoden auf diese Darstellungen können wir bestimmte linguistische Merkmale (wie morphologische Informationen oder einfache syntaktische Konfigurationen – PoS-Sequenzen) erfassen und den Einfluss domänenspezifischer lexikalischer Merkmale (insbesondere des Vokabulars) auf die Analyse von Übersetzungen minimieren. Unsere Ergebnisse zeigen, dass delexikalisierte Darstellungen (PoS, Synsets oder semantische Tags) immer noch erhebliche Interferenzen mit der Ausgangssprache aufweisen. Dies deutet darauf hin, dass die lexikalisierten Ergebnisse auf der niedrigsten Abstraktionsebene (d. h. Wörter) nicht nur auf mögliche Unterschiede in der Domäne zwischen Original- und Translationese Text zurückzuführen sind. Insgesamt ist dies ein Beleg dafür, dass morphologische und einfache syntaktische Repräsentationen in den Daten auch Translationese Signale enthalten. Um das unüberwachte Aufspüren von Translationese Signalen in semantischen Räumen zu bewerten, untersuchen wir außerdem, inwieweit es möglich ist, die Sprachphylogenie oder die genetischen Beziehungen zwischen Sprachen mit diesen delexikalisierten Repräsentationen zu clustern. Wir zeigen, dass unabhängig von der Ebene der sprachlichen Repräsentation aus den Isomorphieabständen Familenverbindungen der Sprachen mit ähnlichen Eigenschaften wie linguistisch motivierte phylogenetische Bäume abgeleitet werden können, wobei alle Kombinationen von ursprünglicher Zielsprache und Übersetzungen in diese Zielsprache aus verschiedenen Ausgangssprachen verwendet werden. Im vorigen Kapitel haben wir einige implizite Hinweise darauf gegeben, dass die Abweichung von der Isomorphie zwischen Einbettungsräumen auf strukturelle Oberflächenunterschiede zwischen Sprachfamilien hinweisen, die wir aus der linguistischen Literatur kennen. Eine größere Abweichung von der Isomorphie zwischen Einbettungsräumen deutet auf eine größere sprachliche Distanz in Bezug auf von Sprachfamilien und damit auf einen vermeintlich oberflächlichen strukturellen linguistischen Abstand (z. B. Morphologie, Syntax) zwischen Sprachen, wie sie in der linguistischen Literatur beschrieben werden. Dies wird in Kapitel 6 indirekt durchdie POS-Experimente (und die anderen verschiedenen Ansichten) gezeigt die von lexikalischen Informationen in der ursprünglichen und übersetzerischen Einbettung abstrahieren Experimente, bei denen maskierte Ansichten (POS usw.) immer noch vernünftige Unterschiede in der Isomorphie zwischen den Einbettungsräumen im Original und in der Übersetzung zeigen, und darauf aufbauend phylogenetische Stammbaumergebnisse. Dies wirft die Frage auf, ob es explizite Beweise für den Zusammenhang zwischen Einbettungen und strukturellen Oberflächenunterschieden gibt, was uns dazu veranlasst, unsere letzte Forschungsfrage zu formulieren. RQ5: Inwieweit kann graphbasierte Divergenz von Isomorphie in Einbettungsräumen als Proxy für Surprisal auf der Ebene von Oberflächentexten dienen? Wir behandeln RQ5 als den fünften Beitrag dieser Dissertation. Um dieser Frage nachzugehen, berechnen wir die Korrelation zwischen (a) Unterschieden in der Oberflächenstringentropie von Original- und übersetzten Daten, die von Sprachmodellen berechnet werden, die auf Originaldaten trainiert wurden, und (b) der Abweichung von der Isomorphie zwischen Einbettungsräumen, die auf denselben Textdaten berechnet werden. Unsere Ergebnisse zeigen eine Korrelation zwischen diesen beiden Maßen, d. h. eine größere Abweichung von der Isomorphie zwischen Einbettungsräumen entspricht einem größeren Unterschied in der Oberflächenentropie. Dies stellt eine direkte Verbindung zwischen dem Einbettungsraum und der Darstellung von Oberflächenstrings her, wobei letztere durch die Entropie des Sprachmodells gemessen wird. Darüber hinaus zeigen unsere Ergebnisse, dass Übersetzungen in dieselbe Zielsprache aus strukturell unterschiedlichen Ausgangssprachen im Allgemeinen höhere Entropieunterschiede aufweisen, während solche aus strukturell ähnlichen Ausgangssprachen geringere Unterschiede aufweisen. Diese Ergebnisse spiegeln die Muster wider, die bei der Divergenz von Isomorphie zwischen Einbettungsräumen beobachtet wurden, wo Übersetzungen aus strukturell stärker divergierenden Sprachen zu einer größeren Divergenz bei der Isomorphie führen. Diese Ergebnisse stellen explizit eine Verbindung zwischen unseren beiden Messgrößen her: der Isomorphiedivergenz zwischen Original- und übersetzten Einbettungsräumen und den Entropieunterschieden in den Oberflächenstrings derselben Textdaten.

      @phdthesis{Chowdhury_Diss_2024,
      title = {A representation learning based approach to the study of translationese},
      author = {},
      url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/40059},
      doi = {https://doi.org/20.500.11880/40059},
      year = {2024},
      date = {2024},
      school = {Saarland University},
      address = {Saarbruecken, Germany},
      abstract = {Translated texts exhibit systematic linguistic differences compared to original texts in the same language. These differences are referred to as translationese, and can be categorised as either source language dependent or universal. Basic research on translationese aims to understand and characterise the language-specific and language-independent aspects of translationese. Additionally, translationese has practical implications in the context of natural language processing tasks that involve translation. Translationese effects can cause biased results in a variety of cross-lingual tasks. Therefore, understanding, analysing and mitigating translationese is crucial for improving the accuracy and effectiveness of cross-lingual natural language processing. Focusing on representation learning, this dissertation addresses both foundational as well as practical aspects of translationese. Our first task is to investigate the effectiveness of representation learning-based methods in mono- and multilingual translationese classification. Traditional manual featureengineering based methods for translationese classification may result in potentially partial, non-exhaustive linguistic features and often require linguistic annotation tools. In contrast, our approach involves developing a suite of representation-learning methods based on word embeddings, eliminating the need for manual feature engineering. Our experiments demonstrate superior performance, outperforming previous traditional hand-crafted linguistically inspired feature-selection methods for translationese classification on a wide range of tasks. Translationese artifacts have been found to exert a substantial influence on diverse downstream tasks involving translated data. Therefore, to mitigate the impact of translationese on downstream tasks, we propose a new approach: translationese debiasing. Our research is the first to adapt the Iterative Null Space Projection (INLP) algorithm, originally designed to mitigate gender attributes, to translationese-induced bias in both word and sentence embedding spaces. Additionally, we develop two techniques for debiasing translationese at the word level representations. We confirm the effectiveness of our debiasing approach by comparing the classification performance before and after debiasing on the translationese classification task. Additionally, we demonstrate the practical utility of our debiasing method by applying it to a natural language inference task involving translated data, where we observed improved accuracy as a result of reduced translation-induced bias. Next, we address the foundational question of whether translationese signals can be observed in semantic word embedding spaces and, if so, what practical implications this observation may have. To this end, we propose a novel approach for unsupervised tracking of translationese in semantic spaces, which does not rely on explicit linguistic labels. Our method is based on graph-isomorphism approaches that examine departures from isomorphism between embedding spaces built from original language data and translations into this language. By comparing the normalised distances between these spaces, we are able to identify systematic evidence of translationese. Specifically, we find that as isomorphism weakens, the linguistic distance between etymologically distant language families increases, providing evidence that translationese signals are linked to source language interference. Following this, we show that the proposed methods are robust under a variety of training conditions, encompassing data size, type, and choice of word embedding models. Additionally, our findings indicate our methods are language-independent, in the sense that they can be applied to multiple languages and are not limited to a specific language or language family. We extend the work on unsupervised tracking of translationese in semantic spaces to evaluate the impact of domain in translationese data. Translationese signals are subtle and may compete with other signals in the data, particularly those related to domain. To address this, we mask domain information by applying our graph-isomorphism methods to different delexicalized representations using various views, including words, parts of speech, semantic tags, and synsets. Our results demonstrate that while source-language interference is most pronounced in lexicalised embeddings (word), it is also present in delexicalised views. This indicates that our lexicalised findings are not only the result of possible topic differences between original and translated texts. Additionally, we show that, regardless of the level of linguistic representation, language family ties with characteristics similar to linguistically motivated phylogenetic trees can be inferred from the degree of departures from isomorphism, using all combinations of original target language and translations into this target language from different source languages. Finally, we explore whether the graph-based divergence from isomorphism in embeddings can serve as a viable proxy for surprisal at the the level of surface texts. To do this, we explicitly compute the correlation between (a) differences in surface string entropy of original vs. translated data computed by language models trained on originally authored data and (b) divergence from isomorphism between embedding spaces computed on the same text data. Our results show a positive correlation between these two measures with a higher departure from isomorphism between embedding spaces corresponding to a greater difference in surface entropy. Additionally, similar to the findings of graph-based divergence from isomorphism between embedding spaces where higher divergence from isomorphism implicitly indicates higher linguistic distance in terms of language families and, supposedly, surface structural linguistic distance between languages — our entropy-based findings demonstrate that the observed differences in surface string representations between the original and translated datasets also correspond, at a higher level, with the surface structural linguistic distance between the source languages themselves. These results establish an explicit link between our two measures: divergence from isomorphism between original and translated embedding spaces and entropy differences of the surface strings of the same text data.


      {\"U}bersetzteTexte weisen im Vergleich zu Originaltexten in derselben Sprache systematische sprachliche Unterschiede auf, die zu einer einzigartigen Teilsprache mit eigenen Unterscheidungsmerkmalen f{\"u}hren. Diese Unterschiede werden als Translationese (Gellerstam, 1986) bezeichnet und k{\"o}nnen entweder als ausgangssprachabh{\"a}ngig oder universell kategorisiert werden. Es ist wichtig zu beachten, dass Translationese keine eigenst{\"a}ndige Sprache ist, sondern vielmehr eine Reihe von sprachlichen Merkmalen (Baker et al., 1993; Toury, 1980), die {\"u}bersetzte Texte von denen unterscheiden, die urspr{\"u}nglich in der Zielsprache geschrieben wurden. Verschiedene Faktoren tragen zu den Unterschieden zwischen den Originaltexten und {\"u}bersetzten Texten bei, von denen viele unter die Kategorie der universellen Merkmale der {\"U}bersetzung fallen. Zu diesen universellen Merkmalen geh{\"o}ren die Vereinfachung, d. h. die Vereinfachung komplexer Ausgangsstrukturen in der Zielsprache, die Standardisierung, d. h. die Neigung, sich eng an die Normen der Zielsprache zu halten, und die Explizierung, d. h. die Verdeutlichung impliziter Ausgangsstrukturen in der Zielsprache. Im Gegensatz zu diesen {\"u}bersetzerischen Universalien spiegelt die Interferenz den Einfluss der Ausgangssprache auf das {\"U}bersetzungsprodukt wider. Interferenz ist von Natur aus ein sprachpaarspezifisches Ph{\"a}nomen, bei dem isomorphe Strukturen, die Ausgangs- und Zielsprache gemeinsam haben, einander leicht ersetzen k{\"o}nnen. Dies verdeutlicht den zugrunde liegenden sprach{\"u}bergreifenden Einfluss der Ausgangssprache auf das {\"U}bersetzungsergebnis. Nach dieser Definition wird das {\"U}bersetzen als eine besondere Form der sprach{\"u}bergreifenden Sprachvariet{\"a}t betrachtet, die einen Sonderfall innerhalb der breiteren Landschaft des Sprachkontakts darstellt. Trotz des betr{\"a}chtlichen Umfangs der Forschung zu verschiedenen sprach{\"u}bergreifenden Sprachvariet{\"a}ten gibt es eine auff{\"a}llige L{\"u}cke, wenn es um die spezifische Untersuchung des Translationese geht. Bisherige Studien haben sich vor allem auf zwei Aspekte konzentriert, n{\"a}mlich auf die Identifizierung charakteristischer Merkmale von {\"U}bersetzungen und auf die Klassifizierung von Translationese, wobei sorgf{\"a}ltige korpusbasierte Studien (Baker et al., 1993) verwendet wurden, die Unterschiede in der Verteilung linguistischer Merkmale zwischen Originalen und {\"u}bersetzten Texten aufzeigen, oder klassifikationsbasierte Ans{\"a}tze bei denen ein Klassifikator trainiert wird und dann Merkmalsbedeutungsma{\ss}e verwendet werden, um darauf zu schlie{\ss}en, welche Merkmale bei der Klassifizierung von {\"U}bersetzungen besonders wichtig sind (Rabinovich and Wintner, 2015; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Die praktischen Implikationen von Translationswissenschaft gehen jedoch {\"u}ber die Identifizierung linguistischer Merkmale und die Klassifizierung hinaus. Die ausgepr{\"a}gten sprachlichen Unterschiede, die zwischen Originaltexten und {\"u}bersetzten Texten in derselben Sprache zu beobachten sind, lassen sich im Gro{\ss}en und Ganzen entweder als quellsprachenabh{\"a}ngig oder als universell klassifizieren. Die Durchf{\"u}hrung von Grundlagenforschung zum Translationese ist wichtig, da sie wertvolle Einblicke sowohl in sprachspezifische als auch in sprachunabh{\"a}ngige Aspekte dieses sprachlichen Ph{\"a}nomens liefert. Die Grundlagenforschung erm{\"o}glicht ein tieferes Verst{\"a}ndnis der zugrundeliegenden Muster und Strukturen, die das Translationese definieren, sowie der Variationen, die in verschiedenen Sprachen und Sprachfamilien beobachtet werden. Es ist jedoch auch wichtig, eine bestehende L{\"u}cke in der Erforschung des Translationese zu schlie{\ss}en. Translationese hat sp{\"u}rbare Auswirkungen auf verschiedene sprach{\"u}bergreifende Aufgaben der nat{\"u}rlichen Sprachverarbeitung (NLP), was zu verzerrten Ergebnissen und verminderter oder k{\"u}nstlich aufgebl{\"a}hter Leistung f{\"u}hren kann. Daher ist die Untersuchung und Abschw{\"a}chung von Translationese f{\"u}r die Verbesserung der Genauigkeit und Effektivit{\"a}t dieser Aufgaben von entscheidender Bedeutung. Die Abschw{\"a}chung von Translationese ist bisher ein wenig erforschtes Gebiet. Ein wichtiger Teil der in dieser Arbeit vorgestellten Forschung besteht darin, diese L{\"u}cke zu schlie{\ss}en. In dieser Arbeit konzentrieren wir uns auf das Repr{\"a}sentationslernen als einen umfassenden Ansatz, um sowohl die grundlegenden als auch die praktischen Aspekte von Translationese zu behandeln. Mit dieser Forschungsarbeit wollen wir einen Beitrag zum breiteren Feld der sprach{\"u}bergreifenden Sprachstudien leisten und eine bestehende L{\"u}cke im Verst{\"a}ndnis und in der Behebung von Translationese schlie{\ss}en. Zun{\"a}chst befassen wir uns mit den praktischen Aspekten von Translationese. Fr{\"u}here Studien haben gezeigt dass die Verwendung verschiedener manuell erstellter Merkmale f{\"u}r {\"u}berwachtes Lernen f{\"u}r die Klassifizierung von Translationese effektiv sein kann (Avner, Ordan, and Wintner, 2016; Baroni and Bernardini, 2005; Rabinovich, Ordan, and Wintner, 2017; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Dies hat sich als n{\"u}tzlich f{\"u}r eine Vielzahl von Aufgaben erwiesen, wie z. B. die Analyse von {\"U}bersetzungsstrategien (Lapshinova- Koltunski, 2015), die Untersuchung der Merkmale (Koppel and Ordan, 2011; Rubino, Lapshinova-Koltunski, and Genabith, 2016) von Translationese oder die Bewertung von maschinellen {\"U}bersetzungssystemen (Graham, Haddow, and Koehn, 2019; Zhang and Toral, 2019). In Anlehnung an diese Forschungslinie in der Erforschung des Translationese, konzentrieren wir uns auf zwei praktische Aufgaben: (i) mehrsprachige Klassifizierung von Translationese, und (ii) wir schlagen eine neue Aufgabe vor, n{\"a}mlich die Milderung von Translationese-Artefakten. Im Rahmen von (i) entwerfen, entwickeln und evaluieren wir verschiedene Repr{\"a}sentationslernans{\"a}tze zur Klassifikation mehrsprachigen Translationese und vergleichende sie mit klassischen manuellen, auf Feature-Engineering basierenden Ans{\"a}tzen f{\"u}r dieselben Daten. In (ii) f{\"u}hren wir die neue Aufgabe ein, Translationese Artefakte aus latenten Repr{\"a}sentationsr{\"a}umen zu entfernen. Dies bezieht sich auf den Prozess der Entfernung oder die Reduzierung des Einflusses von Artefakten auf die gelernten Repr{\"a}sentationen von Texten, um die Eigenschaften der Originaltexte besser wiederzugeben. Translationese wurde als eine Reihe von spezifischen linguistischen Merkmalen und Konventionen charakterisiert, die {\"U}bersetzungen von Originaltexten unterscheiden (Baker et al., 1993; Teich, 2003; Toury, 1979). Fr{\"u}here bahnbrechende Forschungen zur automatischen Klassifizierung von {\"U}bersetzungen (Baroni and Bernardini, 2005; Koppel and Ordan, 2011) verwendeten traditionelle, handgefertigte, linguistisch inspirierte, auf Features basierende, {\"u}berwachte maschinelle Lernans{\"a}tze, um Klassifikatoren zu trainieren. H{\"a}ufig wurden Feature-Ranking-Methoden verwendet, um herauszufinden, welche der Features wichtige Indikatoren f{\"u}r Translationese sind (Avner, Ordan, and Wintner, 2016; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Manuelle, linguistisch inspirierte, auf Feature- Engineering basierende Ans{\"a}tze haben den Vorteil, dass die verwendeten Merkmale (und ihre Rangfolge) f{\"u}r menschliche Experten leicht zu interpretieren sind. Es gibt jedoch einige Gr{\"u}nde, warum es problematisch sein kann, sich bei der {\"u}berwachten Klassifizierung von {\"U}bersetzungen auf manuell erstellte linguistische Merkmale zu verlassen. Eines der Hauptprobleme bei diesem Ansatz ist, dass die manuell erstellten Merkmale m{\"o}glicherweise nicht vollst{\"a}ndig sind und nicht alle wichtigen Unterscheidungsmerkmale der Eingabedaten w{\"a}hrend des Trainings erfassen. Dies liegt daran, dass die Merkmale auf linguistischen Intuitionen beruhen und m{\"o}glicherweise nicht alle m{\"o}glichen Variationen in den Eingabedaten ber{\"u}cksichtigen. Dar{\"u}ber hinaus erfordert die Annotation linguistischer Daten in gro{\ss}em Umfang (automatische) Annotationswerkzeuge, und die Beschaffung linguistischer Annotationswerkzeuge, wie Tokenisierer, Tagger, morphologische Analysatoren, NERs, Chunkers, Parser usw., kann f{\"u}r viele Sprachen eine Herausforderung darstellen (insbesondere f{\"u}r Sprachen mit geringen Ressourcen), was den Nutzen dieses Ansatzes einschr{\"a}nkt. Dar{\"u}ber hinaus ist die automatische Annotation im gro{\ss}en Ma{\ss}stab immer verrauscht, und die Merkmale k{\"o}nnen sprach- oder linguistiktheoriespezifisch sein. Teilweise als Reaktion auf die Beschr{\"a}nkungen der von der linguistischen Theorie inspirierten Merkmale wurden in fr{\"u}heren Arbeiten auch einfache lexikalisierte Merkmale wie Wort-Token und Zeichen-N-Gramme (Avner, Ordan, and Wintner, 2016) oder Merkmale auf der Grundlage von Z{\"a}hlmodellen, Informationsdichte, {\"U}berraschung und Komplexit{\"a}t f{\"u}r die Textklassifizierung, insbesondere bei der Bewertung der {\"U}bersetzungsqualit{\"a}t, untersucht. Diese Merkmale dienen als Indikatoren f{\"u}r Translationese sowohl von urspr{\"u}nglich verfassten als auch von manuell {\"u}bersetzten Texten (Rubino, Lapshinova-Koltunski, and Genabith, 2016). Diese Forschung st{\"u}tzt sich jedoch auf diskrete z{\"a}hlbasierte Ans{\"a}tze, die W{\"o}rter als diskrete Einheiten behandeln, was zu begrenzten M{\"o}glichkeiten der Kontextmodellierung f{\"u}hrt. In dieser Arbeit erforschen wir einen alternativen Ansatz zur Klassifizierung von mehrsprachigem Translationese, ohne uns auf manuelles Feature Engineering zu verlassen, was uns dazu motiviert, unsere erste Forschungsfrage zu formulieren. RQ1: Inwieweit k{\"o}nnen Techniken des Repr{\"a}sentationslernens, wie z. B. Einbettungen, {\"u}bersetzte und nicht {\"u}bersetzte Texte ohne vorherige linguistische Annahmen unterscheiden? Der erste Beitrag dieser Dissertation in Kapitel 3 besteht darin, eine Reihe von auf Repr{\"a}sentationslernen basierenden Methoden zu entwerfen, zu implementieren und zu evaluieren, so dass die manuelle Erstellung von Merkmalen {\"u}berfl{\"u}ssig wird. Auf Merkmalen und Repr{\"a}sentationen basierende Lernmethoden werden in erster Linie von Faktoren wie den Daten, der Aufgabe und dem Lerner beeinflusst, ohne sich auf vorherige linguistische Annahmen oder Vorurteile zu st{\"u}tzen. Dies steht im Gegensatz zu linguistisch inspirierten, handgefertigten Feature-Engineering-Ans{\"a}tzen, die keine Garantie daf{\"u}r bieten, dass die Features und Repr{\"a}sentationen vollst{\"a}ndig sind. Daher wollen wir die Ergebnisse, die mit auf Repr{\"a}sentationslernen basierendenAns{\"a}tzen f{\"u}r die Klassifikation mehrsprachiger {\"U}bersetzungen erzielt werden, mit denen unserer fr{\"u}heren klassischen, auf manuellem Feature-Engineering basierenden Ans{\"a}tze vergleichen, die linguistisch informierte Methoden und automatische Annotationswerkzeuge f{\"u}r dieselben Daten verwenden, um RQ1 zu behandeln. In Kapitel 3 zeigen wir, dass bereits statisch eingebettete, auf Repr{\"a}sentationslernen basierende Ans{\"a}tze handgefertigte, linguistisch inspirierte Feature-Selection- Methoden f{\"u}r die {\"U}bersetzungsklassifikation bei einer Vielzahl von Aufgaben {\"u}bertreffen. Dar{\"u}ber hinaus f{\"u}hren wir Experimente mit einer Reihe von Ausgangs-/Zielspachenkombinationen in ein- und mehrsprachigen Umgebungen durch, die belegen, dass auf Repr{\"a}sentationslernen basierende Methoden bei der Generalisierung auf verschiedene mehrsprachige Aufgaben effektiver sind. Dar{\"u}ber hinaus vergleichen wir unsere Ans{\"a}tze mit sprach{\"u}bergreifende neuronalen Ans{\"a}tzen auf denselben Daten und heben hervor, dass die Klassifizierung von {\"U}bersetzungen tiefe neuronale Modelle mit starker Kontextmodellierung erfordert, um optimale Ergebnisse zu erzielen. {\"U}bersetzungsartefakte {\"u}ben einen erheblichen Einfluss auf verschiedene nachgelagerte Aufgaben aus, die mit {\"U}bersetzung zu tun haben. In j{\"u}ngster Zeit wurde die Aufmerksamkeit auf den Einfluss von Translationese auf Bewertungsmetriken gelenkt (Graham, Haddow, and Koehn, 2019; Toral, 2019; Zhang and Toral, 2019). Edunov et al. (2020) and Freitag, Caswell, and Roy (2019) identifizierten Translationese als eine signifikante Quelle f{\"u}r die Diskrepanz zwischen BLEU-Scores (Papineni et al., 2002) und menschlichen Bewertungen. Die Auswirkung der {\"U}bersetzungssprache in den Tests{\"a}tzen ist mit der Auswirkung in den Trainingsdaten (Bogoychev and Sennrich, 2019; Kurokawa, Goutte, and Isabelle, 2009; Lembersky, Ordan, and Wintner, 2012; Riley et al., 2020a) verbunden, unterscheidet sich aber von dieser. Daher ist es f{\"u}r die Verbesserung der Genauigkeit und Effektivit{\"a}t von sprach{\"u}bergreifendem NLP von entscheidender Bedeutung, Translationese in der {\"U}bersetzungsausgabe zu verstehen, zu analysieren und vor allem abzuschw{\"a}chen. Dies f{\"u}hrt uns zur Formulierung unserer n{\"a}chsten Forschungsfrage. RQ2:Ist es m{\"o}glich, {\"U}bersetzungsartefakte effektiv abzuschw{\"a}chen? Bis heute ist diese wichtige Forschungsfrage unteruntersucht. Die RQ2 zu adressieren, ist der zweite Beitrag, den die Dissertation liefert. Wir pr{\"a}sentieren einen Ansatz zur Minderung der negativen Auswirkungen von Translationese auf sprach{\"u}bergreifende Aufgaben. Um dies zu erreichen, schlagen wir einen neuen Ansatz vor: Translationese-Debiasing. Wir entwerfen, implementieren und evaluieren diesen Ansatz, der auf latenten Repr{\"a}sentationen arbeitet. Durch die Reduzierung der Effekte von Translationese auf nachgelagerte Aufgaben zielt dieser Ansatz darauf ab, die Genauigkeit und Wirksamkeit der {\"u}berlingualen nat{\"u}rlichen Sprachverarbeitung zu verbessern. Um dieses Ziel zu erreichen, passen wir den Iterativen Nullraumprojektionsalgorithmus (Ravfogel et al., 2020), der urspr{\"u}nglich zur Reduzierung von Geschlechtsattributen in neuronalen Repr{\"a}sentationen entwickelt wurde, an {\"u}bersetzungsbedingte Verzerrungen in Wort- und Satzeinbettungsr{\"a}umen an. Zus{\"a}tzlich entwickeln wir zwei Techniken zum Debiasing von {\"U}bersetzungsfehlern auf der Wortebene. Wir evaluieren unseren Ansatz, indem wir die Klassifizierungsleistung von {\"U}bersetzungsfehlern vorund nach dem Debiasing vergleichen, und stellen erwartungsgem{\"a}{\ss} eine geringere Genauigkeit als Folge fest. Dar{\"u}ber hinaus evaluieren wir die Auswirkungen des Debiasing von {\"U}bersetzungsartefakten auf die extrinsische Aufgabe der Natural Language Inference (NLI) in zwei verschiedenen Datenumgebungen. Unsere Ergebnisse zeigen, dass das entzerrte Modell in der Lage ist, die Beziehungen zwischen den S{\"a}tzen in der Inferenzaufgabe besser zu erhalten und genauere Inferenzen zu produzieren. Im zweiten Teil befasst sich die Dissertation mit grundlegenden Fragen zum Tranlationese, einschlie{\ss}lich der Frage, ob die Signale des Translationese in semantischen Worteinbettungsr{\"a}umen beobachtet werden k{\"o}nnen und welche praktischen Auswirkungen dies hat. {\"U}bersetzte Texte weisen h{\"a}ufig Muster von Interferenzen in aus Ausgangssprache auf, wobei Merkmale des Ausgangstextes auf den Zieltext {\"u}bertragen werden Teich, 2003; Toury, 1980. W{\"a}hrend fr{\"u}here Studien mit Hilfe von {\"u}berwachter Klassifikation und Feature-Engineering (Baroni and Bernardini, 2005; Koppel and Ordan, 2011; Rabinovich, Ordan, and Wintner, 2017) systematische Belege f{\"u}r Translationese in {\"u}bersetzten Texten aufzeigen konnten, sind die Auswirkungen von Translationese auf semantische R{\"a}ume noch weitgehend unerforscht. Wir entwerfen, implementieren und evaluieren einen strukturierten und nicht {\"u}berwachten Ansatz zur Erkennung von Translationese in semantischen R{\"a}umen ohne die Notwendigkeit expliziter linguistischer Annotationen. Unser Ansatz verfolgt drei Ziele: erstens die Identifizierung von Translationese-Effekten in semantischen Repr{\"a}sentationen von Texten; zweitens die Entwicklung einer un{\"u}berwachten Methode zur Erkennung dieser Effekte ohne menschliche Annotation; und drittens die Bewertung, ob m{\"o}gliche Dom{\"a}nenunterschiede f{\"u}r einige unserer Ergebnisse verantwortlich sein k{\"o}nnten. Um diese Ziele zu erreichen, konzentrieren wir uns auf zwei prim{\"a}re Aufgaben: (i) das Aufsp{\"u}ren von Translationese in semantischen R{\"a}umen (ii) die Untersuchung des Einflusses der Dom{\"a}ne auf diese Aufgabe. Die charakteristischen Merkmale {\"u}bersetzter Texte werden traditionell in zwei Hauptkategorien eingeteilt: Eigenschaften, die sich aus der Interferenz der Ausgangssprache ergeben, und universelle Merkmale, die sich aus der {\"U}bersetzung als kommunikativem Prozess selbst ergeben. Fr{\"u}here Studien verwenden eine Kombination aus lexikalischen und syntaktischen Merkmalen, um zu zeigen, dass Spuren der Ausgangssprache oder shining-through (Teich, 2003) in {\"U}bersetzungen sichtbar bleiben. Dies ist darauf zur{\"u}ckzuf{\"u}hren, dass lexikalische und syntaktische Merkmale Hinweise auf die Ausgangssprache eines {\"u}bersetzten Textes geben k{\"o}nnen (z. B. Wortstellung, grammalische Strukturen). W{\"a}hrend lexikalische und syntaktische Merkmale f{\"u}r die Identifizierung bestimmter Merkmale von Translationese n{\"u}tzlich sein k{\"o}nnen, ist es wichtig, Translationese zu identifizieren, ohne dass eine explizite Kennzeichnung oder {\"U}berwachung erforderlich ist. So k{\"o}nnen beispielsweise bestimmte Muster oder Strukturen im semantischen Raum eines {\"u}bersetzten Textes auf Translationese hinweisen, auch wenn sie nicht direkt mit spezifischen lexikalischen oder syntaktischen Merkmalen {\"u}bereinstimmen. Dies f{\"u}hrt uns zu der n{\"a}chsten Forschungsfrage. RQ3:Ist es m{\"o}glich, Translationese in semantischen R{\"a}umen in einer un{\"u}berwachten Weise auf zu sp{\"u}ren?Um diese Frage zu beantworten, f{\"u}hrt der dritte Beitrag dieser Dissertation eine neue Forschungsrichtung ein: das Aufsp{\"u}ren von Translationese-Signalen in einem semantischen Raum, ohne dass eine explizite Kennzeichnung oder {\"U}berwachung erforderlich ist. Im Gegensatz zu fr{\"u}heren Arbeiten, die sich auf {\"u}berwachte Klassifikation und Feature-Engineering st{\"u}tzten, um Translationese zu identifizieren, ist unser Ansatz v{\"o}llig unbeaufsichtigt und basiert auf einem Schl{\"u}sselkonzept: dem Begriff des Isomorphismus. Das Isomorphie-Prinzip besagt, dass Sprachen ein hohes Ma{\ss} an {\"U}bereinstimmung zwischen Bedeutung und Form auf einer Eins-zu-Eins-Basis aufweisen (Barone, 2016). Im Zusammenhang mit der Erkennung von Translationese in semantischen R{\"a}umen w{\"u}rde Isomorphie bedeuten, dass der semantische Raum, der aus den Originaldaten der Zielsprache erstellt wurde, derselbe sein sollte wie der Raum, der aus den {\"U}bersetzungen in diese Sprache erstellt wurde, und zwar in Bezug auf die Art und Weise, wie die W{\"o}rter innerhalb des Einbettungsraums miteinander verbunden sind. Unser Ziel ist es, Translationese auf der Grundlage von Abweichungen von der Graphen-Isomorphie nachzuvollziehen, wobei die urspr{\"u}ngliche Zielsprache und die {\"U}bersetzungen in diese Zielsprache als Graphenstrukturen in den semantischen R{\"a}umen dargestellt werden. Die Abweichungen von der Isomorphie zwischen diesen Graphen deuten auf systematische Anzeichen von Translationese hin. Insbesondere stellen wir fest, dass mit abnehmender Isomorphie der linguistische Abstand zwischen etymologisch weit entfernten Sprachfamilien zunimmt, was den Nachweis erbringt, dass die durch die Abweichung von der Isomorphie erkannten Translationese Signale mit der Interferenz der Ausgangssprache verbunden sind. Unsere Ergebnisse sind vergleichbar mit fr{\"u}heren Ans{\"a}tzen, die auf oberfl{\"a}chlichen Merkmalen wie W{\"o}rtern, n-Grammen oder Parser-Ausgaben basieren. Anschlie{\ss}end zeigen wir, dass die vorgeschlagenen Methoden unter einer Vielzahl von Trainingsbedingungen robust sind, die die Datengr{\"o}{\ss}e, den Datentyp und die Wahl der Worteinbettungsmodelle umfassen. Au{\ss}erdem zeigen unsere Ergebnisse, dass unsere Methoden sprachunabh{\"a}ngig sind, in dem in dem Sinne, dass sie auf mehrere Sprachen angewendet werden k{\"o}nnen und nicht auf eine bestimmte Sprache oder Sprachfamilie beschr{\"a}nkt sind. Schlie{\ss}lich setzen wir das Aufsp{\"u}ren von Translationese in semantischen R{\"a}umen fort und reduzieren dabei die Auswirkungen m{\"o}glicher unterschiedlicher Dom{\"a}nen in {\"u}bersetzten und urspr{\"u}nglichen Daten, indem wir verschiedene Sichten auf die Daten verwenden (W{\"o}rter, PoS, Synsets und semantische Tags). Im vorangegangenen Kapitel haben wir gezeigt, dass Translationese-Signale in semantischen Worteinbettungsr{\"a}umen, die aus {\"u}bersetzten und Originaldaten erstellt wurden, erkannt werden k{\"o}nnen, aber es bleibt unklar, ob die Signale wirklich auf Translationese hinweisen oder ob sie von anderen Faktoren beeinflusst werden, wie z.B. von m{\"o}glichen thematischen oder Dom{\"a}nen Unterschieden zwischen dem Original und {\"u}bersetzten Texten. Translationese Signale sind subtil und k{\"o}nnen mit anderen Signalen in den Daten konkurrieren, insbesondere mit denen, die Spezifika von Dom{\"a}nen zusammenh{\"a}ngen. Dies veranlasst uns zu unserer letzten Forschungsfrage. RQ4: Inwieweit lassen sich die in der Antwort auf RQ3 beobachteten Ergebnisse auf Dom{\"a}nenunterschiede zwischen Original und {\"u}bersetztem Text zur{\"u}ckf{\"u}hren, im Gegensatzzu echten Translationese Signalen? Unser vierter Beitrag in Kapitel 6 untersucht das Zusammenspiel verschiedener linguistischer Repr{\"a}sentationen (lexikalisch, morphologisch und syntaktisch) und die Frage, ob die Maskierung lexikalischer Informationen und die dadurch bedingte Verringerung potenzieller Dom{\"a}nensignale die Aufgabe der un{\"u}berwachten R{\"u}ckverfolgung von {\"U}bersetzungen in semantischen R{\"a}umen beeinflussen, um RQ4 anzugehen. Bei der Analyse von {\"u}bersetzten Daten, die Texte enthalten, die aus mehreren Quellen (z. B. aus entfernten Sprachen wie Deutsch und Bulgarisch) in dieselbe Zielsprache (z. B. Englisch) {\"u}bersetzt wurden, k{\"o}nnen die Ergebnisse unserer Analyse des semantischen Raums durch Dom{\"a}nenunterschiede in den Daten verzerrt werden und nicht durch eigentliche Tranlationese-Signale wie die Ausgangssprachen der {\"U}bersetzungen bedingt sein. Um dies zu ber{\"u}cksichtigen, maskieren wir lexikalische Dom{\"a}neninformationen in den Daten. Bei diesem Ansatz werden entlexikalisierte Darstellungen verwendet, die W{\"o}rter durch Wortarten (Parts of Speech, PoS), semantische Tags oder Synsets ersetzen. Durch die Anwendung unserer Graph-Isomorphismus-Methoden auf diese Darstellungen k{\"o}nnen wir bestimmte linguistische Merkmale (wie morphologische Informationen oder einfache syntaktische Konfigurationen - PoS-Sequenzen) erfassen und den Einfluss dom{\"a}nenspezifischer lexikalischer Merkmale (insbesondere des Vokabulars) auf die Analyse von {\"U}bersetzungen minimieren. Unsere Ergebnisse zeigen, dass delexikalisierte Darstellungen (PoS, Synsets oder semantische Tags) immer noch erhebliche Interferenzen mit der Ausgangssprache aufweisen. Dies deutet darauf hin, dass die lexikalisierten Ergebnisse auf der niedrigsten Abstraktionsebene (d. h. W{\"o}rter) nicht nur auf m{\"o}gliche Unterschiede in der Dom{\"a}ne zwischen Original- und Translationese Text zur{\"u}ckzuf{\"u}hren sind. Insgesamt ist dies ein Beleg daf{\"u}r, dass morphologische und einfache syntaktische Repr{\"a}sentationen in den Daten auch Translationese Signale enthalten. Um das un{\"u}berwachte Aufsp{\"u}ren von Translationese Signalen in semantischen R{\"a}umen zu bewerten, untersuchen wir au{\ss}erdem, inwieweit es m{\"o}glich ist, die Sprachphylogenie oder die genetischen Beziehungen zwischen Sprachen mit diesen delexikalisierten Repr{\"a}sentationen zu clustern. Wir zeigen, dass unabh{\"a}ngig von der Ebene der sprachlichen Repr{\"a}sentation aus den Isomorphieabst{\"a}nden Familenverbindungen der Sprachen mit {\"a}hnlichen Eigenschaften wie linguistisch motivierte phylogenetische B{\"a}ume abgeleitet werden k{\"o}nnen, wobei alle Kombinationen von urspr{\"u}nglicher Zielsprache und {\"U}bersetzungen in diese Zielsprache aus verschiedenen Ausgangssprachen verwendet werden. Im vorigen Kapitel haben wir einige implizite Hinweise darauf gegeben, dass die Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen auf strukturelle Oberfl{\"a}chenunterschiede zwischen Sprachfamilien hinweisen, die wir aus der linguistischen Literatur kennen. Eine gr{\"o}{\ss}ere Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen deutet auf eine gr{\"o}{\ss}ere sprachliche Distanz in Bezug auf von Sprachfamilien und damit auf einen vermeintlich oberfl{\"a}chlichen strukturellen linguistischen Abstand (z. B. Morphologie, Syntax) zwischen Sprachen, wie sie in der linguistischen Literatur beschrieben werden. Dies wird in Kapitel 6 indirekt durchdie POS-Experimente (und die anderen verschiedenen Ansichten) gezeigt die von lexikalischen Informationen in der urspr{\"u}nglichen und {\"u}bersetzerischen Einbettung abstrahieren Experimente, bei denen maskierte Ansichten (POS usw.) immer noch vern{\"u}nftige Unterschiede in der Isomorphie zwischen den Einbettungsr{\"a}umen im Original und in der {\"U}bersetzung zeigen, und darauf aufbauend phylogenetische Stammbaumergebnisse. Dies wirft die Frage auf, ob es explizite Beweise f{\"u}r den Zusammenhang zwischen Einbettungen und strukturellen Oberfl{\"a}chenunterschieden gibt, was uns dazu veranlasst, unsere letzte Forschungsfrage zu formulieren. RQ5: Inwieweit kann graphbasierte Divergenz von Isomorphie in Einbettungsr{\"a}umen als Proxy f{\"u}r Surprisal auf der Ebene von Oberfl{\"a}chentexten dienen? Wir behandeln RQ5 als den f{\"u}nften Beitrag dieser Dissertation. Um dieser Frage nachzugehen, berechnen wir die Korrelation zwischen (a) Unterschieden in der Oberfl{\"a}chenstringentropie von Original- und {\"u}bersetzten Daten, die von Sprachmodellen berechnet werden, die auf Originaldaten trainiert wurden, und (b) der Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen, die auf denselben Textdaten berechnet werden. Unsere Ergebnisse zeigen eine Korrelation zwischen diesen beiden Ma{\ss}en, d. h. eine gr{\"o}{\ss}ere Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen entspricht einem gr{\"o}{\ss}eren Unterschied in der Oberfl{\"a}chenentropie. Dies stellt eine direkte Verbindung zwischen dem Einbettungsraum und der Darstellung von Oberfl{\"a}chenstrings her, wobei letztere durch die Entropie des Sprachmodells gemessen wird. Dar{\"u}ber hinaus zeigen unsere Ergebnisse, dass {\"U}bersetzungen in dieselbe Zielsprache aus strukturell unterschiedlichen Ausgangssprachen im Allgemeinen h{\"o}here Entropieunterschiede aufweisen, w{\"a}hrend solche aus strukturell {\"a}hnlichen Ausgangssprachen geringere Unterschiede aufweisen. Diese Ergebnisse spiegeln die Muster wider, die bei der Divergenz von Isomorphie zwischen Einbettungsr{\"a}umen beobachtet wurden, wo {\"U}bersetzungen aus strukturell st{\"a}rker divergierenden Sprachen zu einer gr{\"o}{\ss}eren Divergenz bei der Isomorphie f{\"u}hren. Diese Ergebnisse stellen explizit eine Verbindung zwischen unseren beiden Messgr{\"o}{\ss}en her: der Isomorphiedivergenz zwischen Original- und {\"u}bersetzten Einbettungsr{\"a}umen und den Entropieunterschieden in den Oberfl{\"a}chenstrings derselben Textdaten.},
      pubstate = {published},
      type = {phdthesis}
      }

      Copy BibTeX to Clipboard

      Project:   B6

      Steuer, Julius; Mosbach, Marius; Klakow, Dietrich

      Large GPT-like Models are Bad Babies: A Closer Look at the Relationship between Linguistic Competence and Psycholinguistic Measures Inproceedings

      Warstadt, Alex; Mueller, Aaron; Choshen, Leshem; Wilcox, Ethan; Zhuang, Chengxu; Ciro, Juan; Rafael, Mosquera; Paranjabe, Bhargavi; Williams, Adina; Linzen, Tal; Cotterell, Ryan (Ed.): Proceedings of the BabyLM Challenge at the 27th Conference on Computational Natural Language Learning, Association for Computational Linguistics, pp. 142-157, Singapore, 2023.

      Research on the cognitive plausibility of language models (LMs) has so far mostly concentrated on modelling psycholinguistic response variables such as reading times, gaze durations and N400/P600 EEG signals, while mostly leaving out the dimension of what Mahowald et al. (2023) described as formal and functional linguistic competence, and developmental plausibility. We address this gap by training a series of GPT-like language models of different sizes on the strict version of the BabyLM pretraining corpus, evaluating on the challenge tasks (BLiMP, GLUE, MSGS) and an additional reading time prediction task. We find a positive correlation between LM size and performance on all three challenge tasks, with different preferences for model width and depth in each of the tasks. In contrast, a negative correlation was found between LM size and reading time fit of linear mixed-effects models using LM surprisal as a predictor, with the second-smallest LM achieving the largest log-likelihood reduction over a baseline model without surprisal. This suggests that modelling processing effort and linguistic competence may require an approach different from training GPT-like LMs on a developmentally plausible corpus.

      @inproceedings{steuer-etal-2023-large,
      title = {Large GPT-like Models are Bad Babies: A Closer Look at the Relationship between Linguistic Competence and Psycholinguistic Measures},
      author = {Julius Steuer and Marius Mosbach and Dietrich Klakow},
      editor = {Alex Warstadt and Aaron Mueller and Leshem Choshen and Ethan Wilcox and Chengxu Zhuang and Juan Ciro and Mosquera Rafael and Bhargavi Paranjabe and Adina Williams and Tal Linzen and Ryan Cotterell},
      url = {https://aclanthology.org/2023.conll-babylm.12/},
      doi = {https://doi.org/10.18653/v1/2023.conll-babylm.12},
      year = {2023},
      date = {2023},
      booktitle = {Proceedings of the BabyLM Challenge at the 27th Conference on Computational Natural Language Learning},
      pages = {142-157},
      publisher = {Association for Computational Linguistics},
      address = {Singapore},
      abstract = {Research on the cognitive plausibility of language models (LMs) has so far mostly concentrated on modelling psycholinguistic response variables such as reading times, gaze durations and N400/P600 EEG signals, while mostly leaving out the dimension of what Mahowald et al. (2023) described as formal and functional linguistic competence, and developmental plausibility. We address this gap by training a series of GPT-like language models of different sizes on the strict version of the BabyLM pretraining corpus, evaluating on the challenge tasks (BLiMP, GLUE, MSGS) and an additional reading time prediction task. We find a positive correlation between LM size and performance on all three challenge tasks, with different preferences for model width and depth in each of the tasks. In contrast, a negative correlation was found between LM size and reading time fit of linear mixed-effects models using LM surprisal as a predictor, with the second-smallest LM achieving the largest log-likelihood reduction over a baseline model without surprisal. This suggests that modelling processing effort and linguistic competence may require an approach different from training GPT-like LMs on a developmentally plausible corpus.},
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   B4

      Talamo, Luigi

      Using a parallel corpus to study patterns of word order variation: Determiners and quantifiers within the noun phrase in European languages Journal Article

      Linguistic Typology at the Crossroads, 3, pp. 100–131, Bologna, Italy, 2023.
      Despite the wealth of studies on word order, there have been very few studies on the order of minor word categories such as determiners and quantifiers. This is likely due to the difficulty of formulating valid cross-linguistic definitions for these categories, which also appear problematic from a computational perspective. A solution lies in the formulation of comparative concepts and in their computational implementation by combining different layers of annotation with manually compiled list of lexemes; the proposed methodology is exemplified by a study on the position of these categories with respect to the nominal head, which is conducted on a parallel corpus of 17 European languages and uses Shannon’s entropy to quantify word order variation. Whereas the entropy for the article-noun pattern is, as expected, extremely low, the proposed methodology sheds light on the variation of the demonstrative-noun and the quantifier-noun patterns in three languages of the sample.

      @article{talamo_2023,
      title = {Using a parallel corpus to study patterns of word order variation: Determiners and quantifiers within the noun phrase in European languages},
      author = {Luigi Talamo},
      url = {https://typologyatcrossroads.unibo.it/article/view/15653},
      doi = {https://doi.org/10.6092/issn.2785-0943/15653},
      year = {2023},
      date = {2023},
      journal = {Linguistic Typology at the Crossroads},
      pages = {100–131},
      address = {Bologna, Italy},
      volume = {3},
      number = {2},
      abstract = {

      Despite the wealth of studies on word order, there have been very few studies on the order of minor word categories such as determiners and quantifiers. This is likely due to the difficulty of formulating valid cross-linguistic definitions for these categories, which also appear problematic from a computational perspective. A solution lies in the formulation of comparative concepts and in their computational implementation by combining different layers of annotation with manually compiled list of lexemes; the proposed methodology is exemplified by a study on the position of these categories with respect to the nominal head, which is conducted on a parallel corpus of 17 European languages and uses Shannon’s entropy to quantify word order variation. Whereas the entropy for the article-noun pattern is, as expected, extremely low, the proposed methodology sheds light on the variation of the demonstrative-noun and the quantifier-noun patterns in three languages of the sample.
      },
      pubstate = {published},
      type = {article}
      }

      Copy BibTeX to Clipboard

      Project:   C7

      Hong, Xudong; Demberg, Vera; Sayeed, Asad; Zheng, Qiankun; Schiele, Bernt

      Visual Coherence Loss for Coherent and Visually Grounded Story Generation Inproceedings

      Rogers, Anna; Boyd-Graber, Jordan; Okazaki, Naoaki (Ed.): Findings of the Association for Computational Linguistics: ACL 2023, Association for Computational Linguistics, pp. 9456-9470, Toronto, Canada, 2023.

      Local coherence is essential for long-form text generation models. We identify two important aspects of local coherence within the visual storytelling task: (1) the model needs to represent re-occurrences of characters within the image sequence in order to mention them correctly in the story; (2) character representations should enable us to find instances of the same characters and distinguish different characters. In this paper, we propose a loss function inspired by a linguistic theory of coherence for self-supervised learning for image sequence representations. We further propose combining features from an object and a face detector to construct stronger character features. To evaluate input-output relevance that current reference-based metrics don{‚}t measure, we propose a character matching metric to check whether the models generate referring expressions correctly for characters in input image sequences. Experiments on a visual story generation dataset show that our proposed features and loss function are effective for generating more coherent and visually grounded stories.

      @inproceedings{hong-etal-2023-visual,
      title = {Visual Coherence Loss for Coherent and Visually Grounded Story Generation},
      author = {Xudong Hong and Vera Demberg and Asad Sayeed and Qiankun Zheng and Bernt Schiele},
      editor = {Anna Rogers and Jordan Boyd-Graber and Naoaki Okazaki},
      url = {https://aclanthology.org/2023.findings-acl.603},
      doi = {https://doi.org/10.18653/v1/2023.findings-acl.603},
      year = {2023},
      date = {2023},
      booktitle = {Findings of the Association for Computational Linguistics: ACL 2023},
      pages = {9456-9470},
      publisher = {Association for Computational Linguistics},
      address = {Toronto, Canada},
      abstract = {Local coherence is essential for long-form text generation models. We identify two important aspects of local coherence within the visual storytelling task: (1) the model needs to represent re-occurrences of characters within the image sequence in order to mention them correctly in the story; (2) character representations should enable us to find instances of the same characters and distinguish different characters. In this paper, we propose a loss function inspired by a linguistic theory of coherence for self-supervised learning for image sequence representations. We further propose combining features from an object and a face detector to construct stronger character features. To evaluate input-output relevance that current reference-based metrics don{'}t measure, we propose a character matching metric to check whether the models generate referring expressions correctly for characters in input image sequences. Experiments on a visual story generation dataset show that our proposed features and loss function are effective for generating more coherent and visually grounded stories.},
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   A3

      Ryzhova, Margarita; Mayn, Alexandra; Demberg, Vera

      What inferences do people actually make upon encountering informationally redundant utterances? An individual differences study Inproceedings

      Proceedings of the 45th Annual Meeting of the Cognitive Science Society (CogSci 2023), 45, Sydney, Australia, 2023.

      Utterances mentioning a highly predictable event are known to elicit atypicality inferences (Kravtchenko and Demberg, 2015; 2022). In those studies, pragmatic inferences are measured based on typicality ratings. It is assumed that comprehenders notice the redundancy and „repair“ the utterance informativity by inferring that the mentioned event is atypical for the referent, resulting in a lower typicality rating. However, the actual inferences that people make have never been elicited. We extend the original experimental design by asking participants to explain their ratings and administering several individual differences tests. This allows us to test (1) whether low ratings indeed correspond to the assumed inferences (they mostly do, but occasionally participants seem to make the inference but then reject it and give high ratings), and (2) whether the tendency to make atypicality inferences is modulated by cognitive factors. We find that people with higher reasoning abilities are more likely to draw inferences.

      @inproceedings{ryzhova_etal_2023_inferences,
      title = {What inferences do people actually make upon encountering informationally redundant utterances? An individual differences study},
      author = {Margarita Ryzhova and Alexandra Mayn and Vera Demberg},
      url = {https://escholarship.org/uc/item/88g7g5z0},
      year = {2023},
      date = {2023},
      booktitle = {Proceedings of the 45th Annual Meeting of the Cognitive Science Society (CogSci 2023)},
      address = {Sydney, Australia},
      abstract = {Utterances mentioning a highly predictable event are known to elicit atypicality inferences (Kravtchenko and Demberg, 2015; 2022). In those studies, pragmatic inferences are measured based on typicality ratings. It is assumed that comprehenders notice the redundancy and "repair'' the utterance informativity by inferring that the mentioned event is atypical for the referent, resulting in a lower typicality rating. However, the actual inferences that people make have never been elicited. We extend the original experimental design by asking participants to explain their ratings and administering several individual differences tests. This allows us to test (1) whether low ratings indeed correspond to the assumed inferences (they mostly do, but occasionally participants seem to make the inference but then reject it and give high ratings), and (2) whether the tendency to make atypicality inferences is modulated by cognitive factors. We find that people with higher reasoning abilities are more likely to draw inferences.},
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   A8

      Varghese, Nobel; Yung, Frances Pik Yu; Anuranjana, Kaveri; Demberg, Vera

      Exploiting Knowledge about Discourse Relations for Implicit Discourse Relation Classification Inproceedings

      Strube, Michael; Braud, Chloe; Hardmeier, Christian; Jessy Li, Junyi; Loaiciga, Sharid; Zeldes, Amir (Ed.): Proceedings of the 4th Workshop on Computational Approaches to Discourse (CODI 2023), Association for Computational Linguistics, pp. 99-105, Toronto, Canada, 2023.

      In discourse relation recognition, the classification labels are typically represented as one-hot vectors. However, the categories are in fact not all independent of one another on the contrary, there are several frameworks that describe the labels‘ similarities (by e.g. sorting them into a hierarchy or describing them interms of features (Sanders et al., 2021)). Recently, several methods for representing the similarities between labels have been proposed (Zhang et al., 2018; Wang et al., 2018; Xiong et al., 2021). We here explore and extend the Label Confusion Model (Guo et al., 2021) for learning a representation for discourse relation labels. We explore alternative ways of informing the model about the similarities between relations, by representing relations in terms of their names (and parent category), their typical markers, or in terms of CCR features that describe the relations. Experimental results show that exploiting label similarity improves classification results.

      @inproceedings{varghese-etal-2023-exploiting,
      title = {Exploiting Knowledge about Discourse Relations for Implicit Discourse Relation Classification},
      author = {Nobel Varghese and Frances Pik Yu Yung and Kaveri Anuranjana and Vera Demberg},
      editor = {Michael Strube and Chloe Braud and Christian Hardmeier and Junyi Jessy Li and Sharid Loaiciga and Amir Zeldes},
      url = {https://doi.org/10.18653/v1/2023.codi-1.13},
      doi = {https://doi.org/10.18653/v1/2023.codi-1.13},
      year = {2023},
      date = {2023},
      booktitle = {Proceedings of the 4th Workshop on Computational Approaches to Discourse (CODI 2023)},
      pages = {99-105},
      publisher = {Association for Computational Linguistics},
      address = {Toronto, Canada},
      abstract = {In discourse relation recognition, the classification labels are typically represented as one-hot vectors. However, the categories are in fact not all independent of one another on the contrary, there are several frameworks that describe the labels' similarities (by e.g. sorting them into a hierarchy or describing them interms of features (Sanders et al., 2021)). Recently, several methods for representing the similarities between labels have been proposed (Zhang et al., 2018; Wang et al., 2018; Xiong et al., 2021). We here explore and extend the Label Confusion Model (Guo et al., 2021) for learning a representation for discourse relation labels. We explore alternative ways of informing the model about the similarities between relations, by representing relations in terms of their names (and parent category), their typical markers, or in terms of CCR features that describe the relations. Experimental results show that exploiting label similarity improves classification results.},
      pubstate = {published},
      type = {inproceedings}
      }

      Copy BibTeX to Clipboard

      Project:   B2

      Successfully