Publications

Mogadala, Aditya; Kalimuthu, Marimuthu; Klakow, Dietrich

Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Journal Article

Journal of Artificial Intelligence Research, 71, Access Foundation, pp. 1183-1317, 2021.

The interest in Artificial Intelligence (AI) and its applications has seen unprecedented growth in the last few years. This success can be partly attributed to the advancements made in the sub-fields of AI such as Machine Learning (ML), Computer Vision (CV), and Natural Language Processing (NLP). The largest of the growths in these fields has been made possible with deep learning, a sub-area of machine learning, which uses the principles of artificial neural networks. This has created significant interest in the integration of vision and language. The tasks are designed such that they perfectly embrace the ideas of deep learning. In this survey, we focus on ten prominent tasks that integrate language and vision by discussing their problem formulations, methods, existing datasets, evaluation measures, and compare the results obtained with corresponding state-of-the-art methods. Our efforts go beyond earlier surveys which are either task-specific or concentrate only on one type of visual content, i.e., image or video. Furthermore, we also provide some potential future directions in this field of research with an anticipation that this survey brings in innovative thoughts and ideas to address the existing challenges and build new applications.

@article{mogadala2021trends,
title = {Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods},
author = {Aditya Mogadala and Marimuthu Kalimuthu and Dietrich Klakow},
url = {https://arxiv.org/abs/1907.09358},
doi = {https://doi.org/10.1613/jair.1.11688},
year = {2021},
date = {2021},
journal = {Journal of Artificial Intelligence Research},
pages = {1183-1317},
publisher = {Access Foundation},
volume = {71},
abstract = {The interest in Artificial Intelligence (AI) and its applications has seen unprecedented growth in the last few years. This success can be partly attributed to the advancements made in the sub-fields of AI such as Machine Learning (ML), Computer Vision (CV), and Natural Language Processing (NLP). The largest of the growths in these fields has been made possible with deep learning, a sub-area of machine learning, which uses the principles of artificial neural networks. This has created significant interest in the integration of vision and language. The tasks are designed such that they perfectly embrace the ideas of deep learning. In this survey, we focus on ten prominent tasks that integrate language and vision by discussing their problem formulations, methods, existing datasets, evaluation measures, and compare the results obtained with corresponding state-of-the-art methods. Our efforts go beyond earlier surveys which are either task-specific or concentrate only on one type of visual content, i.e., image or video. Furthermore, we also provide some potential future directions in this field of research with an anticipation that this survey brings in innovative thoughts and ideas to address the existing challenges and build new applications.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   B4

Shi, Wei; Demberg, Vera

Entity Enhancement for Implicit Discourse Relation Classification in the Biomedical Domain Inproceedings

Proceedings of the Joint Conference of the 59th Annual Meeting of theAssociation for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021), 2021.

Implicit discourse relation classification is a challenging task, in particular when the text domain is different from the standard Penn Discourse Treebank (PDTB; Prasad et al., 2008) training corpus domain (Wall Street Journal in 1990s). We here tackle the task of implicit discourse relation classification on the biomedical domain, for which the Biomedical Discourse Relation Bank (BioDRB; Prasad et al., 2011) is available. We show that entity information can be used to improve discourse relational argument representation. In a first step, we show that explicitly marked instances that are content-wise similar to the target relations can be used to achieve good performance in the cross-domain setting using a simple unsupervised voting pipeline. As a further step, we show that with the linked entity information from the first step, a transformer which is augmented with entity-related information (KBERT; Liu et al., 2020) sets the new state of the art performance on the dataset, outperforming the large pre-trained BioBERT (Lee et al., 2020) model by 2% points.

@inproceedings{shi2021entity,
title = {Entity Enhancement for Implicit Discourse Relation Classification in the Biomedical Domain},
author = {Wei Shi and Vera Demberg},
url = {https://aclanthology.org/2021.acl-short.116.pdf},
year = {2021},
date = {2021},
booktitle = {Proceedings of the Joint Conference of the 59th Annual Meeting of theAssociation for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021)},
abstract = {Implicit discourse relation classification is a challenging task, in particular when the text domain is different from the standard Penn Discourse Treebank (PDTB; Prasad et al., 2008) training corpus domain (Wall Street Journal in 1990s). We here tackle the task of implicit discourse relation classification on the biomedical domain, for which the Biomedical Discourse Relation Bank (BioDRB; Prasad et al., 2011) is available. We show that entity information can be used to improve discourse relational argument representation. In a first step, we show that explicitly marked instances that are content-wise similar to the target relations can be used to achieve good performance in the cross-domain setting using a simple unsupervised voting pipeline. As a further step, we show that with the linked entity information from the first step, a transformer which is augmented with entity-related information (KBERT; Liu et al., 2020) sets the new state of the art performance on the dataset, outperforming the large pre-trained BioBERT (Lee et al., 2020) model by 2% points.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B2

Marchal, Marian; Scholman, Merel; Demberg, Vera

Semi-automatic discourse annotation in a low-resource language: Developing a connective lexicon for Nigerian Pidgin Inproceedings

Proceedings of the Second Workshop on Computational Approaches to Discourse (CODI 2021), Association for Computational Linguistics, pp. 84-94, Punta Cana, Dominican Republic and Online, 2021.

Cross-linguistic research on discourse structure and coherence marking requires discourse-annotated corpora and connective lexicons in a large number of languages. However, the availability of such resources is limited, especially for languages for which linguistic resources are scarce in general, such as Nigerian Pidgin. In this study, we demonstrate how a semi-automatic approach can be used to source connectives and their relation senses and develop a discourse-annotated corpus in a low-resource language. Connectives and their relation senses were extracted from a parallel corpus combining automatic (PDTB end-to-end parser) and manual annotations. This resulted in Naija-Lex, a lexicon of discourse connectives in Nigerian Pidgin with English translations. The lexicon shows that the majority of Nigerian Pidgin connectives are borrowed from its English lexifier, but that there are also some connectives that are unique to Nigerian Pidgin.

@inproceedings{marchal-etal-2021-semi,
title = {Semi-automatic discourse annotation in a low-resource language: Developing a connective lexicon for Nigerian Pidgin},
author = {Marian Marchal and Merel Scholman and Vera Demberg},
url = {https://aclanthology.org/2021.codi-main.8/},
doi = {https://doi.org/10.18653/v1/2021.codi-main.8},
year = {2021},
date = {2021},
booktitle = {Proceedings of the Second Workshop on Computational Approaches to Discourse (CODI 2021)},
pages = {84-94},
publisher = {Association for Computational Linguistics},
address = {Punta Cana, Dominican Republic and Online},
abstract = {Cross-linguistic research on discourse structure and coherence marking requires discourse-annotated corpora and connective lexicons in a large number of languages. However, the availability of such resources is limited, especially for languages for which linguistic resources are scarce in general, such as Nigerian Pidgin. In this study, we demonstrate how a semi-automatic approach can be used to source connectives and their relation senses and develop a discourse-annotated corpus in a low-resource language. Connectives and their relation senses were extracted from a parallel corpus combining automatic (PDTB end-to-end parser) and manual annotations. This resulted in Naija-Lex, a lexicon of discourse connectives in Nigerian Pidgin with English translations. The lexicon shows that the majority of Nigerian Pidgin connectives are borrowed from its English lexifier, but that there are also some connectives that are unique to Nigerian Pidgin.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B2

Meßmer, Julia; Bader, Regine; Mecklinger, Axel

The more you know: Schema congruency supports associative encoding of novel compound words: Evidence from event-related potentials Journal Article

Brain and Cognition, 155, pp. 105813, 2021.

We aimed to investigate the neurocognitive mechanisms of event congruency with prior (schema) knowledge for the learning of novel compound words. Event-related potentials (ERPs) were recorded during an incidental learning task, in which novel noun-noun compounds were presented in a semantically congruent context, enabling schema-supported processing, or in a neutral context. As expected, associative memory performance was better for compounds preceded by a congruent context. Although the N400 was attenuated in the congruent condition, subsequent memory effects (SMEs) in the N400 time interval did not differ across conditions, suggesting that the processes reflected in the N400 cannot account for the memory advantage in the congruent condition. However, a parietal SME was obtained for compounds preceded by a congruent context, only, which we interpret as reflecting the schema-supported formation of a conceptual compound representation. A late frontal SME was obtained in both conditions, presumably reflecting the more general inter-item associative encoding of compound constituents.

@article{Messmer2021,
title = {The more you know: Schema congruency supports associative encoding of novel compound words: Evidence from event-related potentials},
author = {Julia Me{\ss}mer and Regine Bader and Axel Mecklinger},
url = {https://www.sciencedirect.com/science/article/abs/pii/S0278262621001330},
year = {2021},
date = {2021},
journal = {Brain and Cognition},
pages = {105813},
volume = {155},
abstract = {We aimed to investigate the neurocognitive mechanisms of event congruency with prior (schema) knowledge for the learning of novel compound words. Event-related potentials (ERPs) were recorded during an incidental learning task, in which novel noun-noun compounds were presented in a semantically congruent context, enabling schema-supported processing, or in a neutral context. As expected, associative memory performance was better for compounds preceded by a congruent context. Although the N400 was attenuated in the congruent condition, subsequent memory effects (SMEs) in the N400 time interval did not differ across conditions, suggesting that the processes reflected in the N400 cannot account for the memory advantage in the congruent condition. However, a parietal SME was obtained for compounds preceded by a congruent context, only, which we interpret as reflecting the schema-supported formation of a conceptual compound representation. A late frontal SME was obtained in both conditions, presumably reflecting the more general inter-item associative encoding of compound constituents.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   A6

Sommerfeld, Linda; Staudte, Maria; Mani, Nivedita; Kray, Jutta

Children and adults integrate complex visual contexts in language prediction Miscellaneous

Architectures and Mechanisms for Language Processing AMLAP Annual Meeting, 2021.

Not only adults, but already children anticipate upcoming input in sentences with semantically constraining verbs. In the visual world, the sentence context is used to anticipatorily fixate the only object matching potential sentence continuations. Adults process multiple visual cues in parallel when predicting language. Here, we examined whether young children can also process multiple visual objects fitting the constraining verb of a sentence. We also examined if their processing of multiple potential referents is affected by language skills, given that vocabulary size modulates children’s prediction.

@miscellaneous{sommerfeld2021children,
title = {Children and adults integrate complex visual contexts in language prediction},
author = {Linda Sommerfeld and Maria Staudte and Nivedita Mani and Jutta Kray},
url = {https://amlap2021.github.io/program/119.pdf},
year = {2021},
date = {2021},
booktitle = {Architectures and Mechanisms for Language Processing AMLAP Annual Meeting},
abstract = {Not only adults, but already children anticipate upcoming input in sentences with semantically constraining verbs. In the visual world, the sentence context is used to anticipatorily fixate the only object matching potential sentence continuations. Adults process multiple visual cues in parallel when predicting language. Here, we examined whether young children can also process multiple visual objects fitting the constraining verb of a sentence. We also examined if their processing of multiple potential referents is affected by language skills, given that vocabulary size modulates children’s prediction.},
pubstate = {published},
type = {miscellaneous}
}

Copy BibTeX to Clipboard

Project:   A5

van Os, Marjolein; Kray, Jutta; Demberg, Vera

Mishearing as a Side Effect of Rational Language Comprehension in Noise Journal Article

Frontiers in Psychology, 12, pp. 3488, 2021, ISSN 1664-1078.

Language comprehension in noise can sometimes lead to mishearing, due to the noise disrupting the speech signal. Some of the difficulties in dealing with the noisy signal can be alleviated by drawing on the context – indeed, top-down predictability has shown to facilitate speech comprehension in noise. Previous studies have furthermore shown that strong reliance on the top-down predictions can lead to increased rates of mishearing, especially in older adults, which are attributed to general deficits in cognitive control in older adults. We here propose that the observed mishearing may be a simple consequence of rational language processing in noise. It should not be related to failure on the side of the older comprehenders, but instead would be predicted by rational processing accounts. To test this hypothesis, we extend earlier studies by running an online listening experiment with younger and older adults, carefully controlling the target and direct competitor in our stimuli. We show that mishearing is directly related to the perceptibility of the signal. We furthermore add an analysis of wrong responses, which shows that results are at odds with the idea that participants overly strongly rely on context in this task, as most false answers are indeed close to the speech signal, and not to the semantics of the context.

@article{vanOs2021FrontPsych,
title = {Mishearing as a Side Effect of Rational Language Comprehension in Noise},
author = {Marjolein van Os and Jutta Kray and Vera Demberg},
url = {https://www.frontiersin.org/article/10.3389/fpsyg.2021.679278},
doi = {https://doi.org/10.3389/fpsyg.2021.679278},
year = {2021},
date = {2021},
journal = {Frontiers in Psychology},
pages = {3488},
volume = {12},
abstract = {Language comprehension in noise can sometimes lead to mishearing, due to the noise disrupting the speech signal. Some of the difficulties in dealing with the noisy signal can be alleviated by drawing on the context – indeed, top-down predictability has shown to facilitate speech comprehension in noise. Previous studies have furthermore shown that strong reliance on the top-down predictions can lead to increased rates of mishearing, especially in older adults, which are attributed to general deficits in cognitive control in older adults. We here propose that the observed mishearing may be a simple consequence of rational language processing in noise. It should not be related to failure on the side of the older comprehenders, but instead would be predicted by rational processing accounts. To test this hypothesis, we extend earlier studies by running an online listening experiment with younger and older adults, carefully controlling the target and direct competitor in our stimuli. We show that mishearing is directly related to the perceptibility of the signal. We furthermore add an analysis of wrong responses, which shows that results are at odds with the idea that participants overly strongly rely on context in this task, as most false answers are indeed close to the speech signal, and not to the semantics of the context.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   A4

Donatelli, Lucia; Schmidt, Theresa; Biswas, Debanjali; Köhn, Arne; Zhai, Fangzhou; Koller, Alexander

Aligning Actions Across Recipe Graphs Inproceedings

Proceedings of EMNLP, pp. 6930–6942, 2021.

Recipe texts are an idiosyncratic form of instructional language that pose unique challenges for automatic understanding. One challenge is that a cooking step in one recipe can be explained in another recipe in different words, at a different level of abstraction, or not at all. Previous work has annotated correspondences between recipe instructions at the sentence level, often glossing over important correspondences between cooking steps across recipes. We present a novel and fully-parsed English recipe corpus, ARA (Aligned Recipe Actions), which annotates correspondences between individual actions across similar recipes with the goal of capturing information implicit for accurate recipe understanding. We represent this information in the form of recipe graphs, and we train a neural model for predicting correspondences on ARA. We find that substantial gains in accuracy can be obtained by taking fine-grained structural information about the recipes into account.

@inproceedings{donatelli21:align,
title = {Aligning Actions Across Recipe Graphs},
author = {Lucia Donatelli and Theresa Schmidt and Debanjali Biswas and Arne K{\"o}hn and Fangzhou Zhai and Alexander Koller},
url = {https://aclanthology.org/2021.emnlp-main.554},
year = {2021},
date = {2021},
booktitle = {Proceedings of EMNLP},
pages = {6930–6942},
abstract = {Recipe texts are an idiosyncratic form of instructional language that pose unique challenges for automatic understanding. One challenge is that a cooking step in one recipe can be explained in another recipe in different words, at a different level of abstraction, or not at all. Previous work has annotated correspondences between recipe instructions at the sentence level, often glossing over important correspondences between cooking steps across recipes. We present a novel and fully-parsed English recipe corpus, ARA (Aligned Recipe Actions), which annotates correspondences between individual actions across similar recipes with the goal of capturing information implicit for accurate recipe understanding. We represent this information in the form of recipe graphs, and we train a neural model for predicting correspondences on ARA. We find that substantial gains in accuracy can be obtained by taking fine-grained structural information about the recipes into account.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Projects:   A3 A7

Zhai, Fangzhou; Skrjanec, Iza; Koller, Alexander

Script Parsing with Hierarchical Sequence Modelling Inproceedings

Proceedings of *SEM 2021: 10th Joint Conf. on Lexical and Computational Semantics, pp. 195-201, 2021.

Scripts capture commonsense knowledge about everyday activities and their participants. Script knowledge proved useful in a number of NLP tasks, such as referent prediction, discourse classification, and story generation. A crucial step for the exploitation of script knowledge is script parsing, the task of tagging a text with the events and participants from a certain activity. This task is challenging: it requires information both about the ways events and participants are usually uttered in surface language as well as the order in which they occur in the world. We show how to do accurate script parsing with a hierarchical sequence model and transfer learning. Our model improves the state of the art of event parsing by over 16 points F-score and, for the first time, accurately tags script participants.

@inproceedings{zhaiSkrjanecKoller2021,
title = {Script Parsing with Hierarchical Sequence Modelling},
author = {Fangzhou Zhai and Iza Skrjanec and Alexander Koller},
url = {https://aclanthology.org/2021.starsem-1.18},
doi = {https://doi.org/10.18653/v1/2021.starsem-1.18},
year = {2021},
date = {2021},
booktitle = {Proceedings of *SEM 2021: 10th Joint Conf. on Lexical and Computational Semantics},
pages = {195-201},
abstract = {Scripts capture commonsense knowledge about everyday activities and their participants. Script knowledge proved useful in a number of NLP tasks, such as referent prediction, discourse classification, and story generation. A crucial step for the exploitation of script knowledge is script parsing, the task of tagging a text with the events and participants from a certain activity. This task is challenging: it requires information both about the ways events and participants are usually uttered in surface language as well as the order in which they occur in the world. We show how to do accurate script parsing with a hierarchical sequence model and transfer learning. Our model improves the state of the art of event parsing by over 16 points F-score and, for the first time, accurately tags script participants.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   A3

Tourtouri, Elli; Delogu, Francesca; Crocker, Matthew W.

Rational Redundancy in Referring Expressions: Evidence from Event-related Potentials Journal Article

Cognitive Science, 45, Wiley, pp. e13071, 2021.

In referential communication, Grice’s Maxim of Quantity is thought to imply that utterances conveying unnecessary information should incur comprehension difficulties. There is, however, considerable evidence that speakers frequently encode redundant information in their referring expressions, raising the question as to whether such overspecifications hinder listeners’ processing. Evidence from previous work is inconclusive, and mostly comes from offline studies. In this article, we present two event-related potential (ERP) experiments, investigating the real-time comprehension of referring expressions that contain redundant adjectives in complex visual contexts. Our findings provide support for both Gricean and bounded-rational accounts. We argue that these seemingly incompatible results can be reconciled if common ground is taken into account. We propose a bounded-rational account of overspecification, according to which even redundant words can be beneficial to comprehension to the extent that they facilitate the reduction of listeners’ uncertainty regarding the target referent.

@article{Tourtouri2021rational,
title = {Rational Redundancy in Referring Expressions: Evidence from Event-related Potentials},
author = {Elli Tourtouri and Francesca Delogu and Matthew W. Crocker},
url = {https://doi.org/10.1111/cogs.13071},
doi = {https://doi.org/10.1111/cogs.13071},
year = {2021},
date = {2021-12-12},
journal = {Cognitive Science},
pages = {e13071},
publisher = {Wiley},
volume = {45},
number = {12},
abstract = {In referential communication, Grice's Maxim of Quantity is thought to imply that utterances conveying unnecessary information should incur comprehension difficulties. There is, however, considerable evidence that speakers frequently encode redundant information in their referring expressions, raising the question as to whether such overspecifications hinder listeners’ processing. Evidence from previous work is inconclusive, and mostly comes from offline studies. In this article, we present two event-related potential (ERP) experiments, investigating the real-time comprehension of referring expressions that contain redundant adjectives in complex visual contexts. Our findings provide support for both Gricean and bounded-rational accounts. We argue that these seemingly incompatible results can be reconciled if common ground is taken into account. We propose a bounded-rational account of overspecification, according to which even redundant words can be beneficial to comprehension to the extent that they facilitate the reduction of listeners’ uncertainty regarding the target referent.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   C3

Degaetano-Ortlieb, Stefania

Measuring informativity: The rise of compounds as informationally dense structures in 20th century Scientific English Book Chapter

Soave, Elena; Biber, Douglas (Ed.): Corpus Approaches to Register Variation, Studies in Corpus Linguistics, 103, John Benjamins Publishing Company, pp. 291-312, 2021.

By applying data-driven methods based on information theory, this study adds to previous work on the development of the scientific register by measuring the informativity of alternative phrasal structures shown to be involved in change in language use in 20th-century Scientific English. The analysis based on data-driven periodization shows compounds to be distinctive grammatical structures from the 1920s onwards in Proceedings A of the Royal Society of London. Compounds not only increase in frequency, but also show higher informativity than their less dense prepositional counterparts. Results also show that the lower the informativity of particular items, the more alternative, more informationally dense options might be favoured (e.g., of-phrases vs. compounds) – striving for communicative efficiency thus being one force shaping the scientific register.

@inbook{Degaetano-Ortlieb2021,
title = {Measuring informativity: The rise of compounds as informationally dense structures in 20th century Scientific English},
author = {Stefania Degaetano-Ortlieb},
editor = {Elena Soave and Douglas Biber},
url = {https://benjamins.com/catalog/scl.103.11deg},
doi = {https://doi.org/10.1075/scl.103.11deg},
year = {2021},
date = {2021},
booktitle = {Corpus Approaches to Register Variation},
pages = {291-312},
publisher = {John Benjamins Publishing Company},
abstract = {By applying data-driven methods based on information theory, this study adds to previous work on the development of the scientific register by measuring the informativity of alternative phrasal structures shown to be involved in change in language use in 20th-century Scientific English. The analysis based on data-driven periodization shows compounds to be distinctive grammatical structures from the 1920s onwards in Proceedings A of the Royal Society of London. Compounds not only increase in frequency, but also show higher informativity than their less dense prepositional counterparts. Results also show that the lower the informativity of particular items, the more alternative, more informationally dense options might be favoured (e.g., of-phrases vs. compounds) – striving for communicative efficiency thus being one force shaping the scientific register.},
pubstate = {published},
type = {inbook}
}

Copy BibTeX to Clipboard

Project:   B1

Gessinger, Iona

Phonetic accommodation of human interlocutors in the context of human-computer interaction PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

Phonetic accommodation refers to the phenomenon that interlocutors adapt their way of speaking to each other within an interaction. This can have a positive influence on the communication quality. As we increasingly use spoken language to interact with computers these days, the phenomenon of phonetic accommodation is also investigated in the context of human-computer interaction: on the one hand, to find out whether speakers adapt to a computer agent in a similar way as they do to a human interlocutor, on the other hand, to implement accommodation behavior in spoken dialog systems and explore how this affects their users. To date, the focus has been mainly on the global acoustic-prosodic level. The present work demonstrates that speakers interacting with a computer agent also identify locally anchored phonetic phenomena such as segmental allophonic variation and local prosodic features as accommodation targets and converge on them. To this end, we conducted two experiments. First, we applied the shadowing method, where the participants repeated short sentences from natural and synthetic model speakers. In the second experiment, we used the Wizard-of-Oz method, in which an intelligent spoken dialog system is simulated, to enable a dynamic exchange between the participants and a computer agent — the virtual language learning tutor Mirabella. The target language of our experiments was German. Phonetic convergence occurred in both experiments when natural voices were used as well as when synthetic voices were used as stimuli. Moreover, both native and non-native speakers of the target language converged to Mirabella. Thus, accommodation could be relevant, for example, in the context of computer-assisted language learning. Individual variation in accommodation behavior can be attributed in part to speaker-specific characteristics, one of which is assumed to be the personality structure. We included the Big Five personality traits as well as the concept of mental boundaries in the analysis of our data. Different personality traits influenced accommodation to different types of phonetic features. Mental boundaries have not been studied before in the context of phonetic accommodation. We created a validated German adaptation of a questionnaire that assesses the strength of mental boundaries. The latter can be used in future studies involving mental boundaries in native speakers of German.


Bei phonetischer Akkommodation handelt es sich um das Phänomen, dass Gesprächspartner ihre Sprechweise innerhalb einer Interaktion aneinander anpassen. Dies kann die Qualität der Kommunikation positiv beeinflussen. Da wir heutzutage immer öfter mittels gesprochener Sprache mit Computern interagieren, wird das Phänomen der phonetischen Akkommodation auch im Kontext der Mensch-Computer-Interaktion untersucht: zum einen, um herauszufinden, ob sich Sprecher an einen Computeragenten in ähnlicher Weise anpassen wie an einen menschlichen Gesprächspartner, zum anderen, um das Akkommodationsverhalten in Sprachdialogsysteme zu implementieren und zu erforschen, wie dieses auf ihre Benutzer wirkt. Bislang lag der Fokus dabei hauptsächlich auf der globalen akustisch-prosodischen Ebene. Die vorliegende Arbeit zeigt, dass Sprecher in Interaktion mit einem Computeragenten auch lokal verankerte phonetische Phänomene wie segmentale allophone Variation und lokale prosodische Merkmale als Akkommodationsziele identifizieren und in Bezug auf diese konvergieren. Dabei wendeten wir in einem ersten Experiment die Shadowing-Methode an, bei der die Teilnehmer kurze Sätze von natürlichen und synthetischen Modellsprechern wiederholten. In einem zweiten Experiment ermöglichten wir mit der Wizard-of-Oz-Methode, bei der ein intelligentes Sprachdialogsystem simuliert wird, einen dynamischen Austausch zwischen den Teilnehmern und einem Computeragenten — der virtuellen Sprachlerntutorin Mirabella. Die Zielsprache unserer Experimente war Deutsch. Phonetische Konvergenz trat in beiden Experimenten sowohl bei Verwendung natürlicher Stimmen als auch bei Verwendung synthetischer Stimmen als Stimuli auf. Zudem konvergierten sowohl Muttersprachler als auch Nicht-Muttersprachler der Zielsprache zu Mirabella. Somit könnte Akkommodation zum Beispiel im Kontext des computergstützten Sprachenlernens zum Tragen kommen. Individuelle Variation im Akkommodationsverhalten kann unter anderem auf sprecherspezifische Eigenschaften zurückgeführt werden. Es wird vermutet, dass zu diesen auch die Persönlichkeitsstruktur gehört. Wir bezogen die Big Five Persönlichkeitsmerkmale sowie das Konzept der mentalen Grenzen in die Analyse unserer Daten ein. Verschiedene Persönlichkeitsmerkmale beeinflussten die Akkommodation zu unterschiedlichen Typen von phonetischen Merkmalen. Die mentalen Grenzen sind im Zusammenhang mit phonetischer Akkommodation zuvor noch nicht untersucht worden. Wir erstellten eine validierte deutsche Adaptierung eines Fragebogens, der die Stärke der mentalen Grenzen erhebt. Diese kann in zukünftigen Untersuchungen mentaler Grenzen bei Muttersprachlern des Deutschen verwendet werden.

@phdthesis{Gessinger_Diss_2021,
title = {Phonetic accommodation of human interlocutors in the context of human-computer interaction},
author = {Iona Gessinger},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/32213},
doi = {https://doi.org/10.22028/D291-35154},
year = {2021},
date = {2021},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {Phonetic accommodation refers to the phenomenon that interlocutors adapt their way of speaking to each other within an interaction. This can have a positive influence on the communication quality. As we increasingly use spoken language to interact with computers these days, the phenomenon of phonetic accommodation is also investigated in the context of human-computer interaction: on the one hand, to find out whether speakers adapt to a computer agent in a similar way as they do to a human interlocutor, on the other hand, to implement accommodation behavior in spoken dialog systems and explore how this affects their users. To date, the focus has been mainly on the global acoustic-prosodic level. The present work demonstrates that speakers interacting with a computer agent also identify locally anchored phonetic phenomena such as segmental allophonic variation and local prosodic features as accommodation targets and converge on them. To this end, we conducted two experiments. First, we applied the shadowing method, where the participants repeated short sentences from natural and synthetic model speakers. In the second experiment, we used the Wizard-of-Oz method, in which an intelligent spoken dialog system is simulated, to enable a dynamic exchange between the participants and a computer agent — the virtual language learning tutor Mirabella. The target language of our experiments was German. Phonetic convergence occurred in both experiments when natural voices were used as well as when synthetic voices were used as stimuli. Moreover, both native and non-native speakers of the target language converged to Mirabella. Thus, accommodation could be relevant, for example, in the context of computer-assisted language learning. Individual variation in accommodation behavior can be attributed in part to speaker-specific characteristics, one of which is assumed to be the personality structure. We included the Big Five personality traits as well as the concept of mental boundaries in the analysis of our data. Different personality traits influenced accommodation to different types of phonetic features. Mental boundaries have not been studied before in the context of phonetic accommodation. We created a validated German adaptation of a questionnaire that assesses the strength of mental boundaries. The latter can be used in future studies involving mental boundaries in native speakers of German.


Bei phonetischer Akkommodation handelt es sich um das Ph{\"a}nomen, dass Gespr{\"a}chspartner ihre Sprechweise innerhalb einer Interaktion aneinander anpassen. Dies kann die Qualit{\"a}t der Kommunikation positiv beeinflussen. Da wir heutzutage immer {\"o}fter mittels gesprochener Sprache mit Computern interagieren, wird das Ph{\"a}nomen der phonetischen Akkommodation auch im Kontext der Mensch-Computer-Interaktion untersucht: zum einen, um herauszufinden, ob sich Sprecher an einen Computeragenten in {\"a}hnlicher Weise anpassen wie an einen menschlichen Gespr{\"a}chspartner, zum anderen, um das Akkommodationsverhalten in Sprachdialogsysteme zu implementieren und zu erforschen, wie dieses auf ihre Benutzer wirkt. Bislang lag der Fokus dabei haupts{\"a}chlich auf der globalen akustisch-prosodischen Ebene. Die vorliegende Arbeit zeigt, dass Sprecher in Interaktion mit einem Computeragenten auch lokal verankerte phonetische Ph{\"a}nomene wie segmentale allophone Variation und lokale prosodische Merkmale als Akkommodationsziele identifizieren und in Bezug auf diese konvergieren. Dabei wendeten wir in einem ersten Experiment die Shadowing-Methode an, bei der die Teilnehmer kurze S{\"a}tze von nat{\"u}rlichen und synthetischen Modellsprechern wiederholten. In einem zweiten Experiment erm{\"o}glichten wir mit der Wizard-of-Oz-Methode, bei der ein intelligentes Sprachdialogsystem simuliert wird, einen dynamischen Austausch zwischen den Teilnehmern und einem Computeragenten — der virtuellen Sprachlerntutorin Mirabella. Die Zielsprache unserer Experimente war Deutsch. Phonetische Konvergenz trat in beiden Experimenten sowohl bei Verwendung nat{\"u}rlicher Stimmen als auch bei Verwendung synthetischer Stimmen als Stimuli auf. Zudem konvergierten sowohl Muttersprachler als auch Nicht-Muttersprachler der Zielsprache zu Mirabella. Somit k{\"o}nnte Akkommodation zum Beispiel im Kontext des computergst{\"u}tzten Sprachenlernens zum Tragen kommen. Individuelle Variation im Akkommodationsverhalten kann unter anderem auf sprecherspezifische Eigenschaften zur{\"u}ckgef{\"u}hrt werden. Es wird vermutet, dass zu diesen auch die Pers{\"o}nlichkeitsstruktur geh{\"o}rt. Wir bezogen die Big Five Pers{\"o}nlichkeitsmerkmale sowie das Konzept der mentalen Grenzen in die Analyse unserer Daten ein. Verschiedene Pers{\"o}nlichkeitsmerkmale beeinflussten die Akkommodation zu unterschiedlichen Typen von phonetischen Merkmalen. Die mentalen Grenzen sind im Zusammenhang mit phonetischer Akkommodation zuvor noch nicht untersucht worden. Wir erstellten eine validierte deutsche Adaptierung eines Fragebogens, der die St{\"a}rke der mentalen Grenzen erhebt. Diese kann in zuk{\"u}nftigen Untersuchungen mentaler Grenzen bei Muttersprachlern des Deutschen verwendet werden.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   C1

Howcroft, David M.

Learning to generate: Bayesian nonparametric approaches to inducing rules for natural language generation PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

In order for computers to produce natural language texts from non-linguistic information, we need a system for mapping between the two, a system of Natural Language Generation (NLG). We can reduce the difficulty of developing such systems if we leverage machine learning intelligently. While there are many possible approaches to the task, this thesis argues for one in particular, focusing on sentence planning using synchronous grammars and Bayesian nonparametric methods.

We formulate sentence planning rules in terms of Synchronous Tree Substitution Grammars (sTSGs) and implement a series of hierarchical Dirichlet Processes along with a Gibbs sampler to learn such rules from appropriate corpora. Due to the lack of corpora which pair hierarchical, discourse-structured meaning representations with varied texts, we developed a new interface for crowdsourcing training corpora for NLG systems by asking participants to produce paraphrases of pre-existing texts and collected a new corpus, which we call the Extended SPaRKy Restaurant Corpus (ESRC).

After training our models on pre-existing, lexically-restricted corpora as well as the ESRC, we conduct a series of human evaluations using a novel evaluation interface. This interface enables the assessment of the fluency, semantic fidelity, and expression of discourse relations in a text in a single crowdsourcing experiment. While we identify several limitations to our approach, the evaluations suggest that our models can outperform existing neural network models with respect to semantic fidelity and in some cases maintain similar levels of fluency.

In addition to these efforts, we present a Dependency Attachment Grammar (DAG) based on (Joshi & Rambow, 2003) and extend this grammar to the synchronous setting so that future work can build upon its added flexibility relative to sTSG. In addition to these practically-oriented efforts, we also explore human variation in adapting their utterances to listeners under cognitive load through a psycholinguistic study.

This thesis opens up several directions for future research into how best to integrate the various challenging tasks involved in natural language generation and how best to evaluate these systems in the future.

@phdthesis{Howcroft_Diss_2021,
title = {Learning to generate: Bayesian nonparametric approaches to inducing rules for natural language generation},
author = {David M. Howcroft},
url = {https://davehowcroft.com/publication/2021-10_phd-thesis/},
year = {2021},
date = {2021},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {In order for computers to produce natural language texts from non-linguistic information, we need a system for mapping between the two, a system of Natural Language Generation (NLG). We can reduce the difficulty of developing such systems if we leverage machine learning intelligently. While there are many possible approaches to the task, this thesis argues for one in particular, focusing on sentence planning using synchronous grammars and Bayesian nonparametric methods. We formulate sentence planning rules in terms of Synchronous Tree Substitution Grammars (sTSGs) and implement a series of hierarchical Dirichlet Processes along with a Gibbs sampler to learn such rules from appropriate corpora. Due to the lack of corpora which pair hierarchical, discourse-structured meaning representations with varied texts, we developed a new interface for crowdsourcing training corpora for NLG systems by asking participants to produce paraphrases of pre-existing texts and collected a new corpus, which we call the Extended SPaRKy Restaurant Corpus (ESRC). After training our models on pre-existing, lexically-restricted corpora as well as the ESRC, we conduct a series of human evaluations using a novel evaluation interface. This interface enables the assessment of the fluency, semantic fidelity, and expression of discourse relations in a text in a single crowdsourcing experiment. While we identify several limitations to our approach, the evaluations suggest that our models can outperform existing neural network models with respect to semantic fidelity and in some cases maintain similar levels of fluency. In addition to these efforts, we present a Dependency Attachment Grammar (DAG) based on (Joshi & Rambow, 2003) and extend this grammar to the synchronous setting so that future work can build upon its added flexibility relative to sTSG. In addition to these practically-oriented efforts, we also explore human variation in adapting their utterances to listeners under cognitive load through a psycholinguistic study. This thesis opens up several directions for future research into how best to integrate the various challenging tasks involved in natural language generation and how best to evaluate these systems in the future.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A4

Kravtchenko, Ekaterina

Integrating pragmatic reasoning in an efficiency-based theory of utterance choice PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

This thesis explores new methods of accounting for discourse-level linguistic phenomena, using computational modeling. When communicating, efficient speakers frequently choose to either omit, or otherwise reduce the length of their utterances wherever possible. Frameworks such as Uniform Information Density (UID) have argued that speakers preferentially reduce or omit those elements that are more predictable in context, and easier to recover. However, these frameworks have nothing to say about the effects of a linguistic choice on how a message is interpreted. I run 3 experiments which show that while UID posits no specific consequences to being „overinformative“ (including more information in an utterance than is necessary), in fact overinformativeness can trigger pragmatic inferences which alter comprehenders‘ background beliefs about the world. In this case, I show that the Rational Speech Act (RSA) model, which models back-and-forth pragmatic reasoning between speakers and comprehenders, predicts both efficiency-based utterance choices, as well as any consequent change in perceived meaning. I also provide evidence that it’s critical to model communication as a lossy process (which UID assumes), which allows the RSA model to account for phenomena that it otherwise is not able to. I further show that while UID predicts increased use of pronouns when referring to more contextually predictable referents, existing research does not unequivocally support this. I run 2 experiments which fail to show evidence that speakers use reduced expressions for predictable elements. In contrast to UID and similar frameworks, the RSA model can straightforwardly predict the results that have been observed to date. In the end, I argue that the RSA model is a highly attractive alternative for modeling speaker utterance choice at the discourse level. When it reflects communication as a lossy process, it is able to predict the same predictability-driven utterance reduction that UID does. However, by additionally modeling back-and-forth pragmatic reasoning, it successfully models utterance choice phenomena that simpler frameworks cannot account for.


Diese Arbeit erforscht neue Methoden, linguistische Phänomene auf Gesprächsebene per Computermodellierung zu erfassen. Effiziente Sprecher:innen entscheiden sich bei der Kommunikation häufig dazu, wenn immer es möglich ist, Äußerungen entweder ganz auszulassen oder aber ihre Länge zu reduzieren. Modelle wie Uniform Information Density (UID) argumentieren, dass Sprecher:innen vorzugsweise diejenigen Elemente auslassen, die im jeweiligen Kontext vorhersagbarer und einfacher wiederherzustellen sind. Allerdings sagen diese Modelle nichts über die Auswirkungen einer linguistischen Entscheidung bezüglich der Interpretation einer Nachricht aus. Ich führe drei Experimente durch, die zeigen, dass wenngleich UID keine spezifischen Auswirkungen von „Überinformation“ (einer Äußerung mehr Information als nötig geben) postuliert, Überinformationen doch pragmatische Schlussfolgerungen, die das gedankliche Weltmodell der Versteher:innen ändern können, auslöst. Für diesen Fall zeige ich, dass das Rational-Speech-Act-Modell (RSA), welches pragmatische Hin-und-Her-Schlussfolgerungen zwischen Sprecher:innen und Versteher:innen modelliert, sowohl effizienzbasierte Äußerungsauswahl als auch jegliche resultierende Verständnisänderung vorhersagt. Ich liefere auch Anhaltspunkte dafür, dass es entscheidend ist, Kommunikation als verlustbehafteten Prozess zu modellieren (wovon UID ausgeht), was es dem RSA-Modell erlaubt, Phänomene einzubeziehen, wozu es sonst nicht in der Lage wäre. Weiterhin zeige ich, dass obschon UID beim Bezug auf kontextuell vorhersagbarere Bezugswörter eine erhöhte Nutzung von Pronomen vorhersagt, dies von existierender Forschung nicht einstimmig gestützt wird. Ich führe zwei Experimente durch, die keine Anhaltspunkte dafür, dass Sprecher:innen reduzierte Ausdrücke für vorhersagbare Elemente verwenden, finden. Im Gegensatz zu UID und ähnlichen Modellen kann dass RSA-Modell direkt die bislang beobachteten Resultate vorhersagen. Schließlich lege ich dar, warum das RSA-Modell eine höchst attraktive Alternative zur Modellierung von Sprachäußerungsentscheidungen auf Gesprächsebene ist. Wenn es Kommunikation als einen verlustbehafteten Prozess widerspiegelt, kann es dieselbe vorhersagebasierte Äußerungsreduktion vorhersagen wie auch UID. Modelliert man jedoch zusätzlich pragmatische Hin-und-Her-Schlussfolgerungen, modelliert RSA erfolgreich Phänomene bei Äußerungsentscheidungen, die einfachere Modelle nicht abbilden können.

@phdthesis{Kravtchenko_Diss_2021,
title = {Integrating pragmatic reasoning in an efficiency-based theory of utterance choice},
author = {Ekaterina Kravtchenko},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/33102},
doi = {https://doi.org/10.22028/D291-35858},
year = {2021},
date = {2021},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {This thesis explores new methods of accounting for discourse-level linguistic phenomena, using computational modeling. When communicating, efficient speakers frequently choose to either omit, or otherwise reduce the length of their utterances wherever possible. Frameworks such as Uniform Information Density (UID) have argued that speakers preferentially reduce or omit those elements that are more predictable in context, and easier to recover. However, these frameworks have nothing to say about the effects of a linguistic choice on how a message is interpreted. I run 3 experiments which show that while UID posits no specific consequences to being "overinformative" (including more information in an utterance than is necessary), in fact overinformativeness can trigger pragmatic inferences which alter comprehenders' background beliefs about the world. In this case, I show that the Rational Speech Act (RSA) model, which models back-and-forth pragmatic reasoning between speakers and comprehenders, predicts both efficiency-based utterance choices, as well as any consequent change in perceived meaning. I also provide evidence that it's critical to model communication as a lossy process (which UID assumes), which allows the RSA model to account for phenomena that it otherwise is not able to. I further show that while UID predicts increased use of pronouns when referring to more contextually predictable referents, existing research does not unequivocally support this. I run 2 experiments which fail to show evidence that speakers use reduced expressions for predictable elements. In contrast to UID and similar frameworks, the RSA model can straightforwardly predict the results that have been observed to date. In the end, I argue that the RSA model is a highly attractive alternative for modeling speaker utterance choice at the discourse level. When it reflects communication as a lossy process, it is able to predict the same predictability-driven utterance reduction that UID does. However, by additionally modeling back-and-forth pragmatic reasoning, it successfully models utterance choice phenomena that simpler frameworks cannot account for.


Diese Arbeit erforscht neue Methoden, linguistische Ph{\"a}nomene auf Gespr{\"a}chsebene per Computermodellierung zu erfassen. Effiziente Sprecher:innen entscheiden sich bei der Kommunikation h{\"a}ufig dazu, wenn immer es m{\"o}glich ist, {\"A}u{\ss}erungen entweder ganz auszulassen oder aber ihre L{\"a}nge zu reduzieren. Modelle wie Uniform Information Density (UID) argumentieren, dass Sprecher:innen vorzugsweise diejenigen Elemente auslassen, die im jeweiligen Kontext vorhersagbarer und einfacher wiederherzustellen sind. Allerdings sagen diese Modelle nichts {\"u}ber die Auswirkungen einer linguistischen Entscheidung bez{\"u}glich der Interpretation einer Nachricht aus. Ich f{\"u}hre drei Experimente durch, die zeigen, dass wenngleich UID keine spezifischen Auswirkungen von "{\"U}berinformation" (einer {\"A}u{\ss}erung mehr Information als n{\"o}tig geben) postuliert, {\"U}berinformationen doch pragmatische Schlussfolgerungen, die das gedankliche Weltmodell der Versteher:innen {\"a}ndern k{\"o}nnen, ausl{\"o}st. F{\"u}r diesen Fall zeige ich, dass das Rational-Speech-Act-Modell (RSA), welches pragmatische Hin-und-Her-Schlussfolgerungen zwischen Sprecher:innen und Versteher:innen modelliert, sowohl effizienzbasierte {\"A}u{\ss}erungsauswahl als auch jegliche resultierende Verst{\"a}ndnis{\"a}nderung vorhersagt. Ich liefere auch Anhaltspunkte daf{\"u}r, dass es entscheidend ist, Kommunikation als verlustbehafteten Prozess zu modellieren (wovon UID ausgeht), was es dem RSA-Modell erlaubt, Ph{\"a}nomene einzubeziehen, wozu es sonst nicht in der Lage w{\"a}re. Weiterhin zeige ich, dass obschon UID beim Bezug auf kontextuell vorhersagbarere Bezugsw{\"o}rter eine erh{\"o}hte Nutzung von Pronomen vorhersagt, dies von existierender Forschung nicht einstimmig gest{\"u}tzt wird. Ich f{\"u}hre zwei Experimente durch, die keine Anhaltspunkte daf{\"u}r, dass Sprecher:innen reduzierte Ausdr{\"u}cke f{\"u}r vorhersagbare Elemente verwenden, finden. Im Gegensatz zu UID und {\"a}hnlichen Modellen kann dass RSA-Modell direkt die bislang beobachteten Resultate vorhersagen. Schlie{\ss}lich lege ich dar, warum das RSA-Modell eine h{\"o}chst attraktive Alternative zur Modellierung von Sprach{\"a}u{\ss}erungsentscheidungen auf Gespr{\"a}chsebene ist. Wenn es Kommunikation als einen verlustbehafteten Prozess widerspiegelt, kann es dieselbe vorhersagebasierte {\"A}u{\ss}erungsreduktion vorhersagen wie auch UID. Modelliert man jedoch zus{\"a}tzlich pragmatische Hin-und-Her-Schlussfolgerungen, modelliert RSA erfolgreich Ph{\"a}nomene bei {\"A}u{\ss}erungsentscheidungen, die einfachere Modelle nicht abbilden k{\"o}nnen.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A3

Raveh, Eran

Vocal accommodation in human-computer interaction: modeling and integration into spoken dialogue systems PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

With the rapidly increasing usage of voice-activated devices worldwide, verbal communication with computers is steadily becoming more common. Although speech is the principal natural manner of human communication, it is still challenging for computers, and users had been growing accustomed to adjusting their speaking style for computers. Such adjustments occur naturally, and typically unconsciously, in humans during an exchange to control the social distance between the interlocutors and improve the conversation’s efficiency. This phenomenon is called accommodation and it occurs on various modalities in human communication, like hand gestures, facial expressions, eye gaze, lexical and grammatical choices, and others. Vocal accommodation deals with phonetic-level changes occurring in segmental and suprasegmental features. A decrease in the difference between the speakers’ feature realizations results in convergence, while an increasing distance leads to divergence. The lack of such mutual adjustments made naturally by humans in computers’ speech creates a gap between human-human and human-computer interactions. Moreover, voice-activated systems currently speak in exactly the same manner to all users, regardless of their speech characteristics or realizations of specific features. Detecting phonetic variations and generating adaptive speech output would enhance user personalization, offer more human-like communication, and ultimately should improve the overall interaction experience. Thus, investigating these aspects of accommodation will help to understand and improving human-computer interaction. This thesis provides a comprehensive overview of the required building blocks for a roadmap toward the integration of accommodation capabilities into spoken dialogue systems. These include conducting human-human and human-computer interaction experiments to examine the differences in vocal behaviors, approaches for modeling these empirical findings, methods for introducing phonetic variations in synthesized speech, and a way to combine all these components into an accommodative system. While each component is a wide research field by itself, they depend on each other and hence should be jointly considered. The overarching goal of this thesis is therefore not only to show how each of the aspects can be further developed, but also to demonstrate and motivate the connections between them. A special emphasis is put throughout the thesis on the importance of the temporal aspect of accommodation. Humans constantly change their speech over the course of a conversation. Therefore, accommodation processes should be treated as continuous, dynamic phenomena. Measuring differences in a few discrete points, e.g., beginning and end of an interaction, may leave many accommodation events undiscovered or overly smoothed. To justify the effort of introducing accommodation in computers, it should first be proven that humans even show any phonetic adjustments when talking to a computer as they do with a human being. As there is no definitive metric for measuring accommodation and evaluating its quality, it is important to empirically study humans productions to later use as references for possible behaviors. In this work, this investigation encapsulates different experimental configurations to achieve a better picture of accommodation effects. First, vocal accommodation was inspected where it naturally occurs, namely in spontaneous human-human conversations. For this purpose, a collection of real-world sales conversations, each with a different representative-prospect pair, was collected and analyzed. These conversations offer a glance into accommodation effects in authentic, unscripted interactions with the common goal of negotiating a deal on the one hand, but with the individual facet of each side of trying to get the best terms on the other hand. The conversations were analyzed using cross-correlation and time series techniques to capture the change dynamics over time. It was found that successful conversations are distinguishable from failed ones by multiple measures. Furthermore, the sales representative proved to be better at leading the vocal changes, i.e., making the prospect follow their speech styles rather than the other way around. They also showed a stronger tendency to take that lead at an earlier stage, all the more so in successful conversations. The fact that accommodation occurs more by trained speakers and improves their performances fits anecdotal best practices of sales experts, which are now also proven scientifically. Following these results, the next experiment came closer to the final goal of this work and investigated vocal accommodation effects in human-computer interaction. This was done via a shadowing experiment, which offers a controlled setting for examining phonetic variations. As spoken dialogue systems with such accommodation capabilities (like this work aims to achieve) do not exist yet, a simulated system was used to introduce these changes to the participants, who believed they help with the testing of a language learning tutoring system. After determining their preference concerning three segmental phonetic features, participants were listen-ing to either natural or synthesized voices of male and female speakers, which produced the participants’ dispreferred variation of the aforementioned features. Accommodation occurred in all cases, but the natural voices triggered stronger effects. Nevertheless, it can be concluded that participants were accommodating toward synthetic voices as well, which means that social mechanisms are applied in humans also when speaking with computer-based interlocutors. The shadowing paradigm was utilized also to test whether accommodation is a phenomenon associated only with speech or with other vocal productions as well. To that end, accommodation in the singing of familiar and novel music was examined. Interestingly, accommodation was found in both cases, though in different ways. While participants seemed to use the familiar piece merely as a reference for singing more accurately, the novel piece became the goal for complete replicate. For example, one difference was that mostly pitch corrections were introduced in the former case, while in the latter also key and rhythmic patterns were adopted. Some of those findings were expected and they show that people’s more salient features are also harder to modify using external auditory influence. Lastly, a multiparty experiment with spontaneous human-human-computer interactions was carried out to compare accommodation in human-directed and computer-directed speech. The participants solved tasks for which they needed to talk both with a confederate and with an agent. This allows a direct comparison of their speech based on the addressee within the same conversation, which has not been done so far. Results show that some participants’ vocal behavior changed similarly when talking to the confederate and the agent, while others’ speech varied only with the confederate. Further analysis found that the greatest factor for this difference was the order in which the participants talked with the interlocutors. Apparently, those who first talked to the agent alone saw it more as a social actor in the conversation, while those who interacted with it after talking to the confederate treated it more as a means to achieve a goal, and thus behaved differently with it. In the latter case, the variations in the human-directed speech were much more prominent. Differences were also found between the analyzed features, but the task type did not influence the degree of accommodation effects. The results of these experiments lead to the conclusion that vocal accommodation does occur in human-computer interactions, even if often to lesser degrees. With the question of whether people accommodate to computer-based interlocutors as well answered, the next step would be to describe accommodative behaviors in a computer-processable manner. Two approaches are proposed here: computational and statistical. The computational model aims to capture the presumed cognitive process associated with accommodation in humans. This comprises various steps, such as detecting the variable feature’s sound, adding instances of it to the feature’s mental memory, and determining how much the sound will change while taking into account both its current representation and the external input. Due to its sequential nature, this model was implemented as a pipeline. Each of the pipeline’s five steps corresponds to a specific part of the cognitive process and can have one or more parameters to control its output (e.g., the size of the feature’s memory or the accommodation pace). Using these parameters, precise accommodative behaviors can be crafted while applying expert knowledge to motivate the chosen parameter values. These advantages make this approach suitable for experimentation with pre-defined, deterministic behaviors where each step can be changed individually. Ultimately, this approach makes a system vocally responsive to users’ speech input. The second approach grants more evolved behaviors, by defining different core behaviors and adding non-deterministic variations on top of them. This resembles human behavioral patterns, as each person has a base way of accommodating (or not accommodating), which may arbitrarily change based on the specific circumstances. This approach offers a data-driven statistical way to extract accommodation behaviors from a given collection of interactions. First, the target feature’s values of each speaker in an interaction are converted into continuous interpolated lines by drawing one sample from the posterior distribution of a Gaussian process conditioned on the given values. Then, the gradients of these lines, which represent rates of mutual change, are used to defined discrete levels of change based on their distribution. Finally, each level is assigned a symbol, which ultimately creates a symbol sequence representation for each interaction. The sequences are clustered so that each cluster stands for a type of behavior. The sequences of a cluster can then be used to calculate n-gram probabilities that enable the generation of new sequences of the captured behavior. The specific output value is sampled from the range corresponding to the generated symbol. With this approach, accommodation behaviors are extracted directly from data, as opposed to manually crafting them. However, it is harder to describe what exactly these behaviors represent and motivate the use of one of them over the other. To bridge this gap between these two approaches, it is also discussed how they can be combined to benefit from the advantages of both. Furthermore, to generate more structured behaviors, a hierarchy of accommodation complexity levels is suggested here, from a direct adoption of users’ realizations, via specified responsiveness, and up to independent core behaviors with non-deterministic variational productions. Besides a way to track and represent vocal changes, an accommodative system also needs a text-to-speech component that is able to realize those changes in the system’s speech output. Speech synthesis models are typically trained once on data with certain characteristics and do not change afterward. This prevents such models from introducing any variation in specific sounds and other phonetic features. Two methods for directly modifying such features are explored here. The first is based on signal modifications applied to the output signal after it was generated by the system. The processing is done between the timestamps of the target features and uses pre-defined scripts that modify the signal to achieve the desired values. This method is more suitable for continuous features like vowel quality, especially in the case of subtle changes that do not necessarily lead to a categorical sound change. The second method aims to capture phonetic variations in the training data. To that end, a training corpus with phonemic representations is used, as opposed to the regular graphemic representations. This way, the model can learn more direct relations between phonemes and sound instead of surface forms and sound, which, depending on the language, might be more complex and depend on their surrounding letters. The target variations themselves don’t necessarily need to be explicitly present in the training data, all time the different sounds are naturally distinguishable. In generation time, the current target feature’s state determines the phoneme to use for generating the desired sound. This method is suitable for categorical changes, especially for contrasts that naturally exist in the language. While both methods have certain limitations, they provide a proof of concept for the idea that spoken dialogue systems may phonetically adapt their speech output in real-time and without re-training their text-to-speech models. To combine the behavior definitions and the speech manipulations, a system is required, which can connect these elements to create a complete accommodation capability. The architecture suggested here extends the standard spoken dialogue system with an additional module, which receives the transcribed speech signal from the speech recognition component without influencing the input to the language understanding component. While language the understanding component uses only textual transcription to determine the user’s intention, the added component process the raw signal along with its phonetic transcription. In this extended architecture, the accommodation model is activated in the added module and the information required for speech manipulation is sent to the text-to-speech component. However, the text-to-speech component now has two inputs, viz. the content of the system’s response coming from the language generation component and the states of the defined target features from the added component. An implementation of a web-based system with this architecture is introduced here, and its functionality is showcased by demonstrating how it can be used to conduct a shadowing experiment automatically. This has two main advantage: First, since the system recognizes the participants’ phonetic variations and automatically selects the appropriate variation to use in its response, the experimenter saves time and prevents manual annotation errors. The experimenter also automatically gains additional information, like exact timestamps of utterances, real-time visualization of the interlocutors’ productions, and the possibility to replay and analyze the interaction after the experiment is finished. The second advantage is scalability. Multiple instances of the system can run on a server and be accessed by multiple clients at the same time. This not only saves time and the logistics of bringing participants into a lab, but also allows running the experiment with different configurations (e.g., other parameter values or target features) in a controlled and reproducible way. This completes a full cycle from examining human behaviors to integrating accommodation capabilities. Though each part of it can undoubtedly be further investigated, the emphasis here is on how they depend and connect to each other. Measuring changes features without showing how they can be modeled or achieving flexible speech synthesis without considering the desired final output might not lead to the final goal of introducing accommodation capabilities into computers. Treating accommodation in human-computer interaction as one large process rather than isolated sub-problems lays the ground for more comprehensive and complete solutions in the future.


Heutzutage wird die verbale Interaktion mit Computern immer gebräuchlicher, was der rasant wachsenden Anzahl von sprachaktivierten Geräten weltweit geschuldet ist. Allerdings stellt die computerseitige Handhabung gesprochener Sprache weiterhin eine große Herausforderung dar, obwohl sie die bevorzugte Art zwischenmenschlicher Kommunikation repräsentiert. Dieser Umstand führt auch dazu, dass Benutzer ihren Sprachstil an das jeweilige Gerät anpassen, um diese Handhabung zu erleichtern. Solche Anpassungen kommen in menschlicher gesprochener Sprache auch in der zwischenmenschlichen Kommunikation vor. Üblicherweise ereignen sie sich unbewusst und auf natürliche Weise während eines Gesprächs, etwa um die soziale Distanz zwischen den Gesprächsteilnehmern zu kontrollieren oder um die Effizienz des Gesprächs zu verbessern. Dieses Phänomen wird als Akkommodation bezeichnet und findet auf verschiedene Weise während menschlicher Kommunikation statt. Sie äußert sich zum Beispiel in der Gestik, Mimik, Blickrichtung oder aber auch in der Wortwahl und dem verwendeten Satzbau. Vokal- Akkommodation beschäftigt sich mit derartigen Anpassungen auf phonetischer Ebene, die sich in segmentalen und suprasegmentalen Merkmalen zeigen. Werden Ausprägungen dieser Merkmale bei den Gesprächsteilnehmern im Laufe des Gesprächs ähnlicher, spricht man von Konvergenz, vergrößern sich allerdings die Unterschiede, so wird dies als Divergenz bezeichnet. Dieser natürliche gegenseitige Anpassungsvorgang fehlt jedoch auf der Seite des Computers, was zu einer Lücke in der Mensch-Maschine-Interaktion führt. Darüber hinaus verwenden sprachaktivierte Systeme immer dieselbe Sprachausgabe und ignorieren folglich etwaige Unterschiede zum Sprachstil des momentanen Benutzers. Die Erkennung dieser phonetischen Abweichungen und die Erstellung von anpassungsfähiger Sprachausgabe würden zur Personalisierung dieser Systeme beitragen und könnten letztendlich die insgesamte Benutzererfahrung verbessern. Aus diesem Grund kann die Erforschung dieser Aspekte von Akkommodation helfen, Mensch-Maschine-Interaktion besser zu verstehen und weiterzuentwickeln. Die vorliegende Dissertation stellt einen umfassenden Überblick zu Bausteinen bereit, die nötig sind, um Akkommodationsfähigkeiten in Sprachdialogsysteme zu integrieren. In diesem Zusammenhang wurden auch interaktive Mensch-Mensch- und Mensch- Maschine-Experimente durchgeführt. In diesen Experimenten wurden Differenzen der vokalen Verhaltensweisen untersucht und Methoden erforscht, wie phonetische Abweichungen in synthetische Sprachausgabe integriert werden können. Um die erhaltenen Ergebnisse empirisch auswerten zu können, wurden hierbei auch verschiedene Modellierungsansätze erforscht. Fernerhin wurde der Frage nachgegangen, wie sich die betreffenden Komponenten kombinieren lassen, um ein Akkommodationssystem zu konstruieren. Jeder dieser Aspekte stellt für sich genommen bereits einen überaus breiten Forschungsbereich dar. Allerdings sind sie voneinander abhängig und sollten zusammen betrachtet werden. Aus diesem Grund liegt ein übergreifender Schwerpunkt dieser Dissertation darauf, nicht nur aufzuzeigen, wie sich diese Aspekte weiterentwickeln lassen, sondern auch zu motivieren, wie sie zusammenhängen. Ein weiterer Schwerpunkt dieser Arbeit befasst sich mit der zeitlichen Komponente des Akkommodationsprozesses, was auf der Beobachtung fußt, dass Menschen im Laufe eines Gesprächs ständig ihren Sprachstil ändern. Diese Beobachtung legt nahe, derartige Prozesse als kontinuierliche und dynamische Prozesse anzusehen. Fasst man jedoch diesen Prozess als diskret auf und betrachtet z.B. nur den Beginn und das Ende einer Interaktion, kann dies dazu führen, dass viele Akkommodationsereignisse unentdeckt bleiben oder übermäßig geglättet werden. Um die Entwicklung eines vokalen Akkommodationssystems zu rechtfertigen, muss zuerst bewiesen werden, dass Menschen bei der vokalen Interaktion mit einem Computer ein ähnliches Anpassungsverhalten zeigen wie bei der Interaktion mit einem Menschen. Da es keine eindeutig festgelegte Metrik für das Messen des Akkommodationsgrades und für die Evaluierung der Akkommodationsqualität gibt, ist es besonders wichtig, die Sprachproduktion von Menschen empirisch zu untersuchen, um sie als Referenz für mögliche Verhaltensweisen anzuwenden. In dieser Arbeit schließt diese Untersuchung verschiedene experimentelle Anordnungen ein, um einen besseren Überblick über Akkommodationseffekte zu erhalten. In einer ersten Studie wurde die vokale Akkommodation in einer Umgebung untersucht, in der sie natürlich vorkommt: in einem spontanen Mensch-Mensch Gespräch. Zu diesem Zweck wurde eine Sammlung von echten Verkaufsgesprächen gesammelt und analysiert, wobei in jedem dieser Gespräche ein anderes Handelsvertreter-Neukunde Paar teilgenommen hatte. Diese Gespräche verschaffen einen Einblick in Akkommodationseffekte während spontanen authentischen Interaktionen, wobei die Gesprächsteilnehmer zwei Ziele verfolgen: zum einen soll ein Geschäft verhandelt werden, zum anderen möchte aber jeder Teilnehmer für sich die besten Bedingungen aushandeln. Die Konversationen wurde durch das Kreuzkorrelation-Zeitreihen-Verfahren analysiert, um die dynamischen Änderungen im Zeitverlauf zu erfassen. Hierbei kam zum Vorschein, dass sich erfolgreiche Konversationen von fehlgeschlagenen Gesprächen deutlich unterscheiden lassen. Überdies wurde festgestellt, dass die Handelsvertreter die treibende Kraft von vokalen Änderungen sind, d.h. sie können die Neukunden eher dazu zu bringen, ihren Sprachstil anzupassen, als andersherum. Es wurde auch beobachtet, dass sie diese Akkommodation oft schon zu einem frühen Zeitpunkt auslösen, was besonders bei erfolgreichen Gesprächen beobachtet werden konnte. Dass diese Akkommodation stärker bei trainierten Sprechern ausgelöst wird, deckt sich mit den meist anekdotischen Empfehlungen von erfahrenen Handelsvertretern, die bisher nie wissenschaftlich nachgewiesen worden sind. Basierend auf diesen Ergebnissen beschäftigte sich die nächste Studie mehr mit dem Hauptziel dieser Arbeit und untersuchte Akkommodationseffekte bei Mensch-Maschine-Interaktionen. Diese Studie führte ein Shadowing-Experiment durch, das ein kontrolliertes Umfeld für die Untersuchung phonetischer Abweichungen anbietet. Da Sprachdialogsysteme mit solchen Akkommodationsfähigkeiten noch nicht existieren, wurde stattdessen ein simuliertes System eingesetzt, um diese Akkommodationsprozesse bei den Teilnehmern auszulösen, wobei diese im Glauben waren, ein Sprachlernsystem zu testen. Nach der Bestimmung ihrer Präferenzen hinsichtlich dreier segmentaler Merkmale hörten die Teilnehmer entweder natürlichen oder synthetischen Stimmen von männlichen und weiblichen Sprechern zu, die nicht die bevorzugten Variation der oben genannten Merkmale produzierten. Akkommodation fand in allen Fällen statt, obwohl die natürlichen Stimmen stärkere Effekte auslösten. Es kann jedoch gefolgert werden, dass Teilnehmer sich auch an den synthetischen Stimmen orientierten, was bedeutet, dass soziale Mechanismen bei Menschen auch beim Sprechen mit Computern angewendet werden. Das Shadowing-Paradigma wurde auch verwendet, um zu testen, ob Akkommodation ein nur mit Sprache assoziiertes Phänomen ist oder ob sie auch in anderen vokalen Aktivitäten stattfindet. Hierzu wurde Akkommodation im Gesang zu vertrauter und unbekannter Musik untersucht. Interessanterweise wurden in beiden Fällen Akkommodationseffekte gemessen, wenn auch nur auf unterschiedliche Weise. Wohingegen die Teilnehmer das vertraute Stück lediglich als Referenz für einen genaueren Gesang zu verwenden schienen, wurde das neuartige Stück zum Ziel einer vollständigen Nachbildung. Ein Unterschied bestand z.B. darin, dass im ersteren Fall hauptsächlich Tonhöhenkorrekturen durchgeführt wurden, während im zweiten Fall auch Tonart und Rhythmusmuster übernommen wurden. Einige dieser Ergebnisse wurden erwartet und zeigen, dass die hervorstechenderen Merkmale von Menschen auch durch externen auditorischen Einfluss schwerer zu modifizieren sind. Zuletzt wurde ein Mehrparteienexperiment mit spontanen Mensch-Mensch-Computer-Interaktionen durchgeführt, um Akkommodation in mensch- und computergerichteter Sprache zu vergleichen. Die Teilnehmer lösten Aufgaben, für die sie sowohl mit einem Konföderierten als auch mit einem Agenten sprechen mussten. Dies ermöglicht einen direkten Vergleich ihrer Sprache basierend auf dem Adressaten innerhalb derselben Konversation, was bisher noch nicht erforscht worden ist. Die Ergebnisse zeigen, dass sich das vokale Verhalten einiger Teilnehmer im Gespräch mit dem Konföderierten und dem Agenten ähnlich änderte, während die Sprache anderer Teilnehmer nur mit dem Konföderierten variierte. Weitere Analysen ergaben, dass der größte Faktor für diesen Unterschied die Reihenfolge war, in der die Teilnehmer mit den Gesprächspartnern sprachen. Anscheinend sahen die Teilnehmer, die zuerst mit dem Agenten allein sprachen, ihn eher als einen sozialen Akteur im Gespräch, während diejenigen, die erst mit dem Konföderierten interagierten, ihn eher als Mittel zur Erreichung eines Ziels betrachteten und sich deswegen anders verhielten. Im letzteren Fall waren die Variationen in der menschgerichteten Sprache viel ausgeprägter. Unterschiede wurden auch zwischen den analysierten Merkmalen festgestellt, aber der Aufgabentyp hatte keinen Einfluss auf den Grad der Akkommodationseffekte. Die Ergebnisse dieser Experimente lassen den Schluss zu, dass bei Mensch-Computer-Interaktionen vokale Akkommodation auftritt, wenn auch häufig in geringerem Maße. Da nun eine Bestätigung dafür vorliegt, dass Menschen auch bei der Interaktion mit Computern ein Akkommodationsverhalten aufzeigen, liegt der Schritt nahe, dieses Verhalten auf eine computergestützte Weise zu beschreiben. Hier werden zwei Ansätze vorgeschlagen: ein Ansatz basierend auf einem Rechenmodell und einer basierend auf einem statistischen Modell. Das Ziel des Rechenmodells ist es, den vermuteten kognitiven Prozess zu erfassen, der mit der Akkommodation beim Menschen verbunden ist. Dies umfasst verschiedene Schritte, z.B. das Erkennen des Klangs des variablen Merkmals, das Hinzufügen von Instanzen davon zum mentalen Gedächtnis des Merkmals und das Bestimmen, wie stark sich das Merkmal ändert, wobei sowohl seine aktuelle Darstellung als auch die externe Eingabe berücksichtigt werden. Aufgrund seiner sequenziellen Natur wurde dieses Modell als eine Pipeline implementiert. Jeder der fünf Schritte der Pipeline entspricht einem bestimmten Teil des kognitiven Prozesses und kann einen oder mehrere Parameter zur Steuerung seiner Ausgabe aufweisen (z.B. die Größe des Ge-dächtnisses des Merkmals oder die Akkommodationsgeschwindigkeit). Mit Hilfe dieser Parameter können präzise akkommodative Verhaltensweisen zusammen mit Expertenwissen erstellt werden, um die ausgewählten Parameterwerte zu motivieren. Durch diese Vorteile ist diesen Ansatz besonders zum Experimentieren mit vordefinierten, deterministischen Verhaltensweisen geeignet, bei denen jeder Schritt einzeln geändert werden kann. Letztendlich macht dieser Ansatz ein System stimmlich auf die Spracheingabe von Benutzern ansprechbar. Der zweite Ansatz gewährt weiterentwickelte Verhaltensweisen, indem verschiedene Kernverhalten definiert und nicht deterministische Variationen hinzugefügt werden. Dies ähnelt menschlichen Verhaltensmustern, da jede Person eine grundlegende Art von Akkommodationsverhalten hat, das sich je nach den spezifischen Umständen willkürlich ändern kann. Dieser Ansatz bietet eine datengesteuerte statistische Methode, um das Akkommodationsverhalten aus einer bestimmten Sammlung von Interaktionen zu extrahieren. Zunächst werden die Werte des Zielmerkmals jedes Sprechers in einer Interaktion in kontinuierliche interpolierte Linien umgewandelt, indem eine Probe aus der a posteriori Verteilung eines Gaußprozesses gezogen wird, der von den angegebenen Werten abhängig ist. Dann werden die Gradienten dieser Linien, die die gegenseitigen Änderungsraten darstellen, verwendet, um diskrete Änderungsniveaus basierend auf ihren Verteilungen zu definieren. Schließlich wird jeder Ebene ein Symbol zugewiesen, das letztendlich eine Symbolsequenzdarstellung für jede Interaktion darstellt. Die Sequenzen sind geclustert, sodass jeder Cluster für eine Art von Verhalten steht. Die Sequenzen eines Clusters können dann verwendet werden, um N-Gramm Wahrscheinlichkeiten zu berechnen, die die Erzeugung neuer Sequenzen des erfassten Verhaltens ermöglichen. Der spezifische Ausgabewert wird aus dem Bereich abgetastet, der dem erzeugten Symbol entspricht. Bei diesem Ansatz wird das Akkommodationsverhalten direkt aus Daten extrahiert, anstatt manuell erstellt zu werden. Es kann jedoch schwierig sein, zu beschreiben, was genau jedes Verhalten darstellt und die Verwendung eines von ihnen gegenüber dem anderen zu motivieren. Um diesen Spalt zwischen diesen beiden Ansätzen zu schließen, wird auch diskutiert, wie sie kombiniert werden könnten, um von den Vorteilen beider zu profitieren. Darüber hinaus, um strukturiertere Verhaltensweisen zu generieren, wird hier eine Hierarchie von Akkommodationskomplexitätsstufen vorgeschlagen, die von einer direkten Übernahme der Benutzerrealisierungen über eine bestimmte Änderungssensitivität und bis hin zu unabhängigen Kernverhalten mit nicht-deterministischen Variationsproduktionen reicht. Neben der Möglichkeit, Stimmänderungen zu verfolgen und darzustellen, benötigt ein akkommodatives System auch eine Text-zu-Sprache Komponente, die diese Änderungen in der Sprachausgabe des Systems realisieren kann. Sprachsynthesemodelle werden in der Regel einmal mit Daten mit bestimmten Merkmalen trainiert und ändern sich danach nicht mehr. Dies verhindert, dass solche Modelle Variationen in bestimmten Klängen und anderen phonetischen Merkmalen generieren können. Zwei Methoden zum direkten Ändern solcher Merkmale werden hier untersucht. Die erste basiert auf Signalverarbeitung, die auf das Ausgangssignal angewendet wird, nachdem es vom System erzeugt wurde. Die Verarbeitung erfolgt zwischen den Zeitstempeln der Zielmerkmale und verwendet vordefinierte Skripte, die das Signal modifizieren, um die gewünschten Werte zu erreichen. Diese Methode eignet sich besser für kontinuierliche Merkmale wie Vokalqualität, insbesondere bei subtilen Änderungen, die nicht unbedingt zu einer kategorialen Klangänderung führen. Die zweite Methode zielt darauf ab, phonetische Variationen in den Trainingsdaten zu erfassen. Zu diesem Zweck wird im Gegensatz zu den regulären graphemischen Darstellungen ein Trainingskorpus mit phonemischen Darstellungen verwendet. Auf diese Weise kann das Modell direktere Beziehungen zwischen Phonemen und Klang anstelle von Oberflächenformen und Klang erlernen, die je nach Sprache komplexer und von ihren umgebenden Buchstaben abhängen können. Die Zielvariationen selbst müssen nicht unbedingt explizit in den Trainingsdaten enthalten sein, solange die verschiedenen Klänge natürlich immer unterscheidbar sind. In der Generierungsphase bestimmt der Zustand des aktuellen Zielmerkmals das Phonem, das zum Erzeugen des gewünschten Klangs verwendet werden sollte. Diese Methode eignet sich für kategoriale Änderungen, insbesondere für Kontraste, die sich natürlich in der Sprache unterscheiden. Obwohl beide Methoden eindeutig verschiedene Einschränkungen aufweisen, liefern sie einen Machbarkeitsnachweis für die Idee, dass Sprachdialogsysteme ihre Sprachausgabe in Echtzeit phonetisch anpassen können, ohne ihre Text-zu-Sprache Modelle wieder zu trainieren. Um die Verhaltensdefinitionen und die Sprachmanipulation zu kombinieren, ist ein System erforderlich, das diese Elemente verbinden kann, um ein vollständiges akkommodationsfähiges System zu schaffen. Die hier vorgeschlagene Architektur erweitert den Standardfluss von Sprachdialogsystemen um ein zusätzliches Modul, das das transkribierte Sprachsignal von der Spracherkennungskomponente empfängt, ohne die Eingabe in die Sprachverständniskomponente zu beeinflussen. Während die Sprachverständnis-komponente nur die Texttranskription verwendet, um die Absicht des Benutzers zu bestimmen, verarbeitet die hinzugefügte Komponente das Rohsignal zusammen mit seiner phonetischen Transkription. In dieser erweiterten Architektur wird das Akkommodationsmodell in dem hinzugefügten Modul aktiviert und die für die Sprachmanipulation erforderlichen Informationen werden an die Text-zu-Sprache Komponente gesendet. Die Text-zu-Sprache Komponente hat jetzt zwei Eingaben, nämlich den Inhalt der Systemantwort, der von der Sprachgenerierungskomponente stammt, und die Zustände der definierten Zielmerkmale von der hinzugefügten Komponente. Hier wird eine Implementierung eines webbasierten Systems mit dieser Architektur vorgestellt und dessen Funktionalitäten wurden durch ein Vorzeigeszenario demonstriert, indem es verwendet wird, um ein Shadowing-Experiment automatisch durchzuführen. Dies hat zwei Hauptvorteile: Erstens spart der Experimentator Zeit und vermeidet manuelle Annotationsfehler, da das System die phonetischen Variationen der Teilnehmer erkennt und automatisch die geeignete Variation für die Rückmeldung auswählt. Der Experimentator erhält außerdem automatisch zusätzliche Informationen wie genaue Zeitstempel der Äußerungen, Echtzeitvisualisierung der Produktionen der Gesprächspartner und die Möglichkeit, die Interaktion nach Abschluss des Experiments erneut abzuspielen und zu analysieren. Der zweite Vorteil ist Skalierbarkeit. Mehrere Instanzen des Systems können auf einem Server ausgeführt werden, auf die mehrere Clients gleichzeitig zugreifen können. Dies spart nicht nur Zeit und Logistik, um Teilnehmer in ein Labor zu bringen, sondern ermöglicht auch die kontrollierte und reproduzierbare Durchführung von Experimenten mit verschiedenen Konfigurationen (z.B. andere Parameterwerte oder Zielmerkmale). Dies schließt einen vollständigen Zyklus von der Untersuchung des menschlichen Verhaltens bis zur Integration der Akkommodationsfähigkeiten ab. Obwohl jeder Teil davon zweifellos weiter untersucht werden kann, liegt der Schwerpunkt hier darauf, wie sie voneinander abhängen und sich miteinander kombinieren lassen. Das Messen von Änderungsmerkmalen, ohne zu zeigen, wie sie modelliert werden können, oder das Erreichen einer flexiblen Sprachsynthese ohne Berücksichtigung der gewünschten endgültigen Ausgabe führt möglicherweise nicht zum endgültigen Ziel, Akkommodationsfähigkeiten in Computer zu integrieren. Indem diese Dissertation die Vokal-Akkommodation in der Mensch-Computer-Interaktion als einen einzigen großen Prozess betrachtet und nicht als eine Sammlung isolierter Unterprobleme, schafft sie ein Fundament für umfassendere und vollständigere Lösungen in der Zukunft.

@phdthesis{Raveh_Diss_2021,
title = {Vocal accommodation in human-computer interaction: modeling and integration into spoken dialogue systems},
author = {Eran Raveh},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/31960},
doi = {https://doi.org/10.22028/D291-34889},
year = {2021},
date = {2021-12-07},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {With the rapidly increasing usage of voice-activated devices worldwide, verbal communication with computers is steadily becoming more common. Although speech is the principal natural manner of human communication, it is still challenging for computers, and users had been growing accustomed to adjusting their speaking style for computers. Such adjustments occur naturally, and typically unconsciously, in humans during an exchange to control the social distance between the interlocutors and improve the conversation’s efficiency. This phenomenon is called accommodation and it occurs on various modalities in human communication, like hand gestures, facial expressions, eye gaze, lexical and grammatical choices, and others. Vocal accommodation deals with phonetic-level changes occurring in segmental and suprasegmental features. A decrease in the difference between the speakers’ feature realizations results in convergence, while an increasing distance leads to divergence. The lack of such mutual adjustments made naturally by humans in computers’ speech creates a gap between human-human and human-computer interactions. Moreover, voice-activated systems currently speak in exactly the same manner to all users, regardless of their speech characteristics or realizations of specific features. Detecting phonetic variations and generating adaptive speech output would enhance user personalization, offer more human-like communication, and ultimately should improve the overall interaction experience. Thus, investigating these aspects of accommodation will help to understand and improving human-computer interaction. This thesis provides a comprehensive overview of the required building blocks for a roadmap toward the integration of accommodation capabilities into spoken dialogue systems. These include conducting human-human and human-computer interaction experiments to examine the differences in vocal behaviors, approaches for modeling these empirical findings, methods for introducing phonetic variations in synthesized speech, and a way to combine all these components into an accommodative system. While each component is a wide research field by itself, they depend on each other and hence should be jointly considered. The overarching goal of this thesis is therefore not only to show how each of the aspects can be further developed, but also to demonstrate and motivate the connections between them. A special emphasis is put throughout the thesis on the importance of the temporal aspect of accommodation. Humans constantly change their speech over the course of a conversation. Therefore, accommodation processes should be treated as continuous, dynamic phenomena. Measuring differences in a few discrete points, e.g., beginning and end of an interaction, may leave many accommodation events undiscovered or overly smoothed. To justify the effort of introducing accommodation in computers, it should first be proven that humans even show any phonetic adjustments when talking to a computer as they do with a human being. As there is no definitive metric for measuring accommodation and evaluating its quality, it is important to empirically study humans productions to later use as references for possible behaviors. In this work, this investigation encapsulates different experimental configurations to achieve a better picture of accommodation effects. First, vocal accommodation was inspected where it naturally occurs, namely in spontaneous human-human conversations. For this purpose, a collection of real-world sales conversations, each with a different representative-prospect pair, was collected and analyzed. These conversations offer a glance into accommodation effects in authentic, unscripted interactions with the common goal of negotiating a deal on the one hand, but with the individual facet of each side of trying to get the best terms on the other hand. The conversations were analyzed using cross-correlation and time series techniques to capture the change dynamics over time. It was found that successful conversations are distinguishable from failed ones by multiple measures. Furthermore, the sales representative proved to be better at leading the vocal changes, i.e., making the prospect follow their speech styles rather than the other way around. They also showed a stronger tendency to take that lead at an earlier stage, all the more so in successful conversations. The fact that accommodation occurs more by trained speakers and improves their performances fits anecdotal best practices of sales experts, which are now also proven scientifically. Following these results, the next experiment came closer to the final goal of this work and investigated vocal accommodation effects in human-computer interaction. This was done via a shadowing experiment, which offers a controlled setting for examining phonetic variations. As spoken dialogue systems with such accommodation capabilities (like this work aims to achieve) do not exist yet, a simulated system was used to introduce these changes to the participants, who believed they help with the testing of a language learning tutoring system. After determining their preference concerning three segmental phonetic features, participants were listen-ing to either natural or synthesized voices of male and female speakers, which produced the participants’ dispreferred variation of the aforementioned features. Accommodation occurred in all cases, but the natural voices triggered stronger effects. Nevertheless, it can be concluded that participants were accommodating toward synthetic voices as well, which means that social mechanisms are applied in humans also when speaking with computer-based interlocutors. The shadowing paradigm was utilized also to test whether accommodation is a phenomenon associated only with speech or with other vocal productions as well. To that end, accommodation in the singing of familiar and novel music was examined. Interestingly, accommodation was found in both cases, though in different ways. While participants seemed to use the familiar piece merely as a reference for singing more accurately, the novel piece became the goal for complete replicate. For example, one difference was that mostly pitch corrections were introduced in the former case, while in the latter also key and rhythmic patterns were adopted. Some of those findings were expected and they show that people’s more salient features are also harder to modify using external auditory influence. Lastly, a multiparty experiment with spontaneous human-human-computer interactions was carried out to compare accommodation in human-directed and computer-directed speech. The participants solved tasks for which they needed to talk both with a confederate and with an agent. This allows a direct comparison of their speech based on the addressee within the same conversation, which has not been done so far. Results show that some participants’ vocal behavior changed similarly when talking to the confederate and the agent, while others’ speech varied only with the confederate. Further analysis found that the greatest factor for this difference was the order in which the participants talked with the interlocutors. Apparently, those who first talked to the agent alone saw it more as a social actor in the conversation, while those who interacted with it after talking to the confederate treated it more as a means to achieve a goal, and thus behaved differently with it. In the latter case, the variations in the human-directed speech were much more prominent. Differences were also found between the analyzed features, but the task type did not influence the degree of accommodation effects. The results of these experiments lead to the conclusion that vocal accommodation does occur in human-computer interactions, even if often to lesser degrees. With the question of whether people accommodate to computer-based interlocutors as well answered, the next step would be to describe accommodative behaviors in a computer-processable manner. Two approaches are proposed here: computational and statistical. The computational model aims to capture the presumed cognitive process associated with accommodation in humans. This comprises various steps, such as detecting the variable feature’s sound, adding instances of it to the feature’s mental memory, and determining how much the sound will change while taking into account both its current representation and the external input. Due to its sequential nature, this model was implemented as a pipeline. Each of the pipeline’s five steps corresponds to a specific part of the cognitive process and can have one or more parameters to control its output (e.g., the size of the feature’s memory or the accommodation pace). Using these parameters, precise accommodative behaviors can be crafted while applying expert knowledge to motivate the chosen parameter values. These advantages make this approach suitable for experimentation with pre-defined, deterministic behaviors where each step can be changed individually. Ultimately, this approach makes a system vocally responsive to users’ speech input. The second approach grants more evolved behaviors, by defining different core behaviors and adding non-deterministic variations on top of them. This resembles human behavioral patterns, as each person has a base way of accommodating (or not accommodating), which may arbitrarily change based on the specific circumstances. This approach offers a data-driven statistical way to extract accommodation behaviors from a given collection of interactions. First, the target feature’s values of each speaker in an interaction are converted into continuous interpolated lines by drawing one sample from the posterior distribution of a Gaussian process conditioned on the given values. Then, the gradients of these lines, which represent rates of mutual change, are used to defined discrete levels of change based on their distribution. Finally, each level is assigned a symbol, which ultimately creates a symbol sequence representation for each interaction. The sequences are clustered so that each cluster stands for a type of behavior. The sequences of a cluster can then be used to calculate n-gram probabilities that enable the generation of new sequences of the captured behavior. The specific output value is sampled from the range corresponding to the generated symbol. With this approach, accommodation behaviors are extracted directly from data, as opposed to manually crafting them. However, it is harder to describe what exactly these behaviors represent and motivate the use of one of them over the other. To bridge this gap between these two approaches, it is also discussed how they can be combined to benefit from the advantages of both. Furthermore, to generate more structured behaviors, a hierarchy of accommodation complexity levels is suggested here, from a direct adoption of users’ realizations, via specified responsiveness, and up to independent core behaviors with non-deterministic variational productions. Besides a way to track and represent vocal changes, an accommodative system also needs a text-to-speech component that is able to realize those changes in the system’s speech output. Speech synthesis models are typically trained once on data with certain characteristics and do not change afterward. This prevents such models from introducing any variation in specific sounds and other phonetic features. Two methods for directly modifying such features are explored here. The first is based on signal modifications applied to the output signal after it was generated by the system. The processing is done between the timestamps of the target features and uses pre-defined scripts that modify the signal to achieve the desired values. This method is more suitable for continuous features like vowel quality, especially in the case of subtle changes that do not necessarily lead to a categorical sound change. The second method aims to capture phonetic variations in the training data. To that end, a training corpus with phonemic representations is used, as opposed to the regular graphemic representations. This way, the model can learn more direct relations between phonemes and sound instead of surface forms and sound, which, depending on the language, might be more complex and depend on their surrounding letters. The target variations themselves don’t necessarily need to be explicitly present in the training data, all time the different sounds are naturally distinguishable. In generation time, the current target feature’s state determines the phoneme to use for generating the desired sound. This method is suitable for categorical changes, especially for contrasts that naturally exist in the language. While both methods have certain limitations, they provide a proof of concept for the idea that spoken dialogue systems may phonetically adapt their speech output in real-time and without re-training their text-to-speech models. To combine the behavior definitions and the speech manipulations, a system is required, which can connect these elements to create a complete accommodation capability. The architecture suggested here extends the standard spoken dialogue system with an additional module, which receives the transcribed speech signal from the speech recognition component without influencing the input to the language understanding component. While language the understanding component uses only textual transcription to determine the user’s intention, the added component process the raw signal along with its phonetic transcription. In this extended architecture, the accommodation model is activated in the added module and the information required for speech manipulation is sent to the text-to-speech component. However, the text-to-speech component now has two inputs, viz. the content of the system’s response coming from the language generation component and the states of the defined target features from the added component. An implementation of a web-based system with this architecture is introduced here, and its functionality is showcased by demonstrating how it can be used to conduct a shadowing experiment automatically. This has two main advantage: First, since the system recognizes the participants’ phonetic variations and automatically selects the appropriate variation to use in its response, the experimenter saves time and prevents manual annotation errors. The experimenter also automatically gains additional information, like exact timestamps of utterances, real-time visualization of the interlocutors’ productions, and the possibility to replay and analyze the interaction after the experiment is finished. The second advantage is scalability. Multiple instances of the system can run on a server and be accessed by multiple clients at the same time. This not only saves time and the logistics of bringing participants into a lab, but also allows running the experiment with different configurations (e.g., other parameter values or target features) in a controlled and reproducible way. This completes a full cycle from examining human behaviors to integrating accommodation capabilities. Though each part of it can undoubtedly be further investigated, the emphasis here is on how they depend and connect to each other. Measuring changes features without showing how they can be modeled or achieving flexible speech synthesis without considering the desired final output might not lead to the final goal of introducing accommodation capabilities into computers. Treating accommodation in human-computer interaction as one large process rather than isolated sub-problems lays the ground for more comprehensive and complete solutions in the future.


Heutzutage wird die verbale Interaktion mit Computern immer gebr{\"a}uchlicher, was der rasant wachsenden Anzahl von sprachaktivierten Ger{\"a}ten weltweit geschuldet ist. Allerdings stellt die computerseitige Handhabung gesprochener Sprache weiterhin eine gro{\ss}e Herausforderung dar, obwohl sie die bevorzugte Art zwischenmenschlicher Kommunikation repr{\"a}sentiert. Dieser Umstand führt auch dazu, dass Benutzer ihren Sprachstil an das jeweilige Ger{\"a}t anpassen, um diese Handhabung zu erleichtern. Solche Anpassungen kommen in menschlicher gesprochener Sprache auch in der zwischenmenschlichen Kommunikation vor. {\"U}blicherweise ereignen sie sich unbewusst und auf natürliche Weise w{\"a}hrend eines Gespr{\"a}chs, etwa um die soziale Distanz zwischen den Gespr{\"a}chsteilnehmern zu kontrollieren oder um die Effizienz des Gespr{\"a}chs zu verbessern. Dieses Ph{\"a}nomen wird als Akkommodation bezeichnet und findet auf verschiedene Weise w{\"a}hrend menschlicher Kommunikation statt. Sie {\"a}u{\ss}ert sich zum Beispiel in der Gestik, Mimik, Blickrichtung oder aber auch in der Wortwahl und dem verwendeten Satzbau. Vokal- Akkommodation besch{\"a}ftigt sich mit derartigen Anpassungen auf phonetischer Ebene, die sich in segmentalen und suprasegmentalen Merkmalen zeigen. Werden Auspr{\"a}gungen dieser Merkmale bei den Gespr{\"a}chsteilnehmern im Laufe des Gespr{\"a}chs {\"a}hnlicher, spricht man von Konvergenz, vergr{\"o}{\ss}ern sich allerdings die Unterschiede, so wird dies als Divergenz bezeichnet. Dieser natürliche gegenseitige Anpassungsvorgang fehlt jedoch auf der Seite des Computers, was zu einer Lücke in der Mensch-Maschine-Interaktion führt. Darüber hinaus verwenden sprachaktivierte Systeme immer dieselbe Sprachausgabe und ignorieren folglich etwaige Unterschiede zum Sprachstil des momentanen Benutzers. Die Erkennung dieser phonetischen Abweichungen und die Erstellung von anpassungsf{\"a}higer Sprachausgabe würden zur Personalisierung dieser Systeme beitragen und k{\"o}nnten letztendlich die insgesamte Benutzererfahrung verbessern. Aus diesem Grund kann die Erforschung dieser Aspekte von Akkommodation helfen, Mensch-Maschine-Interaktion besser zu verstehen und weiterzuentwickeln. Die vorliegende Dissertation stellt einen umfassenden {\"U}berblick zu Bausteinen bereit, die n{\"o}tig sind, um Akkommodationsf{\"a}higkeiten in Sprachdialogsysteme zu integrieren. In diesem Zusammenhang wurden auch interaktive Mensch-Mensch- und Mensch- Maschine-Experimente durchgeführt. In diesen Experimenten wurden Differenzen der vokalen Verhaltensweisen untersucht und Methoden erforscht, wie phonetische Abweichungen in synthetische Sprachausgabe integriert werden k{\"o}nnen. Um die erhaltenen Ergebnisse empirisch auswerten zu k{\"o}nnen, wurden hierbei auch verschiedene Modellierungsans{\"a}tze erforscht. Fernerhin wurde der Frage nachgegangen, wie sich die betreffenden Komponenten kombinieren lassen, um ein Akkommodationssystem zu konstruieren. Jeder dieser Aspekte stellt für sich genommen bereits einen überaus breiten Forschungsbereich dar. Allerdings sind sie voneinander abh{\"a}ngig und sollten zusammen betrachtet werden. Aus diesem Grund liegt ein übergreifender Schwerpunkt dieser Dissertation darauf, nicht nur aufzuzeigen, wie sich diese Aspekte weiterentwickeln lassen, sondern auch zu motivieren, wie sie zusammenh{\"a}ngen. Ein weiterer Schwerpunkt dieser Arbeit befasst sich mit der zeitlichen Komponente des Akkommodationsprozesses, was auf der Beobachtung fu{\ss}t, dass Menschen im Laufe eines Gespr{\"a}chs st{\"a}ndig ihren Sprachstil {\"a}ndern. Diese Beobachtung legt nahe, derartige Prozesse als kontinuierliche und dynamische Prozesse anzusehen. Fasst man jedoch diesen Prozess als diskret auf und betrachtet z.B. nur den Beginn und das Ende einer Interaktion, kann dies dazu führen, dass viele Akkommodationsereignisse unentdeckt bleiben oder überm{\"a}{\ss}ig gegl{\"a}ttet werden. Um die Entwicklung eines vokalen Akkommodationssystems zu rechtfertigen, muss zuerst bewiesen werden, dass Menschen bei der vokalen Interaktion mit einem Computer ein {\"a}hnliches Anpassungsverhalten zeigen wie bei der Interaktion mit einem Menschen. Da es keine eindeutig festgelegte Metrik für das Messen des Akkommodationsgrades und für die Evaluierung der Akkommodationsqualit{\"a}t gibt, ist es besonders wichtig, die Sprachproduktion von Menschen empirisch zu untersuchen, um sie als Referenz für m{\"o}gliche Verhaltensweisen anzuwenden. In dieser Arbeit schlie{\ss}t diese Untersuchung verschiedene experimentelle Anordnungen ein, um einen besseren {\"U}berblick über Akkommodationseffekte zu erhalten. In einer ersten Studie wurde die vokale Akkommodation in einer Umgebung untersucht, in der sie natürlich vorkommt: in einem spontanen Mensch-Mensch Gespr{\"a}ch. Zu diesem Zweck wurde eine Sammlung von echten Verkaufsgespr{\"a}chen gesammelt und analysiert, wobei in jedem dieser Gespr{\"a}che ein anderes Handelsvertreter-Neukunde Paar teilgenommen hatte. Diese Gespr{\"a}che verschaffen einen Einblick in Akkommodationseffekte w{\"a}hrend spontanen authentischen Interaktionen, wobei die Gespr{\"a}chsteilnehmer zwei Ziele verfolgen: zum einen soll ein Gesch{\"a}ft verhandelt werden, zum anderen m{\"o}chte aber jeder Teilnehmer für sich die besten Bedingungen aushandeln. Die Konversationen wurde durch das Kreuzkorrelation-Zeitreihen-Verfahren analysiert, um die dynamischen {\"A}nderungen im Zeitverlauf zu erfassen. Hierbei kam zum Vorschein, dass sich erfolgreiche Konversationen von fehlgeschlagenen Gespr{\"a}chen deutlich unterscheiden lassen. {\"U}berdies wurde festgestellt, dass die Handelsvertreter die treibende Kraft von vokalen {\"A}nderungen sind, d.h. sie k{\"o}nnen die Neukunden eher dazu zu bringen, ihren Sprachstil anzupassen, als andersherum. Es wurde auch beobachtet, dass sie diese Akkommodation oft schon zu einem frühen Zeitpunkt ausl{\"o}sen, was besonders bei erfolgreichen Gespr{\"a}chen beobachtet werden konnte. Dass diese Akkommodation st{\"a}rker bei trainierten Sprechern ausgel{\"o}st wird, deckt sich mit den meist anekdotischen Empfehlungen von erfahrenen Handelsvertretern, die bisher nie wissenschaftlich nachgewiesen worden sind. Basierend auf diesen Ergebnissen besch{\"a}ftigte sich die n{\"a}chste Studie mehr mit dem Hauptziel dieser Arbeit und untersuchte Akkommodationseffekte bei Mensch-Maschine-Interaktionen. Diese Studie führte ein Shadowing-Experiment durch, das ein kontrolliertes Umfeld für die Untersuchung phonetischer Abweichungen anbietet. Da Sprachdialogsysteme mit solchen Akkommodationsf{\"a}higkeiten noch nicht existieren, wurde stattdessen ein simuliertes System eingesetzt, um diese Akkommodationsprozesse bei den Teilnehmern auszul{\"o}sen, wobei diese im Glauben waren, ein Sprachlernsystem zu testen. Nach der Bestimmung ihrer Pr{\"a}ferenzen hinsichtlich dreier segmentaler Merkmale h{\"o}rten die Teilnehmer entweder natürlichen oder synthetischen Stimmen von m{\"a}nnlichen und weiblichen Sprechern zu, die nicht die bevorzugten Variation der oben genannten Merkmale produzierten. Akkommodation fand in allen F{\"a}llen statt, obwohl die natürlichen Stimmen st{\"a}rkere Effekte ausl{\"o}sten. Es kann jedoch gefolgert werden, dass Teilnehmer sich auch an den synthetischen Stimmen orientierten, was bedeutet, dass soziale Mechanismen bei Menschen auch beim Sprechen mit Computern angewendet werden. Das Shadowing-Paradigma wurde auch verwendet, um zu testen, ob Akkommodation ein nur mit Sprache assoziiertes Ph{\"a}nomen ist oder ob sie auch in anderen vokalen Aktivit{\"a}ten stattfindet. Hierzu wurde Akkommodation im Gesang zu vertrauter und unbekannter Musik untersucht. Interessanterweise wurden in beiden F{\"a}llen Akkommodationseffekte gemessen, wenn auch nur auf unterschiedliche Weise. Wohingegen die Teilnehmer das vertraute Stück lediglich als Referenz für einen genaueren Gesang zu verwenden schienen, wurde das neuartige Stück zum Ziel einer vollst{\"a}ndigen Nachbildung. Ein Unterschied bestand z.B. darin, dass im ersteren Fall haupts{\"a}chlich Tonh{\"o}henkorrekturen durchgeführt wurden, w{\"a}hrend im zweiten Fall auch Tonart und Rhythmusmuster übernommen wurden. Einige dieser Ergebnisse wurden erwartet und zeigen, dass die hervorstechenderen Merkmale von Menschen auch durch externen auditorischen Einfluss schwerer zu modifizieren sind. Zuletzt wurde ein Mehrparteienexperiment mit spontanen Mensch-Mensch-Computer-Interaktionen durchgeführt, um Akkommodation in mensch- und computergerichteter Sprache zu vergleichen. Die Teilnehmer l{\"o}sten Aufgaben, für die sie sowohl mit einem Konf{\"o}derierten als auch mit einem Agenten sprechen mussten. Dies erm{\"o}glicht einen direkten Vergleich ihrer Sprache basierend auf dem Adressaten innerhalb derselben Konversation, was bisher noch nicht erforscht worden ist. Die Ergebnisse zeigen, dass sich das vokale Verhalten einiger Teilnehmer im Gespr{\"a}ch mit dem Konf{\"o}derierten und dem Agenten {\"a}hnlich {\"a}nderte, w{\"a}hrend die Sprache anderer Teilnehmer nur mit dem Konf{\"o}derierten variierte. Weitere Analysen ergaben, dass der gr{\"o}{\ss}te Faktor für diesen Unterschied die Reihenfolge war, in der die Teilnehmer mit den Gespr{\"a}chspartnern sprachen. Anscheinend sahen die Teilnehmer, die zuerst mit dem Agenten allein sprachen, ihn eher als einen sozialen Akteur im Gespr{\"a}ch, w{\"a}hrend diejenigen, die erst mit dem Konf{\"o}derierten interagierten, ihn eher als Mittel zur Erreichung eines Ziels betrachteten und sich deswegen anders verhielten. Im letzteren Fall waren die Variationen in der menschgerichteten Sprache viel ausgepr{\"a}gter. Unterschiede wurden auch zwischen den analysierten Merkmalen festgestellt, aber der Aufgabentyp hatte keinen Einfluss auf den Grad der Akkommodationseffekte. Die Ergebnisse dieser Experimente lassen den Schluss zu, dass bei Mensch-Computer-Interaktionen vokale Akkommodation auftritt, wenn auch h{\"a}ufig in geringerem Ma{\ss}e. Da nun eine Best{\"a}tigung dafür vorliegt, dass Menschen auch bei der Interaktion mit Computern ein Akkommodationsverhalten aufzeigen, liegt der Schritt nahe, dieses Verhalten auf eine computergestützte Weise zu beschreiben. Hier werden zwei Ans{\"a}tze vorgeschlagen: ein Ansatz basierend auf einem Rechenmodell und einer basierend auf einem statistischen Modell. Das Ziel des Rechenmodells ist es, den vermuteten kognitiven Prozess zu erfassen, der mit der Akkommodation beim Menschen verbunden ist. Dies umfasst verschiedene Schritte, z.B. das Erkennen des Klangs des variablen Merkmals, das Hinzufügen von Instanzen davon zum mentalen Ged{\"a}chtnis des Merkmals und das Bestimmen, wie stark sich das Merkmal {\"a}ndert, wobei sowohl seine aktuelle Darstellung als auch die externe Eingabe berücksichtigt werden. Aufgrund seiner sequenziellen Natur wurde dieses Modell als eine Pipeline implementiert. Jeder der fünf Schritte der Pipeline entspricht einem bestimmten Teil des kognitiven Prozesses und kann einen oder mehrere Parameter zur Steuerung seiner Ausgabe aufweisen (z.B. die Gr{\"o}{\ss}e des Ge-d{\"a}chtnisses des Merkmals oder die Akkommodationsgeschwindigkeit). Mit Hilfe dieser Parameter k{\"o}nnen pr{\"a}zise akkommodative Verhaltensweisen zusammen mit Expertenwissen erstellt werden, um die ausgew{\"a}hlten Parameterwerte zu motivieren. Durch diese Vorteile ist diesen Ansatz besonders zum Experimentieren mit vordefinierten, deterministischen Verhaltensweisen geeignet, bei denen jeder Schritt einzeln ge{\"a}ndert werden kann. Letztendlich macht dieser Ansatz ein System stimmlich auf die Spracheingabe von Benutzern ansprechbar. Der zweite Ansatz gew{\"a}hrt weiterentwickelte Verhaltensweisen, indem verschiedene Kernverhalten definiert und nicht deterministische Variationen hinzugefügt werden. Dies {\"a}hnelt menschlichen Verhaltensmustern, da jede Person eine grundlegende Art von Akkommodationsverhalten hat, das sich je nach den spezifischen Umst{\"a}nden willkürlich {\"a}ndern kann. Dieser Ansatz bietet eine datengesteuerte statistische Methode, um das Akkommodationsverhalten aus einer bestimmten Sammlung von Interaktionen zu extrahieren. Zun{\"a}chst werden die Werte des Zielmerkmals jedes Sprechers in einer Interaktion in kontinuierliche interpolierte Linien umgewandelt, indem eine Probe aus der a posteriori Verteilung eines Gau{\ss}prozesses gezogen wird, der von den angegebenen Werten abh{\"a}ngig ist. Dann werden die Gradienten dieser Linien, die die gegenseitigen {\"A}nderungsraten darstellen, verwendet, um diskrete {\"A}nderungsniveaus basierend auf ihren Verteilungen zu definieren. Schlie{\ss}lich wird jeder Ebene ein Symbol zugewiesen, das letztendlich eine Symbolsequenzdarstellung für jede Interaktion darstellt. Die Sequenzen sind geclustert, sodass jeder Cluster für eine Art von Verhalten steht. Die Sequenzen eines Clusters k{\"o}nnen dann verwendet werden, um N-Gramm Wahrscheinlichkeiten zu berechnen, die die Erzeugung neuer Sequenzen des erfassten Verhaltens erm{\"o}glichen. Der spezifische Ausgabewert wird aus dem Bereich abgetastet, der dem erzeugten Symbol entspricht. Bei diesem Ansatz wird das Akkommodationsverhalten direkt aus Daten extrahiert, anstatt manuell erstellt zu werden. Es kann jedoch schwierig sein, zu beschreiben, was genau jedes Verhalten darstellt und die Verwendung eines von ihnen gegenüber dem anderen zu motivieren. Um diesen Spalt zwischen diesen beiden Ans{\"a}tzen zu schlie{\ss}en, wird auch diskutiert, wie sie kombiniert werden k{\"o}nnten, um von den Vorteilen beider zu profitieren. Darüber hinaus, um strukturiertere Verhaltensweisen zu generieren, wird hier eine Hierarchie von Akkommodationskomplexit{\"a}tsstufen vorgeschlagen, die von einer direkten {\"U}bernahme der Benutzerrealisierungen über eine bestimmte {\"A}nderungssensitivit{\"a}t und bis hin zu unabh{\"a}ngigen Kernverhalten mit nicht-deterministischen Variationsproduktionen reicht. Neben der M{\"o}glichkeit, Stimm{\"a}nderungen zu verfolgen und darzustellen, ben{\"o}tigt ein akkommodatives System auch eine Text-zu-Sprache Komponente, die diese {\"A}nderungen in der Sprachausgabe des Systems realisieren kann. Sprachsynthesemodelle werden in der Regel einmal mit Daten mit bestimmten Merkmalen trainiert und {\"a}ndern sich danach nicht mehr. Dies verhindert, dass solche Modelle Variationen in bestimmten Kl{\"a}ngen und anderen phonetischen Merkmalen generieren k{\"o}nnen. Zwei Methoden zum direkten {\"A}ndern solcher Merkmale werden hier untersucht. Die erste basiert auf Signalverarbeitung, die auf das Ausgangssignal angewendet wird, nachdem es vom System erzeugt wurde. Die Verarbeitung erfolgt zwischen den Zeitstempeln der Zielmerkmale und verwendet vordefinierte Skripte, die das Signal modifizieren, um die gewünschten Werte zu erreichen. Diese Methode eignet sich besser für kontinuierliche Merkmale wie Vokalqualit{\"a}t, insbesondere bei subtilen {\"A}nderungen, die nicht unbedingt zu einer kategorialen Klang{\"a}nderung führen. Die zweite Methode zielt darauf ab, phonetische Variationen in den Trainingsdaten zu erfassen. Zu diesem Zweck wird im Gegensatz zu den regul{\"a}ren graphemischen Darstellungen ein Trainingskorpus mit phonemischen Darstellungen verwendet. Auf diese Weise kann das Modell direktere Beziehungen zwischen Phonemen und Klang anstelle von Oberfl{\"a}chenformen und Klang erlernen, die je nach Sprache komplexer und von ihren umgebenden Buchstaben abh{\"a}ngen k{\"o}nnen. Die Zielvariationen selbst müssen nicht unbedingt explizit in den Trainingsdaten enthalten sein, solange die verschiedenen Kl{\"a}nge natürlich immer unterscheidbar sind. In der Generierungsphase bestimmt der Zustand des aktuellen Zielmerkmals das Phonem, das zum Erzeugen des gewünschten Klangs verwendet werden sollte. Diese Methode eignet sich für kategoriale {\"A}nderungen, insbesondere für Kontraste, die sich natürlich in der Sprache unterscheiden. Obwohl beide Methoden eindeutig verschiedene Einschr{\"a}nkungen aufweisen, liefern sie einen Machbarkeitsnachweis für die Idee, dass Sprachdialogsysteme ihre Sprachausgabe in Echtzeit phonetisch anpassen k{\"o}nnen, ohne ihre Text-zu-Sprache Modelle wieder zu trainieren. Um die Verhaltensdefinitionen und die Sprachmanipulation zu kombinieren, ist ein System erforderlich, das diese Elemente verbinden kann, um ein vollst{\"a}ndiges akkommodationsf{\"a}higes System zu schaffen. Die hier vorgeschlagene Architektur erweitert den Standardfluss von Sprachdialogsystemen um ein zus{\"a}tzliches Modul, das das transkribierte Sprachsignal von der Spracherkennungskomponente empf{\"a}ngt, ohne die Eingabe in die Sprachverst{\"a}ndniskomponente zu beeinflussen. W{\"a}hrend die Sprachverst{\"a}ndnis-komponente nur die Texttranskription verwendet, um die Absicht des Benutzers zu bestimmen, verarbeitet die hinzugefügte Komponente das Rohsignal zusammen mit seiner phonetischen Transkription. In dieser erweiterten Architektur wird das Akkommodationsmodell in dem hinzugefügten Modul aktiviert und die für die Sprachmanipulation erforderlichen Informationen werden an die Text-zu-Sprache Komponente gesendet. Die Text-zu-Sprache Komponente hat jetzt zwei Eingaben, n{\"a}mlich den Inhalt der Systemantwort, der von der Sprachgenerierungskomponente stammt, und die Zust{\"a}nde der definierten Zielmerkmale von der hinzugefügten Komponente. Hier wird eine Implementierung eines webbasierten Systems mit dieser Architektur vorgestellt und dessen Funktionalit{\"a}ten wurden durch ein Vorzeigeszenario demonstriert, indem es verwendet wird, um ein Shadowing-Experiment automatisch durchzuführen. Dies hat zwei Hauptvorteile: Erstens spart der Experimentator Zeit und vermeidet manuelle Annotationsfehler, da das System die phonetischen Variationen der Teilnehmer erkennt und automatisch die geeignete Variation für die Rückmeldung ausw{\"a}hlt. Der Experimentator erh{\"a}lt au{\ss}erdem automatisch zus{\"a}tzliche Informationen wie genaue Zeitstempel der {\"A}u{\ss}erungen, Echtzeitvisualisierung der Produktionen der Gespr{\"a}chspartner und die M{\"o}glichkeit, die Interaktion nach Abschluss des Experiments erneut abzuspielen und zu analysieren. Der zweite Vorteil ist Skalierbarkeit. Mehrere Instanzen des Systems k{\"o}nnen auf einem Server ausgeführt werden, auf die mehrere Clients gleichzeitig zugreifen k{\"o}nnen. Dies spart nicht nur Zeit und Logistik, um Teilnehmer in ein Labor zu bringen, sondern erm{\"o}glicht auch die kontrollierte und reproduzierbare Durchführung von Experimenten mit verschiedenen Konfigurationen (z.B. andere Parameterwerte oder Zielmerkmale). Dies schlie{\ss}t einen vollst{\"a}ndigen Zyklus von der Untersuchung des menschlichen Verhaltens bis zur Integration der Akkommodationsf{\"a}higkeiten ab. Obwohl jeder Teil davon zweifellos weiter untersucht werden kann, liegt der Schwerpunkt hier darauf, wie sie voneinander abh{\"a}ngen und sich miteinander kombinieren lassen. Das Messen von {\"A}nderungsmerkmalen, ohne zu zeigen, wie sie modelliert werden k{\"o}nnen, oder das Erreichen einer flexiblen Sprachsynthese ohne Berücksichtigung der gewünschten endgültigen Ausgabe führt m{\"o}glicherweise nicht zum endgültigen Ziel, Akkommodationsf{\"a}higkeiten in Computer zu integrieren. Indem diese Dissertation die Vokal-Akkommodation in der Mensch-Computer-Interaktion als einen einzigen gro{\ss}en Prozess betrachtet und nicht als eine Sammlung isolierter Unterprobleme, schafft sie ein Fundament für umfassendere und vollst{\"a}ndigere L{\"o}sungen in der Zukunft.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   C1

Simova, Iliana

Towards the extraction of cross-sentence relations through event extraction and entity coreference PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

Cross-sentence relation extraction deals with the extraction of relations beyond the sentence boundary. This thesis focuses on two of the NLP tasks which are of importance to the successful extraction of cross-sentence relation mentions: event extraction and coreference resolution. The first part of the thesis focuses on addressing data sparsity issues in event extraction. We propose a self-training approach for obtaining additional labeled examples for the task. The process starts off with a Bi-LSTM event tagger trained on a small labeled data set which is used to discover new event instances in a large collection of unstructured text. The high confidence model predictions are selected to construct a data set of automatically-labeled training examples. We present several ways in which the resulting data set can be used for re-training the event tagger in conjunction with the initial labeled data. The best configuration achieves statistically significant improvement over the baseline on the ACE 2005 test set (macro-F1), as well as in a 10-fold cross validation (micro- and macro-F1) evaluation. Our error analysis reveals that the augmentation approach is especially beneficial for the classification of the most under-represented event types in the original data set. The second part of the thesis focuses on the problem of coreference resolution. While a certain level of precision can be reached by modeling surface information about entity mentions, their successful resolution often depends on semantic or world knowledge. This thesis investigates an unsupervised source of such knowledge, namely distributed word representations. We present several ways in which word embeddings can be utilized to extract features for a supervised coreference resolver. Our evaluation results and error analysis show that each of these features helps improve over the baseline coreference system’s performance, with a statistically significant improvement (CoNLL F1) achieved when the proposed features are used jointly. Moreover, all features lead to a reduction in the amount of precision errors in resolving references between common nouns, demonstrating that they successfully incorporate semantic information into the process.

@phdthesis{Simova_Diss_2021,
title = {Towards the extraction of cross-sentence relations through event extraction and entity coreference},
author = {Iliana Simova},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/32255},
doi = {https://doi.org/https://dx.doi.org/10.22028/D291-35277},
year = {2021},
date = {2021},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {Cross-sentence relation extraction deals with the extraction of relations beyond the sentence boundary. This thesis focuses on two of the NLP tasks which are of importance to the successful extraction of cross-sentence relation mentions: event extraction and coreference resolution. The first part of the thesis focuses on addressing data sparsity issues in event extraction. We propose a self-training approach for obtaining additional labeled examples for the task. The process starts off with a Bi-LSTM event tagger trained on a small labeled data set which is used to discover new event instances in a large collection of unstructured text. The high confidence model predictions are selected to construct a data set of automatically-labeled training examples. We present several ways in which the resulting data set can be used for re-training the event tagger in conjunction with the initial labeled data. The best configuration achieves statistically significant improvement over the baseline on the ACE 2005 test set (macro-F1), as well as in a 10-fold cross validation (micro- and macro-F1) evaluation. Our error analysis reveals that the augmentation approach is especially beneficial for the classification of the most under-represented event types in the original data set. The second part of the thesis focuses on the problem of coreference resolution. While a certain level of precision can be reached by modeling surface information about entity mentions, their successful resolution often depends on semantic or world knowledge. This thesis investigates an unsupervised source of such knowledge, namely distributed word representations. We present several ways in which word embeddings can be utilized to extract features for a supervised coreference resolver. Our evaluation results and error analysis show that each of these features helps improve over the baseline coreference system’s performance, with a statistically significant improvement (CoNLL F1) achieved when the proposed features are used jointly. Moreover, all features lead to a reduction in the amount of precision errors in resolving references between common nouns, demonstrating that they successfully incorporate semantic information into the process.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   B5

Tröger, Johannes

Executive function & semantic memory impairments in Alzheimer’s disease — investigating the decline of executive function and semantic memory in Alzheimer’s disease through computer-supported qualitative analysis of semantic verbal fluency and its applications in clinical decision support PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

Alzheimer’s Disease (AD) has a huge impact on an ever-aging society in highly developed industrialized countries such as the EU member states: according to the World Alzheimer’s Association the number one risk factor for AD is age. AD patients suffer from neurodegenerative processes driving cognitive decline which eventually results in the loss of patients’ ability of independent living. Episodic memory impairment is the most prominent cognitive symptom of AD in its clinical stage. In addition, also executive function and semantic memory impairments significantly affect activities of daily living and are discussed as important cognitive symptoms during prodromal as well as acute clinical stages of AD. Most of the research on semantic memory impairments in AD draws evidence from the Semantic Verbal Fluency (SVF) task which evidentially also places high demands on the executive function level. At the same time, the SVF is one of the most-applied routine assessments in clinical neuropsychology especially in the diagnosis of AD. Therefore, the SVF is a prime task to study semantic memory and executive function impairment side-by-side and draw conclusions about their parallel or successive impairments across the clinical trajectory of AD. To effectively investigate semantic memory and executive function processes in the SVF, novel computational measures have been proposed that tap into data-driven semantic as well as temporal metrics scoring an SVF performance on the item-level. With a better and more differentiated understanding of AD-related executive function and semantic memory impairments in the SVF, the SVF can grow from a well-established screening into a more precise diagnostic tool for early AD. As the SVF is one of the most-applied easy-to-use and low-burden neurocognitive assessments in AD, such advancements have a direct impact on clinical practice as well. For the last decades huge efforts have been put on the discovery of disease-modifying compounds responding to specific AD biomarker-related cognitive decline characteristics. However, as most pharmaceutical trials failed, the focus has shifted towards population-wide early screening with cost-effective and scalable cognitive tests representing an effective mid-term strategy. Computer-supported SVF analysis responds to this demand. This thesis pursues a two-fold objective: (1) improve our understanding of the progressive executive function and semantic memory impairments and their interplay in clinical AD as measured by the SVF and (2) harness those insights for applied early and specific AD screening. To achieve both objectives, this thesis comprises work on subjects from different clinical stages of AD (Healthy Aging, amnestic Mild Cognitive Impairment—aMCI, and AD dementia) and in different languages (German & French). All results are based on SVF speech data generated either as a one-time assessment or a repeated within-participant testing. From these SVF speech samples, qualitative markers are extracted with different amount of computational support (ranging from manual processing of speech to fully automated evaluation). The results indicate, that semantic memory is structurally affected from an early clinical—amnestic Mild Cognitive Impairment (aMCI)—stage on and is even more affected in the later acute dementia stage. The semantic memory impairment in AD is particularly worsened through the patients’ inability to compensate by engaging executive functions. Hence, over the course of the disease, hampered executive functioning and therefore the inability to compensate for corrupt semantic memory structures might be the main driver of later-stage AD patients’ notably poor cognitive performance. These insights generated on the SVF alone are only made possible through computer-supported qualitative analysis on an item-per-item level which leads the way towards potential applications in clinical decision support. The more fine-grained qualitative analysis of the SVF is clinically valuable for AD diagnosis and screening but very time-consuming if performed manually. This thesis shows though that automatic analysis pipelines can reliably and validly generate this diagnostic information from the SVF. Automatic transcription of speech plus automatic extraction of the novel qualitative SVF features result in clinical interpretation comparable to manual transcripts and improved diagnostic decision support simulated through machine learning classification experiments. This indicates that the computer-supported SVF could ultimately be used for cost-effective fully automated early clinical AD screening. This thesis advances current AD research in a two-fold manner. First it improves the understanding of the decline of executive function and semantic memory in AD as measured through computational qualitative analysis of the SVF. Secondly, this thesis embeds these theoretical advances into practical clinical decision support concepts that help screen population-wide and cost-effective for early-stage AD.


Die Alzheimer-Krankheit (AD) stellt eine enorme Herausforderung für die immer älter werdende Gesellschaft in hochentwickelten Industrieländern wie den EU-Mitgliedsstaaten dar. Nach Angaben der World Alzheimer’s Association ist der größte Risikofaktor für AD das Alter. Alzheimer-Patienten leiden unter neurodegenerativen Prozessen, die kognitiven Abbau verursachen und schließlich dazu führen, dass Patienten nicht länger selbstbestimmt leben können. Die Beeinträchtigung des episodischen Gedächtnisses ist das prominenteste kognitive Symptom von AD im klinischen Stadium. Darüber hinaus führen auch Störungen der Exekutivfunktionen sowie der semantischen Gedächtnisleistung zu erheblichen Einschränkungen bei Aktivitäten des täglichen Lebens und werden als wichtige kognitive Symptome sowohl im Prodromal- als auch im akuten klinischen Stadium von AD diskutiert. Der Großteil der Forschung zu semantischen Gedächtnisbeeinträchtigungen bei AD stützt sich auf Ergebnisse aus dem Semantic Verbal Fluency Tests (SVF), der auch die Exekutivfunktionen stark fordert. In der Praxis ist die SVF eines der am häufigsten eingesetzten Routine- Assessments in der klinischen Neuropsychologie, insbesondere bei der Diagnose von AD. Daher ist die SVF eine erstklassige Aufgabe, um die Beeinträchtigung des semantischen Gedächtnisses und der exekutiven Funktionen Seite an Seite zu untersuchen und Rückschlüsse auf ihre parallelen oder sukzessiven Beeinträchtigungen im klinischen Verlauf von AD zu ziehen. Um semantische Gedächtnis- und Exekutivfunktionsprozesse in der SVF effektiv zu untersuchen, wurden jüngst neuartige computergestützte Verfahren vorgeschlagen, die sowohl datengetriebene semantische als auch temporäre Maße nutzen, die eine SVF-Leistung auf Item-Ebene bewerten. Mit einem besseren und differenzierteren Verständnis von ADbedingten Beeinträchtigungen der Exekutivfunktionen und des semantischen Gedächtnisses in der SVF kann sich die SVF von einem gut etablierten Screening zu einem präziseren Diagnoseinstrument für frühe AD entwickeln. Da die SVF eines der am häufigsten angewandten, einfach zu handhabenden und wenig belastenden neurokognitiven Assessments bei AD ist, haben solche Fortschritte auch einen direkten Einfluss auf die klinische Praxis. In den letzten Jahrzehnten wurden enorme Anstrengungen unternommen, um krankheitsmodifizierende Substanzen zu finden, die auf spezifische, mit AD-Biomarkern verbundene Merkmale des kognitiven Abbaus reagieren. Da jedoch die meisten pharmazeutischen Studien in jüngster Vergangenheit fehlgeschlagen sind, wird heute als mittelfristige Strategie bevölkerungsweite Früherkennung mit kostengünstigen und skalierbaren kognitiven Tests gefordert. Die computergestützte SVF-Analyse ist eine Antwort auf diese Forderung. Diese Arbeit verfolgt deshalb zwei Ziele: (1) Verbesserung des Verständnisses der fortschreitenden Beeinträchtigungen der Exekutivfunktionen und des semantischen Gedächtnisses und ihres Zusammenspiels bei klinischer AD, gemessen durch die SVF, und (2) Nutzung dieser Erkenntnisse für angewandte AD-Früherkennung. Um beide Ziele zu erreichen, umfasst diese Thesis Forschung mit Probanden aus verschiedenen klinischen AD Stadien (gesundes Altern, amnestisches Mild Cognitive Impairment-aMCI, und AD-Demenz) und in verschiedenen Sprachen (Deutsch & Französisch). Alle Ergebnisse basieren auf SVF Sprachdaten, erhoben im Querschnittdesign oder als wiederholte Testung in einem Längsschnittdesign. Aus diesen SVF-Sprachproben werden mit unterschiedlicher rechnerischer Unterstützung qualitative Marker extrahiert (von manueller Verarbeitung der Sprache bis hin zu vollautomatischer Auswertung). Die Ergebnisse zeigen, dass das semantische Gedächtnis bereits im frühen aMCI Stadium strukturell beeinträchtigt ist und im späteren akuten Demenzstadium noch stärker betroffen ist. Die strukturelle Beeinträchtigung des semantischen Gedächtnisses bei Alzheimer wird insbesondere dadurch verschlimmert, dass die Patienten nicht in der Lage sind, dies durch den Einsatz exekutiver Funktionen zu kompensieren. Daher könnten im Verlauf der Erkrankung eingeschränkte Exekutivfunktionen und damit die Unfähigkeit, degenerierte semantische Gedächtnisstrukturen zu kompensieren, die Hauptursache für die auffallend schlechten kognitiven Leistungen von AD-Patienten im Akutstadium sein. Diese Erkenntnisse basierend auf der SVF alleine werden erst durch die computergestützte qualitative Analyse auf Item-per-Item-Ebene möglich und weisen den Weg zu möglichen Anwendungen in der klinischen Entscheidungsunterstützung. Die feinkörnigere qualitative Analyse der SVF ist klinisch wertvoll für die AD-Diagnose und das Screening, aber sehr zeitaufwändig, wenn sie manuell durchgeführt wird. Diese Arbeit zeigt jedoch, dass automatische Analysepipelines diese diagnostischen Informationen zuverlässig und valide aus der SVF generieren können. Die automatische Transkription von Sprache plus die automatische Extraktion der neuartigen qualitativen SVF-Merkmale führen zu einer klinischen Interpretation, die mit manuellen Analysen vergleichbar ist. Diese Verarbeitung führt auch zu einer verbesserten diagnostischen Entscheidungsunterstützung, die durch Klassifikationsexperimente mit maschinellem Lernen simuliert wurde. Dies deutet darauf hin, dass die computergestützte SVF letztendlich für ein kostengünstiges vollautomatisches klinisches AD-Frühscreening eingesetzt werden könnte. Diese Arbeit bringt die aktuelle AD-Forschung auf zweifache Weise voran. Erstens verbessert sie unser Verständnis der kognitiven Einschränkungen im Bereich der Exekutivfunktionen und des semantischen Gedächtnisses bei AD, gemessen durch die computergestützte qualitative Analyse der SVF. Zweitens bettet diese Arbeit diese theoretischen Fortschritte in ein praktisches Konzept zur klinischen Entscheidungsunterstützung ein, das zukünftig ein bevölkerungsweites und kosteneffektives Screening für AD im Frühstadium ermöglichen könnte.

@phdthesis{Tröger_Diss_2021,
title = {Executive function & semantic memory impairments in Alzheimer’s disease — investigating the decline of executive function and semantic memory in Alzheimer’s disease through computer-supported qualitative analysis of semantic verbal fluency and its applications in clinical decision support},
author = {Johannes Tr{\"o}ger},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/31994},
doi = {https://doi.org/10.22028/D291-35033},
year = {2021},
date = {2021-12-07},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {Alzheimer’s Disease (AD) has a huge impact on an ever-aging society in highly developed industrialized countries such as the EU member states: according to the World Alzheimer’s Association the number one risk factor for AD is age. AD patients suffer from neurodegenerative processes driving cognitive decline which eventually results in the loss of patients’ ability of independent living. Episodic memory impairment is the most prominent cognitive symptom of AD in its clinical stage. In addition, also executive function and semantic memory impairments significantly affect activities of daily living and are discussed as important cognitive symptoms during prodromal as well as acute clinical stages of AD. Most of the research on semantic memory impairments in AD draws evidence from the Semantic Verbal Fluency (SVF) task which evidentially also places high demands on the executive function level. At the same time, the SVF is one of the most-applied routine assessments in clinical neuropsychology especially in the diagnosis of AD. Therefore, the SVF is a prime task to study semantic memory and executive function impairment side-by-side and draw conclusions about their parallel or successive impairments across the clinical trajectory of AD. To effectively investigate semantic memory and executive function processes in the SVF, novel computational measures have been proposed that tap into data-driven semantic as well as temporal metrics scoring an SVF performance on the item-level. With a better and more differentiated understanding of AD-related executive function and semantic memory impairments in the SVF, the SVF can grow from a well-established screening into a more precise diagnostic tool for early AD. As the SVF is one of the most-applied easy-to-use and low-burden neurocognitive assessments in AD, such advancements have a direct impact on clinical practice as well. For the last decades huge efforts have been put on the discovery of disease-modifying compounds responding to specific AD biomarker-related cognitive decline characteristics. However, as most pharmaceutical trials failed, the focus has shifted towards population-wide early screening with cost-effective and scalable cognitive tests representing an effective mid-term strategy. Computer-supported SVF analysis responds to this demand. This thesis pursues a two-fold objective: (1) improve our understanding of the progressive executive function and semantic memory impairments and their interplay in clinical AD as measured by the SVF and (2) harness those insights for applied early and specific AD screening. To achieve both objectives, this thesis comprises work on subjects from different clinical stages of AD (Healthy Aging, amnestic Mild Cognitive Impairment—aMCI, and AD dementia) and in different languages (German & French). All results are based on SVF speech data generated either as a one-time assessment or a repeated within-participant testing. From these SVF speech samples, qualitative markers are extracted with different amount of computational support (ranging from manual processing of speech to fully automated evaluation). The results indicate, that semantic memory is structurally affected from an early clinical—amnestic Mild Cognitive Impairment (aMCI)—stage on and is even more affected in the later acute dementia stage. The semantic memory impairment in AD is particularly worsened through the patients’ inability to compensate by engaging executive functions. Hence, over the course of the disease, hampered executive functioning and therefore the inability to compensate for corrupt semantic memory structures might be the main driver of later-stage AD patients’ notably poor cognitive performance. These insights generated on the SVF alone are only made possible through computer-supported qualitative analysis on an item-per-item level which leads the way towards potential applications in clinical decision support. The more fine-grained qualitative analysis of the SVF is clinically valuable for AD diagnosis and screening but very time-consuming if performed manually. This thesis shows though that automatic analysis pipelines can reliably and validly generate this diagnostic information from the SVF. Automatic transcription of speech plus automatic extraction of the novel qualitative SVF features result in clinical interpretation comparable to manual transcripts and improved diagnostic decision support simulated through machine learning classification experiments. This indicates that the computer-supported SVF could ultimately be used for cost-effective fully automated early clinical AD screening. This thesis advances current AD research in a two-fold manner. First it improves the understanding of the decline of executive function and semantic memory in AD as measured through computational qualitative analysis of the SVF. Secondly, this thesis embeds these theoretical advances into practical clinical decision support concepts that help screen population-wide and cost-effective for early-stage AD.


Die Alzheimer-Krankheit (AD) stellt eine enorme Herausforderung f{\"u}r die immer {\"a}lter werdende Gesellschaft in hochentwickelten Industriel{\"a}ndern wie den EU-Mitgliedsstaaten dar. Nach Angaben der World Alzheimer's Association ist der gr{\"o}{\ss}te Risikofaktor f{\"u}r AD das Alter. Alzheimer-Patienten leiden unter neurodegenerativen Prozessen, die kognitiven Abbau verursachen und schlie{\ss}lich dazu f{\"u}hren, dass Patienten nicht l{\"a}nger selbstbestimmt leben k{\"o}nnen. Die Beeintr{\"a}chtigung des episodischen Ged{\"a}chtnisses ist das prominenteste kognitive Symptom von AD im klinischen Stadium. Dar{\"u}ber hinaus f{\"u}hren auch St{\"o}rungen der Exekutivfunktionen sowie der semantischen Ged{\"a}chtnisleistung zu erheblichen Einschr{\"a}nkungen bei Aktivit{\"a}ten des t{\"a}glichen Lebens und werden als wichtige kognitive Symptome sowohl im Prodromal- als auch im akuten klinischen Stadium von AD diskutiert. Der Gro{\ss}teil der Forschung zu semantischen Ged{\"a}chtnisbeeintr{\"a}chtigungen bei AD st{\"u}tzt sich auf Ergebnisse aus dem Semantic Verbal Fluency Tests (SVF), der auch die Exekutivfunktionen stark fordert. In der Praxis ist die SVF eines der am h{\"a}ufigsten eingesetzten Routine- Assessments in der klinischen Neuropsychologie, insbesondere bei der Diagnose von AD. Daher ist die SVF eine erstklassige Aufgabe, um die Beeintr{\"a}chtigung des semantischen Ged{\"a}chtnisses und der exekutiven Funktionen Seite an Seite zu untersuchen und R{\"u}ckschl{\"u}sse auf ihre parallelen oder sukzessiven Beeintr{\"a}chtigungen im klinischen Verlauf von AD zu ziehen. Um semantische Ged{\"a}chtnis- und Exekutivfunktionsprozesse in der SVF effektiv zu untersuchen, wurden j{\"u}ngst neuartige computergest{\"u}tzte Verfahren vorgeschlagen, die sowohl datengetriebene semantische als auch tempor{\"a}re Ma{\ss}e nutzen, die eine SVF-Leistung auf Item-Ebene bewerten. Mit einem besseren und differenzierteren Verst{\"a}ndnis von ADbedingten Beeintr{\"a}chtigungen der Exekutivfunktionen und des semantischen Ged{\"a}chtnisses in der SVF kann sich die SVF von einem gut etablierten Screening zu einem pr{\"a}ziseren Diagnoseinstrument f{\"u}r fr{\"u}he AD entwickeln. Da die SVF eines der am h{\"a}ufigsten angewandten, einfach zu handhabenden und wenig belastenden neurokognitiven Assessments bei AD ist, haben solche Fortschritte auch einen direkten Einfluss auf die klinische Praxis. In den letzten Jahrzehnten wurden enorme Anstrengungen unternommen, um krankheitsmodifizierende Substanzen zu finden, die auf spezifische, mit AD-Biomarkern verbundene Merkmale des kognitiven Abbaus reagieren. Da jedoch die meisten pharmazeutischen Studien in j{\"u}ngster Vergangenheit fehlgeschlagen sind, wird heute als mittelfristige Strategie bev{\"o}lkerungsweite Fr{\"u}herkennung mit kosteng{\"u}nstigen und skalierbaren kognitiven Tests gefordert. Die computergest{\"u}tzte SVF-Analyse ist eine Antwort auf diese Forderung. Diese Arbeit verfolgt deshalb zwei Ziele: (1) Verbesserung des Verst{\"a}ndnisses der fortschreitenden Beeintr{\"a}chtigungen der Exekutivfunktionen und des semantischen Ged{\"a}chtnisses und ihres Zusammenspiels bei klinischer AD, gemessen durch die SVF, und (2) Nutzung dieser Erkenntnisse f{\"u}r angewandte AD-Fr{\"u}herkennung. Um beide Ziele zu erreichen, umfasst diese Thesis Forschung mit Probanden aus verschiedenen klinischen AD Stadien (gesundes Altern, amnestisches Mild Cognitive Impairment-aMCI, und AD-Demenz) und in verschiedenen Sprachen (Deutsch & Franz{\"o}sisch). Alle Ergebnisse basieren auf SVF Sprachdaten, erhoben im Querschnittdesign oder als wiederholte Testung in einem L{\"a}ngsschnittdesign. Aus diesen SVF-Sprachproben werden mit unterschiedlicher rechnerischer Unterst{\"u}tzung qualitative Marker extrahiert (von manueller Verarbeitung der Sprache bis hin zu vollautomatischer Auswertung). Die Ergebnisse zeigen, dass das semantische Ged{\"a}chtnis bereits im fr{\"u}hen aMCI Stadium strukturell beeintr{\"a}chtigt ist und im sp{\"a}teren akuten Demenzstadium noch st{\"a}rker betroffen ist. Die strukturelle Beeintr{\"a}chtigung des semantischen Ged{\"a}chtnisses bei Alzheimer wird insbesondere dadurch verschlimmert, dass die Patienten nicht in der Lage sind, dies durch den Einsatz exekutiver Funktionen zu kompensieren. Daher k{\"o}nnten im Verlauf der Erkrankung eingeschr{\"a}nkte Exekutivfunktionen und damit die Unf{\"a}higkeit, degenerierte semantische Ged{\"a}chtnisstrukturen zu kompensieren, die Hauptursache f{\"u}r die auffallend schlechten kognitiven Leistungen von AD-Patienten im Akutstadium sein. Diese Erkenntnisse basierend auf der SVF alleine werden erst durch die computergest{\"u}tzte qualitative Analyse auf Item-per-Item-Ebene m{\"o}glich und weisen den Weg zu m{\"o}glichen Anwendungen in der klinischen Entscheidungsunterst{\"u}tzung. Die feink{\"o}rnigere qualitative Analyse der SVF ist klinisch wertvoll f{\"u}r die AD-Diagnose und das Screening, aber sehr zeitaufw{\"a}ndig, wenn sie manuell durchgef{\"u}hrt wird. Diese Arbeit zeigt jedoch, dass automatische Analysepipelines diese diagnostischen Informationen zuverl{\"a}ssig und valide aus der SVF generieren k{\"o}nnen. Die automatische Transkription von Sprache plus die automatische Extraktion der neuartigen qualitativen SVF-Merkmale f{\"u}hren zu einer klinischen Interpretation, die mit manuellen Analysen vergleichbar ist. Diese Verarbeitung f{\"u}hrt auch zu einer verbesserten diagnostischen Entscheidungsunterst{\"u}tzung, die durch Klassifikationsexperimente mit maschinellem Lernen simuliert wurde. Dies deutet darauf hin, dass die computergest{\"u}tzte SVF letztendlich f{\"u}r ein kosteng{\"u}nstiges vollautomatisches klinisches AD-Fr{\"u}hscreening eingesetzt werden k{\"o}nnte. Diese Arbeit bringt die aktuelle AD-Forschung auf zweifache Weise voran. Erstens verbessert sie unser Verst{\"a}ndnis der kognitiven Einschr{\"a}nkungen im Bereich der Exekutivfunktionen und des semantischen Ged{\"a}chtnisses bei AD, gemessen durch die computergest{\"u}tzte qualitative Analyse der SVF. Zweitens bettet diese Arbeit diese theoretischen Fortschritte in ein praktisches Konzept zur klinischen Entscheidungsunterst{\"u}tzung ein, das zuk{\"u}nftig ein bev{\"o}lkerungsweites und kosteneffektives Screening f{\"u}r AD im Fr{\"u}hstadium erm{\"o}glichen k{\"o}nnte.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A4

Vergilova, Yoana

The Lateralization of Expectations: Hemispheric Differences in Top-down and Bottom-up Word Processing in Context PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

The current work investigates how preexisting mental representations of the meaning of an utterance (top-down processing) affect the comprehension of external perceptual properties of the linguistic input (bottom-up processing). When it comes to top-down bottom-up processing in the brain previous findings report a division of focus between left and right hemispheric mechanisms. The PARLO sentence comprehension model posits that the LH employs top-down mechanisms which allow for efficient anticipatory processing, while the RH relies more on bottom-up mechanisms. A shortcoming of the PARLO model is that it’s based on experiments manipulating solely top-down contextual constraint, leading to conclusions that hemispheric asymmetries are a function of differences in the efficiency of top-down rather than bottom-up mechanisms. Up until now, there has been no investigation of asymmetries in bottom-up processing, nor an investigation of the potential interactions between that and top-down processing for each hemisphere. This thesis consists of four event-related potential (ERP) experiments divided into two parts. Experiments 1 (central presentation) and 2 (hemispheric presentation) manipulate the bottom-up lexical frequency of critical words in high and low predictability contexts. Experiments 3 (central presentation) and 4 (hemispheric presentation) manipulate bottom-up word status, presenting critical words and pseudowords in the same high and low predictability contexts. The results allow us to extend previous findings and present the Spotlight Theory of Hemispheric Comprehension. We argue that the LH employs a kind of spotlight focus, which affords very efficient top-down processing of the expected input, since only highly predictable inputs receive additional facilitation based their bottom-up features. Alternatively, the RH lack of spotlight mechanism and focus on bottom-up lexical properties allows for the reliable processing of less predictable and irregular inputs. In combination, these complementary processing strategies provide the comprehension system with the efficiency and robustness required in a wide range of communicative situations.

@phdthesis{Vergilova_Diss_2021,
title = {The Lateralization of Expectations: Hemispheric Differences in Top-down and Bottom-up Word Processing in Context},
author = {Yoana Vergilova},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/31806},
doi = {https://doi.org/https://dx.doi.org/10.22028/D291-33976},
year = {2021},
date = {2021},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {The current work investigates how preexisting mental representations of the meaning of an utterance (top-down processing) affect the comprehension of external perceptual properties of the linguistic input (bottom-up processing). When it comes to top-down bottom-up processing in the brain previous findings report a division of focus between left and right hemispheric mechanisms. The PARLO sentence comprehension model posits that the LH employs top-down mechanisms which allow for efficient anticipatory processing, while the RH relies more on bottom-up mechanisms. A shortcoming of the PARLO model is that it’s based on experiments manipulating solely top-down contextual constraint, leading to conclusions that hemispheric asymmetries are a function of differences in the efficiency of top-down rather than bottom-up mechanisms. Up until now, there has been no investigation of asymmetries in bottom-up processing, nor an investigation of the potential interactions between that and top-down processing for each hemisphere. This thesis consists of four event-related potential (ERP) experiments divided into two parts. Experiments 1 (central presentation) and 2 (hemispheric presentation) manipulate the bottom-up lexical frequency of critical words in high and low predictability contexts. Experiments 3 (central presentation) and 4 (hemispheric presentation) manipulate bottom-up word status, presenting critical words and pseudowords in the same high and low predictability contexts. The results allow us to extend previous findings and present the Spotlight Theory of Hemispheric Comprehension. We argue that the LH employs a kind of spotlight focus, which affords very efficient top-down processing of the expected input, since only highly predictable inputs receive additional facilitation based their bottom-up features. Alternatively, the RH lack of spotlight mechanism and focus on bottom-up lexical properties allows for the reliable processing of less predictable and irregular inputs. In combination, these complementary processing strategies provide the comprehension system with the efficiency and robustness required in a wide range of communicative situations.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Projects:   C3 A5

Bizzoni, Yuri; Degaetano-Ortlieb, Stefania; Menzel, Katrin; Teich, Elke

The diffusion of scientific terms - tracing individuals' influence in the history of science for English Inproceedings

Proceedings of the 5th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, Association for Computational Linguistics, pp. 120-127, Punta Cana, Dominican Republic (online), 2021.

Tracing the influence of individuals or groups in social networks is an increasingly popular task in sociolinguistic studies. While methods to determine someone’s influence in shortterm contexts (e.g., social media, on-line political debates) are widespread, influence in longterm contexts is less investigated and may be harder to capture. We study the diffusion of scientific terms in an English diachronic scientific corpus, applying Hawkes Processes to capture the role of individual scientists as „influencers“ or „influencees“ in the diffusion of new concepts. Our findings on two major scientific discoveries in chemistry and astronomy of the 18th century reveal that modelling both the introduction and diffusion of scientific terms in a historical corpus as Hawkes Processes allows detecting patterns of influence between authors on a long-term scale.

@inproceedings{bizzoni-etal-2021-diffusion,
title = {The diffusion of scientific terms - tracing individuals' influence in the history of science for English},
author = {Yuri Bizzoni and Stefania Degaetano-Ortlieb and Katrin Menzel and Elke Teich},
url = {https://aclanthology.org/2021.latechclfl-1.14},
doi = {https://doi.org/10.18653/v1/2021.latechclfl-1.14},
year = {2021},
date = {2021-11-30},
booktitle = {Proceedings of the 5th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature},
pages = {120-127},
publisher = {Association for Computational Linguistics},
address = {Punta Cana, Dominican Republic (online)},
abstract = {Tracing the influence of individuals or groups in social networks is an increasingly popular task in sociolinguistic studies. While methods to determine someone's influence in shortterm contexts (e.g., social media, on-line political debates) are widespread, influence in longterm contexts is less investigated and may be harder to capture. We study the diffusion of scientific terms in an English diachronic scientific corpus, applying Hawkes Processes to capture the role of individual scientists as "influencers" or "influencees" in the diffusion of new concepts. Our findings on two major scientific discoveries in chemistry and astronomy of the 18th century reveal that modelling both the introduction and diffusion of scientific terms in a historical corpus as Hawkes Processes allows detecting patterns of influence between authors on a long-term scale.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B1

Voigtmann, Sophia; Speyer, Augustin

Information density and the extraposition of German relative clauses Journal Article

Frontiers in Psychology, pp. 1-18, 2021.

This paper aims to find a correlation between Information Density (ID) and extraposition of Relative Clauses (RC) in Early New High German. Since surprisal is connected to perceiving difficulties, the impact on the working memory is lower for frequent combinations with low surprisal-values than it is for rare combinations with higher surprisal-values. To improve text comprehension, producers therefore distribute information as evenly as possible across a discourse. Extraposed RC are expected to have a higher surprisal-value than embedded RC. We intend to find evidence for this idea in RC taken from scientific texts from the 17th to 19th century. We built a corpus of tokenized, lemmatized and normalized papers about medicine from the 17th and 19th century, manually determined the RC-variants and calculated a skipgram-Language Model to compute the 2-Skip-bigram surprisal of every word of the relevant sentences. A logistic regression over the summed up surprisal values shows a significant result, which indicates a correlation between surprisal values and extraposition. So, for these periods it can be said that RC are more likely to be extraposed when they have a high total surprisal value. The influence of surprisal values also seems to be stable across time. The comparison of the analyzed language periods shows no significant change.

@article{Voigtmann.Speyer,
title = {Information density and the extraposition of German relative clauses},
author = {Sophia Voigtmann and Augustin Speyer},
url = {https://doi.org/10.3389/fpsyg.2021.650969},
doi = {https://doi.org/10.3389/fpsyg.2021.650969},
year = {2021},
date = {2021-11-26},
journal = {Frontiers in Psychology},
pages = {1-18},
abstract = {This paper aims to find a correlation between Information Density (ID) and extraposition of Relative Clauses (RC) in Early New High German. Since surprisal is connected to perceiving difficulties, the impact on the working memory is lower for frequent combinations with low surprisal-values than it is for rare combinations with higher surprisal-values. To improve text comprehension, producers therefore distribute information as evenly as possible across a discourse. Extraposed RC are expected to have a higher surprisal-value than embedded RC. We intend to find evidence for this idea in RC taken from scientific texts from the 17th to 19th century. We built a corpus of tokenized, lemmatized and normalized papers about medicine from the 17th and 19th century, manually determined the RC-variants and calculated a skipgram-Language Model to compute the 2-Skip-bigram surprisal of every word of the relevant sentences. A logistic regression over the summed up surprisal values shows a significant result, which indicates a correlation between surprisal values and extraposition. So, for these periods it can be said that RC are more likely to be extraposed when they have a high total surprisal value. The influence of surprisal values also seems to be stable across time. The comparison of the analyzed language periods shows no significant change.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   C6

Menzel, Katrin; Krielke, Marie-Pauline; Degaetano-Ortlieb, Stefania

Structural complexity in scientific journal articles across time - from negative clausal expressions towards adjectival negative prefixes Inproceedings

Workshop on Complexity and Register (CAR21), Berlin, Germany, CRC1412 Register, 2021.

@inproceedings{Menzel-etal2021,
title = {Structural complexity in scientific journal articles across time - from negative clausal expressions towards adjectival negative prefixes},
author = {Katrin Menzel and Marie-Pauline Krielke and Stefania Degaetano-Ortlieb},
year = {2021},
date = {2021-11-19},
booktitle = {Workshop on Complexity and Register (CAR21)},
address = {Berlin, Germany, CRC1412 Register},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B1

Successfully