Publications

Chingacham, Anupama; Zhang, Miaoran; Demberg, Vera; Klakow, Dietrich

Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It? Inproceedings

Soni, Nikita; Flek, Lucie; Sharma, Ashish; Yang, Diyi; Hooker, Sara; Andrew Schwartz, H. (Ed.): Proceedings of the 1st Human-Centered Large Language Modeling Workshop, ACL, pp. 1-15, TBD, 2024.

Large Language Models (LLMs) can generate text by transferring style attributes like formality resulting in formal or informal text. However, instructing LLMs to generate text that when spoken, is more intelligible in an acoustically difficult environment, is an under-explored topic. We conduct the first study to evaluate LLMs on a novel task of generating acoustically intelligible paraphrases for better human speech perception in noise. Our experiments in English demonstrated that with standard prompting, LLMs struggle to control the non-textual attribute, i.e., acoustic intelligibility, while efficiently capturing the desired textual attributes like semantic equivalence. To remedy this issue, we propose a simple prompting approach, prompt-and-select, which generates paraphrases by decoupling the desired textual and non-textual attributes in the text generation pipeline. Our approach resulted in a 40% relative improvement in human speech perception, by paraphrasing utterances that are highly distorted in a listening condition with babble noise at signal-to-noise ratio (SNR) -5 dB. This study reveals the limitation of LLMs in capturing non-textual attributes, and our proposed method showcases the potential of using LLMs for better human speech perception in noise.

@inproceedings{chingacham-etal-2024-human,
title = {Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It?},
author = {Anupama Chingacham and Miaoran Zhang and Vera Demberg and Dietrich Klakow},
editor = {Nikita Soni and Lucie Flek and Ashish Sharma and Diyi Yang and Sara Hooker and H. Andrew Schwartz},
url = {https://aclanthology.org/2024.hucllm-1.1},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 1st Human-Centered Large Language Modeling Workshop},
pages = {1-15},
publisher = {ACL},
address = {TBD},
abstract = {Large Language Models (LLMs) can generate text by transferring style attributes like formality resulting in formal or informal text. However, instructing LLMs to generate text that when spoken, is more intelligible in an acoustically difficult environment, is an under-explored topic. We conduct the first study to evaluate LLMs on a novel task of generating acoustically intelligible paraphrases for better human speech perception in noise. Our experiments in English demonstrated that with standard prompting, LLMs struggle to control the non-textual attribute, i.e., acoustic intelligibility, while efficiently capturing the desired textual attributes like semantic equivalence. To remedy this issue, we propose a simple prompting approach, prompt-and-select, which generates paraphrases by decoupling the desired textual and non-textual attributes in the text generation pipeline. Our approach resulted in a 40% relative improvement in human speech perception, by paraphrasing utterances that are highly distorted in a listening condition with babble noise at signal-to-noise ratio (SNR) -5 dB. This study reveals the limitation of LLMs in capturing non-textual attributes, and our proposed method showcases the potential of using LLMs for better human speech perception in noise.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   A4

Achimova, Asya; van Os, Marjolein; Demberg, Vera; Butz, Martin V.

Interpreting implausible event descriptions under noise Inproceedings

Proceedings of the Annual Meeting of the Cognitive Science Society, 46, pp. 3399-3406, 2024.

Gricean maxims prescribe cooperative speakers to make their utterances maximally informative so that listeners have the highest chance of understanding the utterances. At the same time, speakers are expected to save effort and not produce descriptions that are more explicit than necessary. In this work, we first ask how predictability of the described events affects the choice of anaphoric referring expressions. We show that speakers prefer phonologically overt descriptions, such as definite NPs, when they refer to agents that behave in an unexpected way. We further test how the interpretation of referring expressions changes depending on the listening conditions and prior expectations about the plausibility of an event. Our work shows that the speaker’s extra effort in choosing a more phonologically overt referring expression is justified by listeners‘ behavior: they report having heard an utterance which is more plausible than the originally spoken utterance and which contains additional phonological material.

@inproceedings{Achimova-etal-2024,
title = {Interpreting implausible event descriptions under noise},
author = {Asya Achimova and Marjolein van Os and Vera Demberg and Martin V. Butz},
url = {https://escholarship.org/uc/item/13n5660h},
year = {2024},
date = {2024},
booktitle = {Proceedings of the Annual Meeting of the Cognitive Science Society},
pages = {3399-3406},
abstract = {Gricean maxims prescribe cooperative speakers to make their utterances maximally informative so that listeners have the highest chance of understanding the utterances. At the same time, speakers are expected to save effort and not produce descriptions that are more explicit than necessary. In this work, we first ask how predictability of the described events affects the choice of anaphoric referring expressions. We show that speakers prefer phonologically overt descriptions, such as definite NPs, when they refer to agents that behave in an unexpected way. We further test how the interpretation of referring expressions changes depending on the listening conditions and prior expectations about the plausibility of an event. Our work shows that the speaker's extra effort in choosing a more phonologically overt referring expression is justified by listeners' behavior: they report having heard an utterance which is more plausible than the originally spoken utterance and which contains additional phonological material.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   A4

Liang, Yiming; Amsili, Pascal; Burnett, Heather; Demberg, Vera

Uniform information density explains subject doubling in French Inproceedings

Proceedings of the Annual Meeting of the Cognitive Science Society, 46, pp. 780-788, 2024.

In this paper we investigate whether subject doubling in French is affected by the Uniform Information Density (UID) principle, which states that speakers prefer language encoding that minimizes fluctuations in information density. We show that, other factors being controlled, speakers are more likely to double the NP subject when it has a high surprisal, thus providing further empirical evidence to the UID principle which predicts a surprisal-redundancy trade-off as a property of natural languages. We argue for the importance of employing GPT-2 to investigate complex linguistic phenomena such as subject doubling, as it enables the estimation of subject surprisal by considering a rather large conversational context, a task made possible by powerful language models that incorporate linguistic knowledge through pre-training on extensive datasets.

@inproceedings{Liang-etal-2024,
title = {Uniform information density explains subject doubling in French},
author = {Yiming Liang and Pascal Amsili and Heather Burnett and Vera Demberg},
url = {https://escholarship.org/uc/item/645673fs},
year = {2024},
date = {2024},
booktitle = {Proceedings of the Annual Meeting of the Cognitive Science Society},
pages = {780-788},
abstract = {In this paper we investigate whether subject doubling in French is affected by the Uniform Information Density (UID) principle, which states that speakers prefer language encoding that minimizes fluctuations in information density. We show that, other factors being controlled, speakers are more likely to double the NP subject when it has a high surprisal, thus providing further empirical evidence to the UID principle which predicts a surprisal-redundancy trade-off as a property of natural languages. We argue for the importance of employing GPT-2 to investigate complex linguistic phenomena such as subject doubling, as it enables the estimation of subject surprisal by considering a rather large conversational context, a task made possible by powerful language models that incorporate linguistic knowledge through pre-training on extensive datasets.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   A4

van Os, Marjolein

Rational speech comprehension: effects of predictability and background noise PhD Thesis

Saarland University, Saarbruecken, Germany, 2023.

Having a conversation is something we are capable of without a second thought. However, this is not as simple as it seems. While there can be a myriad of difficulties arising, one common occurrence is the presence of background noise during every-day language use. This negatively affects speech recognition on the listener’s part. One strategy the listener has to cope with this, is to rely on predictive processes, where the upcoming words of the speaker are predicted from the context. The present dissertation concerns the interplay of background noise and prediction. This interplay can be summarized by the question whether listeners rely more on bottom-up information (the acoustic speech signal) or top-down information (for example context-based predictions). While previous studies have investigated how background noise and context predictability interact, and how different speech sounds are affected by (different types of) background noise, the three factors have so far not been studied together in a single experiment. These manipulations of the listening condition result in fine-grained differences in the intelligibility of the speech signal and subsequently affect to what extent listeners rely on the bottom-up information. This allows us to test the predictions of the Noisy Channel Model, a model that explains human speech comprehension in background noise. So far, the predictions of this model have been primarily tested using written stimuli and never with acoustical noise. In the word recognition experiments we collect confidence ratings to investigate false hearing effects. Additionally, we were interested in consequences of these adverse listening conditions and addressed the question how recognition memory is affected by background noise and contextual predictability, studying false memory effects in particular. This dissertation presents results from three experiments that were set up to address these questions. The first two experiments used a word recognition paradigm in which participants listened to recordings of sentences that were embedded in background noise in some conditions. Our stimuli contained different speech sound contrasts. We varied the level as well as the type of background noise across the two experiments. Because they lead to varying degrees of relying on either bottom-up or top-down processes, these differences in listening conditions allowed us to test the predictions of the Noisy Channel Model. Across experiments, we also varied the tested population. In Experiment 2 we recruited older adults as well as younger adults. As older adults differ from younger adults in their trade-off between top-down and bottom-up information. This allowed us to test their recognition accuracy in listening situations with small-grained differences regarding the intelligibility (through the overlap between the speech signal and noise). We can further test the predictions of the Noisy Channel Model, and investigate false hearing effects. The third experiment investigated consequences of listening in background noise, as we tested the effects of both noise and predictability on recognition memory. Taken together, the results from the three experiments lead us to four conclusions. First, we find that the three factors of noise type, speech sound, and predictability of the context interact during speech comprehension. Second, this leads to small-grained differences in the intelligibility of the stimuli, which in turn affects how the listener relies on either the bottom-up signal or top-down predictions. Across the experiments, our findings support the predictions made by the Noisy Channel Model, namely that the reliance on predictive processes is dependent on the effort that is required to process the speech signal and the amount of overlap between speech and background noise. Third, this was the case even for older adults, who did not show the expected false hearing effects. Instead, they behaved rationally, taking into account possible age-related hearing loss and a stronger reliance on prediction. Finally, we additionally showed that the difficulty of the listening condition affects meta-cognitive judgements, operationalised through confidence ratings: the more difficult the listening condition, the lower listeners’ confidence was, both for word recognition and memory. Against our expectations, we did not find evidence of false memory. Future studies should investigate in exactly which situations this effect occurs, as our experimental design differed from those of previous studies. In sum, the findings in this dissertation contribute to our understanding of speech recognition in adverse listening conditions, in particular background noise, and of how predictive processes can both help and hinder speech perception. Our results consistently support the predictions of the Noisy Channel Model, indicating that human listeners behave rationally. Their reliance on either the bottom-up acoustic signal or top-down predictions depends on the clarity of the speech signal, and here they take into account fine-grained differences. In this way, they can maximize the chance of successful communication while minimizing effort.


Wenn wir in unserem täglichen Leben Sprache verwenden, geschieht dies sehr selten in einer ruhigen Umgebung. Die meiste Zeit, in der wir Sprache unter natürlichen Bedingungen hören, sind Hintergrundgeräusche vorhanden. Wir nehmen dies kaum wahr, und in der Regel ist der Geräuschpegel so gering, dass er nicht zu großen Störungen der Kommunikation führt. Denken Sie an das Brummen von vorbeifahrenden Autos, an Gespräche anderer Menschen, an die Arbeit von Maschinen oder an das Geräusch von Tellern und Besteck in einem Restaurant. Wir sind in der Lage, fast mühelos mit anderen zu kommunizieren, obwohl diese Geräusche mit dem Sprachsignal konkurrieren. Wie schaffen Menschen das? Ist dieser Prozess des Zuhörens bei Hintergrundgeräuschen wirklich so mühelos, wie es scheint? Und können die Strategien, die zur Bewältigung der zusätzlichen kognitiven Belastung eingesetzt werden, auch Nachteile mit sich bringen? Ziel der vorliegenden Dissertation ist es, die Literatur zum Sprachverständnis bei Hintergrundgeräuschen weiterzuentwickeln, indem die folgenden Fragen beantwortet werden: Wie interagieren Vorhersagbarkeit, Hintergrundgeräusche und Sprachgeräusche in den Reizen? Gibt es bei dieser Interaktion Unterschiede zwischen verschiedenen Arten von Hintergrundgeräuschen? Wie lassen sich diese Unterschiede in der Erkennungsgenauigkeit erklären? Darüber hinaus untersuchen wir, wie sich diese Hörbedingungen auf ältere Erwachsene auswirken und welche Auswirkungen sie auf die Kommunikation über die Worterkennung hinaus haben. Eine Strategie, die dazu beiträgt, die Belastung des Sprachverstehens durch Hintergrundgeräusche zu verringern, besteht darin, sich auf Vorhersagen zu stützen. Oft ist es möglich, z. B. Weltwissen, Wissen über den Sprecher oder den vorangegangenen Kontext in einem Dialog zu nutzen, um vorherzusagen, was als Nächstes gesagt werden könnte. Verschiedene Studien haben ergeben, dass ein hoher Vorhersagewert eines Satzes den Zuhörern in ruhiger Umgebung hilft, ihn zu verarbeiten, aber auch besonders in lauten Hörsituationen, wo er zu einer besseren Erkennung führt als ein niedriger Vorhersagewert (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Verschiedene Spracherkennungstheorien berücksichtigen dies und erklären, wie Bottom-up-Informationen aus dem auditiven Sprachsignal mit Topdown- Informationen kombiniert werden, z. B. mit Vorhersagen, die auf dem Kontext basieren (Levy, 2008; Levy et al., 2009; Luce & Pisoni, 1998; Norris & McQueen, 2008; Oden & Massaro, 1978). Diese Interaktion von Bottom-Up- und Top-Down- Informationsströmen bildet die Grundlage dieser Dissertation. Bislang wurde in empirischen Studien untersucht, wie sich die Variation der Vorhersagbarkeit des Zielwortes auf das Sprachverstehen im Störgeräusch auswirkt (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Die Ergebnisse dieser Studien stimmen überein: Ein vorhersehbarer Kontext erleichtert das Sprachverstehen im Störgeräusch. Ein anderer Zweig der Literatur hat untersucht, wie Hintergrundgeräusche die Erkennung verschiedener Phoneme beeinflussen (Alwan et al., 2011; Cooke, 2009; Gordon-Salant, 1985; Phatak et al., 2008; Pickett, 1957). Diese Studien konzentrieren sich oft auf die isolierten Phoneme und testen feste Kontexte in Nonsense-Silben statt in Wörtern. Somit wird die Vorhersagbarkeit der Elemente nicht manipuliert, obwohl diese die Erkennung beeinflusst. Die drei Faktoren Kontextvorhersagbarkeit, Hintergrundgeräusche und Phoneme wurden bisher noch nicht gemeinsam in einer Studie untersucht. Es ist möglich, dass diese Faktoren zusammenwirken, z. B. der Effekt der Vorhersagbarkeit auf bestimmte Phoneme könnte stärker sein, wenn Hintergrundgeräusche die Erkennung behindern. Die vorliegende Dissertation soll diese Lücke in der Literatur füllen. In diesem Zusammenhang wollen wir untersuchen, wie sich verschiedene Arten von Lärm auf die Spracherkennung auswirken. In früheren Arbeiten wurde diese Frage bereits untersucht, doch die Ergebnisse waren nicht eindeutig (Danhauer & Leppler, 1979; Gordon-Salant, 1985; Horii et al., 1971; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Einige Studien kommen zu dem Ergebnis, dass weißes Rauschen zu größeren Interferenzen führt, während andere Studien feststellen, dass Babbelgeräusche oder sprachförmige Geräusche schwieriger sind. Diese unterschiedlichen Ergebnisse in Bezug auf die Art des Lärms lassen vermuten, dass hier andere Faktoren eine Rolle spielen, z. B. die Eigenschaften der getesteten Stimuli. Dieser offenen Frage wollen wir nachgehen. Ein Modell, das vorgeschlagen wurde, um das menschliche Sprachverstehen bei Hintergrundgeräuschen zu erklären, ist das Noisy Channel Model (Levy, 2008; Levy et al., 2009; Shannon, 1949). Diesem Modell zufolge kombinieren Hörer auf rationale Weise Bottom-up-Informationen mit Top-down-Informationen, wobei der Rückgriff auf eine der beiden Arten von Informationen von der Klarheit der Hörsituation abhängt. Frühere Studien haben die Vorhersagen dieses Modells vor allem im schriftlichen Bereich getestet, indem sie syntaktische Änderungen verwendeten und die Interpretation unplausibler Sätze prüften (Gibson et al., 2013; Poppels & Levy, 2016; Ryskin et al., 2018). Sie manipulierten den Grad des wahrgenommenen Lärms durch die Anzahl der Füllwörter mit syntaktischen Fehlern und qualifizierten den Abstand zwischen den plausiblen und unplausiblen Sätzen durch die Anzahl der eingefügten und gelöschten Wörter. In den Studien wurden Belege gefunden, die die Vorhersagen des Noisy Channel Models unterstützen. Ein Schritt in Richtung eines naturalistischeren Sprachverständnisses im Rauschen wurde unternommen, indem die gleichen Stimuli in gesprochener Form getestet wurden (Gibson et al., 2016; Gibson et al., 2017). Obwohl das Noisy Channel Model konstruiert wurde, um das menschliche Sprachverständnis bei Lärm zu erklären, wurden seine Vorhersagen bisher in keiner Studie bei akustischem Lärm untersucht. Die vorliegende Dissertation soll neue Erkenntnisse liefern. Unsere Stimuli unterscheiden sich von den bisher überwiegend getesteten und sind so konstruiert, dass die Vorhersagbarkeit des Zielwortes sowie die Überlappung zwischen Sprach- und Geräuschsignal variiert. Somit würden unsere Ergebnisse die Situationen erweitern, in denen die Vorhersagen des Noisy Channel Model zutreffen könnten. Wir werden dies in verschiedenen Hörsituationen mit unterschiedlichen Arten von Hintergrundgeräuschen, Stimuli-Charakteristika und Populationen testen. Außerdem setzen wir das Noisy Channel Model in Beziehung zu anderen Modellen der Sprachwahrnehmung. Die Unterschiede zwischen jüngeren und älteren Erwachsenen erlauben uns, die Vorhersagen des Geräuschkanalmodells im Detail zu testen. Ältere Erwachsene haben einen anderen Trade-Off zwischen Top-down- und Bottom-up-Informationen als jüngere Erwachsene. Ihr Gehör ist durch altersbedingten Hörverlust beeinträchtigt, und diese Beeinträchtigung führt zu größeren Schwierigkeiten beim Verstehen von Sprache unter ungünstigen Hörbedingungen (Li et al., 2004; Pichora-Fuller et al., 1995; Pichora-Fuller et al., 2017; Schneider et al., 2005). Andererseits bleiben ihre prädiktiven Prozesse intakt, und es hat sich gezeigt, dass ältere Erwachsene sich stärker auf diese verlassen, um Hörprobleme zu überwinden (Stine & Wingfield, 1994; Wingfield et al., 1995; Wingfield et al., 2005). Diese Unterschiede im Vergleich zu jüngeren Erwachsenen machen die Population der älteren Erwachsenen theoretisch besonders interessant für Tests. Wir wollen untersuchen, ob es tatsächlich so ist, dass ältere Erwachsene in Fällen, in denen der Satzkontext irreführend ist, mehr Hörfehler zeigen als jüngere Erwachsene. Wir variieren die Hörbedingungen, um feinkörnige Unterschiede in der Überlappung zwischen dem Sprachsignal und dem Hintergrundgeräusch zu konstruieren, wodurch sich der Schwierigkeitsgrad der Hörbedingung ändert. iner der Unterschiede zwischen jüngeren und älteren Erwachsenen wurde in Bezug auf den Effekt des „false hearing“ festgestellt (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Dabei handelt es sich um ein Phänomen, bei dem ein Hörer sehr sicher ist, ein bestimmtes Wort richtig erkannt zu haben, aber in Wirklichkeit falsch liegt. In diesen Fällen wurde das Wort oft durch Top-Down-Prozesse und nicht durch das akustische Sprachsignal selbst erkannt. Da sie im Allgemeinen stärker auf prädiktive Prozesse angewiesen sind, hat man festgestellt, dass der false-hearing-Effekt bei älteren Erwachsenen größer ist als bei jüngeren. Wir wollen dies untersuchen und erwarten, dass der false-hearing-Effekt stärker ist, wenn die Hörbedingungen schwieriger sind (aufgrund des Geräuschpegels oder einer größeren Überlappung zwischen den Sprachklängen in den Stimuli und dem Hintergrundgeräusch). Die Vertrauensbewertungen, die die Versuchspersonen abgeben, werden zusätzlich Aufschluss über ihre metakognitiven Prozesse während des Hörens geben (siehe unten). In den meisten Studien, die das Sprachverständnis untersuchen, werden die Versuchspersonen gebeten, einfach zu berichten, was sie gehört haben. Anschließend wird die Genauigkeit ermittelt. Dies beantwortet zwar die Fragen nach der Verständlichkeit von Sprache und der Schwierigkeit der Hörbedingungen, lässt aber andere Punkte offen. Im Alltag wird Sprache zur Kommunikation genutzt, die mehr erfordert als die Wiedergabe des Gehörten. Daher sollte untersucht werden, wie sich unterschiedliche Hörbedingungen auf nachfolgende übergeordnete Prozesse auswirken, die in der Kommunikation häufig eine Rolle spielen, um festzustellen, wie sich das Hören im Lärm (oder unter anderen, möglicherweise ungünstigen Bedingungen) auf das Gespräch zwischen Gesprächspartnern auswirkt, das über das bloße Erkennen des Gesagten hinausgeht. In dieser Dissertation wollen wir die Folgen des Sprachverstehens unter verschiedenen Hörbedingungen testen, wobei wir den Hintergrundlärm und die Vorhersagbarkeit variieren. Einerseits bitten wir die Versuchspersonen uns nach jedem experimentellen Versuch mitzuteilen, wie sicher sie sich sind, die richtige Antwort gegeben zu haben. Auf diese Weise können wir nicht nur den false-hearing- Effekt untersuchen, sondern auch feststellen, wie sie die Hörbedingungen erlebt haben und wie sich dies auf ihre subjektive Empfindung das Wort verstanden zu haben. Dies kann damit zusammenhängen, ob sie die richtige Antwort geben oder nicht, muss es aber nicht. Andererseits legen wir den Versuchspersonen in einem unserer Experimente nach der Hörphase einen Gedächtnistest vor, um zu testen, wie sich die Schwierigkeit der Geräuschbedingung und die Vorhersagbarkeit des Zielworts auf die spätere Erinnerung auswirken. Zu wissen, wie das Gedächtnis durch die Hörbedingungen beeinflusst wird, ist wichtig, da es Aufschluss über den Umgang mit Situationen geben kann, in denen Hintergrundgeräusche unvermeidlich sind, aber Anweisungen verstanden und erinnert werden müssen. Frühere Arbeiten haben die Auswirkungen der Vorhersagbarkeit auf die Gedächtnisleistung untersucht und dabei ein interessantes Phänomen aufgedeckt. In den Studien wurde festgestellt, dass Wörter, die vorhergesagt, den Versuchspersonen aber nicht tatsächlich präsentiert wurden, im Gedächtnis bleiben und die Gedächtnisleistung später in Form von so genannten falschen Erinnerungen beeinträchtigen (Haeuser & Kray, 2022a; Hubbard et al., 2019). In diesen Studien geben die Versuchspersonen an, sich an diese Begriffe zu erinnern, obwohl sie sie gar nicht gesehen haben. Dieser Effekt wurde bisher noch nicht für Elemente untersucht, die in Hintergrundgeräusche eingebettet sind, und wir wollen testen, ob wir hier mehr falsche Erinnerungen finden werden, da sich die Versuchspersonen unter solch schwierigen Hörbedingungen stärker auf Vorhersageprozesse verlassen, was zu falschen Erinnerungen führt. Wir haben drei Experimente durchgeführt, um diese Fragen zu beantworten. Im ersten Experiment manipulierten wir die Vorhersagbarkeit (hoch oder niedrig), die Art des Geräuschs (Babbel oder weißes Rauschen) und das akustische Signal (verschiedene Sprachlaute; Plosive, Vokale und Frikative) und untersuchten so die Interaktion der drei Faktoren. Diese Versuchsanordnung ermöglicht es uns auch, die Auswirkungen von Babbelgeräuschen auf der einen und weißem Rauschen auf der anderen Seite zu vergleichen, um die bisher nicht eindeutigen Ergebnisse in der Literatur zu berücksichtigen (Danhauer & Leppler, 1979; Horii et al., 1971; Gordon-Salant, 1985; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Das Experiment testet die Vorhersagen des Noisy-Channel-Modells für das Verstehen gesprochener Sprache. Dieses Modell wurde vorgeschlagen, um das Sprachverstehen in verrauschten Umgebungen zu erklären (Levy, 2008; Levy et al., 2009; Shannon, 1949). Es geht davon aus, dass Versteher sich nicht ausschließlich auf den Bottom-Up-Signal verlassen, sondern das Eingangssignal rational mit Top-Down-Vorhersagen kombinieren. Bislang wurde diese Hypothese vor allem im schriftlichen Bereich getestet, wo die Top-Down- Vorhersagen mit dem Bottom-Up-Signal in Konflikt stehen. Unsere Hörbedingungen unterscheiden sich hinsichtlich ihrer Editierdistanz in einerWeise, die auf früheren Arbeiten über die Verwechselbarkeit von Sprachlauten im Lärm beruht und zu feinkörnigen Unterschieden führt. Unsere Ergebnisse stimmen mit den Vorhersagen des Noisy- Channel-Modells überein: Hörer kombinieren probabilistisch Top-Down-Vorhersagen, die auf dem Kontext basieren, mit verrauschten Bottom-Up-Informationen aus dem akustischen Signal, um gesprochene Sprache besser zu verstehen. Das zweite Experiment testet das Sprachverstehen bei gleichzeitigen Störgeräuschen bei jüngeren und älteren Erwachsenen. Diese beiden Populationen unterscheiden sich hinsichtlich der Spracherkennung und der Art und Weise, wie Informationen aus dem Bottom-Up-Audiosignal und Top-Down-Vorhersagen kombiniert werden. So können wir die Vorhersagen des Noisy-Channel-Modells anhand dieser beiden Populationen weiter testen. Darüber hinaus haben frühere Studien, insbesondere bei älteren Erwachsenen, false-hearing-Effekte festgestellt, bei dem sie sehr zuversichtlich waren, während der Worterkennung eine korrekte Antwort zu geben, die aber tatsächlich falsch war (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Wir untersuchen dieses Phänomen und gehen der Frage nach, inwieweit die metakognitiven Entscheidungen unserer Versuchspersonen ihr Vertrauen in das akustische Signal oder den semantischen Kontext widerspiegeln. Auch hier variieren wir das Rauschen, konzentrieren uns aber jetzt auf den Rauschpegel (0 SNR dB oder -5 SNR dB) und nicht auf die Art des Rauschens (wir verwenden nur Babble Noise). Unsere Ergebnisse zeigen, dass das Ausmaß des Fehlhörens direkt mit der Wahrnehmbarkeit des Sprachsignals zusammenhängt und dass die eigen Einschätzung der Versuchspersonen, ob das Wort im Signal so gesprochen wurde, ebenfalls damit übereinstimmen: Je mehr Überschneidungen zwischen Sprachsignal und Störgeräusch, desto weniger waren die Versuchspersonen sich sicher, dass sie die richtige Antwort gegeben haben. Wir finden keine Hinweise auf false-hearing-Effekte, was auf die von uns getestete Population zurückzuführen sein könnte. Stattdessen hing die Höhe der Sicherheitsbewertungen von der Schwierigkeit der Hörbedingung ab. Das dritte Experiment untersucht die Folgen des Hörens von mehr oder weniger vorhersehbarer Sprache im Hintergrundgeräusch, indem es die Versuchspersonen nicht nur fragt, was sie gehört haben. Wir testen, wie das spätere Wiedererkennungsgedächtnis der Versuchspersonen durch diese verschiedenen Hörbedingungen beeinflusst wird. In früheren Studien wurden Effekte falschen Erinnerns festgestellt, bei denen Elemente, die (in hohem Maße) vorhergesagt, aber nicht tatsächlich präsentiert wurden, im Gedächtnis verbleiben, so dass sie von den Veruschspersonen in Gedächtnistests wiedergegeben werden (Haeuser & Kray, 2022a; Hubbard et al., 2019). Wir wollen testen, ob dieser Effekt bei Hintergrundgeräuschen stärker ist, da sich die Hörer unter diesen Bedingungen stärker auf prädiktive Prozesse verlassen. In unserem Experiment hörten die Versuchspersonen zunächst Sätze, die entweder in Störgeräusche eingebettet oder in Ruhe präsentiert wurden. Die Vorhersagbarkeit des Zielworts wurde durch Änderung der Wortreihenfolge des Satzes beeinflusst, und wir variierten auch die Häufigkeit der Zielwörter. In einem Test zum Wiedererkennen von Überraschungen fragten wir die Versuchspersonen, ob sie das dargebotene Wort schon einmal gesehen hatten, wobei es drei Arten von Wörtern gab: alte Begriffe, die sie schon einmal gehört hatten, neue Begriffe, die sie noch nie gehört hatten und die in keinem Zusammenhang mit den Sätzen standen, und semantische Köder, die sie noch nie gehört hatten, die aber semantisch mit den alten Begriffen verbunden waren. Die Ergebnisse zeigten, dass die Gedächtnisleistung für die semantischen Köder nicht durch Faktoren auf Satzebene, wie Hintergrundgeräusche oder Vorhersagbarkeit, beeinflusst wurde. Während dies bei den alten Elemente der Fall war, zeigen diese Ergebnisse zusammengenommen, dass wir keine Hinweise auf falsche Erinnerneffekte bei den Köder-Elemente gefunden haben, sondern dass die Genauigkeit bei den alten Elemente, ähnlich wie in den beiden vorangegangenen Experimenten, von der Schwierigkeit der Hörbedingung abhing. Wir erweitern die Literatur, indem wir drei Faktoren kombinieren, die beim Sprachverstehen im Lärm interagieren, nämlich die Art des Lärms, bestimmte Sprachlaute in den Stimuli und die Vorhersagbarkeit des Kontexts. Die ersten beiden Faktoren interagieren, was zu einer Variation des Anteils des Sprachsignals führt, der verdeckt wird. In früheren Studien wurde diese Wechselwirkung zwar untersucht, allerdings vorwiegend bei isolierten Silben (Alwan et al., 2011; Cooke, 2009; Gordon- Salant, 1985; Phatak et al., 2008; Pickett, 1957). Da Hörer im Alltag in der Lage sind, Vorhersagen auf der Grundlage des semantischen Kontexts zu treffen, um ihren Erkennungsprozess zu steuern, ist es wichtig, auch den Effekt eines mehr oder weniger vorhersagenden Satzkontexts zu berücksichtigen. Wir zeigen, dass die drei Faktoren zusammenwirken und zu geringfügigen Unterschieden in der Verständlichkeit der Stimuli führen, je nach Art des Hintergrundrauschens und der Phoneme im akustischen Signal. Daher ist der Effekt der Vorhersagbarkeit stärker, wenn das Hintergrundgeräusch stärker mit einem bestimmten Sprachklang interferiert. Dies wirkt sich darauf aus, wie sehr sich der Hörer bei der Spracherkennung auf Top-down- oder Bottom-up-Prozesse verlässt. Der Rückgriff auf prädiktive Prozesse kann zu falsch erkannten Wörtern führen, wenn der Satzkontext irreführend ist. Wir zeigen, dass die Vorhersagen des Noisy-Channel-Modells auch dann zutreffen, wenn sie in einem anderen Versuchsaufbau als bisher getestet werden, nämlich mit einem anderen Satz von Stimuli und in akustischem Hintergrundrauschen. Wir verwendeten gesprochene Stimuli, die in Hintergrundgeräusche unterschiedlicher Art und Lautstärke eingebettet waren, und manipulierten die wahrgenommene Geräuschmenge durch die Überlappung des Sprachsignals und des akustischen Rauschens, indem wir Stimuli mit unterschiedlichen Klangkontrasten konstruierten (Minimalpaare mit Plosiven, Frikativen und Affrikaten sowie Vokalen). Da unter diesen verschiedenen Hörbedingungen die Klarheit des Sprachsignals und damit der erforderliche Verarbeitungsaufwand variiert, macht das Noisy Channel Model feinkörnige Vorhersagen darüber, wie sehr sich Hörer entweder auf das akustische Signal von unten nach oben oder auf prädiktive Prozesse von oben nach unten verlassen. Wir haben zusätzlich zwei verschiedene Populationen getestet, nämlich jüngere und ältere Erwachsene. Bei älteren Erwachsenen wurde bereits festgestellt, dass sie sich stärker auf prädiktive Prozesse verlassen als jüngere Erwachsene, so dass wir die Vorhersagen des Noisy- Channel-Modells weiter testen konnten. Auch hier wurden die Vorhersagen durch unsere Daten bestätigt. Insgesamt bieten unsere Ergebnisse eine zusätzliche und übereinstimmende Unterstützung für das Noisy-Channel-Modell. Wir replizieren den Befund, dass ältere Erwachsene dazu neigen, sich mehr auf den Satzkontext zu verlassen als jüngere Erwachsene. Während dies in der bisherigen Literatur häufig berichtet wurde, zeigen wir diesen Effekt in einer Online-Studie mit einer jüngeren Versuchspersonengruppe (50-65 Jahre) als in diesen Studien üblich (65+). Wir haben auch den false-hearing-Effekt untersucht. Bei diesem Effekt ist das Vertrauen in falsche Antworten hoch, und es wurde festgestellt, dass dieser Effekt bei älteren Erwachsenen stärker ist als bei jüngeren Erwachsenen. Dies wird auf den altersbedingten Abbau der kognitiven Kontrolle zurückgeführt. In unserem Experiment konnten wir den Befund des false hearings nicht replizieren. Stattdessen fanden wir eine Tendenz zu geringerer Zuversicht bei falschen Antworten, die mit der Schwierigkeit der Hörbedingung übereinstimmt: Je mehr Überschneidungen zwischen Sprachlauten und Geräuschen oder je höher der Geräuschpegel, desto geringer war die Zuversicht unserer Hörer, sowohl bei jüngeren als auch bei älteren Erwachsenen. Eine mögliche Erklärung für das Fehlen des false-hearing-Effekts ist das relativ junge Alter unserer Gruppe älterer Versuchspersonen. Wir untersuchten die Folgen des Hörens bei Hintergrundgeräuschen, d.h. die Art und Weise, wie Prozesse höherer Ordnung durch unterschiedliche Hörbedingungen (unterschiedliche Geräusche und Vorhersagbarkeit) beeinflusst werden. Dies ist wichtig, um die Auswirkungen von Hintergrundgeräuschen und Vorhersagbarkeit auf die Kommunikation zu untersuchen, die viel mehr umfasst als nur das Erkennen von Wörtern. Wir zeigen, dass der Schwierigkeitsgrad der Hörbedingung die metakognitiven Urteile beeinflusst, operationalisiert durch Sicherheitsbewertungen: Je schwieriger die Hörbedingung war, desto geringer war die Sicherheit der Hörer, was auf ein Bewusstsein für die Veränderung der Bedingung hinweist. Darüber hinaus untersuchten wir, wie Hintergrundgeräusche und Veränderungen in der Vorhersagbarkeit das spätere Wiedererkennungsgedächtnis für experimentelle Elemente beeinflussen. Wir zeigen, dass diese Faktoren bei zuvor präsentierten Elemente die Gedächtnisleistung beeinflussen. Was wir jedoch nicht beobachten können, ist ein falsche Erinnerung für nicht präsentierte, aber semantisch verwandte Elemente. Zusammenfassend lässt sich sagen, dass die Ergebnisse dieser Dissertation zu unserem Verständnis der Spracherkennung unter ungünstigen Hörbedingungen, insbesondere bei Hintergrundgeräuschen, beitragen und zeigen, wie prädiktive Prozesse die Sprachwahrnehmung sowohl fördern als auch behindern können.

@phdthesis{Os_Diss_2023,
title = {Rational speech comprehension: effects of predictability and background noise},
author = {Marjolein van Os},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/36584},
doi = {https://doi.org/10.22028/D291-40555},
year = {2023},
date = {2023},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {Having a conversation is something we are capable of without a second thought. However, this is not as simple as it seems. While there can be a myriad of difficulties arising, one common occurrence is the presence of background noise during every-day language use. This negatively affects speech recognition on the listener’s part. One strategy the listener has to cope with this, is to rely on predictive processes, where the upcoming words of the speaker are predicted from the context. The present dissertation concerns the interplay of background noise and prediction. This interplay can be summarized by the question whether listeners rely more on bottom-up information (the acoustic speech signal) or top-down information (for example context-based predictions). While previous studies have investigated how background noise and context predictability interact, and how different speech sounds are affected by (different types of) background noise, the three factors have so far not been studied together in a single experiment. These manipulations of the listening condition result in fine-grained differences in the intelligibility of the speech signal and subsequently affect to what extent listeners rely on the bottom-up information. This allows us to test the predictions of the Noisy Channel Model, a model that explains human speech comprehension in background noise. So far, the predictions of this model have been primarily tested using written stimuli and never with acoustical noise. In the word recognition experiments we collect confidence ratings to investigate false hearing effects. Additionally, we were interested in consequences of these adverse listening conditions and addressed the question how recognition memory is affected by background noise and contextual predictability, studying false memory effects in particular. This dissertation presents results from three experiments that were set up to address these questions. The first two experiments used a word recognition paradigm in which participants listened to recordings of sentences that were embedded in background noise in some conditions. Our stimuli contained different speech sound contrasts. We varied the level as well as the type of background noise across the two experiments. Because they lead to varying degrees of relying on either bottom-up or top-down processes, these differences in listening conditions allowed us to test the predictions of the Noisy Channel Model. Across experiments, we also varied the tested population. In Experiment 2 we recruited older adults as well as younger adults. As older adults differ from younger adults in their trade-off between top-down and bottom-up information. This allowed us to test their recognition accuracy in listening situations with small-grained differences regarding the intelligibility (through the overlap between the speech signal and noise). We can further test the predictions of the Noisy Channel Model, and investigate false hearing effects. The third experiment investigated consequences of listening in background noise, as we tested the effects of both noise and predictability on recognition memory. Taken together, the results from the three experiments lead us to four conclusions. First, we find that the three factors of noise type, speech sound, and predictability of the context interact during speech comprehension. Second, this leads to small-grained differences in the intelligibility of the stimuli, which in turn affects how the listener relies on either the bottom-up signal or top-down predictions. Across the experiments, our findings support the predictions made by the Noisy Channel Model, namely that the reliance on predictive processes is dependent on the effort that is required to process the speech signal and the amount of overlap between speech and background noise. Third, this was the case even for older adults, who did not show the expected false hearing effects. Instead, they behaved rationally, taking into account possible age-related hearing loss and a stronger reliance on prediction. Finally, we additionally showed that the difficulty of the listening condition affects meta-cognitive judgements, operationalised through confidence ratings: the more difficult the listening condition, the lower listeners’ confidence was, both for word recognition and memory. Against our expectations, we did not find evidence of false memory. Future studies should investigate in exactly which situations this effect occurs, as our experimental design differed from those of previous studies. In sum, the findings in this dissertation contribute to our understanding of speech recognition in adverse listening conditions, in particular background noise, and of how predictive processes can both help and hinder speech perception. Our results consistently support the predictions of the Noisy Channel Model, indicating that human listeners behave rationally. Their reliance on either the bottom-up acoustic signal or top-down predictions depends on the clarity of the speech signal, and here they take into account fine-grained differences. In this way, they can maximize the chance of successful communication while minimizing effort.


Wenn wir in unserem t{\"a}glichen Leben Sprache verwenden, geschieht dies sehr selten in einer ruhigen Umgebung. Die meiste Zeit, in der wir Sprache unter nat{\"u}rlichen Bedingungen h{\"o}ren, sind Hintergrundger{\"a}usche vorhanden. Wir nehmen dies kaum wahr, und in der Regel ist der Ger{\"a}uschpegel so gering, dass er nicht zu gro{\ss}en St{\"o}rungen der Kommunikation f{\"u}hrt. Denken Sie an das Brummen von vorbeifahrenden Autos, an Gespr{\"a}che anderer Menschen, an die Arbeit von Maschinen oder an das Ger{\"a}usch von Tellern und Besteck in einem Restaurant. Wir sind in der Lage, fast m{\"u}helos mit anderen zu kommunizieren, obwohl diese Ger{\"a}usche mit dem Sprachsignal konkurrieren. Wie schaffen Menschen das? Ist dieser Prozess des Zuh{\"o}rens bei Hintergrundger{\"a}uschen wirklich so m{\"u}helos, wie es scheint? Und k{\"o}nnen die Strategien, die zur Bew{\"a}ltigung der zus{\"a}tzlichen kognitiven Belastung eingesetzt werden, auch Nachteile mit sich bringen? Ziel der vorliegenden Dissertation ist es, die Literatur zum Sprachverst{\"a}ndnis bei Hintergrundger{\"a}uschen weiterzuentwickeln, indem die folgenden Fragen beantwortet werden: Wie interagieren Vorhersagbarkeit, Hintergrundger{\"a}usche und Sprachger{\"a}usche in den Reizen? Gibt es bei dieser Interaktion Unterschiede zwischen verschiedenen Arten von Hintergrundger{\"a}uschen? Wie lassen sich diese Unterschiede in der Erkennungsgenauigkeit erkl{\"a}ren? Dar{\"u}ber hinaus untersuchen wir, wie sich diese H{\"o}rbedingungen auf {\"a}ltere Erwachsene auswirken und welche Auswirkungen sie auf die Kommunikation {\"u}ber die Worterkennung hinaus haben. Eine Strategie, die dazu beitr{\"a}gt, die Belastung des Sprachverstehens durch Hintergrundger{\"a}usche zu verringern, besteht darin, sich auf Vorhersagen zu st{\"u}tzen. Oft ist es m{\"o}glich, z. B. Weltwissen, Wissen {\"u}ber den Sprecher oder den vorangegangenen Kontext in einem Dialog zu nutzen, um vorherzusagen, was als N{\"a}chstes gesagt werden k{\"o}nnte. Verschiedene Studien haben ergeben, dass ein hoher Vorhersagewert eines Satzes den Zuh{\"o}rern in ruhiger Umgebung hilft, ihn zu verarbeiten, aber auch besonders in lauten H{\"o}rsituationen, wo er zu einer besseren Erkennung f{\"u}hrt als ein niedriger Vorhersagewert (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Verschiedene Spracherkennungstheorien ber{\"u}cksichtigen dies und erkl{\"a}ren, wie Bottom-up-Informationen aus dem auditiven Sprachsignal mit Topdown- Informationen kombiniert werden, z. B. mit Vorhersagen, die auf dem Kontext basieren (Levy, 2008; Levy et al., 2009; Luce & Pisoni, 1998; Norris & McQueen, 2008; Oden & Massaro, 1978). Diese Interaktion von Bottom-Up- und Top-Down- Informationsstr{\"o}men bildet die Grundlage dieser Dissertation. Bislang wurde in empirischen Studien untersucht, wie sich die Variation der Vorhersagbarkeit des Zielwortes auf das Sprachverstehen im St{\"o}rger{\"a}usch auswirkt (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Die Ergebnisse dieser Studien stimmen {\"u}berein: Ein vorhersehbarer Kontext erleichtert das Sprachverstehen im St{\"o}rger{\"a}usch. Ein anderer Zweig der Literatur hat untersucht, wie Hintergrundger{\"a}usche die Erkennung verschiedener Phoneme beeinflussen (Alwan et al., 2011; Cooke, 2009; Gordon-Salant, 1985; Phatak et al., 2008; Pickett, 1957). Diese Studien konzentrieren sich oft auf die isolierten Phoneme und testen feste Kontexte in Nonsense-Silben statt in W{\"o}rtern. Somit wird die Vorhersagbarkeit der Elemente nicht manipuliert, obwohl diese die Erkennung beeinflusst. Die drei Faktoren Kontextvorhersagbarkeit, Hintergrundger{\"a}usche und Phoneme wurden bisher noch nicht gemeinsam in einer Studie untersucht. Es ist m{\"o}glich, dass diese Faktoren zusammenwirken, z. B. der Effekt der Vorhersagbarkeit auf bestimmte Phoneme k{\"o}nnte st{\"a}rker sein, wenn Hintergrundger{\"a}usche die Erkennung behindern. Die vorliegende Dissertation soll diese L{\"u}cke in der Literatur f{\"u}llen. In diesem Zusammenhang wollen wir untersuchen, wie sich verschiedene Arten von L{\"a}rm auf die Spracherkennung auswirken. In fr{\"u}heren Arbeiten wurde diese Frage bereits untersucht, doch die Ergebnisse waren nicht eindeutig (Danhauer & Leppler, 1979; Gordon-Salant, 1985; Horii et al., 1971; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Einige Studien kommen zu dem Ergebnis, dass wei{\ss}es Rauschen zu gr{\"o}{\ss}eren Interferenzen f{\"u}hrt, w{\"a}hrend andere Studien feststellen, dass Babbelger{\"a}usche oder sprachf{\"o}rmige Ger{\"a}usche schwieriger sind. Diese unterschiedlichen Ergebnisse in Bezug auf die Art des L{\"a}rms lassen vermuten, dass hier andere Faktoren eine Rolle spielen, z. B. die Eigenschaften der getesteten Stimuli. Dieser offenen Frage wollen wir nachgehen. Ein Modell, das vorgeschlagen wurde, um das menschliche Sprachverstehen bei Hintergrundger{\"a}uschen zu erkl{\"a}ren, ist das Noisy Channel Model (Levy, 2008; Levy et al., 2009; Shannon, 1949). Diesem Modell zufolge kombinieren H{\"o}rer auf rationale Weise Bottom-up-Informationen mit Top-down-Informationen, wobei der R{\"u}ckgriff auf eine der beiden Arten von Informationen von der Klarheit der H{\"o}rsituation abh{\"a}ngt. Fr{\"u}here Studien haben die Vorhersagen dieses Modells vor allem im schriftlichen Bereich getestet, indem sie syntaktische {\"A}nderungen verwendeten und die Interpretation unplausibler S{\"a}tze pr{\"u}ften (Gibson et al., 2013; Poppels & Levy, 2016; Ryskin et al., 2018). Sie manipulierten den Grad des wahrgenommenen L{\"a}rms durch die Anzahl der F{\"u}llw{\"o}rter mit syntaktischen Fehlern und qualifizierten den Abstand zwischen den plausiblen und unplausiblen S{\"a}tzen durch die Anzahl der eingef{\"u}gten und gel{\"o}schten W{\"o}rter. In den Studien wurden Belege gefunden, die die Vorhersagen des Noisy Channel Models unterst{\"u}tzen. Ein Schritt in Richtung eines naturalistischeren Sprachverst{\"a}ndnisses im Rauschen wurde unternommen, indem die gleichen Stimuli in gesprochener Form getestet wurden (Gibson et al., 2016; Gibson et al., 2017). Obwohl das Noisy Channel Model konstruiert wurde, um das menschliche Sprachverst{\"a}ndnis bei L{\"a}rm zu erkl{\"a}ren, wurden seine Vorhersagen bisher in keiner Studie bei akustischem L{\"a}rm untersucht. Die vorliegende Dissertation soll neue Erkenntnisse liefern. Unsere Stimuli unterscheiden sich von den bisher {\"u}berwiegend getesteten und sind so konstruiert, dass die Vorhersagbarkeit des Zielwortes sowie die {\"U}berlappung zwischen Sprach- und Ger{\"a}uschsignal variiert. Somit w{\"u}rden unsere Ergebnisse die Situationen erweitern, in denen die Vorhersagen des Noisy Channel Model zutreffen k{\"o}nnten. Wir werden dies in verschiedenen H{\"o}rsituationen mit unterschiedlichen Arten von Hintergrundger{\"a}uschen, Stimuli-Charakteristika und Populationen testen. Au{\ss}erdem setzen wir das Noisy Channel Model in Beziehung zu anderen Modellen der Sprachwahrnehmung. Die Unterschiede zwischen j{\"u}ngeren und {\"a}lteren Erwachsenen erlauben uns, die Vorhersagen des Ger{\"a}uschkanalmodells im Detail zu testen. {\"A}ltere Erwachsene haben einen anderen Trade-Off zwischen Top-down- und Bottom-up-Informationen als j{\"u}ngere Erwachsene. Ihr Geh{\"o}r ist durch altersbedingten H{\"o}rverlust beeintr{\"a}chtigt, und diese Beeintr{\"a}chtigung f{\"u}hrt zu gr{\"o}{\ss}eren Schwierigkeiten beim Verstehen von Sprache unter ung{\"u}nstigen H{\"o}rbedingungen (Li et al., 2004; Pichora-Fuller et al., 1995; Pichora-Fuller et al., 2017; Schneider et al., 2005). Andererseits bleiben ihre pr{\"a}diktiven Prozesse intakt, und es hat sich gezeigt, dass {\"a}ltere Erwachsene sich st{\"a}rker auf diese verlassen, um H{\"o}rprobleme zu {\"u}berwinden (Stine & Wingfield, 1994; Wingfield et al., 1995; Wingfield et al., 2005). Diese Unterschiede im Vergleich zu j{\"u}ngeren Erwachsenen machen die Population der {\"a}lteren Erwachsenen theoretisch besonders interessant f{\"u}r Tests. Wir wollen untersuchen, ob es tats{\"a}chlich so ist, dass {\"a}ltere Erwachsene in F{\"a}llen, in denen der Satzkontext irref{\"u}hrend ist, mehr H{\"o}rfehler zeigen als j{\"u}ngere Erwachsene. Wir variieren die H{\"o}rbedingungen, um feink{\"o}rnige Unterschiede in der {\"U}berlappung zwischen dem Sprachsignal und dem Hintergrundger{\"a}usch zu konstruieren, wodurch sich der Schwierigkeitsgrad der H{\"o}rbedingung {\"a}ndert. iner der Unterschiede zwischen j{\"u}ngeren und {\"a}lteren Erwachsenen wurde in Bezug auf den Effekt des "false hearing" festgestellt (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Dabei handelt es sich um ein Ph{\"a}nomen, bei dem ein H{\"o}rer sehr sicher ist, ein bestimmtes Wort richtig erkannt zu haben, aber in Wirklichkeit falsch liegt. In diesen F{\"a}llen wurde das Wort oft durch Top-Down-Prozesse und nicht durch das akustische Sprachsignal selbst erkannt. Da sie im Allgemeinen st{\"a}rker auf pr{\"a}diktive Prozesse angewiesen sind, hat man festgestellt, dass der false-hearing-Effekt bei {\"a}lteren Erwachsenen gr{\"o}{\ss}er ist als bei j{\"u}ngeren. Wir wollen dies untersuchen und erwarten, dass der false-hearing-Effekt st{\"a}rker ist, wenn die H{\"o}rbedingungen schwieriger sind (aufgrund des Ger{\"a}uschpegels oder einer gr{\"o}{\ss}eren {\"U}berlappung zwischen den Sprachkl{\"a}ngen in den Stimuli und dem Hintergrundger{\"a}usch). Die Vertrauensbewertungen, die die Versuchspersonen abgeben, werden zus{\"a}tzlich Aufschluss {\"u}ber ihre metakognitiven Prozesse w{\"a}hrend des H{\"o}rens geben (siehe unten). In den meisten Studien, die das Sprachverst{\"a}ndnis untersuchen, werden die Versuchspersonen gebeten, einfach zu berichten, was sie geh{\"o}rt haben. Anschlie{\ss}end wird die Genauigkeit ermittelt. Dies beantwortet zwar die Fragen nach der Verst{\"a}ndlichkeit von Sprache und der Schwierigkeit der H{\"o}rbedingungen, l{\"a}sst aber andere Punkte offen. Im Alltag wird Sprache zur Kommunikation genutzt, die mehr erfordert als die Wiedergabe des Geh{\"o}rten. Daher sollte untersucht werden, wie sich unterschiedliche H{\"o}rbedingungen auf nachfolgende {\"u}bergeordnete Prozesse auswirken, die in der Kommunikation h{\"a}ufig eine Rolle spielen, um festzustellen, wie sich das H{\"o}ren im L{\"a}rm (oder unter anderen, m{\"o}glicherweise ung{\"u}nstigen Bedingungen) auf das Gespr{\"a}ch zwischen Gespr{\"a}chspartnern auswirkt, das {\"u}ber das blo{\ss}e Erkennen des Gesagten hinausgeht. In dieser Dissertation wollen wir die Folgen des Sprachverstehens unter verschiedenen H{\"o}rbedingungen testen, wobei wir den Hintergrundl{\"a}rm und die Vorhersagbarkeit variieren. Einerseits bitten wir die Versuchspersonen uns nach jedem experimentellen Versuch mitzuteilen, wie sicher sie sich sind, die richtige Antwort gegeben zu haben. Auf diese Weise k{\"o}nnen wir nicht nur den false-hearing- Effekt untersuchen, sondern auch feststellen, wie sie die H{\"o}rbedingungen erlebt haben und wie sich dies auf ihre subjektive Empfindung das Wort verstanden zu haben. Dies kann damit zusammenh{\"a}ngen, ob sie die richtige Antwort geben oder nicht, muss es aber nicht. Andererseits legen wir den Versuchspersonen in einem unserer Experimente nach der H{\"o}rphase einen Ged{\"a}chtnistest vor, um zu testen, wie sich die Schwierigkeit der Ger{\"a}uschbedingung und die Vorhersagbarkeit des Zielworts auf die sp{\"a}tere Erinnerung auswirken. Zu wissen, wie das Ged{\"a}chtnis durch die H{\"o}rbedingungen beeinflusst wird, ist wichtig, da es Aufschluss {\"u}ber den Umgang mit Situationen geben kann, in denen Hintergrundger{\"a}usche unvermeidlich sind, aber Anweisungen verstanden und erinnert werden m{\"u}ssen. Fr{\"u}here Arbeiten haben die Auswirkungen der Vorhersagbarkeit auf die Ged{\"a}chtnisleistung untersucht und dabei ein interessantes Ph{\"a}nomen aufgedeckt. In den Studien wurde festgestellt, dass W{\"o}rter, die vorhergesagt, den Versuchspersonen aber nicht tats{\"a}chlich pr{\"a}sentiert wurden, im Ged{\"a}chtnis bleiben und die Ged{\"a}chtnisleistung sp{\"a}ter in Form von so genannten falschen Erinnerungen beeintr{\"a}chtigen (Haeuser & Kray, 2022a; Hubbard et al., 2019). In diesen Studien geben die Versuchspersonen an, sich an diese Begriffe zu erinnern, obwohl sie sie gar nicht gesehen haben. Dieser Effekt wurde bisher noch nicht f{\"u}r Elemente untersucht, die in Hintergrundger{\"a}usche eingebettet sind, und wir wollen testen, ob wir hier mehr falsche Erinnerungen finden werden, da sich die Versuchspersonen unter solch schwierigen H{\"o}rbedingungen st{\"a}rker auf Vorhersageprozesse verlassen, was zu falschen Erinnerungen f{\"u}hrt. Wir haben drei Experimente durchgef{\"u}hrt, um diese Fragen zu beantworten. Im ersten Experiment manipulierten wir die Vorhersagbarkeit (hoch oder niedrig), die Art des Ger{\"a}uschs (Babbel oder wei{\ss}es Rauschen) und das akustische Signal (verschiedene Sprachlaute; Plosive, Vokale und Frikative) und untersuchten so die Interaktion der drei Faktoren. Diese Versuchsanordnung erm{\"o}glicht es uns auch, die Auswirkungen von Babbelger{\"a}uschen auf der einen und wei{\ss}em Rauschen auf der anderen Seite zu vergleichen, um die bisher nicht eindeutigen Ergebnisse in der Literatur zu ber{\"u}cksichtigen (Danhauer & Leppler, 1979; Horii et al., 1971; Gordon-Salant, 1985; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Das Experiment testet die Vorhersagen des Noisy-Channel-Modells f{\"u}r das Verstehen gesprochener Sprache. Dieses Modell wurde vorgeschlagen, um das Sprachverstehen in verrauschten Umgebungen zu erkl{\"a}ren (Levy, 2008; Levy et al., 2009; Shannon, 1949). Es geht davon aus, dass Versteher sich nicht ausschlie{\ss}lich auf den Bottom-Up-Signal verlassen, sondern das Eingangssignal rational mit Top-Down-Vorhersagen kombinieren. Bislang wurde diese Hypothese vor allem im schriftlichen Bereich getestet, wo die Top-Down- Vorhersagen mit dem Bottom-Up-Signal in Konflikt stehen. Unsere H{\"o}rbedingungen unterscheiden sich hinsichtlich ihrer Editierdistanz in einerWeise, die auf fr{\"u}heren Arbeiten {\"u}ber die Verwechselbarkeit von Sprachlauten im L{\"a}rm beruht und zu feink{\"o}rnigen Unterschieden f{\"u}hrt. Unsere Ergebnisse stimmen mit den Vorhersagen des Noisy- Channel-Modells {\"u}berein: H{\"o}rer kombinieren probabilistisch Top-Down-Vorhersagen, die auf dem Kontext basieren, mit verrauschten Bottom-Up-Informationen aus dem akustischen Signal, um gesprochene Sprache besser zu verstehen. Das zweite Experiment testet das Sprachverstehen bei gleichzeitigen St{\"o}rger{\"a}uschen bei j{\"u}ngeren und {\"a}lteren Erwachsenen. Diese beiden Populationen unterscheiden sich hinsichtlich der Spracherkennung und der Art und Weise, wie Informationen aus dem Bottom-Up-Audiosignal und Top-Down-Vorhersagen kombiniert werden. So k{\"o}nnen wir die Vorhersagen des Noisy-Channel-Modells anhand dieser beiden Populationen weiter testen. Dar{\"u}ber hinaus haben fr{\"u}here Studien, insbesondere bei {\"a}lteren Erwachsenen, false-hearing-Effekte festgestellt, bei dem sie sehr zuversichtlich waren, w{\"a}hrend der Worterkennung eine korrekte Antwort zu geben, die aber tats{\"a}chlich falsch war (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Wir untersuchen dieses Ph{\"a}nomen und gehen der Frage nach, inwieweit die metakognitiven Entscheidungen unserer Versuchspersonen ihr Vertrauen in das akustische Signal oder den semantischen Kontext widerspiegeln. Auch hier variieren wir das Rauschen, konzentrieren uns aber jetzt auf den Rauschpegel (0 SNR dB oder -5 SNR dB) und nicht auf die Art des Rauschens (wir verwenden nur Babble Noise). Unsere Ergebnisse zeigen, dass das Ausma{\ss} des Fehlh{\"o}rens direkt mit der Wahrnehmbarkeit des Sprachsignals zusammenh{\"a}ngt und dass die eigen Einsch{\"a}tzung der Versuchspersonen, ob das Wort im Signal so gesprochen wurde, ebenfalls damit {\"u}bereinstimmen: Je mehr {\"U}berschneidungen zwischen Sprachsignal und St{\"o}rger{\"a}usch, desto weniger waren die Versuchspersonen sich sicher, dass sie die richtige Antwort gegeben haben. Wir finden keine Hinweise auf false-hearing-Effekte, was auf die von uns getestete Population zur{\"u}ckzuf{\"u}hren sein k{\"o}nnte. Stattdessen hing die H{\"o}he der Sicherheitsbewertungen von der Schwierigkeit der H{\"o}rbedingung ab. Das dritte Experiment untersucht die Folgen des H{\"o}rens von mehr oder weniger vorhersehbarer Sprache im Hintergrundger{\"a}usch, indem es die Versuchspersonen nicht nur fragt, was sie geh{\"o}rt haben. Wir testen, wie das sp{\"a}tere Wiedererkennungsged{\"a}chtnis der Versuchspersonen durch diese verschiedenen H{\"o}rbedingungen beeinflusst wird. In fr{\"u}heren Studien wurden Effekte falschen Erinnerns festgestellt, bei denen Elemente, die (in hohem Ma{\ss}e) vorhergesagt, aber nicht tats{\"a}chlich pr{\"a}sentiert wurden, im Ged{\"a}chtnis verbleiben, so dass sie von den Veruschspersonen in Ged{\"a}chtnistests wiedergegeben werden (Haeuser & Kray, 2022a; Hubbard et al., 2019). Wir wollen testen, ob dieser Effekt bei Hintergrundger{\"a}uschen st{\"a}rker ist, da sich die H{\"o}rer unter diesen Bedingungen st{\"a}rker auf pr{\"a}diktive Prozesse verlassen. In unserem Experiment h{\"o}rten die Versuchspersonen zun{\"a}chst S{\"a}tze, die entweder in St{\"o}rger{\"a}usche eingebettet oder in Ruhe pr{\"a}sentiert wurden. Die Vorhersagbarkeit des Zielworts wurde durch {\"A}nderung der Wortreihenfolge des Satzes beeinflusst, und wir variierten auch die H{\"a}ufigkeit der Zielw{\"o}rter. In einem Test zum Wiedererkennen von {\"U}berraschungen fragten wir die Versuchspersonen, ob sie das dargebotene Wort schon einmal gesehen hatten, wobei es drei Arten von W{\"o}rtern gab: alte Begriffe, die sie schon einmal geh{\"o}rt hatten, neue Begriffe, die sie noch nie geh{\"o}rt hatten und die in keinem Zusammenhang mit den S{\"a}tzen standen, und semantische K{\"o}der, die sie noch nie geh{\"o}rt hatten, die aber semantisch mit den alten Begriffen verbunden waren. Die Ergebnisse zeigten, dass die Ged{\"a}chtnisleistung f{\"u}r die semantischen K{\"o}der nicht durch Faktoren auf Satzebene, wie Hintergrundger{\"a}usche oder Vorhersagbarkeit, beeinflusst wurde. W{\"a}hrend dies bei den alten Elemente der Fall war, zeigen diese Ergebnisse zusammengenommen, dass wir keine Hinweise auf falsche Erinnerneffekte bei den K{\"o}der-Elemente gefunden haben, sondern dass die Genauigkeit bei den alten Elemente, {\"a}hnlich wie in den beiden vorangegangenen Experimenten, von der Schwierigkeit der H{\"o}rbedingung abhing. Wir erweitern die Literatur, indem wir drei Faktoren kombinieren, die beim Sprachverstehen im L{\"a}rm interagieren, n{\"a}mlich die Art des L{\"a}rms, bestimmte Sprachlaute in den Stimuli und die Vorhersagbarkeit des Kontexts. Die ersten beiden Faktoren interagieren, was zu einer Variation des Anteils des Sprachsignals f{\"u}hrt, der verdeckt wird. In fr{\"u}heren Studien wurde diese Wechselwirkung zwar untersucht, allerdings vorwiegend bei isolierten Silben (Alwan et al., 2011; Cooke, 2009; Gordon- Salant, 1985; Phatak et al., 2008; Pickett, 1957). Da H{\"o}rer im Alltag in der Lage sind, Vorhersagen auf der Grundlage des semantischen Kontexts zu treffen, um ihren Erkennungsprozess zu steuern, ist es wichtig, auch den Effekt eines mehr oder weniger vorhersagenden Satzkontexts zu ber{\"u}cksichtigen. Wir zeigen, dass die drei Faktoren zusammenwirken und zu geringf{\"u}gigen Unterschieden in der Verst{\"a}ndlichkeit der Stimuli f{\"u}hren, je nach Art des Hintergrundrauschens und der Phoneme im akustischen Signal. Daher ist der Effekt der Vorhersagbarkeit st{\"a}rker, wenn das Hintergrundger{\"a}usch st{\"a}rker mit einem bestimmten Sprachklang interferiert. Dies wirkt sich darauf aus, wie sehr sich der H{\"o}rer bei der Spracherkennung auf Top-down- oder Bottom-up-Prozesse verl{\"a}sst. Der R{\"u}ckgriff auf pr{\"a}diktive Prozesse kann zu falsch erkannten W{\"o}rtern f{\"u}hren, wenn der Satzkontext irref{\"u}hrend ist. Wir zeigen, dass die Vorhersagen des Noisy-Channel-Modells auch dann zutreffen, wenn sie in einem anderen Versuchsaufbau als bisher getestet werden, n{\"a}mlich mit einem anderen Satz von Stimuli und in akustischem Hintergrundrauschen. Wir verwendeten gesprochene Stimuli, die in Hintergrundger{\"a}usche unterschiedlicher Art und Lautst{\"a}rke eingebettet waren, und manipulierten die wahrgenommene Ger{\"a}uschmenge durch die {\"U}berlappung des Sprachsignals und des akustischen Rauschens, indem wir Stimuli mit unterschiedlichen Klangkontrasten konstruierten (Minimalpaare mit Plosiven, Frikativen und Affrikaten sowie Vokalen). Da unter diesen verschiedenen H{\"o}rbedingungen die Klarheit des Sprachsignals und damit der erforderliche Verarbeitungsaufwand variiert, macht das Noisy Channel Model feink{\"o}rnige Vorhersagen dar{\"u}ber, wie sehr sich H{\"o}rer entweder auf das akustische Signal von unten nach oben oder auf pr{\"a}diktive Prozesse von oben nach unten verlassen. Wir haben zus{\"a}tzlich zwei verschiedene Populationen getestet, n{\"a}mlich j{\"u}ngere und {\"a}ltere Erwachsene. Bei {\"a}lteren Erwachsenen wurde bereits festgestellt, dass sie sich st{\"a}rker auf pr{\"a}diktive Prozesse verlassen als j{\"u}ngere Erwachsene, so dass wir die Vorhersagen des Noisy- Channel-Modells weiter testen konnten. Auch hier wurden die Vorhersagen durch unsere Daten best{\"a}tigt. Insgesamt bieten unsere Ergebnisse eine zus{\"a}tzliche und {\"u}bereinstimmende Unterst{\"u}tzung f{\"u}r das Noisy-Channel-Modell. Wir replizieren den Befund, dass {\"a}ltere Erwachsene dazu neigen, sich mehr auf den Satzkontext zu verlassen als j{\"u}ngere Erwachsene. W{\"a}hrend dies in der bisherigen Literatur h{\"a}ufig berichtet wurde, zeigen wir diesen Effekt in einer Online-Studie mit einer j{\"u}ngeren Versuchspersonengruppe (50-65 Jahre) als in diesen Studien {\"u}blich (65+). Wir haben auch den false-hearing-Effekt untersucht. Bei diesem Effekt ist das Vertrauen in falsche Antworten hoch, und es wurde festgestellt, dass dieser Effekt bei {\"a}lteren Erwachsenen st{\"a}rker ist als bei j{\"u}ngeren Erwachsenen. Dies wird auf den altersbedingten Abbau der kognitiven Kontrolle zur{\"u}ckgef{\"u}hrt. In unserem Experiment konnten wir den Befund des false hearings nicht replizieren. Stattdessen fanden wir eine Tendenz zu geringerer Zuversicht bei falschen Antworten, die mit der Schwierigkeit der H{\"o}rbedingung {\"u}bereinstimmt: Je mehr {\"U}berschneidungen zwischen Sprachlauten und Ger{\"a}uschen oder je h{\"o}her der Ger{\"a}uschpegel, desto geringer war die Zuversicht unserer H{\"o}rer, sowohl bei j{\"u}ngeren als auch bei {\"a}lteren Erwachsenen. Eine m{\"o}gliche Erkl{\"a}rung f{\"u}r das Fehlen des false-hearing-Effekts ist das relativ junge Alter unserer Gruppe {\"a}lterer Versuchspersonen. Wir untersuchten die Folgen des H{\"o}rens bei Hintergrundger{\"a}uschen, d.h. die Art und Weise, wie Prozesse h{\"o}herer Ordnung durch unterschiedliche H{\"o}rbedingungen (unterschiedliche Ger{\"a}usche und Vorhersagbarkeit) beeinflusst werden. Dies ist wichtig, um die Auswirkungen von Hintergrundger{\"a}uschen und Vorhersagbarkeit auf die Kommunikation zu untersuchen, die viel mehr umfasst als nur das Erkennen von W{\"o}rtern. Wir zeigen, dass der Schwierigkeitsgrad der H{\"o}rbedingung die metakognitiven Urteile beeinflusst, operationalisiert durch Sicherheitsbewertungen: Je schwieriger die H{\"o}rbedingung war, desto geringer war die Sicherheit der H{\"o}rer, was auf ein Bewusstsein f{\"u}r die Ver{\"a}nderung der Bedingung hinweist. Dar{\"u}ber hinaus untersuchten wir, wie Hintergrundger{\"a}usche und Ver{\"a}nderungen in der Vorhersagbarkeit das sp{\"a}tere Wiedererkennungsged{\"a}chtnis f{\"u}r experimentelle Elemente beeinflussen. Wir zeigen, dass diese Faktoren bei zuvor pr{\"a}sentierten Elemente die Ged{\"a}chtnisleistung beeinflussen. Was wir jedoch nicht beobachten k{\"o}nnen, ist ein falsche Erinnerung f{\"u}r nicht pr{\"a}sentierte, aber semantisch verwandte Elemente. Zusammenfassend l{\"a}sst sich sagen, dass die Ergebnisse dieser Dissertation zu unserem Verst{\"a}ndnis der Spracherkennung unter ung{\"u}nstigen H{\"o}rbedingungen, insbesondere bei Hintergrundger{\"a}uschen, beitragen und zeigen, wie pr{\"a}diktive Prozesse die Sprachwahrnehmung sowohl f{\"o}rdern als auch behindern k{\"o}nnen.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A4

Chingacham, Anupama; Demberg, Vera; Klakow, Dietrich

A Data-Driven Investigation of Noise-Adaptive Utterance Generation with Linguistic Modification Inproceedings

2022 IEEE Spoken Language Technology Workshop (SLT 2022, 9th - 12th January 2023, Doha, Qatar), 2023.

In noisy environments, speech can be hard to understand for humans. Spoken dialog systems can help to enhance the intelligibility of their output, either by modifying the speech synthesis (e.g., imitate Lombard speech) or by optimizing the language generation. We here focus on the second type of approach, by which an intended message is realized with words that are more intelligible in a specific noisy environment. By conducting a speech perception experiment, we created a dataset of 900 paraphrases in babble noise, perceived by native English speakers with normal hearing. We find that careful selection of paraphrases can improve intelligibility by 33% at SNR -5 dB. Our analysis of the data shows that the intelligibility differences between paraphrases are mainly driven by noise-robust acoustic cues. Furthermore, we propose an intelligibility-aware paraphrase ranking model, which outperforms baseline models with a relative improvement of 31.37% at SNR -5 dB.

@inproceedings{Chingachametal23,
title = {A Data-Driven Investigation of Noise-Adaptive Utterance Generation with Linguistic Modification},
author = {Anupama Chingacham and Vera Demberg and Dietrich Klakow},
url = {https://arxiv.org/abs/2210.10252},
doi = {https://doi.org/10.48550/arXiv.2210.10252},
year = {2023},
date = {2023},
booktitle = {2022 IEEE Spoken Language Technology Workshop (SLT 2022, 9th - 12th January 2023, Doha, Qatar)},
abstract = {In noisy environments, speech can be hard to understand for humans. Spoken dialog systems can help to enhance the intelligibility of their output, either by modifying the speech synthesis (e.g., imitate Lombard speech) or by optimizing the language generation. We here focus on the second type of approach, by which an intended message is realized with words that are more intelligible in a specific noisy environment. By conducting a speech perception experiment, we created a dataset of 900 paraphrases in babble noise, perceived by native English speakers with normal hearing. We find that careful selection of paraphrases can improve intelligibility by 33% at SNR -5 dB. Our analysis of the data shows that the intelligibility differences between paraphrases are mainly driven by noise-robust acoustic cues. Furthermore, we propose an intelligibility-aware paraphrase ranking model, which outperforms baseline models with a relative improvement of 31.37% at SNR -5 dB.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   A4

Bhandari, Pratik

Interaction of top-down and bottom-up processes in spoken language comprehension PhD Thesis

Saarland University, Saarbruecken, Germany, 2022.

It seems pretty easy to listen to and understand someone speaking. However, our day-to-day conversations occur under adverse listening conditions. For example, background noise comes from different sound sources, multiple people talk simul- taneously (e.g., in a café), a poor signal connection distorts the voice of a person talking on the other end of a telephone call, and the list goes on. Despite these adversities, most of the time, we communicate successfully. One of the significant contributors to our ability to understand language in adverse listening conditions is predictive language processing. Humans are not passive consumers of language: we use the information available to us from a context and predict the not-yet-encountered, upcoming linguistic events. We do not wait for a speech signal to unfold completely to decode its meaning. This feature of human language processing is critical in understanding speech in adverse listening conditions. The studies in this thesis are timely in the field when the discussion about the role of prediction in language processing is vibrant and to some extent—heated. Some argue that prediction is a universal phenomenon, not only of language, but of human cognition, in general. The present thesis examined the boundary conditions of predictive language processing. We investigated if linguistic predictions are automatic, or if they are constrained by other factors like top-down attention regulation and bottom-up processing of different speech rates in degraded speech comprehension. In this thesis, we examined how listeners can use context information and form predictions while listening to speech at different levels of degradation. The central theme of the thesis is the investigation of the interactions between top- down semantic predictions and bottom-up auditory processing in adverse listening conditions under the theoretical framework of predictive processing and the noisy channel model of communication. We first introduce these concepts of top-down– bottom-up interactions in adverse listening conditions, then report the experiments that empirically investigated different aspects of degraded speech comprehension and the top-down – bottom-up interactions. Our findings showed that to understand a speaker’s utterance in a noisy channel (e.g., due to the degradation of speech signal), a listener takes into account the noise in the signal as well as the context information to form lexical-semantic predictions. Studies have shown that lexical-semantic predictions facilitate language com- prehension. We investigated if such a facilitatory effect of linguistic predictions is observed at all levels of speech degradation. We also addressed the debate on the nature of predictability effect (graded vs all-or-nothing). The studies in this thesis concluded that comprehension of degraded speech is predictive in nature: language processing in a noisy channel is probabilistic and rational. Listeners weigh top-down predictive (lexical-semantic cues) and bottom- up auditory (acoustic-phonetic cues) processes. When the speech degradation is not severe, they can rely on the bottom-up input of an upcoming word (i.e., what they actually heard), regardless of the context information available to them. When the speech is moderately degraded but intelligible enough, they generate predictions about the upcoming word from the context information. In addition, the weighing of lexical-semantic and acoustic-phonetic cues is also modulated by attention regulation and speech rate. Taken together, this thesis contributes to a better understanding of the dynamic interaction between top-down and bottom-up processes in speech comprehension.


Es scheint ziemlich einfach zu sein, jemandem beim Sprechen zuzuhören und ihn zu verstehen. Unsere täglichen Gespräche finden jedoch unter ungünstigen Bedingungen statt. Zum Beispiel kommen Hintergrundgeräusche von verschiedenen Schallquellen, mehrere Personen sprechen gleichzeitig (z. B. in einem Café), eine schlechte Signalverbindung verzerrt die Stimme des Gesprächspartners am anderen Ende des Telefons, und die Liste geht weiter. Trotz dieser Widrigkeiten kommunizieren wir in den meisten Fällen erfolgreich. Einer der wichtigsten Faktoren, der dazu beiträgt, dass wir Sprache auch unter ungünstigen Bedingungen verstehen können, ist die predictive language processing. In dieser Arbeit haben wir untersucht, wie Hörer Kontextinformationen nutzen und Vorhersagen treffen können, während sie Sprache mit unterschiedliche starken Signalstörungen hören. Das zentrale Thema der Arbeit ist die Untersuchung der Wechselwirkung zwischen semantischen Vorhersagen basierend auf dem vorigen Kontext und auditiver Verarbeitung des Sprachsignals unter ungünstigen Hörbedingungen im theoretischen Rahmen der “predictive processing” und des “noisy channel model of communication”. Es gibt zahlreiche Methoden, mit denen Kontextinformationen und Sprachverschlechterung (ungünstige Hörbedingungen) in einem Versuchsaufbau erzeugt und manipuliert werden können. Wir haben die Kontextinformationen manipuliert, indem wir kurze Subjekt-Verb-Objekt-Sätze auf Deutsch erstellt haben, in denen das Verb eines Satzes das Substantiv vorhersagt. Zusätzlich zur Kontextinformation untersuchten wir den Effekt der strategischen Aufmerksamkeitszuweisung als Top-down-Prozess. Die Sprache wurde durch “noisevocoding” der reinen Sprache degradiert. Zusätzlich zur noise-vocoding untersuchten wir die Wirkung von Änderungen der Sprechgeschwindigkeit als weiteren Faktor, der die Bottom-up-Prozesse beeinflusst. In Kapitel 5 untersuchten wir zunächst die Rolle der Top-down- Aufmerksamkeitsregulation für die Fähigkeit der Hörer, die Kontextinformationen zu nutzen. Unsere Forschungsfrage lautete, ob die Aufmerksamkeit auf den Kontext unabhängig von den Hörer, unbedingt erforderlich ist, um Vorhersagen über ein kommendes Wort in einem Satz auf verschiedenen Degradationsstufen zu treffen. Wir konnten zeigen, dass die semantische Vorhersagbarkeit eines Satzes nur dann zu einem besseren Sprachverständnis beiträgt, wenn die Hörer auf die Kontextinformationen achten. Darüber hinaus war eine solche Erleichterung bei schweren Degradationsstufen nicht vorhanden. Wir haben diese Ergebnisse in Kapitel 6 weiter untersucht und festgestellt, dass der erleichternde Effekt der Vorhersagbarkeit nur bei einem moderaten Grad der Sprachverschlechterung zu beobachten ist. Wir untersuchten die Art des Vorhersageeffekts und fanden heraus, dass er abgestuft ist und nicht alles oder nichts beinhaltet. Mit anderen Worten, wir fanden heraus, dass die Vorhersage der Hörer über ein kommendes Wort nicht nur auf einen stark einschränkenden Satzkontext beschränkt ist; stattdessen sagen die Hörer das kommende Wort in Abhängigkeit von der Wahrscheinlichkeit seines Auftretens in einem bestimmten Kontext voraus (z. B. “cloze probability”). Schließlich untersuchten wir in Kapitel 7, ob eine Änderung der Sprechgeschwindigkeit – die die Verarbeitungszeit verändert – die in Kapitel 6 beobachtete kontextuelle Erleichterung verstärkt oder verringert. Die Ergebnisse zeigten, dass das Hörverstehen der mäßig verschlechterten Sprache bei normaler Sprechgeschwindigkeit am besten ist: Eine Verlangsamung verstärkte die kontextuelle Erleichterung nicht. Bei Erhöhung der Sprechgeschwindigkeit wurde jedoch die Verarbeitung von Sätzen mit geringer, aber nicht mit hoher Vorhersagbarkeit beeinträchtigt. In der begrenzten Verarbeitungszeit war die Aktivierung von Zielwörtern in einem weniger einschränkenden Satzkontext schwieriger als in einem stark einschränkenden Satzkontext. All diese Experimente, die mit deutschen Stimuli an jungen Erwachsenen mit deutscher Muttersprache durchgeführt wurden, haben gezeigt, dass das Verstehen verschlechterter Sprache prädiktiver Natur ist: Die Sprachverarbeitung in einem verrauschten Kanal ist probabilistisch und rational. Die Hörer wägen Top-Down- Prozesse (lexikalisch-semantische Hinweise) und Bottom-Up-Hörprozesse (akustischphonetische Hinweise) ab. Wenn die Sprachverschlechterung nicht schwerwiegend ist, können sie sich auf den Bottom-up-Input eines kommenden Wortes verlassen (d. h. auf das, was sie tatsächlich gehört haben), unabhängig von den ihnen zur Verfügung stehenden Kontextinformationen. Wenn die Sprache mäßig verschlechtert, aber verständlich genug ist, erstellen sie aus den Kontextinformationen Vorhersagen über das kommende Wort. Darüber hinaus wird die Gewichtung von lexikalisch-semantischen und akustisch-phonetischen Hinweisen auch durch die Aufmerksamkeitssteuerung und die Sprechgeschwindigkeit moduliert. Insgesamt trägt diese Arbeit zu einem differenzierten Verständnis der dynamischen Interaktion zwischen Top-down- und Bottom-up-Prozessen beim Sprachverstehen bei.

@phdthesis{Bhandari_Diss_2022,
title = {Interaction of top-down and bottom-up processes in spoken language comprehension},
author = {Pratik Bhandari},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/34800},
doi = {https://doi.org/10.22028/D291-38594},
year = {2022},
date = {2022},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {It seems pretty easy to listen to and understand someone speaking. However, our day-to-day conversations occur under adverse listening conditions. For example, background noise comes from different sound sources, multiple people talk simul- taneously (e.g., in a caf{\'e}), a poor signal connection distorts the voice of a person talking on the other end of a telephone call, and the list goes on. Despite these adversities, most of the time, we communicate successfully. One of the significant contributors to our ability to understand language in adverse listening conditions is predictive language processing. Humans are not passive consumers of language: we use the information available to us from a context and predict the not-yet-encountered, upcoming linguistic events. We do not wait for a speech signal to unfold completely to decode its meaning. This feature of human language processing is critical in understanding speech in adverse listening conditions. The studies in this thesis are timely in the field when the discussion about the role of prediction in language processing is vibrant and to some extent—heated. Some argue that prediction is a universal phenomenon, not only of language, but of human cognition, in general. The present thesis examined the boundary conditions of predictive language processing. We investigated if linguistic predictions are automatic, or if they are constrained by other factors like top-down attention regulation and bottom-up processing of different speech rates in degraded speech comprehension. In this thesis, we examined how listeners can use context information and form predictions while listening to speech at different levels of degradation. The central theme of the thesis is the investigation of the interactions between top- down semantic predictions and bottom-up auditory processing in adverse listening conditions under the theoretical framework of predictive processing and the noisy channel model of communication. We first introduce these concepts of top-down– bottom-up interactions in adverse listening conditions, then report the experiments that empirically investigated different aspects of degraded speech comprehension and the top-down – bottom-up interactions. Our findings showed that to understand a speaker’s utterance in a noisy channel (e.g., due to the degradation of speech signal), a listener takes into account the noise in the signal as well as the context information to form lexical-semantic predictions. Studies have shown that lexical-semantic predictions facilitate language com- prehension. We investigated if such a facilitatory effect of linguistic predictions is observed at all levels of speech degradation. We also addressed the debate on the nature of predictability effect (graded vs all-or-nothing). The studies in this thesis concluded that comprehension of degraded speech is predictive in nature: language processing in a noisy channel is probabilistic and rational. Listeners weigh top-down predictive (lexical-semantic cues) and bottom- up auditory (acoustic-phonetic cues) processes. When the speech degradation is not severe, they can rely on the bottom-up input of an upcoming word (i.e., what they actually heard), regardless of the context information available to them. When the speech is moderately degraded but intelligible enough, they generate predictions about the upcoming word from the context information. In addition, the weighing of lexical-semantic and acoustic-phonetic cues is also modulated by attention regulation and speech rate. Taken together, this thesis contributes to a better understanding of the dynamic interaction between top-down and bottom-up processes in speech comprehension.


Es scheint ziemlich einfach zu sein, jemandem beim Sprechen zuzuh{\"o}ren und ihn zu verstehen. Unsere t{\"a}glichen Gespr{\"a}che finden jedoch unter ung{\"u}nstigen Bedingungen statt. Zum Beispiel kommen Hintergrundger{\"a}usche von verschiedenen Schallquellen, mehrere Personen sprechen gleichzeitig (z. B. in einem Caf{\'e}), eine schlechte Signalverbindung verzerrt die Stimme des Gespr{\"a}chspartners am anderen Ende des Telefons, und die Liste geht weiter. Trotz dieser Widrigkeiten kommunizieren wir in den meisten F{\"a}llen erfolgreich. Einer der wichtigsten Faktoren, der dazu beitr{\"a}gt, dass wir Sprache auch unter ung{\"u}nstigen Bedingungen verstehen k{\"o}nnen, ist die predictive language processing. In dieser Arbeit haben wir untersucht, wie H{\"o}rer Kontextinformationen nutzen und Vorhersagen treffen k{\"o}nnen, w{\"a}hrend sie Sprache mit unterschiedliche starken Signalst{\"o}rungen h{\"o}ren. Das zentrale Thema der Arbeit ist die Untersuchung der Wechselwirkung zwischen semantischen Vorhersagen basierend auf dem vorigen Kontext und auditiver Verarbeitung des Sprachsignals unter ung{\"u}nstigen H{\"o}rbedingungen im theoretischen Rahmen der “predictive processing” und des “noisy channel model of communication”. Es gibt zahlreiche Methoden, mit denen Kontextinformationen und Sprachverschlechterung (ung{\"u}nstige H{\"o}rbedingungen) in einem Versuchsaufbau erzeugt und manipuliert werden k{\"o}nnen. Wir haben die Kontextinformationen manipuliert, indem wir kurze Subjekt-Verb-Objekt-S{\"a}tze auf Deutsch erstellt haben, in denen das Verb eines Satzes das Substantiv vorhersagt. Zus{\"a}tzlich zur Kontextinformation untersuchten wir den Effekt der strategischen Aufmerksamkeitszuweisung als Top-down-Prozess. Die Sprache wurde durch “noisevocoding” der reinen Sprache degradiert. Zus{\"a}tzlich zur noise-vocoding untersuchten wir die Wirkung von {\"A}nderungen der Sprechgeschwindigkeit als weiteren Faktor, der die Bottom-up-Prozesse beeinflusst. In Kapitel 5 untersuchten wir zun{\"a}chst die Rolle der Top-down- Aufmerksamkeitsregulation f{\"u}r die F{\"a}higkeit der H{\"o}rer, die Kontextinformationen zu nutzen. Unsere Forschungsfrage lautete, ob die Aufmerksamkeit auf den Kontext unabh{\"a}ngig von den H{\"o}rer, unbedingt erforderlich ist, um Vorhersagen {\"u}ber ein kommendes Wort in einem Satz auf verschiedenen Degradationsstufen zu treffen. Wir konnten zeigen, dass die semantische Vorhersagbarkeit eines Satzes nur dann zu einem besseren Sprachverst{\"a}ndnis beitr{\"a}gt, wenn die H{\"o}rer auf die Kontextinformationen achten. Dar{\"u}ber hinaus war eine solche Erleichterung bei schweren Degradationsstufen nicht vorhanden. Wir haben diese Ergebnisse in Kapitel 6 weiter untersucht und festgestellt, dass der erleichternde Effekt der Vorhersagbarkeit nur bei einem moderaten Grad der Sprachverschlechterung zu beobachten ist. Wir untersuchten die Art des Vorhersageeffekts und fanden heraus, dass er abgestuft ist und nicht alles oder nichts beinhaltet. Mit anderen Worten, wir fanden heraus, dass die Vorhersage der H{\"o}rer {\"u}ber ein kommendes Wort nicht nur auf einen stark einschr{\"a}nkenden Satzkontext beschr{\"a}nkt ist; stattdessen sagen die H{\"o}rer das kommende Wort in Abh{\"a}ngigkeit von der Wahrscheinlichkeit seines Auftretens in einem bestimmten Kontext voraus (z. B. “cloze probability”). Schlie{\ss}lich untersuchten wir in Kapitel 7, ob eine {\"A}nderung der Sprechgeschwindigkeit - die die Verarbeitungszeit ver{\"a}ndert - die in Kapitel 6 beobachtete kontextuelle Erleichterung verst{\"a}rkt oder verringert. Die Ergebnisse zeigten, dass das H{\"o}rverstehen der m{\"a}{\ss}ig verschlechterten Sprache bei normaler Sprechgeschwindigkeit am besten ist: Eine Verlangsamung verst{\"a}rkte die kontextuelle Erleichterung nicht. Bei Erh{\"o}hung der Sprechgeschwindigkeit wurde jedoch die Verarbeitung von S{\"a}tzen mit geringer, aber nicht mit hoher Vorhersagbarkeit beeintr{\"a}chtigt. In der begrenzten Verarbeitungszeit war die Aktivierung von Zielw{\"o}rtern in einem weniger einschr{\"a}nkenden Satzkontext schwieriger als in einem stark einschr{\"a}nkenden Satzkontext. All diese Experimente, die mit deutschen Stimuli an jungen Erwachsenen mit deutscher Muttersprache durchgef{\"u}hrt wurden, haben gezeigt, dass das Verstehen verschlechterter Sprache pr{\"a}diktiver Natur ist: Die Sprachverarbeitung in einem verrauschten Kanal ist probabilistisch und rational. Die H{\"o}rer w{\"a}gen Top-Down- Prozesse (lexikalisch-semantische Hinweise) und Bottom-Up-H{\"o}rprozesse (akustischphonetische Hinweise) ab. Wenn die Sprachverschlechterung nicht schwerwiegend ist, k{\"o}nnen sie sich auf den Bottom-up-Input eines kommenden Wortes verlassen (d. h. auf das, was sie tats{\"a}chlich geh{\"o}rt haben), unabh{\"a}ngig von den ihnen zur Verf{\"u}gung stehenden Kontextinformationen. Wenn die Sprache m{\"a}{\ss}ig verschlechtert, aber verst{\"a}ndlich genug ist, erstellen sie aus den Kontextinformationen Vorhersagen {\"u}ber das kommende Wort. Dar{\"u}ber hinaus wird die Gewichtung von lexikalisch-semantischen und akustisch-phonetischen Hinweisen auch durch die Aufmerksamkeitssteuerung und die Sprechgeschwindigkeit moduliert. Insgesamt tr{\"a}gt diese Arbeit zu einem differenzierten Verst{\"a}ndnis der dynamischen Interaktion zwischen Top-down- und Bottom-up-Prozessen beim Sprachverstehen bei.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A4

Ibrahim, Omnia; Yuen, Ivan; van Os, Marjolein; Andreeva, Bistra; Möbius, Bernd

The combined effects of contextual predictability and noise on the acoustic realisation of German syllables Journal Article

The Journal of the Acoustical Society of America, 152, 2022.

Speakers tend to speak clearly in noisy environments, while they tend to reserve effort by shortening word duration in predictable contexts. It is unclear how these two communicative demands are met. The current study investigates the acoustic realizations of syllables in predictable vs unpredictable contexts across different background noise levels. Thirty-eight German native speakers produced 60 CV syllables in two predictability contexts in three noise conditions (reference = quiet, 0 dB and −10 dB signal-to-noise ratio). Duration, intensity (average and range), F0 (median), and vowel formants of the target syllables were analysed. The presence of noise yielded significantly longer duration, higher average intensity, larger intensity range, and higher F0. Noise levels affected intensity (average and range) and F0. Low predictability syllables exhibited longer duration and larger intensity range. However, no interaction was found between noise and predictability. This suggests that noise-related modifications might be independent of predictability-related changes, with implications for including channel-based and message-based formulations in speech production.

@article{ibrahim_etal_jasa2022,
title = {The combined effects of contextual predictability and noise on the acoustic realisation of German syllables},
author = {Omnia Ibrahim and Ivan Yuen and Marjolein van Os and Bistra Andreeva and Bernd M{\"o}bius},
url = {https://asa.scitation.org/doi/10.1121/10.0013413},
doi = {https://doi.org/10.1121/10.0013413},
year = {2022},
date = {2022-08-10},
journal = {The Journal of the Acoustical Society of America},
volume = {152},
number = {2},
abstract = {Speakers tend to speak clearly in noisy environments, while they tend to reserve effort by shortening word duration in predictable contexts. It is unclear how these two communicative demands are met. The current study investigates the acoustic realizations of syllables in predictable vs unpredictable contexts across different background noise levels. Thirty-eight German native speakers produced 60 CV syllables in two predictability contexts in three noise conditions (reference = quiet, 0 dB and −10 dB signal-to-noise ratio). Duration, intensity (average and range), F0 (median), and vowel formants of the target syllables were analysed. The presence of noise yielded significantly longer duration, higher average intensity, larger intensity range, and higher F0. Noise levels affected intensity (average and range) and F0. Low predictability syllables exhibited longer duration and larger intensity range. However, no interaction was found between noise and predictability. This suggests that noise-related modifications might be independent of predictability-related changes, with implications for including channel-based and message-based formulations in speech production.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Projects:   C1 A4

Bhandari, Pratik; Demberg, Vera; Kray, Jutta

Predictability effects in degraded speech comprehension are reduced as a function of attention Journal Article

Language and Cognition, Cambridge University Press, pp. 1-18, 2022.

The aim of this study was to examine the role of attention in understanding linguistic information even in a noisy environment. To assess the role of attention, we varied task instructions in two experiments in which participants were instructed to listen to short sentences and thereafter to type in the last word they heard or to type in the whole sentence. We were interested in how these task instructions influence the interplay between top-down prediction and bottom-up perceptual processes during language comprehension. Therefore, we created sentences that varied in the degree of predictability (low, medium, and high) as well as in the degree of speech degradation (four, six, and eight noise-vocoding channels). Results indicated better word recognition for highly predictable sentences for moderate, though not for high, levels of speech degradation, but only when attention was directed to the whole sentence. This underlines the important role of attention in language comprehension.

@article{bhandari_demberg_kray_2022,
title = {Predictability effects in degraded speech comprehension are reduced as a function of attention},
author = {Pratik Bhandari and Vera Demberg and Jutta Kray},
url = {https://www.cambridge.org/core/journals/language-and-cognition/article/abs/predictability-effects-in-degraded-speech-comprehension-are-reduced-as-a-function-of-attention/98F4E3A4A3FC0B7E00C8E1536D986853},
doi = {https://doi.org/10.1017/langcog.2022.16},
year = {2022},
date = {2022-07-22},
journal = {Language and Cognition},
pages = {1-18},
publisher = {Cambridge University Press},
abstract = {The aim of this study was to examine the role of attention in understanding linguistic information even in a noisy environment. To assess the role of attention, we varied task instructions in two experiments in which participants were instructed to listen to short sentences and thereafter to type in the last word they heard or to type in the whole sentence. We were interested in how these task instructions influence the interplay between top-down prediction and bottom-up perceptual processes during language comprehension. Therefore, we created sentences that varied in the degree of predictability (low, medium, and high) as well as in the degree of speech degradation (four, six, and eight noise-vocoding channels). Results indicated better word recognition for highly predictable sentences for moderate, though not for high, levels of speech degradation, but only when attention was directed to the whole sentence. This underlines the important role of attention in language comprehension.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   A4

Häuser, Katja; Kray, Jutta

Uninvited and unwanted: False memories for words predicted but not seen Inproceedings

Culbertson, Jennifer; Perfors, Andrew; Rabagliati, Hugh; Ramenzoni, Veronica;  (Ed.): Proceedings of the 44th Annual Conference of the Cognitive Science Society, Toronto, Canada (27 Jul 2022 - 30 Jul 2022), 44, pp. 2401-2408, 2022.

Semantic extension plays a key role in language change and grammaticalisation. Here we use a dyadic interaction paradigm to study semantic extension of novel labels in controlled circumstances. We ask whether participants will be able to (i) use highly accessible associations in the perceptual environment (colour-shape associations) to converge on a meaning for the novel labels, and (ii) extend these meanings to apply to both concrete targets (objects) and abstract targets (emotions). Further, given the argument that both metonymy and metaphor are important drivers of language change, we investigate whether participants will be able to draw on relations of contiguity (‘metonymic’ associations, e.g. colour-shape or object-colour) and relations of similarity (‘metaphorical’ associations, e.g. emotion-colour) to extend the meaning of labels.

@inproceedings{HaeuserKray2022,
title = {Uninvited and unwanted: False memories for words predicted but not seen},
author = {Katja H{\"a}user and Jutta Kray},
editor = {Jennifer Culbertson and Andrew Perfors and Hugh Rabagliati and Veronica Ramenzoni},
url = {https://escholarship.org/uc/item/7w22b8gm},
year = {2022},
date = {2022},
booktitle = {Proceedings of the 44th Annual Conference of the Cognitive Science Society, Toronto, Canada (27 Jul 2022 - 30 Jul 2022)},
pages = {2401-2408},
abstract = {Semantic extension plays a key role in language change and grammaticalisation. Here we use a dyadic interaction paradigm to study semantic extension of novel labels in controlled circumstances. We ask whether participants will be able to (i) use highly accessible associations in the perceptual environment (colour-shape associations) to converge on a meaning for the novel labels, and (ii) extend these meanings to apply to both concrete targets (objects) and abstract targets (emotions). Further, given the argument that both metonymy and metaphor are important drivers of language change, we investigate whether participants will be able to draw on relations of contiguity (‘metonymic’ associations, e.g. colour-shape or object-colour) and relations of similarity (‘metaphorical’ associations, e.g. emotion-colour) to extend the meaning of labels.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Projects:   A4 A5

Häuser, Katja; Kray, Jutta; Borovsky, Arielle

Hedging Bets in Linguistic Prediction: Younger and Older Adults Vary in the Breadth of Predictive Processing Journal Article

Collabra: Psychology, 8(1):36945, 2022.
Language processing is predictive in nature, but it is unknown whether language users generate multiple predictions about upcoming content simultaneously or whether spreading activation from one pre-activated word facilitates other words downstream. Simultaneously, developmental accounts of predictive processing simultaneously highlight potential tension among spreading activation vs. multiple activation accounts.We used self-paced reading to investigate if younger and older readers of German generate (multiple) graded predictions about the grammatical gender of nouns. Gradedness in predictions was operationalized as the difference in cloze probability between the most likely and second-most likely continuation that could complete a sentence. Sentences with a greater probabilistic difference were considered as imbalanced and more biased towards one gender. Sentences with lower probabilistic differences were considered to be more balanced towards multiple genders.Both young and older adults engaged in predictive processing. However, only younger adults activated multiple predictions, with slower reading times (RTs) when gender representations were balanced, but facilitation when one gender was more likely than others. In contrast, older adults’ RTs did not pattern with imbalance but merely with predictability, showing that, while able to generate predictions based on context, older adults did not predict multiple gender continuations. Hence, our findings suggest that (younger) language users generate graded predictions about upcoming content, by weighing possible sentence continuations according to their difference in cloze probability. Compared to younger adults, older adults’ predictions are reduced in scope. The results provide novel theoretical insights into the developmental mechanisms involved in predictive processing.

@article{Haeuseretal22,
title = {Hedging Bets in Linguistic Prediction: Younger and Older Adults Vary in the Breadth of Predictive Processing},
author = {Katja H{\"a}user and Jutta Kray and Arielle Borovsky},
url = {https://online.ucpress.edu/collabra/article/8/1/36945/187814/Hedging-Bets-in-Linguistic-Prediction-Younger-and},
doi = {https://doi.org/10.1525/collabra.36945},
year = {2022},
date = {2022},
journal = {Collabra: Psychology},
volume = {8(1):36945},
abstract = {

Language processing is predictive in nature, but it is unknown whether language users generate multiple predictions about upcoming content simultaneously or whether spreading activation from one pre-activated word facilitates other words downstream. Simultaneously, developmental accounts of predictive processing simultaneously highlight potential tension among spreading activation vs. multiple activation accounts.We used self-paced reading to investigate if younger and older readers of German generate (multiple) graded predictions about the grammatical gender of nouns. Gradedness in predictions was operationalized as the difference in cloze probability between the most likely and second-most likely continuation that could complete a sentence. Sentences with a greater probabilistic difference were considered as imbalanced and more biased towards one gender. Sentences with lower probabilistic differences were considered to be more balanced towards multiple genders.Both young and older adults engaged in predictive processing. However, only younger adults activated multiple predictions, with slower reading times (RTs) when gender representations were balanced, but facilitation when one gender was more likely than others. In contrast, older adults’ RTs did not pattern with imbalance but merely with predictability, showing that, while able to generate predictions based on context, older adults did not predict multiple gender continuations. Hence, our findings suggest that (younger) language users generate graded predictions about upcoming content, by weighing possible sentence continuations according to their difference in cloze probability. Compared to younger adults, older adults’ predictions are reduced in scope. The results provide novel theoretical insights into the developmental mechanisms involved in predictive processing.
},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Projects:   A4 A5

Häuser, Katja; Kray, Jutta

How odd: Diverging effects of predictability and plausibility violations on sentence reading and word memory Journal Article

Applied Psycholinguistics, 43(5), pp. 1193-1220, 2022.

How do violations of predictability and plausibility affect online language processing? How does it affect longer-term memory and learning when predictions are disconfirmed by plausible or implausible words? We investigated these questions using a self-paced sentence reading and noun recognition task. Critical sentences violated predictability or plausibility or both, for example, “Since Anne is afraid of spiders, she doesn’t like going down into the … basement (predictable, plausible), garden (unpredictable, somewhat plausible), moon (unpredictable, deeply implausible).” Results from sentence reading showed earlier-emerging effects of predictability violations on the critical noun, but later-emerging effects of plausibility violations after the noun. Recognition memory was exclusively enhanced for deeply implausible nouns. The earlier-emerging predictability effect indicates that having word form predictions disconfirmed is registered very early in the processing stream, irrespective of semantics. The later-emerging plausibility effect supports models that argue for a staged architecture of reading comprehension, where plausibility only affects a post-lexical integration stage. Our memory results suggest that, in order to facilitate memory and learning, a certain magnitude of prediction error is required.

@article{HaeuserKray22,
title = {How odd: Diverging effects of predictability and plausibility violations on sentence reading and word memory},
author = {Katja H{\"a}user and Jutta Kray},
url = {https://www.cambridge.org/core/journals/applied-psycholinguistics/article/how-odd-diverging-effects-of-predictability-and-plausibility-violations-on-sentence-reading-and-word-memory/D8E12864E47CE24E62297ABF5BA2BED0},
doi = {https://doi.org/10.1017/S0142716422000364},
year = {2022},
date = {2022},
journal = {Applied Psycholinguistics},
pages = {1193-1220},
volume = {43(5)},
abstract = {How do violations of predictability and plausibility affect online language processing? How does it affect longer-term memory and learning when predictions are disconfirmed by plausible or implausible words? We investigated these questions using a self-paced sentence reading and noun recognition task. Critical sentences violated predictability or plausibility or both, for example, “Since Anne is afraid of spiders, she doesn’t like going down into the … basement (predictable, plausible), garden (unpredictable, somewhat plausible), moon (unpredictable, deeply implausible).” Results from sentence reading showed earlier-emerging effects of predictability violations on the critical noun, but later-emerging effects of plausibility violations after the noun. Recognition memory was exclusively enhanced for deeply implausible nouns. The earlier-emerging predictability effect indicates that having word form predictions disconfirmed is registered very early in the processing stream, irrespective of semantics. The later-emerging plausibility effect supports models that argue for a staged architecture of reading comprehension, where plausibility only affects a post-lexical integration stage. Our memory results suggest that, in order to facilitate memory and learning, a certain magnitude of prediction error is required.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Projects:   A4 A5

van Os, Marjolein; Kray, Jutta; Demberg, Vera

Rational speech comprehension: Interaction between predictability, acoustic signal, and noise Journal Article

Frontiers in Psychology (Sec. Language Sciences), 13:914239, 2022.

During speech comprehension, multiple sources of information are available to listeners, which are combined to guide the recognition process. Models of speech comprehension posit that when the acoustic speech signal is obscured, listeners rely more on information from other sources. However, these models take into account only word frequency information and local contexts (surrounding syllables), but not sentence-level information. To date, empirical studies investigating predictability effects in noise did not carefully control the tested speech sounds, while the literature investigating the effect of background noise on the recognition of speech sounds does not manipulate sentence predictability. Additionally, studies on the effect of background noise show conflicting results regarding which noise type affects speech comprehension most. We address this in the present experiment. We investigate how listeners combine information from different sources when listening to sentences embedded in background noise. We manipulate top-down predictability, type of noise, and characteristics of the acoustic signal, thus creating conditions which differ in the extent to which a specific speech sound is masked in a way that is grounded in prior work on the confusability of speech sounds in noise. Participants complete an online word recognition experiment. The results show that participants rely more on the provided sentence context when the acoustic signal is harder to process. This is the case even when interactions of the background noise and speech sounds lead to small differences in intelligibility. Listeners probabilistically combine top-down predictions based on context with noisy bottom-up information from the acoustic signal, leading to a trade-off between the different types of information that is dependent on the combination of a specific type of background noise and speech sound.

@article{VanOsetal22,
title = {Rational speech comprehension: Interaction between predictability, acoustic signal, and noise},
author = {Marjolein van Os and Jutta Kray and Vera Demberg},
url = {https://www.frontiersin.org/articles/10.3389/fpsyg.2022.914239/full},
doi = {https://doi.org/10.3389/fpsyg.2022.914239},
year = {2022},
date = {2022},
journal = {Frontiers in Psychology (Sec. Language Sciences)},
volume = {13:914239},
abstract = {

During speech comprehension, multiple sources of information are available to listeners, which are combined to guide the recognition process. Models of speech comprehension posit that when the acoustic speech signal is obscured, listeners rely more on information from other sources. However, these models take into account only word frequency information and local contexts (surrounding syllables), but not sentence-level information. To date, empirical studies investigating predictability effects in noise did not carefully control the tested speech sounds, while the literature investigating the effect of background noise on the recognition of speech sounds does not manipulate sentence predictability. Additionally, studies on the effect of background noise show conflicting results regarding which noise type affects speech comprehension most. We address this in the present experiment. We investigate how listeners combine information from different sources when listening to sentences embedded in background noise. We manipulate top-down predictability, type of noise, and characteristics of the acoustic signal, thus creating conditions which differ in the extent to which a specific speech sound is masked in a way that is grounded in prior work on the confusability of speech sounds in noise. Participants complete an online word recognition experiment. The results show that participants rely more on the provided sentence context when the acoustic signal is harder to process. This is the case even when interactions of the background noise and speech sounds lead to small differences in intelligibility. Listeners probabilistically combine top-down predictions based on context with noisy bottom-up information from the acoustic signal, leading to a trade-off between the different types of information that is dependent on the combination of a specific type of background noise and speech sound.

},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   A4

van Os, Marjolein; Kray, Jutta; Demberg, Vera

Mishearing as a Side Effect of Rational Language Comprehension in Noise Journal Article

Frontiers in Psychology, 12, pp. 3488, 2021, ISSN 1664-1078.

Language comprehension in noise can sometimes lead to mishearing, due to the noise disrupting the speech signal. Some of the difficulties in dealing with the noisy signal can be alleviated by drawing on the context – indeed, top-down predictability has shown to facilitate speech comprehension in noise. Previous studies have furthermore shown that strong reliance on the top-down predictions can lead to increased rates of mishearing, especially in older adults, which are attributed to general deficits in cognitive control in older adults. We here propose that the observed mishearing may be a simple consequence of rational language processing in noise. It should not be related to failure on the side of the older comprehenders, but instead would be predicted by rational processing accounts. To test this hypothesis, we extend earlier studies by running an online listening experiment with younger and older adults, carefully controlling the target and direct competitor in our stimuli. We show that mishearing is directly related to the perceptibility of the signal. We furthermore add an analysis of wrong responses, which shows that results are at odds with the idea that participants overly strongly rely on context in this task, as most false answers are indeed close to the speech signal, and not to the semantics of the context.

@article{vanOs2021FrontPsych,
title = {Mishearing as a Side Effect of Rational Language Comprehension in Noise},
author = {Marjolein van Os and Jutta Kray and Vera Demberg},
url = {https://www.frontiersin.org/article/10.3389/fpsyg.2021.679278},
doi = {https://doi.org/10.3389/fpsyg.2021.679278},
year = {2021},
date = {2021},
journal = {Frontiers in Psychology},
pages = {3488},
volume = {12},
abstract = {Language comprehension in noise can sometimes lead to mishearing, due to the noise disrupting the speech signal. Some of the difficulties in dealing with the noisy signal can be alleviated by drawing on the context – indeed, top-down predictability has shown to facilitate speech comprehension in noise. Previous studies have furthermore shown that strong reliance on the top-down predictions can lead to increased rates of mishearing, especially in older adults, which are attributed to general deficits in cognitive control in older adults. We here propose that the observed mishearing may be a simple consequence of rational language processing in noise. It should not be related to failure on the side of the older comprehenders, but instead would be predicted by rational processing accounts. To test this hypothesis, we extend earlier studies by running an online listening experiment with younger and older adults, carefully controlling the target and direct competitor in our stimuli. We show that mishearing is directly related to the perceptibility of the signal. We furthermore add an analysis of wrong responses, which shows that results are at odds with the idea that participants overly strongly rely on context in this task, as most false answers are indeed close to the speech signal, and not to the semantics of the context.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   A4

Howcroft, David M.

Learning to generate: Bayesian nonparametric approaches to inducing rules for natural language generation PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

In order for computers to produce natural language texts from non-linguistic information, we need a system for mapping between the two, a system of Natural Language Generation (NLG). We can reduce the difficulty of developing such systems if we leverage machine learning intelligently. While there are many possible approaches to the task, this thesis argues for one in particular, focusing on sentence planning using synchronous grammars and Bayesian nonparametric methods.

We formulate sentence planning rules in terms of Synchronous Tree Substitution Grammars (sTSGs) and implement a series of hierarchical Dirichlet Processes along with a Gibbs sampler to learn such rules from appropriate corpora. Due to the lack of corpora which pair hierarchical, discourse-structured meaning representations with varied texts, we developed a new interface for crowdsourcing training corpora for NLG systems by asking participants to produce paraphrases of pre-existing texts and collected a new corpus, which we call the Extended SPaRKy Restaurant Corpus (ESRC).

After training our models on pre-existing, lexically-restricted corpora as well as the ESRC, we conduct a series of human evaluations using a novel evaluation interface. This interface enables the assessment of the fluency, semantic fidelity, and expression of discourse relations in a text in a single crowdsourcing experiment. While we identify several limitations to our approach, the evaluations suggest that our models can outperform existing neural network models with respect to semantic fidelity and in some cases maintain similar levels of fluency.

In addition to these efforts, we present a Dependency Attachment Grammar (DAG) based on (Joshi & Rambow, 2003) and extend this grammar to the synchronous setting so that future work can build upon its added flexibility relative to sTSG. In addition to these practically-oriented efforts, we also explore human variation in adapting their utterances to listeners under cognitive load through a psycholinguistic study.

This thesis opens up several directions for future research into how best to integrate the various challenging tasks involved in natural language generation and how best to evaluate these systems in the future.

@phdthesis{Howcroft_Diss_2021,
title = {Learning to generate: Bayesian nonparametric approaches to inducing rules for natural language generation},
author = {David M. Howcroft},
url = {https://davehowcroft.com/publication/2021-10_phd-thesis/},
year = {2021},
date = {2021},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {In order for computers to produce natural language texts from non-linguistic information, we need a system for mapping between the two, a system of Natural Language Generation (NLG). We can reduce the difficulty of developing such systems if we leverage machine learning intelligently. While there are many possible approaches to the task, this thesis argues for one in particular, focusing on sentence planning using synchronous grammars and Bayesian nonparametric methods. We formulate sentence planning rules in terms of Synchronous Tree Substitution Grammars (sTSGs) and implement a series of hierarchical Dirichlet Processes along with a Gibbs sampler to learn such rules from appropriate corpora. Due to the lack of corpora which pair hierarchical, discourse-structured meaning representations with varied texts, we developed a new interface for crowdsourcing training corpora for NLG systems by asking participants to produce paraphrases of pre-existing texts and collected a new corpus, which we call the Extended SPaRKy Restaurant Corpus (ESRC). After training our models on pre-existing, lexically-restricted corpora as well as the ESRC, we conduct a series of human evaluations using a novel evaluation interface. This interface enables the assessment of the fluency, semantic fidelity, and expression of discourse relations in a text in a single crowdsourcing experiment. While we identify several limitations to our approach, the evaluations suggest that our models can outperform existing neural network models with respect to semantic fidelity and in some cases maintain similar levels of fluency. In addition to these efforts, we present a Dependency Attachment Grammar (DAG) based on (Joshi & Rambow, 2003) and extend this grammar to the synchronous setting so that future work can build upon its added flexibility relative to sTSG. In addition to these practically-oriented efforts, we also explore human variation in adapting their utterances to listeners under cognitive load through a psycholinguistic study. This thesis opens up several directions for future research into how best to integrate the various challenging tasks involved in natural language generation and how best to evaluate these systems in the future.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A4

Tröger, Johannes

Executive function & semantic memory impairments in Alzheimer’s disease — investigating the decline of executive function and semantic memory in Alzheimer’s disease through computer-supported qualitative analysis of semantic verbal fluency and its applications in clinical decision support PhD Thesis

Saarland University, Saarbruecken, Germany, 2021.

Alzheimer’s Disease (AD) has a huge impact on an ever-aging society in highly developed industrialized countries such as the EU member states: according to the World Alzheimer’s Association the number one risk factor for AD is age. AD patients suffer from neurodegenerative processes driving cognitive decline which eventually results in the loss of patients’ ability of independent living. Episodic memory impairment is the most prominent cognitive symptom of AD in its clinical stage. In addition, also executive function and semantic memory impairments significantly affect activities of daily living and are discussed as important cognitive symptoms during prodromal as well as acute clinical stages of AD. Most of the research on semantic memory impairments in AD draws evidence from the Semantic Verbal Fluency (SVF) task which evidentially also places high demands on the executive function level. At the same time, the SVF is one of the most-applied routine assessments in clinical neuropsychology especially in the diagnosis of AD. Therefore, the SVF is a prime task to study semantic memory and executive function impairment side-by-side and draw conclusions about their parallel or successive impairments across the clinical trajectory of AD. To effectively investigate semantic memory and executive function processes in the SVF, novel computational measures have been proposed that tap into data-driven semantic as well as temporal metrics scoring an SVF performance on the item-level. With a better and more differentiated understanding of AD-related executive function and semantic memory impairments in the SVF, the SVF can grow from a well-established screening into a more precise diagnostic tool for early AD. As the SVF is one of the most-applied easy-to-use and low-burden neurocognitive assessments in AD, such advancements have a direct impact on clinical practice as well. For the last decades huge efforts have been put on the discovery of disease-modifying compounds responding to specific AD biomarker-related cognitive decline characteristics. However, as most pharmaceutical trials failed, the focus has shifted towards population-wide early screening with cost-effective and scalable cognitive tests representing an effective mid-term strategy. Computer-supported SVF analysis responds to this demand. This thesis pursues a two-fold objective: (1) improve our understanding of the progressive executive function and semantic memory impairments and their interplay in clinical AD as measured by the SVF and (2) harness those insights for applied early and specific AD screening. To achieve both objectives, this thesis comprises work on subjects from different clinical stages of AD (Healthy Aging, amnestic Mild Cognitive Impairment—aMCI, and AD dementia) and in different languages (German & French). All results are based on SVF speech data generated either as a one-time assessment or a repeated within-participant testing. From these SVF speech samples, qualitative markers are extracted with different amount of computational support (ranging from manual processing of speech to fully automated evaluation). The results indicate, that semantic memory is structurally affected from an early clinical—amnestic Mild Cognitive Impairment (aMCI)—stage on and is even more affected in the later acute dementia stage. The semantic memory impairment in AD is particularly worsened through the patients’ inability to compensate by engaging executive functions. Hence, over the course of the disease, hampered executive functioning and therefore the inability to compensate for corrupt semantic memory structures might be the main driver of later-stage AD patients’ notably poor cognitive performance. These insights generated on the SVF alone are only made possible through computer-supported qualitative analysis on an item-per-item level which leads the way towards potential applications in clinical decision support. The more fine-grained qualitative analysis of the SVF is clinically valuable for AD diagnosis and screening but very time-consuming if performed manually. This thesis shows though that automatic analysis pipelines can reliably and validly generate this diagnostic information from the SVF. Automatic transcription of speech plus automatic extraction of the novel qualitative SVF features result in clinical interpretation comparable to manual transcripts and improved diagnostic decision support simulated through machine learning classification experiments. This indicates that the computer-supported SVF could ultimately be used for cost-effective fully automated early clinical AD screening. This thesis advances current AD research in a two-fold manner. First it improves the understanding of the decline of executive function and semantic memory in AD as measured through computational qualitative analysis of the SVF. Secondly, this thesis embeds these theoretical advances into practical clinical decision support concepts that help screen population-wide and cost-effective for early-stage AD.


Die Alzheimer-Krankheit (AD) stellt eine enorme Herausforderung für die immer älter werdende Gesellschaft in hochentwickelten Industrieländern wie den EU-Mitgliedsstaaten dar. Nach Angaben der World Alzheimer’s Association ist der größte Risikofaktor für AD das Alter. Alzheimer-Patienten leiden unter neurodegenerativen Prozessen, die kognitiven Abbau verursachen und schließlich dazu führen, dass Patienten nicht länger selbstbestimmt leben können. Die Beeinträchtigung des episodischen Gedächtnisses ist das prominenteste kognitive Symptom von AD im klinischen Stadium. Darüber hinaus führen auch Störungen der Exekutivfunktionen sowie der semantischen Gedächtnisleistung zu erheblichen Einschränkungen bei Aktivitäten des täglichen Lebens und werden als wichtige kognitive Symptome sowohl im Prodromal- als auch im akuten klinischen Stadium von AD diskutiert. Der Großteil der Forschung zu semantischen Gedächtnisbeeinträchtigungen bei AD stützt sich auf Ergebnisse aus dem Semantic Verbal Fluency Tests (SVF), der auch die Exekutivfunktionen stark fordert. In der Praxis ist die SVF eines der am häufigsten eingesetzten Routine- Assessments in der klinischen Neuropsychologie, insbesondere bei der Diagnose von AD. Daher ist die SVF eine erstklassige Aufgabe, um die Beeinträchtigung des semantischen Gedächtnisses und der exekutiven Funktionen Seite an Seite zu untersuchen und Rückschlüsse auf ihre parallelen oder sukzessiven Beeinträchtigungen im klinischen Verlauf von AD zu ziehen. Um semantische Gedächtnis- und Exekutivfunktionsprozesse in der SVF effektiv zu untersuchen, wurden jüngst neuartige computergestützte Verfahren vorgeschlagen, die sowohl datengetriebene semantische als auch temporäre Maße nutzen, die eine SVF-Leistung auf Item-Ebene bewerten. Mit einem besseren und differenzierteren Verständnis von ADbedingten Beeinträchtigungen der Exekutivfunktionen und des semantischen Gedächtnisses in der SVF kann sich die SVF von einem gut etablierten Screening zu einem präziseren Diagnoseinstrument für frühe AD entwickeln. Da die SVF eines der am häufigsten angewandten, einfach zu handhabenden und wenig belastenden neurokognitiven Assessments bei AD ist, haben solche Fortschritte auch einen direkten Einfluss auf die klinische Praxis. In den letzten Jahrzehnten wurden enorme Anstrengungen unternommen, um krankheitsmodifizierende Substanzen zu finden, die auf spezifische, mit AD-Biomarkern verbundene Merkmale des kognitiven Abbaus reagieren. Da jedoch die meisten pharmazeutischen Studien in jüngster Vergangenheit fehlgeschlagen sind, wird heute als mittelfristige Strategie bevölkerungsweite Früherkennung mit kostengünstigen und skalierbaren kognitiven Tests gefordert. Die computergestützte SVF-Analyse ist eine Antwort auf diese Forderung. Diese Arbeit verfolgt deshalb zwei Ziele: (1) Verbesserung des Verständnisses der fortschreitenden Beeinträchtigungen der Exekutivfunktionen und des semantischen Gedächtnisses und ihres Zusammenspiels bei klinischer AD, gemessen durch die SVF, und (2) Nutzung dieser Erkenntnisse für angewandte AD-Früherkennung. Um beide Ziele zu erreichen, umfasst diese Thesis Forschung mit Probanden aus verschiedenen klinischen AD Stadien (gesundes Altern, amnestisches Mild Cognitive Impairment-aMCI, und AD-Demenz) und in verschiedenen Sprachen (Deutsch & Französisch). Alle Ergebnisse basieren auf SVF Sprachdaten, erhoben im Querschnittdesign oder als wiederholte Testung in einem Längsschnittdesign. Aus diesen SVF-Sprachproben werden mit unterschiedlicher rechnerischer Unterstützung qualitative Marker extrahiert (von manueller Verarbeitung der Sprache bis hin zu vollautomatischer Auswertung). Die Ergebnisse zeigen, dass das semantische Gedächtnis bereits im frühen aMCI Stadium strukturell beeinträchtigt ist und im späteren akuten Demenzstadium noch stärker betroffen ist. Die strukturelle Beeinträchtigung des semantischen Gedächtnisses bei Alzheimer wird insbesondere dadurch verschlimmert, dass die Patienten nicht in der Lage sind, dies durch den Einsatz exekutiver Funktionen zu kompensieren. Daher könnten im Verlauf der Erkrankung eingeschränkte Exekutivfunktionen und damit die Unfähigkeit, degenerierte semantische Gedächtnisstrukturen zu kompensieren, die Hauptursache für die auffallend schlechten kognitiven Leistungen von AD-Patienten im Akutstadium sein. Diese Erkenntnisse basierend auf der SVF alleine werden erst durch die computergestützte qualitative Analyse auf Item-per-Item-Ebene möglich und weisen den Weg zu möglichen Anwendungen in der klinischen Entscheidungsunterstützung. Die feinkörnigere qualitative Analyse der SVF ist klinisch wertvoll für die AD-Diagnose und das Screening, aber sehr zeitaufwändig, wenn sie manuell durchgeführt wird. Diese Arbeit zeigt jedoch, dass automatische Analysepipelines diese diagnostischen Informationen zuverlässig und valide aus der SVF generieren können. Die automatische Transkription von Sprache plus die automatische Extraktion der neuartigen qualitativen SVF-Merkmale führen zu einer klinischen Interpretation, die mit manuellen Analysen vergleichbar ist. Diese Verarbeitung führt auch zu einer verbesserten diagnostischen Entscheidungsunterstützung, die durch Klassifikationsexperimente mit maschinellem Lernen simuliert wurde. Dies deutet darauf hin, dass die computergestützte SVF letztendlich für ein kostengünstiges vollautomatisches klinisches AD-Frühscreening eingesetzt werden könnte. Diese Arbeit bringt die aktuelle AD-Forschung auf zweifache Weise voran. Erstens verbessert sie unser Verständnis der kognitiven Einschränkungen im Bereich der Exekutivfunktionen und des semantischen Gedächtnisses bei AD, gemessen durch die computergestützte qualitative Analyse der SVF. Zweitens bettet diese Arbeit diese theoretischen Fortschritte in ein praktisches Konzept zur klinischen Entscheidungsunterstützung ein, das zukünftig ein bevölkerungsweites und kosteneffektives Screening für AD im Frühstadium ermöglichen könnte.

@phdthesis{Tröger_Diss_2021,
title = {Executive function & semantic memory impairments in Alzheimer’s disease — investigating the decline of executive function and semantic memory in Alzheimer’s disease through computer-supported qualitative analysis of semantic verbal fluency and its applications in clinical decision support},
author = {Johannes Tr{\"o}ger},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/31994},
doi = {https://doi.org/10.22028/D291-35033},
year = {2021},
date = {2021-12-07},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {Alzheimer’s Disease (AD) has a huge impact on an ever-aging society in highly developed industrialized countries such as the EU member states: according to the World Alzheimer’s Association the number one risk factor for AD is age. AD patients suffer from neurodegenerative processes driving cognitive decline which eventually results in the loss of patients’ ability of independent living. Episodic memory impairment is the most prominent cognitive symptom of AD in its clinical stage. In addition, also executive function and semantic memory impairments significantly affect activities of daily living and are discussed as important cognitive symptoms during prodromal as well as acute clinical stages of AD. Most of the research on semantic memory impairments in AD draws evidence from the Semantic Verbal Fluency (SVF) task which evidentially also places high demands on the executive function level. At the same time, the SVF is one of the most-applied routine assessments in clinical neuropsychology especially in the diagnosis of AD. Therefore, the SVF is a prime task to study semantic memory and executive function impairment side-by-side and draw conclusions about their parallel or successive impairments across the clinical trajectory of AD. To effectively investigate semantic memory and executive function processes in the SVF, novel computational measures have been proposed that tap into data-driven semantic as well as temporal metrics scoring an SVF performance on the item-level. With a better and more differentiated understanding of AD-related executive function and semantic memory impairments in the SVF, the SVF can grow from a well-established screening into a more precise diagnostic tool for early AD. As the SVF is one of the most-applied easy-to-use and low-burden neurocognitive assessments in AD, such advancements have a direct impact on clinical practice as well. For the last decades huge efforts have been put on the discovery of disease-modifying compounds responding to specific AD biomarker-related cognitive decline characteristics. However, as most pharmaceutical trials failed, the focus has shifted towards population-wide early screening with cost-effective and scalable cognitive tests representing an effective mid-term strategy. Computer-supported SVF analysis responds to this demand. This thesis pursues a two-fold objective: (1) improve our understanding of the progressive executive function and semantic memory impairments and their interplay in clinical AD as measured by the SVF and (2) harness those insights for applied early and specific AD screening. To achieve both objectives, this thesis comprises work on subjects from different clinical stages of AD (Healthy Aging, amnestic Mild Cognitive Impairment—aMCI, and AD dementia) and in different languages (German & French). All results are based on SVF speech data generated either as a one-time assessment or a repeated within-participant testing. From these SVF speech samples, qualitative markers are extracted with different amount of computational support (ranging from manual processing of speech to fully automated evaluation). The results indicate, that semantic memory is structurally affected from an early clinical—amnestic Mild Cognitive Impairment (aMCI)—stage on and is even more affected in the later acute dementia stage. The semantic memory impairment in AD is particularly worsened through the patients’ inability to compensate by engaging executive functions. Hence, over the course of the disease, hampered executive functioning and therefore the inability to compensate for corrupt semantic memory structures might be the main driver of later-stage AD patients’ notably poor cognitive performance. These insights generated on the SVF alone are only made possible through computer-supported qualitative analysis on an item-per-item level which leads the way towards potential applications in clinical decision support. The more fine-grained qualitative analysis of the SVF is clinically valuable for AD diagnosis and screening but very time-consuming if performed manually. This thesis shows though that automatic analysis pipelines can reliably and validly generate this diagnostic information from the SVF. Automatic transcription of speech plus automatic extraction of the novel qualitative SVF features result in clinical interpretation comparable to manual transcripts and improved diagnostic decision support simulated through machine learning classification experiments. This indicates that the computer-supported SVF could ultimately be used for cost-effective fully automated early clinical AD screening. This thesis advances current AD research in a two-fold manner. First it improves the understanding of the decline of executive function and semantic memory in AD as measured through computational qualitative analysis of the SVF. Secondly, this thesis embeds these theoretical advances into practical clinical decision support concepts that help screen population-wide and cost-effective for early-stage AD.


Die Alzheimer-Krankheit (AD) stellt eine enorme Herausforderung f{\"u}r die immer {\"a}lter werdende Gesellschaft in hochentwickelten Industriel{\"a}ndern wie den EU-Mitgliedsstaaten dar. Nach Angaben der World Alzheimer's Association ist der gr{\"o}{\ss}te Risikofaktor f{\"u}r AD das Alter. Alzheimer-Patienten leiden unter neurodegenerativen Prozessen, die kognitiven Abbau verursachen und schlie{\ss}lich dazu f{\"u}hren, dass Patienten nicht l{\"a}nger selbstbestimmt leben k{\"o}nnen. Die Beeintr{\"a}chtigung des episodischen Ged{\"a}chtnisses ist das prominenteste kognitive Symptom von AD im klinischen Stadium. Dar{\"u}ber hinaus f{\"u}hren auch St{\"o}rungen der Exekutivfunktionen sowie der semantischen Ged{\"a}chtnisleistung zu erheblichen Einschr{\"a}nkungen bei Aktivit{\"a}ten des t{\"a}glichen Lebens und werden als wichtige kognitive Symptome sowohl im Prodromal- als auch im akuten klinischen Stadium von AD diskutiert. Der Gro{\ss}teil der Forschung zu semantischen Ged{\"a}chtnisbeeintr{\"a}chtigungen bei AD st{\"u}tzt sich auf Ergebnisse aus dem Semantic Verbal Fluency Tests (SVF), der auch die Exekutivfunktionen stark fordert. In der Praxis ist die SVF eines der am h{\"a}ufigsten eingesetzten Routine- Assessments in der klinischen Neuropsychologie, insbesondere bei der Diagnose von AD. Daher ist die SVF eine erstklassige Aufgabe, um die Beeintr{\"a}chtigung des semantischen Ged{\"a}chtnisses und der exekutiven Funktionen Seite an Seite zu untersuchen und R{\"u}ckschl{\"u}sse auf ihre parallelen oder sukzessiven Beeintr{\"a}chtigungen im klinischen Verlauf von AD zu ziehen. Um semantische Ged{\"a}chtnis- und Exekutivfunktionsprozesse in der SVF effektiv zu untersuchen, wurden j{\"u}ngst neuartige computergest{\"u}tzte Verfahren vorgeschlagen, die sowohl datengetriebene semantische als auch tempor{\"a}re Ma{\ss}e nutzen, die eine SVF-Leistung auf Item-Ebene bewerten. Mit einem besseren und differenzierteren Verst{\"a}ndnis von ADbedingten Beeintr{\"a}chtigungen der Exekutivfunktionen und des semantischen Ged{\"a}chtnisses in der SVF kann sich die SVF von einem gut etablierten Screening zu einem pr{\"a}ziseren Diagnoseinstrument f{\"u}r fr{\"u}he AD entwickeln. Da die SVF eines der am h{\"a}ufigsten angewandten, einfach zu handhabenden und wenig belastenden neurokognitiven Assessments bei AD ist, haben solche Fortschritte auch einen direkten Einfluss auf die klinische Praxis. In den letzten Jahrzehnten wurden enorme Anstrengungen unternommen, um krankheitsmodifizierende Substanzen zu finden, die auf spezifische, mit AD-Biomarkern verbundene Merkmale des kognitiven Abbaus reagieren. Da jedoch die meisten pharmazeutischen Studien in j{\"u}ngster Vergangenheit fehlgeschlagen sind, wird heute als mittelfristige Strategie bev{\"o}lkerungsweite Fr{\"u}herkennung mit kosteng{\"u}nstigen und skalierbaren kognitiven Tests gefordert. Die computergest{\"u}tzte SVF-Analyse ist eine Antwort auf diese Forderung. Diese Arbeit verfolgt deshalb zwei Ziele: (1) Verbesserung des Verst{\"a}ndnisses der fortschreitenden Beeintr{\"a}chtigungen der Exekutivfunktionen und des semantischen Ged{\"a}chtnisses und ihres Zusammenspiels bei klinischer AD, gemessen durch die SVF, und (2) Nutzung dieser Erkenntnisse f{\"u}r angewandte AD-Fr{\"u}herkennung. Um beide Ziele zu erreichen, umfasst diese Thesis Forschung mit Probanden aus verschiedenen klinischen AD Stadien (gesundes Altern, amnestisches Mild Cognitive Impairment-aMCI, und AD-Demenz) und in verschiedenen Sprachen (Deutsch & Franz{\"o}sisch). Alle Ergebnisse basieren auf SVF Sprachdaten, erhoben im Querschnittdesign oder als wiederholte Testung in einem L{\"a}ngsschnittdesign. Aus diesen SVF-Sprachproben werden mit unterschiedlicher rechnerischer Unterst{\"u}tzung qualitative Marker extrahiert (von manueller Verarbeitung der Sprache bis hin zu vollautomatischer Auswertung). Die Ergebnisse zeigen, dass das semantische Ged{\"a}chtnis bereits im fr{\"u}hen aMCI Stadium strukturell beeintr{\"a}chtigt ist und im sp{\"a}teren akuten Demenzstadium noch st{\"a}rker betroffen ist. Die strukturelle Beeintr{\"a}chtigung des semantischen Ged{\"a}chtnisses bei Alzheimer wird insbesondere dadurch verschlimmert, dass die Patienten nicht in der Lage sind, dies durch den Einsatz exekutiver Funktionen zu kompensieren. Daher k{\"o}nnten im Verlauf der Erkrankung eingeschr{\"a}nkte Exekutivfunktionen und damit die Unf{\"a}higkeit, degenerierte semantische Ged{\"a}chtnisstrukturen zu kompensieren, die Hauptursache f{\"u}r die auffallend schlechten kognitiven Leistungen von AD-Patienten im Akutstadium sein. Diese Erkenntnisse basierend auf der SVF alleine werden erst durch die computergest{\"u}tzte qualitative Analyse auf Item-per-Item-Ebene m{\"o}glich und weisen den Weg zu m{\"o}glichen Anwendungen in der klinischen Entscheidungsunterst{\"u}tzung. Die feink{\"o}rnigere qualitative Analyse der SVF ist klinisch wertvoll f{\"u}r die AD-Diagnose und das Screening, aber sehr zeitaufw{\"a}ndig, wenn sie manuell durchgef{\"u}hrt wird. Diese Arbeit zeigt jedoch, dass automatische Analysepipelines diese diagnostischen Informationen zuverl{\"a}ssig und valide aus der SVF generieren k{\"o}nnen. Die automatische Transkription von Sprache plus die automatische Extraktion der neuartigen qualitativen SVF-Merkmale f{\"u}hren zu einer klinischen Interpretation, die mit manuellen Analysen vergleichbar ist. Diese Verarbeitung f{\"u}hrt auch zu einer verbesserten diagnostischen Entscheidungsunterst{\"u}tzung, die durch Klassifikationsexperimente mit maschinellem Lernen simuliert wurde. Dies deutet darauf hin, dass die computergest{\"u}tzte SVF letztendlich f{\"u}r ein kosteng{\"u}nstiges vollautomatisches klinisches AD-Fr{\"u}hscreening eingesetzt werden k{\"o}nnte. Diese Arbeit bringt die aktuelle AD-Forschung auf zweifache Weise voran. Erstens verbessert sie unser Verst{\"a}ndnis der kognitiven Einschr{\"a}nkungen im Bereich der Exekutivfunktionen und des semantischen Ged{\"a}chtnisses bei AD, gemessen durch die computergest{\"u}tzte qualitative Analyse der SVF. Zweitens bettet diese Arbeit diese theoretischen Fortschritte in ein praktisches Konzept zur klinischen Entscheidungsunterst{\"u}tzung ein, das zuk{\"u}nftig ein bev{\"o}lkerungsweites und kosteneffektives Screening f{\"u}r AD im Fr{\"u}hstadium erm{\"o}glichen k{\"o}nnte.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   A4

Bhandari, Pratik; Demberg, Vera; Kray, Jutta

Semantic Predictability Facilitates Comprehension of Degraded Speech in a Graded Manner Journal Article

Frontiers in Psychology, Frontiers, pp. 3769, 2021.

Previous studies have shown that at moderate levels of spectral degradation, semantic predictability facilitates language comprehension. It is argued that when speech is degraded, listeners have narrowed expectations about the sentence endings; i.e., semantic prediction may be limited to only most highly predictable sentence completions. The main objectives of this study were to (i) examine whether listeners form narrowed expectations or whether they form predictions across a wide range of probable sentence endings, (ii) assess whether the facilitatory effect of semantic predictability is modulated by perceptual adaptation to degraded speech, and (iii) use and establish a sensitive metric for the measurement of language comprehension. For this, we created 360 German Subject-Verb-Object sentences that varied in semantic predictability of a sentence-final target word in a graded manner (high, medium, and low) and levels of spectral degradation (1, 4, 6, and 8 channels noise-vocoding). These sentences were presented auditorily to two groups: One group (n =48) performed a listening task in an unpredictable channel context in which the degraded speech levels were randomized, while the other group (n =50) performed the task in a predictable channel context in which the degraded speech levels were blocked. The results showed that at 4 channels noise-vocoding, response accuracy was higher in high-predictability sentences than in the medium-predictability sentences, which in turn was higher than in the low-predictability sentences. This suggests that, in contrast to the narrowed expectations view, comprehension of moderately degraded speech, ranging from low- to high- including medium-predictability sentences, is facilitated in a graded manner; listeners probabilistically preactivate upcoming words from a wide range of semantic space, not limiting only to highly probable sentence endings. Additionally, in both channel contexts, we did not observe learning effects; i.e., response accuracy did not increase over the course of experiment, and response accuracy was higher in the predictable than in the unpredictable channel context. We speculate from these observations that when there is no trial-by-trial variation of the levels of speech degradation, listeners adapt to speech quality at a long timescale; however, when there is a trial-by-trial variation of the high-level semantic feature (e.g., sentence predictability), listeners do not adapt to low-level perceptual property (e.g., speech quality) at a short timescale.

@article{bhandari2021semantic,
title = {Semantic Predictability Facilitates Comprehension of Degraded Speech in a Graded Manner},
author = {Pratik Bhandari and Vera Demberg and Jutta Kray},
url = {https://www.frontiersin.org/articles/10.3389/fpsyg.2021.714485/full},
doi = {https://doi.org/10.3389/fpsyg.2021.714485},
year = {2021},
date = {2021-09-09},
journal = {Frontiers in Psychology},
pages = {3769},
publisher = {Frontiers},
abstract = {Previous studies have shown that at moderate levels of spectral degradation, semantic predictability facilitates language comprehension. It is argued that when speech is degraded, listeners have narrowed expectations about the sentence endings; i.e., semantic prediction may be limited to only most highly predictable sentence completions. The main objectives of this study were to (i) examine whether listeners form narrowed expectations or whether they form predictions across a wide range of probable sentence endings, (ii) assess whether the facilitatory effect of semantic predictability is modulated by perceptual adaptation to degraded speech, and (iii) use and establish a sensitive metric for the measurement of language comprehension. For this, we created 360 German Subject-Verb-Object sentences that varied in semantic predictability of a sentence-final target word in a graded manner (high, medium, and low) and levels of spectral degradation (1, 4, 6, and 8 channels noise-vocoding). These sentences were presented auditorily to two groups: One group (n =48) performed a listening task in an unpredictable channel context in which the degraded speech levels were randomized, while the other group (n =50) performed the task in a predictable channel context in which the degraded speech levels were blocked. The results showed that at 4 channels noise-vocoding, response accuracy was higher in high-predictability sentences than in the medium-predictability sentences, which in turn was higher than in the low-predictability sentences. This suggests that, in contrast to the narrowed expectations view, comprehension of moderately degraded speech, ranging from low- to high- including medium-predictability sentences, is facilitated in a graded manner; listeners probabilistically preactivate upcoming words from a wide range of semantic space, not limiting only to highly probable sentence endings. Additionally, in both channel contexts, we did not observe learning effects; i.e., response accuracy did not increase over the course of experiment, and response accuracy was higher in the predictable than in the unpredictable channel context. We speculate from these observations that when there is no trial-by-trial variation of the levels of speech degradation, listeners adapt to speech quality at a long timescale; however, when there is a trial-by-trial variation of the high-level semantic feature (e.g., sentence predictability), listeners do not adapt to low-level perceptual property (e.g., speech quality) at a short timescale.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   A4

Chingacham, Anupama; Demberg, Vera; Klakow, Dietrich

Exploring the Potential of Lexical Paraphrases for Mitigating Noise-Induced Comprehension Errors Inproceedings

Proceedings of Interspeech 2021, pp. 1713–1717, 2021.

Listening in noisy environments can be difficult even for individuals with a normal hearing thresholds. The speech signal can be masked by noise, which may lead to word misperceptions on the side of the listener, and overall difficulty to understand the message. To mitigate hearing difficulties on listeners, a co-operative speaker utilizes voice modulation strategies like Lombard speech to generate noise-robust utterances, and similar solutions have been developed for speech synthesis systems. In this work, we propose an alternate solution of choosing noise-robust lexical paraphrases to represent an intended meaning. Our results show that lexical paraphrases differ in their intelligibility in noise. We evaluate the intelligibility of synonyms in context and find that choosing a lexical unit that is less risky to be misheard than its synonym introduced an average gain in comprehension of 37% at SNR -5 dB and 21% at SNR 0 dB for babble noise.

@inproceedings{Chingacham2021,
title = {Exploring the Potential of Lexical Paraphrases for Mitigating Noise-Induced Comprehension Errors},
author = {Anupama Chingacham and Vera Demberg and Dietrich Klakow},
url = {https://arxiv.org/abs/2107.08337},
year = {2021},
date = {2021},
booktitle = {Proceedings of Interspeech 2021},
pages = {1713–1717},
abstract = {Listening in noisy environments can be difficult even for individuals with a normal hearing thresholds. The speech signal can be masked by noise, which may lead to word misperceptions on the side of the listener, and overall difficulty to understand the message. To mitigate hearing difficulties on listeners, a co-operative speaker utilizes voice modulation strategies like Lombard speech to generate noise-robust utterances, and similar solutions have been developed for speech synthesis systems. In this work, we propose an alternate solution of choosing noise-robust lexical paraphrases to represent an intended meaning. Our results show that lexical paraphrases differ in their intelligibility in noise. We evaluate the intelligibility of synonyms in context and find that choosing a lexical unit that is less risky to be misheard than its synonym introduced an average gain in comprehension of 37% at SNR -5 dB and 21% at SNR 0 dB for babble noise.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   A4

van Os, Marjolein; Kray, Jutta; Demberg, Vera

Recognition of minimal pairs in (un)predictive sentence contexts in two types of noise Inproceedings

Proceedings of the 43rd Annual Meeting of the Cognitive Science Society (CogSci), pp. 2943-2949, 2021.

Top-down predictive processes and bottom-up auditory processes interact in speech comprehension. In background noise, the acoustic signal is degraded. This study investigated the interaction of these processes in a word recognition paradigm using high and low predictability sentences in two types of background noise and using phonetically controlled contrasts. Previous studies have reported false hearing, but have not provided insight into what phonetic features are most prone to false hearing. We here systematically explore this issue and find that plosives lead to increased false hearing compared to vowels. Furthermore, this study on German for the first time replicates the overall false hearing effect in young adults for a language other than English.

@inproceedings{vanOs2021,
title = {Recognition of minimal pairs in (un)predictive sentence contexts in two types of noise},
author = {Marjolein van Os and Jutta Kray and Vera Demberg},
url = {https://escholarship.org/uc/item/70z995v4},
year = {2021},
date = {2021},
booktitle = {Proceedings of the 43rd Annual Meeting of the Cognitive Science Society (CogSci)},
pages = {2943-2949},
abstract = {Top-down predictive processes and bottom-up auditory processes interact in speech comprehension. In background noise, the acoustic signal is degraded. This study investigated the interaction of these processes in a word recognition paradigm using high and low predictability sentences in two types of background noise and using phonetically controlled contrasts. Previous studies have reported false hearing, but have not provided insight into what phonetic features are most prone to false hearing. We here systematically explore this issue and find that plosives lead to increased false hearing compared to vowels. Furthermore, this study on German for the first time replicates the overall false hearing effect in young adults for a language other than English.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   A4

Häuser, Katja; Demberg, Vera; Kray, Jutta

Effects of aging and dual-task demands on the comprehension of less expected sentence continuations: Evidence from pupillometry Journal Article

Frontiers in Psychology, 10, 2019, ISSN 1664-1078.

Prior studies on language processing in aging have shown that older adults experience integration difficulties for contextually unpredictable target words (as indicated by low cloze probabilities in prior ratings), and that such comprehension difficulties are more likely to occur under more demanding processing conditions (e.g., dual-task situations). However, these effects have primarily been demonstrated for conditions when cloze probability of the linguistic stimuli was very low. The question we asked here was do dual-task demands also impair comprehension when target words provide a good, but not perfect, match with prior context? We used a dual-task design, consisting of a sentence comprehension and secondary motor tracking task. Critical target words were those which were not perfectly predictable based on context (words with a cloze probability of 0.7), as opposed to words that were near perfectly predictable based on context (cloze probabilities of 0.99). As a measure to index online processing difficulty for less expected target words, we took into account participants’ pupil size. Separate mixed effects models were fit for language comprehension, motor tracking, and pupil size, showing the following: (1) dual-task demands led to age-related comprehension difficulties when target words were less expected (as opposed to very highly expected), (2) integration difficulty in older adults was related to cognitive overload as less expected sentence continuations progressed over time, resulting in behavioral trade-offs between language comprehension and motor tracking, and (3) lower levels of working memory were predictive of whether or not older adults experienced cognitive overload when processing less expected words. In sum, more demanding processing conditions lead to comprehension impairments when words are highly unpredictable based on context, as many prior studies showed. Comprehension impairments among older individuals also occur for conditions when words provide a good, but not perfect, match with prior context. Higher working memory capacity can alleviate such impairments in older adults, thereby suggesting that only high-WM older adults have sufficient cognitive resources to pre-activate words that complete a sentence context plausibly, but not perfectly.

@article{Häuser2019,
title = {Effects of aging and dual-task demands on the comprehension of less expected sentence continuations: Evidence from pupillometry},
author = {Katja H{\"a}user and Vera Demberg and Jutta Kray},
url = {https://www.frontiersin.org/articles/10.3389/fpsyg.2019.00709/full},
doi = {https://doi.org/10.3389/fpsyg.2019.00709},
year = {2019},
date = {2019},
journal = {Frontiers in Psychology},
volume = {10},
abstract = {Prior studies on language processing in aging have shown that older adults experience integration difficulties for contextually unpredictable target words (as indicated by low cloze probabilities in prior ratings), and that such comprehension difficulties are more likely to occur under more demanding processing conditions (e.g., dual-task situations). However, these effects have primarily been demonstrated for conditions when cloze probability of the linguistic stimuli was very low. The question we asked here was do dual-task demands also impair comprehension when target words provide a good, but not perfect, match with prior context? We used a dual-task design, consisting of a sentence comprehension and secondary motor tracking task. Critical target words were those which were not perfectly predictable based on context (words with a cloze probability of 0.7), as opposed to words that were near perfectly predictable based on context (cloze probabilities of 0.99). As a measure to index online processing difficulty for less expected target words, we took into account participants’ pupil size. Separate mixed effects models were fit for language comprehension, motor tracking, and pupil size, showing the following: (1) dual-task demands led to age-related comprehension difficulties when target words were less expected (as opposed to very highly expected), (2) integration difficulty in older adults was related to cognitive overload as less expected sentence continuations progressed over time, resulting in behavioral trade-offs between language comprehension and motor tracking, and (3) lower levels of working memory were predictive of whether or not older adults experienced cognitive overload when processing less expected words. In sum, more demanding processing conditions lead to comprehension impairments when words are highly unpredictable based on context, as many prior studies showed. Comprehension impairments among older individuals also occur for conditions when words provide a good, but not perfect, match with prior context. Higher working memory capacity can alleviate such impairments in older adults, thereby suggesting that only high-WM older adults have sufficient cognitive resources to pre-activate words that complete a sentence context plausibly, but not perfectly.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   A4

Tröger, Johannes; Linz, Nicklas; König, Alexandra; Robert, Philippe; Alexandersson, Jan; Peter, Jessica; Kray, Jutta

Exploitation vs. Exploration - Computational temporal and semantic analysis explains semantic verbal fluency impairment in Alzheimer’s disease Journal Article

Neuropsychologia, 131, pp. 53-61, 2019.

Impaired Semantic Verbal Fluency (SVF) in dementia due to Alzheimer’s Disease (AD) and its precursor Mild Cognitive Impairment (MCI) is well known. Yet, it remains open whether this impairment mirrors the breakdown of semantic memory retrieval processes or executive control processes. Therefore, qualitative analysis of the SVF has been proposed but is limited in terms of methodology and feasibility in clinical practice. Consequently, research draws no conclusive picture which of these afore-mentioned processes drives the SVF impairment in AD and MCI. This study uses a qualitative computational approach – combining temporal and semantic information – to investigate exploitation and exploration patterns as indicators for semantic memory retrieval and executive control processes. Audio SVF recordings of 20 controls (C, 66-81 years), 55 MCI (57-94 years) and 20 AD subjects (66-82 years) were assessed while groups were matched according to age and education. All groups produced, on average, the same amount of semantically related items in rapid succession within word clusters. Conversely, towards AD, there was a clear decline in semantic as well as temporal exploration patterns between clusters. Results strongly point towards preserved exploitation – semantic memory retrieval processes – and hampered exploration – executive control processes – in AD and potentially in MCI.

@article{Tröger2019,
title = {Exploitation vs. Exploration - Computational temporal and semantic analysis explains semantic verbal fluency impairment in Alzheimer’s disease},
author = {Johannes Tr{\"o}ger and Nicklas Linz and Alexandra K{\"o}nig and Philippe Robert and Jan Alexandersson and Jessica Peter and Jutta Kray},
url = {https://www.sciencedirect.com/science/article/abs/pii/S0028393218305116?via%3Dihub},
doi = {https://doi.org/10.1016/j.neuropsychologia.2019.05.007},
year = {2019},
date = {2019},
journal = {Neuropsychologia},
pages = {53-61},
volume = {131},
abstract = {Impaired Semantic Verbal Fluency (SVF) in dementia due to Alzheimer's Disease (AD) and its precursor Mild Cognitive Impairment (MCI) is well known. Yet, it remains open whether this impairment mirrors the breakdown of semantic memory retrieval processes or executive control processes. Therefore, qualitative analysis of the SVF has been proposed but is limited in terms of methodology and feasibility in clinical practice. Consequently, research draws no conclusive picture which of these afore-mentioned processes drives the SVF impairment in AD and MCI. This study uses a qualitative computational approach - combining temporal and semantic information - to investigate exploitation and exploration patterns as indicators for semantic memory retrieval and executive control processes. Audio SVF recordings of 20 controls (C, 66-81 years), 55 MCI (57-94 years) and 20 AD subjects (66-82 years) were assessed while groups were matched according to age and education. All groups produced, on average, the same amount of semantically related items in rapid succession within word clusters. Conversely, towards AD, there was a clear decline in semantic as well as temporal exploration patterns between clusters. Results strongly point towards preserved exploitation - semantic memory retrieval processes - and hampered exploration - executive control processes - in AD and potentially in MCI.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   A4

Successfully