van Os, Marjolein

Rational speech comprehension: effects of predictability and background noise

Saarland University, Saarbruecken, Germany, 2023.

Having a conversation is something we are capable of without a second thought. However, this is not as simple as it seems. While there can be a myriad of difficulties arising, one common occurrence is the presence of background noise during every-day language use. This negatively affects speech recognition on the listener’s part. One strategy the listener has to cope with this, is to rely on predictive processes, where the upcoming words of the speaker are predicted from the context. The present dissertation concerns the interplay of background noise and prediction. This interplay can be summarized by the question whether listeners rely more on bottom-up information (the acoustic speech signal) or top-down information (for example context-based predictions). While previous studies have investigated how background noise and context predictability interact, and how different speech sounds are affected by (different types of) background noise, the three factors have so far not been studied together in a single experiment. These manipulations of the listening condition result in fine-grained differences in the intelligibility of the speech signal and subsequently affect to what extent listeners rely on the bottom-up information. This allows us to test the predictions of the Noisy Channel Model, a model that explains human speech comprehension in background noise. So far, the predictions of this model have been primarily tested using written stimuli and never with acoustical noise. In the word recognition experiments we collect confidence ratings to investigate false hearing effects. Additionally, we were interested in consequences of these adverse listening conditions and addressed the question how recognition memory is affected by background noise and contextual predictability, studying false memory effects in particular. This dissertation presents results from three experiments that were set up to address these questions. The first two experiments used a word recognition paradigm in which participants listened to recordings of sentences that were embedded in background noise in some conditions. Our stimuli contained different speech sound contrasts. We varied the level as well as the type of background noise across the two experiments. Because they lead to varying degrees of relying on either bottom-up or top-down processes, these differences in listening conditions allowed us to test the predictions of the Noisy Channel Model. Across experiments, we also varied the tested population. In Experiment 2 we recruited older adults as well as younger adults. As older adults differ from younger adults in their trade-off between top-down and bottom-up information. This allowed us to test their recognition accuracy in listening situations with small-grained differences regarding the intelligibility (through the overlap between the speech signal and noise). We can further test the predictions of the Noisy Channel Model, and investigate false hearing effects. The third experiment investigated consequences of listening in background noise, as we tested the effects of both noise and predictability on recognition memory. Taken together, the results from the three experiments lead us to four conclusions. First, we find that the three factors of noise type, speech sound, and predictability of the context interact during speech comprehension. Second, this leads to small-grained differences in the intelligibility of the stimuli, which in turn affects how the listener relies on either the bottom-up signal or top-down predictions. Across the experiments, our findings support the predictions made by the Noisy Channel Model, namely that the reliance on predictive processes is dependent on the effort that is required to process the speech signal and the amount of overlap between speech and background noise. Third, this was the case even for older adults, who did not show the expected false hearing effects. Instead, they behaved rationally, taking into account possible age-related hearing loss and a stronger reliance on prediction. Finally, we additionally showed that the difficulty of the listening condition affects meta-cognitive judgements, operationalised through confidence ratings: the more difficult the listening condition, the lower listeners’ confidence was, both for word recognition and memory. Against our expectations, we did not find evidence of false memory. Future studies should investigate in exactly which situations this effect occurs, as our experimental design differed from those of previous studies. In sum, the findings in this dissertation contribute to our understanding of speech recognition in adverse listening conditions, in particular background noise, and of how predictive processes can both help and hinder speech perception. Our results consistently support the predictions of the Noisy Channel Model, indicating that human listeners behave rationally. Their reliance on either the bottom-up acoustic signal or top-down predictions depends on the clarity of the speech signal, and here they take into account fine-grained differences. In this way, they can maximize the chance of successful communication while minimizing effort.

Wenn wir in unserem täglichen Leben Sprache verwenden, geschieht dies sehr selten in einer ruhigen Umgebung. Die meiste Zeit, in der wir Sprache unter natürlichen Bedingungen hören, sind Hintergrundgeräusche vorhanden. Wir nehmen dies kaum wahr, und in der Regel ist der Geräuschpegel so gering, dass er nicht zu großen Störungen der Kommunikation führt. Denken Sie an das Brummen von vorbeifahrenden Autos, an Gespräche anderer Menschen, an die Arbeit von Maschinen oder an das Geräusch von Tellern und Besteck in einem Restaurant. Wir sind in der Lage, fast mühelos mit anderen zu kommunizieren, obwohl diese Geräusche mit dem Sprachsignal konkurrieren. Wie schaffen Menschen das? Ist dieser Prozess des Zuhörens bei Hintergrundgeräuschen wirklich so mühelos, wie es scheint? Und können die Strategien, die zur Bewältigung der zusätzlichen kognitiven Belastung eingesetzt werden, auch Nachteile mit sich bringen? Ziel der vorliegenden Dissertation ist es, die Literatur zum Sprachverständnis bei Hintergrundgeräuschen weiterzuentwickeln, indem die folgenden Fragen beantwortet werden: Wie interagieren Vorhersagbarkeit, Hintergrundgeräusche und Sprachgeräusche in den Reizen? Gibt es bei dieser Interaktion Unterschiede zwischen verschiedenen Arten von Hintergrundgeräuschen? Wie lassen sich diese Unterschiede in der Erkennungsgenauigkeit erklären? Darüber hinaus untersuchen wir, wie sich diese Hörbedingungen auf ältere Erwachsene auswirken und welche Auswirkungen sie auf die Kommunikation über die Worterkennung hinaus haben. Eine Strategie, die dazu beiträgt, die Belastung des Sprachverstehens durch Hintergrundgeräusche zu verringern, besteht darin, sich auf Vorhersagen zu stützen. Oft ist es möglich, z. B. Weltwissen, Wissen über den Sprecher oder den vorangegangenen Kontext in einem Dialog zu nutzen, um vorherzusagen, was als Nächstes gesagt werden könnte. Verschiedene Studien haben ergeben, dass ein hoher Vorhersagewert eines Satzes den Zuhörern in ruhiger Umgebung hilft, ihn zu verarbeiten, aber auch besonders in lauten Hörsituationen, wo er zu einer besseren Erkennung führt als ein niedriger Vorhersagewert (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Verschiedene Spracherkennungstheorien berücksichtigen dies und erklären, wie Bottom-up-Informationen aus dem auditiven Sprachsignal mit Topdown- Informationen kombiniert werden, z. B. mit Vorhersagen, die auf dem Kontext basieren (Levy, 2008; Levy et al., 2009; Luce & Pisoni, 1998; Norris & McQueen, 2008; Oden & Massaro, 1978). Diese Interaktion von Bottom-Up- und Top-Down- Informationsströmen bildet die Grundlage dieser Dissertation. Bislang wurde in empirischen Studien untersucht, wie sich die Variation der Vorhersagbarkeit des Zielwortes auf das Sprachverstehen im Störgeräusch auswirkt (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Die Ergebnisse dieser Studien stimmen überein: Ein vorhersehbarer Kontext erleichtert das Sprachverstehen im Störgeräusch. Ein anderer Zweig der Literatur hat untersucht, wie Hintergrundgeräusche die Erkennung verschiedener Phoneme beeinflussen (Alwan et al., 2011; Cooke, 2009; Gordon-Salant, 1985; Phatak et al., 2008; Pickett, 1957). Diese Studien konzentrieren sich oft auf die isolierten Phoneme und testen feste Kontexte in Nonsense-Silben statt in Wörtern. Somit wird die Vorhersagbarkeit der Elemente nicht manipuliert, obwohl diese die Erkennung beeinflusst. Die drei Faktoren Kontextvorhersagbarkeit, Hintergrundgeräusche und Phoneme wurden bisher noch nicht gemeinsam in einer Studie untersucht. Es ist möglich, dass diese Faktoren zusammenwirken, z. B. der Effekt der Vorhersagbarkeit auf bestimmte Phoneme könnte stärker sein, wenn Hintergrundgeräusche die Erkennung behindern. Die vorliegende Dissertation soll diese Lücke in der Literatur füllen. In diesem Zusammenhang wollen wir untersuchen, wie sich verschiedene Arten von Lärm auf die Spracherkennung auswirken. In früheren Arbeiten wurde diese Frage bereits untersucht, doch die Ergebnisse waren nicht eindeutig (Danhauer & Leppler, 1979; Gordon-Salant, 1985; Horii et al., 1971; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Einige Studien kommen zu dem Ergebnis, dass weißes Rauschen zu größeren Interferenzen führt, während andere Studien feststellen, dass Babbelgeräusche oder sprachförmige Geräusche schwieriger sind. Diese unterschiedlichen Ergebnisse in Bezug auf die Art des Lärms lassen vermuten, dass hier andere Faktoren eine Rolle spielen, z. B. die Eigenschaften der getesteten Stimuli. Dieser offenen Frage wollen wir nachgehen. Ein Modell, das vorgeschlagen wurde, um das menschliche Sprachverstehen bei Hintergrundgeräuschen zu erklären, ist das Noisy Channel Model (Levy, 2008; Levy et al., 2009; Shannon, 1949). Diesem Modell zufolge kombinieren Hörer auf rationale Weise Bottom-up-Informationen mit Top-down-Informationen, wobei der Rückgriff auf eine der beiden Arten von Informationen von der Klarheit der Hörsituation abhängt. Frühere Studien haben die Vorhersagen dieses Modells vor allem im schriftlichen Bereich getestet, indem sie syntaktische Änderungen verwendeten und die Interpretation unplausibler Sätze prüften (Gibson et al., 2013; Poppels & Levy, 2016; Ryskin et al., 2018). Sie manipulierten den Grad des wahrgenommenen Lärms durch die Anzahl der Füllwörter mit syntaktischen Fehlern und qualifizierten den Abstand zwischen den plausiblen und unplausiblen Sätzen durch die Anzahl der eingefügten und gelöschten Wörter. In den Studien wurden Belege gefunden, die die Vorhersagen des Noisy Channel Models unterstützen. Ein Schritt in Richtung eines naturalistischeren Sprachverständnisses im Rauschen wurde unternommen, indem die gleichen Stimuli in gesprochener Form getestet wurden (Gibson et al., 2016; Gibson et al., 2017). Obwohl das Noisy Channel Model konstruiert wurde, um das menschliche Sprachverständnis bei Lärm zu erklären, wurden seine Vorhersagen bisher in keiner Studie bei akustischem Lärm untersucht. Die vorliegende Dissertation soll neue Erkenntnisse liefern. Unsere Stimuli unterscheiden sich von den bisher überwiegend getesteten und sind so konstruiert, dass die Vorhersagbarkeit des Zielwortes sowie die Überlappung zwischen Sprach- und Geräuschsignal variiert. Somit würden unsere Ergebnisse die Situationen erweitern, in denen die Vorhersagen des Noisy Channel Model zutreffen könnten. Wir werden dies in verschiedenen Hörsituationen mit unterschiedlichen Arten von Hintergrundgeräuschen, Stimuli-Charakteristika und Populationen testen. Außerdem setzen wir das Noisy Channel Model in Beziehung zu anderen Modellen der Sprachwahrnehmung. Die Unterschiede zwischen jüngeren und älteren Erwachsenen erlauben uns, die Vorhersagen des Geräuschkanalmodells im Detail zu testen. Ältere Erwachsene haben einen anderen Trade-Off zwischen Top-down- und Bottom-up-Informationen als jüngere Erwachsene. Ihr Gehör ist durch altersbedingten Hörverlust beeinträchtigt, und diese Beeinträchtigung führt zu größeren Schwierigkeiten beim Verstehen von Sprache unter ungünstigen Hörbedingungen (Li et al., 2004; Pichora-Fuller et al., 1995; Pichora-Fuller et al., 2017; Schneider et al., 2005). Andererseits bleiben ihre prädiktiven Prozesse intakt, und es hat sich gezeigt, dass ältere Erwachsene sich stärker auf diese verlassen, um Hörprobleme zu überwinden (Stine & Wingfield, 1994; Wingfield et al., 1995; Wingfield et al., 2005). Diese Unterschiede im Vergleich zu jüngeren Erwachsenen machen die Population der älteren Erwachsenen theoretisch besonders interessant für Tests. Wir wollen untersuchen, ob es tatsächlich so ist, dass ältere Erwachsene in Fällen, in denen der Satzkontext irreführend ist, mehr Hörfehler zeigen als jüngere Erwachsene. Wir variieren die Hörbedingungen, um feinkörnige Unterschiede in der Überlappung zwischen dem Sprachsignal und dem Hintergrundgeräusch zu konstruieren, wodurch sich der Schwierigkeitsgrad der Hörbedingung ändert. iner der Unterschiede zwischen jüngeren und älteren Erwachsenen wurde in Bezug auf den Effekt des „false hearing“ festgestellt (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Dabei handelt es sich um ein Phänomen, bei dem ein Hörer sehr sicher ist, ein bestimmtes Wort richtig erkannt zu haben, aber in Wirklichkeit falsch liegt. In diesen Fällen wurde das Wort oft durch Top-Down-Prozesse und nicht durch das akustische Sprachsignal selbst erkannt. Da sie im Allgemeinen stärker auf prädiktive Prozesse angewiesen sind, hat man festgestellt, dass der false-hearing-Effekt bei älteren Erwachsenen größer ist als bei jüngeren. Wir wollen dies untersuchen und erwarten, dass der false-hearing-Effekt stärker ist, wenn die Hörbedingungen schwieriger sind (aufgrund des Geräuschpegels oder einer größeren Überlappung zwischen den Sprachklängen in den Stimuli und dem Hintergrundgeräusch). Die Vertrauensbewertungen, die die Versuchspersonen abgeben, werden zusätzlich Aufschluss über ihre metakognitiven Prozesse während des Hörens geben (siehe unten). In den meisten Studien, die das Sprachverständnis untersuchen, werden die Versuchspersonen gebeten, einfach zu berichten, was sie gehört haben. Anschließend wird die Genauigkeit ermittelt. Dies beantwortet zwar die Fragen nach der Verständlichkeit von Sprache und der Schwierigkeit der Hörbedingungen, lässt aber andere Punkte offen. Im Alltag wird Sprache zur Kommunikation genutzt, die mehr erfordert als die Wiedergabe des Gehörten. Daher sollte untersucht werden, wie sich unterschiedliche Hörbedingungen auf nachfolgende übergeordnete Prozesse auswirken, die in der Kommunikation häufig eine Rolle spielen, um festzustellen, wie sich das Hören im Lärm (oder unter anderen, möglicherweise ungünstigen Bedingungen) auf das Gespräch zwischen Gesprächspartnern auswirkt, das über das bloße Erkennen des Gesagten hinausgeht. In dieser Dissertation wollen wir die Folgen des Sprachverstehens unter verschiedenen Hörbedingungen testen, wobei wir den Hintergrundlärm und die Vorhersagbarkeit variieren. Einerseits bitten wir die Versuchspersonen uns nach jedem experimentellen Versuch mitzuteilen, wie sicher sie sich sind, die richtige Antwort gegeben zu haben. Auf diese Weise können wir nicht nur den false-hearing- Effekt untersuchen, sondern auch feststellen, wie sie die Hörbedingungen erlebt haben und wie sich dies auf ihre subjektive Empfindung das Wort verstanden zu haben. Dies kann damit zusammenhängen, ob sie die richtige Antwort geben oder nicht, muss es aber nicht. Andererseits legen wir den Versuchspersonen in einem unserer Experimente nach der Hörphase einen Gedächtnistest vor, um zu testen, wie sich die Schwierigkeit der Geräuschbedingung und die Vorhersagbarkeit des Zielworts auf die spätere Erinnerung auswirken. Zu wissen, wie das Gedächtnis durch die Hörbedingungen beeinflusst wird, ist wichtig, da es Aufschluss über den Umgang mit Situationen geben kann, in denen Hintergrundgeräusche unvermeidlich sind, aber Anweisungen verstanden und erinnert werden müssen. Frühere Arbeiten haben die Auswirkungen der Vorhersagbarkeit auf die Gedächtnisleistung untersucht und dabei ein interessantes Phänomen aufgedeckt. In den Studien wurde festgestellt, dass Wörter, die vorhergesagt, den Versuchspersonen aber nicht tatsächlich präsentiert wurden, im Gedächtnis bleiben und die Gedächtnisleistung später in Form von so genannten falschen Erinnerungen beeinträchtigen (Haeuser & Kray, 2022a; Hubbard et al., 2019). In diesen Studien geben die Versuchspersonen an, sich an diese Begriffe zu erinnern, obwohl sie sie gar nicht gesehen haben. Dieser Effekt wurde bisher noch nicht für Elemente untersucht, die in Hintergrundgeräusche eingebettet sind, und wir wollen testen, ob wir hier mehr falsche Erinnerungen finden werden, da sich die Versuchspersonen unter solch schwierigen Hörbedingungen stärker auf Vorhersageprozesse verlassen, was zu falschen Erinnerungen führt. Wir haben drei Experimente durchgeführt, um diese Fragen zu beantworten. Im ersten Experiment manipulierten wir die Vorhersagbarkeit (hoch oder niedrig), die Art des Geräuschs (Babbel oder weißes Rauschen) und das akustische Signal (verschiedene Sprachlaute; Plosive, Vokale und Frikative) und untersuchten so die Interaktion der drei Faktoren. Diese Versuchsanordnung ermöglicht es uns auch, die Auswirkungen von Babbelgeräuschen auf der einen und weißem Rauschen auf der anderen Seite zu vergleichen, um die bisher nicht eindeutigen Ergebnisse in der Literatur zu berücksichtigen (Danhauer & Leppler, 1979; Horii et al., 1971; Gordon-Salant, 1985; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Das Experiment testet die Vorhersagen des Noisy-Channel-Modells für das Verstehen gesprochener Sprache. Dieses Modell wurde vorgeschlagen, um das Sprachverstehen in verrauschten Umgebungen zu erklären (Levy, 2008; Levy et al., 2009; Shannon, 1949). Es geht davon aus, dass Versteher sich nicht ausschließlich auf den Bottom-Up-Signal verlassen, sondern das Eingangssignal rational mit Top-Down-Vorhersagen kombinieren. Bislang wurde diese Hypothese vor allem im schriftlichen Bereich getestet, wo die Top-Down- Vorhersagen mit dem Bottom-Up-Signal in Konflikt stehen. Unsere Hörbedingungen unterscheiden sich hinsichtlich ihrer Editierdistanz in einerWeise, die auf früheren Arbeiten über die Verwechselbarkeit von Sprachlauten im Lärm beruht und zu feinkörnigen Unterschieden führt. Unsere Ergebnisse stimmen mit den Vorhersagen des Noisy- Channel-Modells überein: Hörer kombinieren probabilistisch Top-Down-Vorhersagen, die auf dem Kontext basieren, mit verrauschten Bottom-Up-Informationen aus dem akustischen Signal, um gesprochene Sprache besser zu verstehen. Das zweite Experiment testet das Sprachverstehen bei gleichzeitigen Störgeräuschen bei jüngeren und älteren Erwachsenen. Diese beiden Populationen unterscheiden sich hinsichtlich der Spracherkennung und der Art und Weise, wie Informationen aus dem Bottom-Up-Audiosignal und Top-Down-Vorhersagen kombiniert werden. So können wir die Vorhersagen des Noisy-Channel-Modells anhand dieser beiden Populationen weiter testen. Darüber hinaus haben frühere Studien, insbesondere bei älteren Erwachsenen, false-hearing-Effekte festgestellt, bei dem sie sehr zuversichtlich waren, während der Worterkennung eine korrekte Antwort zu geben, die aber tatsächlich falsch war (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Wir untersuchen dieses Phänomen und gehen der Frage nach, inwieweit die metakognitiven Entscheidungen unserer Versuchspersonen ihr Vertrauen in das akustische Signal oder den semantischen Kontext widerspiegeln. Auch hier variieren wir das Rauschen, konzentrieren uns aber jetzt auf den Rauschpegel (0 SNR dB oder -5 SNR dB) und nicht auf die Art des Rauschens (wir verwenden nur Babble Noise). Unsere Ergebnisse zeigen, dass das Ausmaß des Fehlhörens direkt mit der Wahrnehmbarkeit des Sprachsignals zusammenhängt und dass die eigen Einschätzung der Versuchspersonen, ob das Wort im Signal so gesprochen wurde, ebenfalls damit übereinstimmen: Je mehr Überschneidungen zwischen Sprachsignal und Störgeräusch, desto weniger waren die Versuchspersonen sich sicher, dass sie die richtige Antwort gegeben haben. Wir finden keine Hinweise auf false-hearing-Effekte, was auf die von uns getestete Population zurückzuführen sein könnte. Stattdessen hing die Höhe der Sicherheitsbewertungen von der Schwierigkeit der Hörbedingung ab. Das dritte Experiment untersucht die Folgen des Hörens von mehr oder weniger vorhersehbarer Sprache im Hintergrundgeräusch, indem es die Versuchspersonen nicht nur fragt, was sie gehört haben. Wir testen, wie das spätere Wiedererkennungsgedächtnis der Versuchspersonen durch diese verschiedenen Hörbedingungen beeinflusst wird. In früheren Studien wurden Effekte falschen Erinnerns festgestellt, bei denen Elemente, die (in hohem Maße) vorhergesagt, aber nicht tatsächlich präsentiert wurden, im Gedächtnis verbleiben, so dass sie von den Veruschspersonen in Gedächtnistests wiedergegeben werden (Haeuser & Kray, 2022a; Hubbard et al., 2019). Wir wollen testen, ob dieser Effekt bei Hintergrundgeräuschen stärker ist, da sich die Hörer unter diesen Bedingungen stärker auf prädiktive Prozesse verlassen. In unserem Experiment hörten die Versuchspersonen zunächst Sätze, die entweder in Störgeräusche eingebettet oder in Ruhe präsentiert wurden. Die Vorhersagbarkeit des Zielworts wurde durch Änderung der Wortreihenfolge des Satzes beeinflusst, und wir variierten auch die Häufigkeit der Zielwörter. In einem Test zum Wiedererkennen von Überraschungen fragten wir die Versuchspersonen, ob sie das dargebotene Wort schon einmal gesehen hatten, wobei es drei Arten von Wörtern gab: alte Begriffe, die sie schon einmal gehört hatten, neue Begriffe, die sie noch nie gehört hatten und die in keinem Zusammenhang mit den Sätzen standen, und semantische Köder, die sie noch nie gehört hatten, die aber semantisch mit den alten Begriffen verbunden waren. Die Ergebnisse zeigten, dass die Gedächtnisleistung für die semantischen Köder nicht durch Faktoren auf Satzebene, wie Hintergrundgeräusche oder Vorhersagbarkeit, beeinflusst wurde. Während dies bei den alten Elemente der Fall war, zeigen diese Ergebnisse zusammengenommen, dass wir keine Hinweise auf falsche Erinnerneffekte bei den Köder-Elemente gefunden haben, sondern dass die Genauigkeit bei den alten Elemente, ähnlich wie in den beiden vorangegangenen Experimenten, von der Schwierigkeit der Hörbedingung abhing. Wir erweitern die Literatur, indem wir drei Faktoren kombinieren, die beim Sprachverstehen im Lärm interagieren, nämlich die Art des Lärms, bestimmte Sprachlaute in den Stimuli und die Vorhersagbarkeit des Kontexts. Die ersten beiden Faktoren interagieren, was zu einer Variation des Anteils des Sprachsignals führt, der verdeckt wird. In früheren Studien wurde diese Wechselwirkung zwar untersucht, allerdings vorwiegend bei isolierten Silben (Alwan et al., 2011; Cooke, 2009; Gordon- Salant, 1985; Phatak et al., 2008; Pickett, 1957). Da Hörer im Alltag in der Lage sind, Vorhersagen auf der Grundlage des semantischen Kontexts zu treffen, um ihren Erkennungsprozess zu steuern, ist es wichtig, auch den Effekt eines mehr oder weniger vorhersagenden Satzkontexts zu berücksichtigen. Wir zeigen, dass die drei Faktoren zusammenwirken und zu geringfügigen Unterschieden in der Verständlichkeit der Stimuli führen, je nach Art des Hintergrundrauschens und der Phoneme im akustischen Signal. Daher ist der Effekt der Vorhersagbarkeit stärker, wenn das Hintergrundgeräusch stärker mit einem bestimmten Sprachklang interferiert. Dies wirkt sich darauf aus, wie sehr sich der Hörer bei der Spracherkennung auf Top-down- oder Bottom-up-Prozesse verlässt. Der Rückgriff auf prädiktive Prozesse kann zu falsch erkannten Wörtern führen, wenn der Satzkontext irreführend ist. Wir zeigen, dass die Vorhersagen des Noisy-Channel-Modells auch dann zutreffen, wenn sie in einem anderen Versuchsaufbau als bisher getestet werden, nämlich mit einem anderen Satz von Stimuli und in akustischem Hintergrundrauschen. Wir verwendeten gesprochene Stimuli, die in Hintergrundgeräusche unterschiedlicher Art und Lautstärke eingebettet waren, und manipulierten die wahrgenommene Geräuschmenge durch die Überlappung des Sprachsignals und des akustischen Rauschens, indem wir Stimuli mit unterschiedlichen Klangkontrasten konstruierten (Minimalpaare mit Plosiven, Frikativen und Affrikaten sowie Vokalen). Da unter diesen verschiedenen Hörbedingungen die Klarheit des Sprachsignals und damit der erforderliche Verarbeitungsaufwand variiert, macht das Noisy Channel Model feinkörnige Vorhersagen darüber, wie sehr sich Hörer entweder auf das akustische Signal von unten nach oben oder auf prädiktive Prozesse von oben nach unten verlassen. Wir haben zusätzlich zwei verschiedene Populationen getestet, nämlich jüngere und ältere Erwachsene. Bei älteren Erwachsenen wurde bereits festgestellt, dass sie sich stärker auf prädiktive Prozesse verlassen als jüngere Erwachsene, so dass wir die Vorhersagen des Noisy- Channel-Modells weiter testen konnten. Auch hier wurden die Vorhersagen durch unsere Daten bestätigt. Insgesamt bieten unsere Ergebnisse eine zusätzliche und übereinstimmende Unterstützung für das Noisy-Channel-Modell. Wir replizieren den Befund, dass ältere Erwachsene dazu neigen, sich mehr auf den Satzkontext zu verlassen als jüngere Erwachsene. Während dies in der bisherigen Literatur häufig berichtet wurde, zeigen wir diesen Effekt in einer Online-Studie mit einer jüngeren Versuchspersonengruppe (50-65 Jahre) als in diesen Studien üblich (65+). Wir haben auch den false-hearing-Effekt untersucht. Bei diesem Effekt ist das Vertrauen in falsche Antworten hoch, und es wurde festgestellt, dass dieser Effekt bei älteren Erwachsenen stärker ist als bei jüngeren Erwachsenen. Dies wird auf den altersbedingten Abbau der kognitiven Kontrolle zurückgeführt. In unserem Experiment konnten wir den Befund des false hearings nicht replizieren. Stattdessen fanden wir eine Tendenz zu geringerer Zuversicht bei falschen Antworten, die mit der Schwierigkeit der Hörbedingung übereinstimmt: Je mehr Überschneidungen zwischen Sprachlauten und Geräuschen oder je höher der Geräuschpegel, desto geringer war die Zuversicht unserer Hörer, sowohl bei jüngeren als auch bei älteren Erwachsenen. Eine mögliche Erklärung für das Fehlen des false-hearing-Effekts ist das relativ junge Alter unserer Gruppe älterer Versuchspersonen. Wir untersuchten die Folgen des Hörens bei Hintergrundgeräuschen, d.h. die Art und Weise, wie Prozesse höherer Ordnung durch unterschiedliche Hörbedingungen (unterschiedliche Geräusche und Vorhersagbarkeit) beeinflusst werden. Dies ist wichtig, um die Auswirkungen von Hintergrundgeräuschen und Vorhersagbarkeit auf die Kommunikation zu untersuchen, die viel mehr umfasst als nur das Erkennen von Wörtern. Wir zeigen, dass der Schwierigkeitsgrad der Hörbedingung die metakognitiven Urteile beeinflusst, operationalisiert durch Sicherheitsbewertungen: Je schwieriger die Hörbedingung war, desto geringer war die Sicherheit der Hörer, was auf ein Bewusstsein für die Veränderung der Bedingung hinweist. Darüber hinaus untersuchten wir, wie Hintergrundgeräusche und Veränderungen in der Vorhersagbarkeit das spätere Wiedererkennungsgedächtnis für experimentelle Elemente beeinflussen. Wir zeigen, dass diese Faktoren bei zuvor präsentierten Elemente die Gedächtnisleistung beeinflussen. Was wir jedoch nicht beobachten können, ist ein falsche Erinnerung für nicht präsentierte, aber semantisch verwandte Elemente. Zusammenfassend lässt sich sagen, dass die Ergebnisse dieser Dissertation zu unserem Verständnis der Spracherkennung unter ungünstigen Hörbedingungen, insbesondere bei Hintergrundgeräuschen, beitragen und zeigen, wie prädiktive Prozesse die Sprachwahrnehmung sowohl fördern als auch behindern können.

Back