@phdthesis{Os_Diss_2023,
title = {Rational speech comprehension: effects of predictability and background noise},
author = {Marjolein van Os},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/36584},
doi = {https://doi.org/10.22028/D291-40555},
year = {2023},
date = {2023},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {Having a conversation is something we are capable of without a second thought. However, this is not as simple as it seems. While there can be a myriad of difficulties arising, one common occurrence is the presence of background noise during every-day language use. This negatively affects speech recognition on the listener’s part. One strategy the listener has to cope with this, is to rely on predictive processes, where the upcoming words of the speaker are predicted from the context. The present dissertation concerns the interplay of background noise and prediction. This interplay can be summarized by the question whether listeners rely more on bottom-up information (the acoustic speech signal) or top-down information (for example context-based predictions). While previous studies have investigated how background noise and context predictability interact, and how different speech sounds are affected by (different types of) background noise, the three factors have so far not been studied together in a single experiment. These manipulations of the listening condition result in fine-grained differences in the intelligibility of the speech signal and subsequently affect to what extent listeners rely on the bottom-up information. This allows us to test the predictions of the Noisy Channel Model, a model that explains human speech comprehension in background noise. So far, the predictions of this model have been primarily tested using written stimuli and never with acoustical noise. In the word recognition experiments we collect confidence ratings to investigate false hearing effects. Additionally, we were interested in consequences of these adverse listening conditions and addressed the question how recognition memory is affected by background noise and contextual predictability, studying false memory effects in particular. This dissertation presents results from three experiments that were set up to address these questions. The first two experiments used a word recognition paradigm in which participants listened to recordings of sentences that were embedded in background noise in some conditions. Our stimuli contained different speech sound contrasts. We varied the level as well as the type of background noise across the two experiments. Because they lead to varying degrees of relying on either bottom-up or top-down processes, these differences in listening conditions allowed us to test the predictions of the Noisy Channel Model. Across experiments, we also varied the tested population. In Experiment 2 we recruited older adults as well as younger adults. As older adults differ from younger adults in their trade-off between top-down and bottom-up information. This allowed us to test their recognition accuracy in listening situations with small-grained differences regarding the intelligibility (through the overlap between the speech signal and noise). We can further test the predictions of the Noisy Channel Model, and investigate false hearing effects. The third experiment investigated consequences of listening in background noise, as we tested the effects of both noise and predictability on recognition memory. Taken together, the results from the three experiments lead us to four conclusions. First, we find that the three factors of noise type, speech sound, and predictability of the context interact during speech comprehension. Second, this leads to small-grained differences in the intelligibility of the stimuli, which in turn affects how the listener relies on either the bottom-up signal or top-down predictions. Across the experiments, our findings support the predictions made by the Noisy Channel Model, namely that the reliance on predictive processes is dependent on the effort that is required to process the speech signal and the amount of overlap between speech and background noise. Third, this was the case even for older adults, who did not show the expected false hearing effects. Instead, they behaved rationally, taking into account possible age-related hearing loss and a stronger reliance on prediction. Finally, we additionally showed that the difficulty of the listening condition affects meta-cognitive judgements, operationalised through confidence ratings: the more difficult the listening condition, the lower listeners’ confidence was, both for word recognition and memory. Against our expectations, we did not find evidence of false memory. Future studies should investigate in exactly which situations this effect occurs, as our experimental design differed from those of previous studies. In sum, the findings in this dissertation contribute to our understanding of speech recognition in adverse listening conditions, in particular background noise, and of how predictive processes can both help and hinder speech perception. Our results consistently support the predictions of the Noisy Channel Model, indicating that human listeners behave rationally. Their reliance on either the bottom-up acoustic signal or top-down predictions depends on the clarity of the speech signal, and here they take into account fine-grained differences. In this way, they can maximize the chance of successful communication while minimizing effort.
Wenn wir in unserem t{\"a}glichen Leben Sprache verwenden, geschieht dies sehr selten in einer ruhigen Umgebung. Die meiste Zeit, in der wir Sprache unter nat{\"u}rlichen Bedingungen h{\"o}ren, sind Hintergrundger{\"a}usche vorhanden. Wir nehmen dies kaum wahr, und in der Regel ist der Ger{\"a}uschpegel so gering, dass er nicht zu gro{\ss}en St{\"o}rungen der Kommunikation f{\"u}hrt. Denken Sie an das Brummen von vorbeifahrenden Autos, an Gespr{\"a}che anderer Menschen, an die Arbeit von Maschinen oder an das Ger{\"a}usch von Tellern und Besteck in einem Restaurant. Wir sind in der Lage, fast m{\"u}helos mit anderen zu kommunizieren, obwohl diese Ger{\"a}usche mit dem Sprachsignal konkurrieren. Wie schaffen Menschen das? Ist dieser Prozess des Zuh{\"o}rens bei Hintergrundger{\"a}uschen wirklich so m{\"u}helos, wie es scheint? Und k{\"o}nnen die Strategien, die zur Bew{\"a}ltigung der zus{\"a}tzlichen kognitiven Belastung eingesetzt werden, auch Nachteile mit sich bringen? Ziel der vorliegenden Dissertation ist es, die Literatur zum Sprachverst{\"a}ndnis bei Hintergrundger{\"a}uschen weiterzuentwickeln, indem die folgenden Fragen beantwortet werden: Wie interagieren Vorhersagbarkeit, Hintergrundger{\"a}usche und Sprachger{\"a}usche in den Reizen? Gibt es bei dieser Interaktion Unterschiede zwischen verschiedenen Arten von Hintergrundger{\"a}uschen? Wie lassen sich diese Unterschiede in der Erkennungsgenauigkeit erkl{\"a}ren? Dar{\"u}ber hinaus untersuchen wir, wie sich diese H{\"o}rbedingungen auf {\"a}ltere Erwachsene auswirken und welche Auswirkungen sie auf die Kommunikation {\"u}ber die Worterkennung hinaus haben. Eine Strategie, die dazu beitr{\"a}gt, die Belastung des Sprachverstehens durch Hintergrundger{\"a}usche zu verringern, besteht darin, sich auf Vorhersagen zu st{\"u}tzen. Oft ist es m{\"o}glich, z. B. Weltwissen, Wissen {\"u}ber den Sprecher oder den vorangegangenen Kontext in einem Dialog zu nutzen, um vorherzusagen, was als N{\"a}chstes gesagt werden k{\"o}nnte. Verschiedene Studien haben ergeben, dass ein hoher Vorhersagewert eines Satzes den Zuh{\"o}rern in ruhiger Umgebung hilft, ihn zu verarbeiten, aber auch besonders in lauten H{\"o}rsituationen, wo er zu einer besseren Erkennung f{\"u}hrt als ein niedriger Vorhersagewert (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Verschiedene Spracherkennungstheorien ber{\"u}cksichtigen dies und erkl{\"a}ren, wie Bottom-up-Informationen aus dem auditiven Sprachsignal mit Topdown- Informationen kombiniert werden, z. B. mit Vorhersagen, die auf dem Kontext basieren (Levy, 2008; Levy et al., 2009; Luce & Pisoni, 1998; Norris & McQueen, 2008; Oden & Massaro, 1978). Diese Interaktion von Bottom-Up- und Top-Down- Informationsstr{\"o}men bildet die Grundlage dieser Dissertation. Bislang wurde in empirischen Studien untersucht, wie sich die Variation der Vorhersagbarkeit des Zielwortes auf das Sprachverstehen im St{\"o}rger{\"a}usch auswirkt (Boothroyd & Nittrouer, 1988; Dubno et al., 2000; Hutchinson, 1989; Kalikow et al., 1977; Pichora-Fuller et al., 1995; Sommers & Danielson, 1999). Die Ergebnisse dieser Studien stimmen {\"u}berein: Ein vorhersehbarer Kontext erleichtert das Sprachverstehen im St{\"o}rger{\"a}usch. Ein anderer Zweig der Literatur hat untersucht, wie Hintergrundger{\"a}usche die Erkennung verschiedener Phoneme beeinflussen (Alwan et al., 2011; Cooke, 2009; Gordon-Salant, 1985; Phatak et al., 2008; Pickett, 1957). Diese Studien konzentrieren sich oft auf die isolierten Phoneme und testen feste Kontexte in Nonsense-Silben statt in W{\"o}rtern. Somit wird die Vorhersagbarkeit der Elemente nicht manipuliert, obwohl diese die Erkennung beeinflusst. Die drei Faktoren Kontextvorhersagbarkeit, Hintergrundger{\"a}usche und Phoneme wurden bisher noch nicht gemeinsam in einer Studie untersucht. Es ist m{\"o}glich, dass diese Faktoren zusammenwirken, z. B. der Effekt der Vorhersagbarkeit auf bestimmte Phoneme k{\"o}nnte st{\"a}rker sein, wenn Hintergrundger{\"a}usche die Erkennung behindern. Die vorliegende Dissertation soll diese L{\"u}cke in der Literatur f{\"u}llen. In diesem Zusammenhang wollen wir untersuchen, wie sich verschiedene Arten von L{\"a}rm auf die Spracherkennung auswirken. In fr{\"u}heren Arbeiten wurde diese Frage bereits untersucht, doch die Ergebnisse waren nicht eindeutig (Danhauer & Leppler, 1979; Gordon-Salant, 1985; Horii et al., 1971; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Einige Studien kommen zu dem Ergebnis, dass wei{\ss}es Rauschen zu gr{\"o}{\ss}eren Interferenzen f{\"u}hrt, w{\"a}hrend andere Studien feststellen, dass Babbelger{\"a}usche oder sprachf{\"o}rmige Ger{\"a}usche schwieriger sind. Diese unterschiedlichen Ergebnisse in Bezug auf die Art des L{\"a}rms lassen vermuten, dass hier andere Faktoren eine Rolle spielen, z. B. die Eigenschaften der getesteten Stimuli. Dieser offenen Frage wollen wir nachgehen. Ein Modell, das vorgeschlagen wurde, um das menschliche Sprachverstehen bei Hintergrundger{\"a}uschen zu erkl{\"a}ren, ist das Noisy Channel Model (Levy, 2008; Levy et al., 2009; Shannon, 1949). Diesem Modell zufolge kombinieren H{\"o}rer auf rationale Weise Bottom-up-Informationen mit Top-down-Informationen, wobei der R{\"u}ckgriff auf eine der beiden Arten von Informationen von der Klarheit der H{\"o}rsituation abh{\"a}ngt. Fr{\"u}here Studien haben die Vorhersagen dieses Modells vor allem im schriftlichen Bereich getestet, indem sie syntaktische {\"A}nderungen verwendeten und die Interpretation unplausibler S{\"a}tze pr{\"u}ften (Gibson et al., 2013; Poppels & Levy, 2016; Ryskin et al., 2018). Sie manipulierten den Grad des wahrgenommenen L{\"a}rms durch die Anzahl der F{\"u}llw{\"o}rter mit syntaktischen Fehlern und qualifizierten den Abstand zwischen den plausiblen und unplausiblen S{\"a}tzen durch die Anzahl der eingef{\"u}gten und gel{\"o}schten W{\"o}rter. In den Studien wurden Belege gefunden, die die Vorhersagen des Noisy Channel Models unterst{\"u}tzen. Ein Schritt in Richtung eines naturalistischeren Sprachverst{\"a}ndnisses im Rauschen wurde unternommen, indem die gleichen Stimuli in gesprochener Form getestet wurden (Gibson et al., 2016; Gibson et al., 2017). Obwohl das Noisy Channel Model konstruiert wurde, um das menschliche Sprachverst{\"a}ndnis bei L{\"a}rm zu erkl{\"a}ren, wurden seine Vorhersagen bisher in keiner Studie bei akustischem L{\"a}rm untersucht. Die vorliegende Dissertation soll neue Erkenntnisse liefern. Unsere Stimuli unterscheiden sich von den bisher {\"u}berwiegend getesteten und sind so konstruiert, dass die Vorhersagbarkeit des Zielwortes sowie die {\"U}berlappung zwischen Sprach- und Ger{\"a}uschsignal variiert. Somit w{\"u}rden unsere Ergebnisse die Situationen erweitern, in denen die Vorhersagen des Noisy Channel Model zutreffen k{\"o}nnten. Wir werden dies in verschiedenen H{\"o}rsituationen mit unterschiedlichen Arten von Hintergrundger{\"a}uschen, Stimuli-Charakteristika und Populationen testen. Au{\ss}erdem setzen wir das Noisy Channel Model in Beziehung zu anderen Modellen der Sprachwahrnehmung. Die Unterschiede zwischen j{\"u}ngeren und {\"a}lteren Erwachsenen erlauben uns, die Vorhersagen des Ger{\"a}uschkanalmodells im Detail zu testen. {\"A}ltere Erwachsene haben einen anderen Trade-Off zwischen Top-down- und Bottom-up-Informationen als j{\"u}ngere Erwachsene. Ihr Geh{\"o}r ist durch altersbedingten H{\"o}rverlust beeintr{\"a}chtigt, und diese Beeintr{\"a}chtigung f{\"u}hrt zu gr{\"o}{\ss}eren Schwierigkeiten beim Verstehen von Sprache unter ung{\"u}nstigen H{\"o}rbedingungen (Li et al., 2004; Pichora-Fuller et al., 1995; Pichora-Fuller et al., 2017; Schneider et al., 2005). Andererseits bleiben ihre pr{\"a}diktiven Prozesse intakt, und es hat sich gezeigt, dass {\"a}ltere Erwachsene sich st{\"a}rker auf diese verlassen, um H{\"o}rprobleme zu {\"u}berwinden (Stine & Wingfield, 1994; Wingfield et al., 1995; Wingfield et al., 2005). Diese Unterschiede im Vergleich zu j{\"u}ngeren Erwachsenen machen die Population der {\"a}lteren Erwachsenen theoretisch besonders interessant f{\"u}r Tests. Wir wollen untersuchen, ob es tats{\"a}chlich so ist, dass {\"a}ltere Erwachsene in F{\"a}llen, in denen der Satzkontext irref{\"u}hrend ist, mehr H{\"o}rfehler zeigen als j{\"u}ngere Erwachsene. Wir variieren die H{\"o}rbedingungen, um feink{\"o}rnige Unterschiede in der {\"U}berlappung zwischen dem Sprachsignal und dem Hintergrundger{\"a}usch zu konstruieren, wodurch sich der Schwierigkeitsgrad der H{\"o}rbedingung {\"a}ndert. iner der Unterschiede zwischen j{\"u}ngeren und {\"a}lteren Erwachsenen wurde in Bezug auf den Effekt des "false hearing" festgestellt (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Dabei handelt es sich um ein Ph{\"a}nomen, bei dem ein H{\"o}rer sehr sicher ist, ein bestimmtes Wort richtig erkannt zu haben, aber in Wirklichkeit falsch liegt. In diesen F{\"a}llen wurde das Wort oft durch Top-Down-Prozesse und nicht durch das akustische Sprachsignal selbst erkannt. Da sie im Allgemeinen st{\"a}rker auf pr{\"a}diktive Prozesse angewiesen sind, hat man festgestellt, dass der false-hearing-Effekt bei {\"a}lteren Erwachsenen gr{\"o}{\ss}er ist als bei j{\"u}ngeren. Wir wollen dies untersuchen und erwarten, dass der false-hearing-Effekt st{\"a}rker ist, wenn die H{\"o}rbedingungen schwieriger sind (aufgrund des Ger{\"a}uschpegels oder einer gr{\"o}{\ss}eren {\"U}berlappung zwischen den Sprachkl{\"a}ngen in den Stimuli und dem Hintergrundger{\"a}usch). Die Vertrauensbewertungen, die die Versuchspersonen abgeben, werden zus{\"a}tzlich Aufschluss {\"u}ber ihre metakognitiven Prozesse w{\"a}hrend des H{\"o}rens geben (siehe unten). In den meisten Studien, die das Sprachverst{\"a}ndnis untersuchen, werden die Versuchspersonen gebeten, einfach zu berichten, was sie geh{\"o}rt haben. Anschlie{\ss}end wird die Genauigkeit ermittelt. Dies beantwortet zwar die Fragen nach der Verst{\"a}ndlichkeit von Sprache und der Schwierigkeit der H{\"o}rbedingungen, l{\"a}sst aber andere Punkte offen. Im Alltag wird Sprache zur Kommunikation genutzt, die mehr erfordert als die Wiedergabe des Geh{\"o}rten. Daher sollte untersucht werden, wie sich unterschiedliche H{\"o}rbedingungen auf nachfolgende {\"u}bergeordnete Prozesse auswirken, die in der Kommunikation h{\"a}ufig eine Rolle spielen, um festzustellen, wie sich das H{\"o}ren im L{\"a}rm (oder unter anderen, m{\"o}glicherweise ung{\"u}nstigen Bedingungen) auf das Gespr{\"a}ch zwischen Gespr{\"a}chspartnern auswirkt, das {\"u}ber das blo{\ss}e Erkennen des Gesagten hinausgeht. In dieser Dissertation wollen wir die Folgen des Sprachverstehens unter verschiedenen H{\"o}rbedingungen testen, wobei wir den Hintergrundl{\"a}rm und die Vorhersagbarkeit variieren. Einerseits bitten wir die Versuchspersonen uns nach jedem experimentellen Versuch mitzuteilen, wie sicher sie sich sind, die richtige Antwort gegeben zu haben. Auf diese Weise k{\"o}nnen wir nicht nur den false-hearing- Effekt untersuchen, sondern auch feststellen, wie sie die H{\"o}rbedingungen erlebt haben und wie sich dies auf ihre subjektive Empfindung das Wort verstanden zu haben. Dies kann damit zusammenh{\"a}ngen, ob sie die richtige Antwort geben oder nicht, muss es aber nicht. Andererseits legen wir den Versuchspersonen in einem unserer Experimente nach der H{\"o}rphase einen Ged{\"a}chtnistest vor, um zu testen, wie sich die Schwierigkeit der Ger{\"a}uschbedingung und die Vorhersagbarkeit des Zielworts auf die sp{\"a}tere Erinnerung auswirken. Zu wissen, wie das Ged{\"a}chtnis durch die H{\"o}rbedingungen beeinflusst wird, ist wichtig, da es Aufschluss {\"u}ber den Umgang mit Situationen geben kann, in denen Hintergrundger{\"a}usche unvermeidlich sind, aber Anweisungen verstanden und erinnert werden m{\"u}ssen. Fr{\"u}here Arbeiten haben die Auswirkungen der Vorhersagbarkeit auf die Ged{\"a}chtnisleistung untersucht und dabei ein interessantes Ph{\"a}nomen aufgedeckt. In den Studien wurde festgestellt, dass W{\"o}rter, die vorhergesagt, den Versuchspersonen aber nicht tats{\"a}chlich pr{\"a}sentiert wurden, im Ged{\"a}chtnis bleiben und die Ged{\"a}chtnisleistung sp{\"a}ter in Form von so genannten falschen Erinnerungen beeintr{\"a}chtigen (Haeuser & Kray, 2022a; Hubbard et al., 2019). In diesen Studien geben die Versuchspersonen an, sich an diese Begriffe zu erinnern, obwohl sie sie gar nicht gesehen haben. Dieser Effekt wurde bisher noch nicht f{\"u}r Elemente untersucht, die in Hintergrundger{\"a}usche eingebettet sind, und wir wollen testen, ob wir hier mehr falsche Erinnerungen finden werden, da sich die Versuchspersonen unter solch schwierigen H{\"o}rbedingungen st{\"a}rker auf Vorhersageprozesse verlassen, was zu falschen Erinnerungen f{\"u}hrt. Wir haben drei Experimente durchgef{\"u}hrt, um diese Fragen zu beantworten. Im ersten Experiment manipulierten wir die Vorhersagbarkeit (hoch oder niedrig), die Art des Ger{\"a}uschs (Babbel oder wei{\ss}es Rauschen) und das akustische Signal (verschiedene Sprachlaute; Plosive, Vokale und Frikative) und untersuchten so die Interaktion der drei Faktoren. Diese Versuchsanordnung erm{\"o}glicht es uns auch, die Auswirkungen von Babbelger{\"a}uschen auf der einen und wei{\ss}em Rauschen auf der anderen Seite zu vergleichen, um die bisher nicht eindeutigen Ergebnisse in der Literatur zu ber{\"u}cksichtigen (Danhauer & Leppler, 1979; Horii et al., 1971; Gordon-Salant, 1985; Nittrouer et al., 2003; Taitelbaum-Swead & Fostick, 2016). Das Experiment testet die Vorhersagen des Noisy-Channel-Modells f{\"u}r das Verstehen gesprochener Sprache. Dieses Modell wurde vorgeschlagen, um das Sprachverstehen in verrauschten Umgebungen zu erkl{\"a}ren (Levy, 2008; Levy et al., 2009; Shannon, 1949). Es geht davon aus, dass Versteher sich nicht ausschlie{\ss}lich auf den Bottom-Up-Signal verlassen, sondern das Eingangssignal rational mit Top-Down-Vorhersagen kombinieren. Bislang wurde diese Hypothese vor allem im schriftlichen Bereich getestet, wo die Top-Down- Vorhersagen mit dem Bottom-Up-Signal in Konflikt stehen. Unsere H{\"o}rbedingungen unterscheiden sich hinsichtlich ihrer Editierdistanz in einerWeise, die auf fr{\"u}heren Arbeiten {\"u}ber die Verwechselbarkeit von Sprachlauten im L{\"a}rm beruht und zu feink{\"o}rnigen Unterschieden f{\"u}hrt. Unsere Ergebnisse stimmen mit den Vorhersagen des Noisy- Channel-Modells {\"u}berein: H{\"o}rer kombinieren probabilistisch Top-Down-Vorhersagen, die auf dem Kontext basieren, mit verrauschten Bottom-Up-Informationen aus dem akustischen Signal, um gesprochene Sprache besser zu verstehen. Das zweite Experiment testet das Sprachverstehen bei gleichzeitigen St{\"o}rger{\"a}uschen bei j{\"u}ngeren und {\"a}lteren Erwachsenen. Diese beiden Populationen unterscheiden sich hinsichtlich der Spracherkennung und der Art und Weise, wie Informationen aus dem Bottom-Up-Audiosignal und Top-Down-Vorhersagen kombiniert werden. So k{\"o}nnen wir die Vorhersagen des Noisy-Channel-Modells anhand dieser beiden Populationen weiter testen. Dar{\"u}ber hinaus haben fr{\"u}here Studien, insbesondere bei {\"a}lteren Erwachsenen, false-hearing-Effekte festgestellt, bei dem sie sehr zuversichtlich waren, w{\"a}hrend der Worterkennung eine korrekte Antwort zu geben, die aber tats{\"a}chlich falsch war (Failes et al., 2020; Failes & Sommers, 2022; Rogers et al., 2012; Rogers & Wingfield, 2015; Rogers, 2017; Sommers et al., 2015). Wir untersuchen dieses Ph{\"a}nomen und gehen der Frage nach, inwieweit die metakognitiven Entscheidungen unserer Versuchspersonen ihr Vertrauen in das akustische Signal oder den semantischen Kontext widerspiegeln. Auch hier variieren wir das Rauschen, konzentrieren uns aber jetzt auf den Rauschpegel (0 SNR dB oder -5 SNR dB) und nicht auf die Art des Rauschens (wir verwenden nur Babble Noise). Unsere Ergebnisse zeigen, dass das Ausma{\ss} des Fehlh{\"o}rens direkt mit der Wahrnehmbarkeit des Sprachsignals zusammenh{\"a}ngt und dass die eigen Einsch{\"a}tzung der Versuchspersonen, ob das Wort im Signal so gesprochen wurde, ebenfalls damit {\"u}bereinstimmen: Je mehr {\"U}berschneidungen zwischen Sprachsignal und St{\"o}rger{\"a}usch, desto weniger waren die Versuchspersonen sich sicher, dass sie die richtige Antwort gegeben haben. Wir finden keine Hinweise auf false-hearing-Effekte, was auf die von uns getestete Population zur{\"u}ckzuf{\"u}hren sein k{\"o}nnte. Stattdessen hing die H{\"o}he der Sicherheitsbewertungen von der Schwierigkeit der H{\"o}rbedingung ab. Das dritte Experiment untersucht die Folgen des H{\"o}rens von mehr oder weniger vorhersehbarer Sprache im Hintergrundger{\"a}usch, indem es die Versuchspersonen nicht nur fragt, was sie geh{\"o}rt haben. Wir testen, wie das sp{\"a}tere Wiedererkennungsged{\"a}chtnis der Versuchspersonen durch diese verschiedenen H{\"o}rbedingungen beeinflusst wird. In fr{\"u}heren Studien wurden Effekte falschen Erinnerns festgestellt, bei denen Elemente, die (in hohem Ma{\ss}e) vorhergesagt, aber nicht tats{\"a}chlich pr{\"a}sentiert wurden, im Ged{\"a}chtnis verbleiben, so dass sie von den Veruschspersonen in Ged{\"a}chtnistests wiedergegeben werden (Haeuser & Kray, 2022a; Hubbard et al., 2019). Wir wollen testen, ob dieser Effekt bei Hintergrundger{\"a}uschen st{\"a}rker ist, da sich die H{\"o}rer unter diesen Bedingungen st{\"a}rker auf pr{\"a}diktive Prozesse verlassen. In unserem Experiment h{\"o}rten die Versuchspersonen zun{\"a}chst S{\"a}tze, die entweder in St{\"o}rger{\"a}usche eingebettet oder in Ruhe pr{\"a}sentiert wurden. Die Vorhersagbarkeit des Zielworts wurde durch {\"A}nderung der Wortreihenfolge des Satzes beeinflusst, und wir variierten auch die H{\"a}ufigkeit der Zielw{\"o}rter. In einem Test zum Wiedererkennen von {\"U}berraschungen fragten wir die Versuchspersonen, ob sie das dargebotene Wort schon einmal gesehen hatten, wobei es drei Arten von W{\"o}rtern gab: alte Begriffe, die sie schon einmal geh{\"o}rt hatten, neue Begriffe, die sie noch nie geh{\"o}rt hatten und die in keinem Zusammenhang mit den S{\"a}tzen standen, und semantische K{\"o}der, die sie noch nie geh{\"o}rt hatten, die aber semantisch mit den alten Begriffen verbunden waren. Die Ergebnisse zeigten, dass die Ged{\"a}chtnisleistung f{\"u}r die semantischen K{\"o}der nicht durch Faktoren auf Satzebene, wie Hintergrundger{\"a}usche oder Vorhersagbarkeit, beeinflusst wurde. W{\"a}hrend dies bei den alten Elemente der Fall war, zeigen diese Ergebnisse zusammengenommen, dass wir keine Hinweise auf falsche Erinnerneffekte bei den K{\"o}der-Elemente gefunden haben, sondern dass die Genauigkeit bei den alten Elemente, {\"a}hnlich wie in den beiden vorangegangenen Experimenten, von der Schwierigkeit der H{\"o}rbedingung abhing. Wir erweitern die Literatur, indem wir drei Faktoren kombinieren, die beim Sprachverstehen im L{\"a}rm interagieren, n{\"a}mlich die Art des L{\"a}rms, bestimmte Sprachlaute in den Stimuli und die Vorhersagbarkeit des Kontexts. Die ersten beiden Faktoren interagieren, was zu einer Variation des Anteils des Sprachsignals f{\"u}hrt, der verdeckt wird. In fr{\"u}heren Studien wurde diese Wechselwirkung zwar untersucht, allerdings vorwiegend bei isolierten Silben (Alwan et al., 2011; Cooke, 2009; Gordon- Salant, 1985; Phatak et al., 2008; Pickett, 1957). Da H{\"o}rer im Alltag in der Lage sind, Vorhersagen auf der Grundlage des semantischen Kontexts zu treffen, um ihren Erkennungsprozess zu steuern, ist es wichtig, auch den Effekt eines mehr oder weniger vorhersagenden Satzkontexts zu ber{\"u}cksichtigen. Wir zeigen, dass die drei Faktoren zusammenwirken und zu geringf{\"u}gigen Unterschieden in der Verst{\"a}ndlichkeit der Stimuli f{\"u}hren, je nach Art des Hintergrundrauschens und der Phoneme im akustischen Signal. Daher ist der Effekt der Vorhersagbarkeit st{\"a}rker, wenn das Hintergrundger{\"a}usch st{\"a}rker mit einem bestimmten Sprachklang interferiert. Dies wirkt sich darauf aus, wie sehr sich der H{\"o}rer bei der Spracherkennung auf Top-down- oder Bottom-up-Prozesse verl{\"a}sst. Der R{\"u}ckgriff auf pr{\"a}diktive Prozesse kann zu falsch erkannten W{\"o}rtern f{\"u}hren, wenn der Satzkontext irref{\"u}hrend ist. Wir zeigen, dass die Vorhersagen des Noisy-Channel-Modells auch dann zutreffen, wenn sie in einem anderen Versuchsaufbau als bisher getestet werden, n{\"a}mlich mit einem anderen Satz von Stimuli und in akustischem Hintergrundrauschen. Wir verwendeten gesprochene Stimuli, die in Hintergrundger{\"a}usche unterschiedlicher Art und Lautst{\"a}rke eingebettet waren, und manipulierten die wahrgenommene Ger{\"a}uschmenge durch die {\"U}berlappung des Sprachsignals und des akustischen Rauschens, indem wir Stimuli mit unterschiedlichen Klangkontrasten konstruierten (Minimalpaare mit Plosiven, Frikativen und Affrikaten sowie Vokalen). Da unter diesen verschiedenen H{\"o}rbedingungen die Klarheit des Sprachsignals und damit der erforderliche Verarbeitungsaufwand variiert, macht das Noisy Channel Model feink{\"o}rnige Vorhersagen dar{\"u}ber, wie sehr sich H{\"o}rer entweder auf das akustische Signal von unten nach oben oder auf pr{\"a}diktive Prozesse von oben nach unten verlassen. Wir haben zus{\"a}tzlich zwei verschiedene Populationen getestet, n{\"a}mlich j{\"u}ngere und {\"a}ltere Erwachsene. Bei {\"a}lteren Erwachsenen wurde bereits festgestellt, dass sie sich st{\"a}rker auf pr{\"a}diktive Prozesse verlassen als j{\"u}ngere Erwachsene, so dass wir die Vorhersagen des Noisy- Channel-Modells weiter testen konnten. Auch hier wurden die Vorhersagen durch unsere Daten best{\"a}tigt. Insgesamt bieten unsere Ergebnisse eine zus{\"a}tzliche und {\"u}bereinstimmende Unterst{\"u}tzung f{\"u}r das Noisy-Channel-Modell. Wir replizieren den Befund, dass {\"a}ltere Erwachsene dazu neigen, sich mehr auf den Satzkontext zu verlassen als j{\"u}ngere Erwachsene. W{\"a}hrend dies in der bisherigen Literatur h{\"a}ufig berichtet wurde, zeigen wir diesen Effekt in einer Online-Studie mit einer j{\"u}ngeren Versuchspersonengruppe (50-65 Jahre) als in diesen Studien {\"u}blich (65+). Wir haben auch den false-hearing-Effekt untersucht. Bei diesem Effekt ist das Vertrauen in falsche Antworten hoch, und es wurde festgestellt, dass dieser Effekt bei {\"a}lteren Erwachsenen st{\"a}rker ist als bei j{\"u}ngeren Erwachsenen. Dies wird auf den altersbedingten Abbau der kognitiven Kontrolle zur{\"u}ckgef{\"u}hrt. In unserem Experiment konnten wir den Befund des false hearings nicht replizieren. Stattdessen fanden wir eine Tendenz zu geringerer Zuversicht bei falschen Antworten, die mit der Schwierigkeit der H{\"o}rbedingung {\"u}bereinstimmt: Je mehr {\"U}berschneidungen zwischen Sprachlauten und Ger{\"a}uschen oder je h{\"o}her der Ger{\"a}uschpegel, desto geringer war die Zuversicht unserer H{\"o}rer, sowohl bei j{\"u}ngeren als auch bei {\"a}lteren Erwachsenen. Eine m{\"o}gliche Erkl{\"a}rung f{\"u}r das Fehlen des false-hearing-Effekts ist das relativ junge Alter unserer Gruppe {\"a}lterer Versuchspersonen. Wir untersuchten die Folgen des H{\"o}rens bei Hintergrundger{\"a}uschen, d.h. die Art und Weise, wie Prozesse h{\"o}herer Ordnung durch unterschiedliche H{\"o}rbedingungen (unterschiedliche Ger{\"a}usche und Vorhersagbarkeit) beeinflusst werden. Dies ist wichtig, um die Auswirkungen von Hintergrundger{\"a}uschen und Vorhersagbarkeit auf die Kommunikation zu untersuchen, die viel mehr umfasst als nur das Erkennen von W{\"o}rtern. Wir zeigen, dass der Schwierigkeitsgrad der H{\"o}rbedingung die metakognitiven Urteile beeinflusst, operationalisiert durch Sicherheitsbewertungen: Je schwieriger die H{\"o}rbedingung war, desto geringer war die Sicherheit der H{\"o}rer, was auf ein Bewusstsein f{\"u}r die Ver{\"a}nderung der Bedingung hinweist. Dar{\"u}ber hinaus untersuchten wir, wie Hintergrundger{\"a}usche und Ver{\"a}nderungen in der Vorhersagbarkeit das sp{\"a}tere Wiedererkennungsged{\"a}chtnis f{\"u}r experimentelle Elemente beeinflussen. Wir zeigen, dass diese Faktoren bei zuvor pr{\"a}sentierten Elemente die Ged{\"a}chtnisleistung beeinflussen. Was wir jedoch nicht beobachten k{\"o}nnen, ist ein falsche Erinnerung f{\"u}r nicht pr{\"a}sentierte, aber semantisch verwandte Elemente. Zusammenfassend l{\"a}sst sich sagen, dass die Ergebnisse dieser Dissertation zu unserem Verst{\"a}ndnis der Spracherkennung unter ung{\"u}nstigen H{\"o}rbedingungen, insbesondere bei Hintergrundger{\"a}uschen, beitragen und zeigen, wie pr{\"a}diktive Prozesse die Sprachwahrnehmung sowohl f{\"o}rdern als auch behindern k{\"o}nnen.},
pubstate = {published},
type = {phdthesis}
}
Copy BibTeX to Clipboard