@phdthesis{Chingacham_Diss_2024, title = {Exploring paraphrasing for enhancing speech perception in noisy environments}, author = {Anupama Chingacham}, url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/39676}, doi = {https://doi.org/20.500.11880/39676}, year = {2024}, date = {2024}, school = {Saarland University}, address = {Saarbruecken, Germany}, abstract = {This thesis addresses the challenge of speech perception in noisy environments, where echoes, reverberations and background noise can distort communication. It proposes using paraphrases, instead of acoustic modifications, to improve speech intelligibility in noise without causing signal distortions. The first study investigates the effectiveness of replacing words with synonyms in noisy conditions, finding that it can enhance word recognition by up to 37% in high-noise environments. The second study expands on this by exploring sentential paraphrases, showing that choosing the right paraphrase can improve intelligibility by 33%. It also develops a paraphrase ranking model that outperforms baseline models in identifying the most intelligible paraphrases. The final study examines how Large Language Models (LLMs) can generate both semantically equivalent and acoustically intelligible paraphrases. It reveals that while LLMs struggle to improve acoustic intelligibility in standard setups, a post-processing approach called "prompt-and-select" yields better results. Overall, the thesis contributes two new human-annotated datasets, an approach to generate unlimited synthetic data, and a novel framework for generating noise-robust speech, offering a promising direction for developing speech generation systems that adapt to noisy environments.
Im Falle von Sprachsignalverzerrungen durch Echos, Nachhall oder Hintergrundger{\"a}usche, wie zum Beispiel in einem belebten Caf{\'e}, kann das Zuh{\"o}ren selbst f{\"u}r Personen mit normalem H{\"o}rverm{\"o}gen eine Herausforderung darstellen. Wenn L{\"a}rm das Zuh{\"o}ren behindert, kann die Bedeutung einer Nachricht, die der H{\"o}rer wahrnimmt, von der vom Sprecher beabsichtigten Bedeutung abweichen. Das kann zu Missverst{\"a}ndnissen oder in extremen F{\"a}llen sogar zu Kommunikationsabbr{\"u}chen f{\"u}hren. Im Gegensatz zu menschlichen Sprechern, die ihre Sprechweise an die H{\"o}rschwierigkeiten ihres Gespr{\"a}chspartners anpassen k{\"o}nnen, sind die derzeitigen Sprachdialogsysteme nur begrenzt in der Lage, ger{\"a}uschrobuste Sprache zu produzieren. Die meisten algorithmischen L{\"o}sungen zur Synthese ger{\"a}uschrobuster Sprache basieren auf akustischen Modifikationen, die nicht in allen F{\"a}llen von Vorteil sind, da sie zu Signalverzerrungen f{\"u}hren k{\"o}nnen, die die Nat{\"u}rlichkeit oder Qualit{\"a}t der synthetisierten Sprache beeintr{\"a}chtigen. In dieser Arbeit wird eine alternative Strategie zur Verbesserung der Sprachwahrnehmung bei St{\"o}rger{\"a}uschen vorgeschlagen, die keine Signalverzerrungen mit sich bringt: die Verwendung von Paraphrasen. Ger{\"a}usche wirken sich unterschiedlich auf verschiedene lexikalische Einheiten aus - einige sind ger{\"a}uschresistenter, w{\"a}hrend andere anf{\"a}lliger f{\"u}r Fehlwahrnehmungen sind. Daher ist die Verwendung von Paraphrasen keine Garantie f{\"u}r eine bessere Sprachwahrnehmung. Wenn die lexikalischen Einheiten, die zur Umschreibung verwendet werden, in einer H{\"o}rsituation {\"a}hnlich wahrgenommen werden wie die urspr{\"u}ngliche Formulierung, stellen sie keine Verbesserung dar. Daher zielt die erste Studie in dieser Arbeit darauf ab, ein besseres Verst{\"a}ndnis daf{\"u}r zu erlangen, ob und inwieweit eine einfache, aber weit verbreitete Paraphrasierungsstrategie - die lexikalische Ersetzung durch Synonyme - Wortfehlwahrnehmungen im L{\"a}rm reduzieren kann. Es wurden H{\"o}rexperimente durchgef{\"u}hrt, um die Wahrnehmungsunterschiede zwischen Synonymen im L{\"a}rm zu erfassen. Die Analyse des zu diesem Zweck neu erstellten Datensatzes – Synonyms-in-Noise (SiN) – ergab, dass das Ersetzen einer lexikalischen Einheit durch ein Synonym mit geringerem Risiko, falsch verstanden zu werden, die Worterkennung in einer stark verrauschten Umgebung (z.B. bei Babble Noise mit einem Signal-Rausch-Verh{\"a}ltnis von −5 dB) um bis zu 37% verbessern kann. Au{\ss}erdem wurde ein Modellierungsexperiment durchgef{\"u}hrt, um den beobachteten Gewinn an Verst{\"a}ndlichkeit zu erkl{\"a}ren. Die Ergebnisse zeigen, dass der Verst{\"a}ndlichkeitsgewinn bei geringem und mittlerem L{\"a}rm auf die linguistischen Merkmale von Synonymen zur{\"u}ckzuf{\"u}hren ist, w{\"a}hrend der Gewinn bei starkem L{\"a}rm haupts{\"a}chlich von akustischen Merkmale bestimmt wird. Um allgemeinere Arten von Umschreibungen zu ber{\"u}cksichtigen, konzentriert sich die zweite Studie der Arbeit auf Satzumschreibungen und ihre Auswirkungen auf die Verst{\"a}ndlichkeit der gesamten {\"A}u{\ss}erung. In weiteren H{\"o}rexperimenten wurden Satzparaphrasen verglichen und ein neuer Datensatz namens Paraphrasesin- Noise (PiN) erstellt. Es wurde festgestellt, dass sich die Verst{\"a}ndlichkeitswerte von verschiedenen Satzparaphrasen auch unter stark verrauschten Bedingungen signifikant unterscheiden und die Wahl der richtigen Paraphrase innerhalb eines Paares einen Gesamtgewinn an Verst{\"a}ndlichkeit von bis zu 33% bewirken kann. Dar{\"u}ber hinaus wurde in der Studie ein verst{\"a}ndlichkeitsorientiertes Paraphrasen- Ranking-Modell vorgeschlagen, um die verst{\"a}ndlichsten Paraphrasen anhand ihrer linguistischen und akustischen Merkmale korrekt zu identifizieren. Das vorgeschlagene Modell {\"u}bertraf beide Basismodelle (Zufalls- und Mehrheitsmodell) und erreichte mit 67% die h{\"o}chste Verst{\"a}ndlichkeit bei starkem Rauschen. Die abschlie{\ss}ende Studie dieser Arbeit zielt darauf ab, akustisch besser verst{\"a}ndliche Paraphrasen zu generieren, die potenziell n{\"u}tzlich sein k{\"o}nnten, um ger{\"a}uschadaptive Sprachdialogsysteme zu entwickeln. Wir evaluieren, inwieweit moderne Textgenerierungsmodelle wie Large Language Models (LLMs) Texte produzieren k{\"o}nnen, die sowohl textuelle Anforderungen (z.B. semantische {\"A}quivalenz) als auch nicht-textuelle Anforderungen (z.B. akustische Verst{\"a}ndlichkeit) erf{\"u}llen. Die Ergebnisse der Studie zeigen, dass LLMs in Standard-Prompting-Setups Schwierigkeiten haben, die akustische Verst{\"a}ndlichkeit zu verbessern und gleichzeitig die semantische {\"A}quivalenz effektiv zu erhalten. Au{\ss}erdem wurde festgestellt, dass der vorgeschlagene Nachbearbeitungsansatz - prompt-and-select – besser abschneidet als fein abgestimmte Modelle, wenn es darum geht, Paraphrasen zu erzeugen, die akustisch besser verst{\"a}ndlich sind. Zusammenfassend l{\"a}sst sich sagen, dass in dieser Arbeit das Potenzial der Paraphrasierung zur Verbesserung der Sprachwahrnehmung im L{\"a}rm untersucht wurde. Als Ergebnis haben wir zwei neue Datens{\"a}tze erstellt und einen neuen Rahmen f{\"u}r die Synthese von ger{\"a}uschrobuster Sprache vorgeschlagen, der keine Signalverzerrungen verursacht.}, pubstate = {published}, type = {phdthesis} }