@phdthesis{Chowdhury_Diss_2024,
title = {A representation learning based approach to the study of translationese},
author = {},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/40059},
doi = {https://doi.org/20.500.11880/40059},
year = {2024},
date = {2024},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {Translated texts exhibit systematic linguistic differences compared to original texts in the same language. These differences are referred to as translationese, and can be categorised as either source language dependent or universal. Basic research on translationese aims to understand and characterise the language-specific and language-independent aspects of translationese. Additionally, translationese has practical implications in the context of natural language processing tasks that involve translation. Translationese effects can cause biased results in a variety of cross-lingual tasks. Therefore, understanding, analysing and mitigating translationese is crucial for improving the accuracy and effectiveness of cross-lingual natural language processing. Focusing on representation learning, this dissertation addresses both foundational as well as practical aspects of translationese. Our first task is to investigate the effectiveness of representation learning-based methods in mono- and multilingual translationese classification. Traditional manual featureengineering based methods for translationese classification may result in potentially partial, non-exhaustive linguistic features and often require linguistic annotation tools. In contrast, our approach involves developing a suite of representation-learning methods based on word embeddings, eliminating the need for manual feature engineering. Our experiments demonstrate superior performance, outperforming previous traditional hand-crafted linguistically inspired feature-selection methods for translationese classification on a wide range of tasks. Translationese artifacts have been found to exert a substantial influence on diverse downstream tasks involving translated data. Therefore, to mitigate the impact of translationese on downstream tasks, we propose a new approach: translationese debiasing. Our research is the first to adapt the Iterative Null Space Projection (INLP) algorithm, originally designed to mitigate gender attributes, to translationese-induced bias in both word and sentence embedding spaces. Additionally, we develop two techniques for debiasing translationese at the word level representations. We confirm the effectiveness of our debiasing approach by comparing the classification performance before and after debiasing on the translationese classification task. Additionally, we demonstrate the practical utility of our debiasing method by applying it to a natural language inference task involving translated data, where we observed improved accuracy as a result of reduced translation-induced bias. Next, we address the foundational question of whether translationese signals can be observed in semantic word embedding spaces and, if so, what practical implications this observation may have. To this end, we propose a novel approach for unsupervised tracking of translationese in semantic spaces, which does not rely on explicit linguistic labels. Our method is based on graph-isomorphism approaches that examine departures from isomorphism between embedding spaces built from original language data and translations into this language. By comparing the normalised distances between these spaces, we are able to identify systematic evidence of translationese. Specifically, we find that as isomorphism weakens, the linguistic distance between etymologically distant language families increases, providing evidence that translationese signals are linked to source language interference. Following this, we show that the proposed methods are robust under a variety of training conditions, encompassing data size, type, and choice of word embedding models. Additionally, our findings indicate our methods are language-independent, in the sense that they can be applied to multiple languages and are not limited to a specific language or language family. We extend the work on unsupervised tracking of translationese in semantic spaces to evaluate the impact of domain in translationese data. Translationese signals are subtle and may compete with other signals in the data, particularly those related to domain. To address this, we mask domain information by applying our graph-isomorphism methods to different delexicalized representations using various views, including words, parts of speech, semantic tags, and synsets. Our results demonstrate that while source-language interference is most pronounced in lexicalised embeddings (word), it is also present in delexicalised views. This indicates that our lexicalised findings are not only the result of possible topic differences between original and translated texts. Additionally, we show that, regardless of the level of linguistic representation, language family ties with characteristics similar to linguistically motivated phylogenetic trees can be inferred from the degree of departures from isomorphism, using all combinations of original target language and translations into this target language from different source languages. Finally, we explore whether the graph-based divergence from isomorphism in embeddings can serve as a viable proxy for surprisal at the the level of surface texts. To do this, we explicitly compute the correlation between (a) differences in surface string entropy of original vs. translated data computed by language models trained on originally authored data and (b) divergence from isomorphism between embedding spaces computed on the same text data. Our results show a positive correlation between these two measures with a higher departure from isomorphism between embedding spaces corresponding to a greater difference in surface entropy. Additionally, similar to the findings of graph-based divergence from isomorphism between embedding spaces where higher divergence from isomorphism implicitly indicates higher linguistic distance in terms of language families and, supposedly, surface structural linguistic distance between languages — our entropy-based findings demonstrate that the observed differences in surface string representations between the original and translated datasets also correspond, at a higher level, with the surface structural linguistic distance between the source languages themselves. These results establish an explicit link between our two measures: divergence from isomorphism between original and translated embedding spaces and entropy differences of the surface strings of the same text data.
{\"U}bersetzteTexte weisen im Vergleich zu Originaltexten in derselben Sprache systematische sprachliche Unterschiede auf, die zu einer einzigartigen Teilsprache mit eigenen Unterscheidungsmerkmalen f{\"u}hren. Diese Unterschiede werden als Translationese (Gellerstam, 1986) bezeichnet und k{\"o}nnen entweder als ausgangssprachabh{\"a}ngig oder universell kategorisiert werden. Es ist wichtig zu beachten, dass Translationese keine eigenst{\"a}ndige Sprache ist, sondern vielmehr eine Reihe von sprachlichen Merkmalen (Baker et al., 1993; Toury, 1980), die {\"u}bersetzte Texte von denen unterscheiden, die urspr{\"u}nglich in der Zielsprache geschrieben wurden. Verschiedene Faktoren tragen zu den Unterschieden zwischen den Originaltexten und {\"u}bersetzten Texten bei, von denen viele unter die Kategorie der universellen Merkmale der {\"U}bersetzung fallen. Zu diesen universellen Merkmalen geh{\"o}ren die Vereinfachung, d. h. die Vereinfachung komplexer Ausgangsstrukturen in der Zielsprache, die Standardisierung, d. h. die Neigung, sich eng an die Normen der Zielsprache zu halten, und die Explizierung, d. h. die Verdeutlichung impliziter Ausgangsstrukturen in der Zielsprache. Im Gegensatz zu diesen {\"u}bersetzerischen Universalien spiegelt die Interferenz den Einfluss der Ausgangssprache auf das {\"U}bersetzungsprodukt wider. Interferenz ist von Natur aus ein sprachpaarspezifisches Ph{\"a}nomen, bei dem isomorphe Strukturen, die Ausgangs- und Zielsprache gemeinsam haben, einander leicht ersetzen k{\"o}nnen. Dies verdeutlicht den zugrunde liegenden sprach{\"u}bergreifenden Einfluss der Ausgangssprache auf das {\"U}bersetzungsergebnis. Nach dieser Definition wird das {\"U}bersetzen als eine besondere Form der sprach{\"u}bergreifenden Sprachvariet{\"a}t betrachtet, die einen Sonderfall innerhalb der breiteren Landschaft des Sprachkontakts darstellt. Trotz des betr{\"a}chtlichen Umfangs der Forschung zu verschiedenen sprach{\"u}bergreifenden Sprachvariet{\"a}ten gibt es eine auff{\"a}llige L{\"u}cke, wenn es um die spezifische Untersuchung des Translationese geht. Bisherige Studien haben sich vor allem auf zwei Aspekte konzentriert, n{\"a}mlich auf die Identifizierung charakteristischer Merkmale von {\"U}bersetzungen und auf die Klassifizierung von Translationese, wobei sorgf{\"a}ltige korpusbasierte Studien (Baker et al., 1993) verwendet wurden, die Unterschiede in der Verteilung linguistischer Merkmale zwischen Originalen und {\"u}bersetzten Texten aufzeigen, oder klassifikationsbasierte Ans{\"a}tze bei denen ein Klassifikator trainiert wird und dann Merkmalsbedeutungsma{\ss}e verwendet werden, um darauf zu schlie{\ss}en, welche Merkmale bei der Klassifizierung von {\"U}bersetzungen besonders wichtig sind (Rabinovich and Wintner, 2015; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Die praktischen Implikationen von Translationswissenschaft gehen jedoch {\"u}ber die Identifizierung linguistischer Merkmale und die Klassifizierung hinaus. Die ausgepr{\"a}gten sprachlichen Unterschiede, die zwischen Originaltexten und {\"u}bersetzten Texten in derselben Sprache zu beobachten sind, lassen sich im Gro{\ss}en und Ganzen entweder als quellsprachenabh{\"a}ngig oder als universell klassifizieren. Die Durchf{\"u}hrung von Grundlagenforschung zum Translationese ist wichtig, da sie wertvolle Einblicke sowohl in sprachspezifische als auch in sprachunabh{\"a}ngige Aspekte dieses sprachlichen Ph{\"a}nomens liefert. Die Grundlagenforschung erm{\"o}glicht ein tieferes Verst{\"a}ndnis der zugrundeliegenden Muster und Strukturen, die das Translationese definieren, sowie der Variationen, die in verschiedenen Sprachen und Sprachfamilien beobachtet werden. Es ist jedoch auch wichtig, eine bestehende L{\"u}cke in der Erforschung des Translationese zu schlie{\ss}en. Translationese hat sp{\"u}rbare Auswirkungen auf verschiedene sprach{\"u}bergreifende Aufgaben der nat{\"u}rlichen Sprachverarbeitung (NLP), was zu verzerrten Ergebnissen und verminderter oder k{\"u}nstlich aufgebl{\"a}hter Leistung f{\"u}hren kann. Daher ist die Untersuchung und Abschw{\"a}chung von Translationese f{\"u}r die Verbesserung der Genauigkeit und Effektivit{\"a}t dieser Aufgaben von entscheidender Bedeutung. Die Abschw{\"a}chung von Translationese ist bisher ein wenig erforschtes Gebiet. Ein wichtiger Teil der in dieser Arbeit vorgestellten Forschung besteht darin, diese L{\"u}cke zu schlie{\ss}en. In dieser Arbeit konzentrieren wir uns auf das Repr{\"a}sentationslernen als einen umfassenden Ansatz, um sowohl die grundlegenden als auch die praktischen Aspekte von Translationese zu behandeln. Mit dieser Forschungsarbeit wollen wir einen Beitrag zum breiteren Feld der sprach{\"u}bergreifenden Sprachstudien leisten und eine bestehende L{\"u}cke im Verst{\"a}ndnis und in der Behebung von Translationese schlie{\ss}en. Zun{\"a}chst befassen wir uns mit den praktischen Aspekten von Translationese. Fr{\"u}here Studien haben gezeigt dass die Verwendung verschiedener manuell erstellter Merkmale f{\"u}r {\"u}berwachtes Lernen f{\"u}r die Klassifizierung von Translationese effektiv sein kann (Avner, Ordan, and Wintner, 2016; Baroni and Bernardini, 2005; Rabinovich, Ordan, and Wintner, 2017; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Dies hat sich als n{\"u}tzlich f{\"u}r eine Vielzahl von Aufgaben erwiesen, wie z. B. die Analyse von {\"U}bersetzungsstrategien (Lapshinova- Koltunski, 2015), die Untersuchung der Merkmale (Koppel and Ordan, 2011; Rubino, Lapshinova-Koltunski, and Genabith, 2016) von Translationese oder die Bewertung von maschinellen {\"U}bersetzungssystemen (Graham, Haddow, and Koehn, 2019; Zhang and Toral, 2019). In Anlehnung an diese Forschungslinie in der Erforschung des Translationese, konzentrieren wir uns auf zwei praktische Aufgaben: (i) mehrsprachige Klassifizierung von Translationese, und (ii) wir schlagen eine neue Aufgabe vor, n{\"a}mlich die Milderung von Translationese-Artefakten. Im Rahmen von (i) entwerfen, entwickeln und evaluieren wir verschiedene Repr{\"a}sentationslernans{\"a}tze zur Klassifikation mehrsprachigen Translationese und vergleichende sie mit klassischen manuellen, auf Feature-Engineering basierenden Ans{\"a}tzen f{\"u}r dieselben Daten. In (ii) f{\"u}hren wir die neue Aufgabe ein, Translationese Artefakte aus latenten Repr{\"a}sentationsr{\"a}umen zu entfernen. Dies bezieht sich auf den Prozess der Entfernung oder die Reduzierung des Einflusses von Artefakten auf die gelernten Repr{\"a}sentationen von Texten, um die Eigenschaften der Originaltexte besser wiederzugeben. Translationese wurde als eine Reihe von spezifischen linguistischen Merkmalen und Konventionen charakterisiert, die {\"U}bersetzungen von Originaltexten unterscheiden (Baker et al., 1993; Teich, 2003; Toury, 1979). Fr{\"u}here bahnbrechende Forschungen zur automatischen Klassifizierung von {\"U}bersetzungen (Baroni and Bernardini, 2005; Koppel and Ordan, 2011) verwendeten traditionelle, handgefertigte, linguistisch inspirierte, auf Features basierende, {\"u}berwachte maschinelle Lernans{\"a}tze, um Klassifikatoren zu trainieren. H{\"a}ufig wurden Feature-Ranking-Methoden verwendet, um herauszufinden, welche der Features wichtige Indikatoren f{\"u}r Translationese sind (Avner, Ordan, and Wintner, 2016; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Manuelle, linguistisch inspirierte, auf Feature- Engineering basierende Ans{\"a}tze haben den Vorteil, dass die verwendeten Merkmale (und ihre Rangfolge) f{\"u}r menschliche Experten leicht zu interpretieren sind. Es gibt jedoch einige Gr{\"u}nde, warum es problematisch sein kann, sich bei der {\"u}berwachten Klassifizierung von {\"U}bersetzungen auf manuell erstellte linguistische Merkmale zu verlassen. Eines der Hauptprobleme bei diesem Ansatz ist, dass die manuell erstellten Merkmale m{\"o}glicherweise nicht vollst{\"a}ndig sind und nicht alle wichtigen Unterscheidungsmerkmale der Eingabedaten w{\"a}hrend des Trainings erfassen. Dies liegt daran, dass die Merkmale auf linguistischen Intuitionen beruhen und m{\"o}glicherweise nicht alle m{\"o}glichen Variationen in den Eingabedaten ber{\"u}cksichtigen. Dar{\"u}ber hinaus erfordert die Annotation linguistischer Daten in gro{\ss}em Umfang (automatische) Annotationswerkzeuge, und die Beschaffung linguistischer Annotationswerkzeuge, wie Tokenisierer, Tagger, morphologische Analysatoren, NERs, Chunkers, Parser usw., kann f{\"u}r viele Sprachen eine Herausforderung darstellen (insbesondere f{\"u}r Sprachen mit geringen Ressourcen), was den Nutzen dieses Ansatzes einschr{\"a}nkt. Dar{\"u}ber hinaus ist die automatische Annotation im gro{\ss}en Ma{\ss}stab immer verrauscht, und die Merkmale k{\"o}nnen sprach- oder linguistiktheoriespezifisch sein. Teilweise als Reaktion auf die Beschr{\"a}nkungen der von der linguistischen Theorie inspirierten Merkmale wurden in fr{\"u}heren Arbeiten auch einfache lexikalisierte Merkmale wie Wort-Token und Zeichen-N-Gramme (Avner, Ordan, and Wintner, 2016) oder Merkmale auf der Grundlage von Z{\"a}hlmodellen, Informationsdichte, {\"U}berraschung und Komplexit{\"a}t f{\"u}r die Textklassifizierung, insbesondere bei der Bewertung der {\"U}bersetzungsqualit{\"a}t, untersucht. Diese Merkmale dienen als Indikatoren f{\"u}r Translationese sowohl von urspr{\"u}nglich verfassten als auch von manuell {\"u}bersetzten Texten (Rubino, Lapshinova-Koltunski, and Genabith, 2016). Diese Forschung st{\"u}tzt sich jedoch auf diskrete z{\"a}hlbasierte Ans{\"a}tze, die W{\"o}rter als diskrete Einheiten behandeln, was zu begrenzten M{\"o}glichkeiten der Kontextmodellierung f{\"u}hrt. In dieser Arbeit erforschen wir einen alternativen Ansatz zur Klassifizierung von mehrsprachigem Translationese, ohne uns auf manuelles Feature Engineering zu verlassen, was uns dazu motiviert, unsere erste Forschungsfrage zu formulieren. RQ1: Inwieweit k{\"o}nnen Techniken des Repr{\"a}sentationslernens, wie z. B. Einbettungen, {\"u}bersetzte und nicht {\"u}bersetzte Texte ohne vorherige linguistische Annahmen unterscheiden? Der erste Beitrag dieser Dissertation in Kapitel 3 besteht darin, eine Reihe von auf Repr{\"a}sentationslernen basierenden Methoden zu entwerfen, zu implementieren und zu evaluieren, so dass die manuelle Erstellung von Merkmalen {\"u}berfl{\"u}ssig wird. Auf Merkmalen und Repr{\"a}sentationen basierende Lernmethoden werden in erster Linie von Faktoren wie den Daten, der Aufgabe und dem Lerner beeinflusst, ohne sich auf vorherige linguistische Annahmen oder Vorurteile zu st{\"u}tzen. Dies steht im Gegensatz zu linguistisch inspirierten, handgefertigten Feature-Engineering-Ans{\"a}tzen, die keine Garantie daf{\"u}r bieten, dass die Features und Repr{\"a}sentationen vollst{\"a}ndig sind. Daher wollen wir die Ergebnisse, die mit auf Repr{\"a}sentationslernen basierendenAns{\"a}tzen f{\"u}r die Klassifikation mehrsprachiger {\"U}bersetzungen erzielt werden, mit denen unserer fr{\"u}heren klassischen, auf manuellem Feature-Engineering basierenden Ans{\"a}tze vergleichen, die linguistisch informierte Methoden und automatische Annotationswerkzeuge f{\"u}r dieselben Daten verwenden, um RQ1 zu behandeln. In Kapitel 3 zeigen wir, dass bereits statisch eingebettete, auf Repr{\"a}sentationslernen basierende Ans{\"a}tze handgefertigte, linguistisch inspirierte Feature-Selection- Methoden f{\"u}r die {\"U}bersetzungsklassifikation bei einer Vielzahl von Aufgaben {\"u}bertreffen. Dar{\"u}ber hinaus f{\"u}hren wir Experimente mit einer Reihe von Ausgangs-/Zielspachenkombinationen in ein- und mehrsprachigen Umgebungen durch, die belegen, dass auf Repr{\"a}sentationslernen basierende Methoden bei der Generalisierung auf verschiedene mehrsprachige Aufgaben effektiver sind. Dar{\"u}ber hinaus vergleichen wir unsere Ans{\"a}tze mit sprach{\"u}bergreifende neuronalen Ans{\"a}tzen auf denselben Daten und heben hervor, dass die Klassifizierung von {\"U}bersetzungen tiefe neuronale Modelle mit starker Kontextmodellierung erfordert, um optimale Ergebnisse zu erzielen. {\"U}bersetzungsartefakte {\"u}ben einen erheblichen Einfluss auf verschiedene nachgelagerte Aufgaben aus, die mit {\"U}bersetzung zu tun haben. In j{\"u}ngster Zeit wurde die Aufmerksamkeit auf den Einfluss von Translationese auf Bewertungsmetriken gelenkt (Graham, Haddow, and Koehn, 2019; Toral, 2019; Zhang and Toral, 2019). Edunov et al. (2020) and Freitag, Caswell, and Roy (2019) identifizierten Translationese als eine signifikante Quelle f{\"u}r die Diskrepanz zwischen BLEU-Scores (Papineni et al., 2002) und menschlichen Bewertungen. Die Auswirkung der {\"U}bersetzungssprache in den Tests{\"a}tzen ist mit der Auswirkung in den Trainingsdaten (Bogoychev and Sennrich, 2019; Kurokawa, Goutte, and Isabelle, 2009; Lembersky, Ordan, and Wintner, 2012; Riley et al., 2020a) verbunden, unterscheidet sich aber von dieser. Daher ist es f{\"u}r die Verbesserung der Genauigkeit und Effektivit{\"a}t von sprach{\"u}bergreifendem NLP von entscheidender Bedeutung, Translationese in der {\"U}bersetzungsausgabe zu verstehen, zu analysieren und vor allem abzuschw{\"a}chen. Dies f{\"u}hrt uns zur Formulierung unserer n{\"a}chsten Forschungsfrage. RQ2:Ist es m{\"o}glich, {\"U}bersetzungsartefakte effektiv abzuschw{\"a}chen? Bis heute ist diese wichtige Forschungsfrage unteruntersucht. Die RQ2 zu adressieren, ist der zweite Beitrag, den die Dissertation liefert. Wir pr{\"a}sentieren einen Ansatz zur Minderung der negativen Auswirkungen von Translationese auf sprach{\"u}bergreifende Aufgaben. Um dies zu erreichen, schlagen wir einen neuen Ansatz vor: Translationese-Debiasing. Wir entwerfen, implementieren und evaluieren diesen Ansatz, der auf latenten Repr{\"a}sentationen arbeitet. Durch die Reduzierung der Effekte von Translationese auf nachgelagerte Aufgaben zielt dieser Ansatz darauf ab, die Genauigkeit und Wirksamkeit der {\"u}berlingualen nat{\"u}rlichen Sprachverarbeitung zu verbessern. Um dieses Ziel zu erreichen, passen wir den Iterativen Nullraumprojektionsalgorithmus (Ravfogel et al., 2020), der urspr{\"u}nglich zur Reduzierung von Geschlechtsattributen in neuronalen Repr{\"a}sentationen entwickelt wurde, an {\"u}bersetzungsbedingte Verzerrungen in Wort- und Satzeinbettungsr{\"a}umen an. Zus{\"a}tzlich entwickeln wir zwei Techniken zum Debiasing von {\"U}bersetzungsfehlern auf der Wortebene. Wir evaluieren unseren Ansatz, indem wir die Klassifizierungsleistung von {\"U}bersetzungsfehlern vorund nach dem Debiasing vergleichen, und stellen erwartungsgem{\"a}{\ss} eine geringere Genauigkeit als Folge fest. Dar{\"u}ber hinaus evaluieren wir die Auswirkungen des Debiasing von {\"U}bersetzungsartefakten auf die extrinsische Aufgabe der Natural Language Inference (NLI) in zwei verschiedenen Datenumgebungen. Unsere Ergebnisse zeigen, dass das entzerrte Modell in der Lage ist, die Beziehungen zwischen den S{\"a}tzen in der Inferenzaufgabe besser zu erhalten und genauere Inferenzen zu produzieren. Im zweiten Teil befasst sich die Dissertation mit grundlegenden Fragen zum Tranlationese, einschlie{\ss}lich der Frage, ob die Signale des Translationese in semantischen Worteinbettungsr{\"a}umen beobachtet werden k{\"o}nnen und welche praktischen Auswirkungen dies hat. {\"U}bersetzte Texte weisen h{\"a}ufig Muster von Interferenzen in aus Ausgangssprache auf, wobei Merkmale des Ausgangstextes auf den Zieltext {\"u}bertragen werden Teich, 2003; Toury, 1980. W{\"a}hrend fr{\"u}here Studien mit Hilfe von {\"u}berwachter Klassifikation und Feature-Engineering (Baroni and Bernardini, 2005; Koppel and Ordan, 2011; Rabinovich, Ordan, and Wintner, 2017) systematische Belege f{\"u}r Translationese in {\"u}bersetzten Texten aufzeigen konnten, sind die Auswirkungen von Translationese auf semantische R{\"a}ume noch weitgehend unerforscht. Wir entwerfen, implementieren und evaluieren einen strukturierten und nicht {\"u}berwachten Ansatz zur Erkennung von Translationese in semantischen R{\"a}umen ohne die Notwendigkeit expliziter linguistischer Annotationen. Unser Ansatz verfolgt drei Ziele: erstens die Identifizierung von Translationese-Effekten in semantischen Repr{\"a}sentationen von Texten; zweitens die Entwicklung einer un{\"u}berwachten Methode zur Erkennung dieser Effekte ohne menschliche Annotation; und drittens die Bewertung, ob m{\"o}gliche Dom{\"a}nenunterschiede f{\"u}r einige unserer Ergebnisse verantwortlich sein k{\"o}nnten. Um diese Ziele zu erreichen, konzentrieren wir uns auf zwei prim{\"a}re Aufgaben: (i) das Aufsp{\"u}ren von Translationese in semantischen R{\"a}umen (ii) die Untersuchung des Einflusses der Dom{\"a}ne auf diese Aufgabe. Die charakteristischen Merkmale {\"u}bersetzter Texte werden traditionell in zwei Hauptkategorien eingeteilt: Eigenschaften, die sich aus der Interferenz der Ausgangssprache ergeben, und universelle Merkmale, die sich aus der {\"U}bersetzung als kommunikativem Prozess selbst ergeben. Fr{\"u}here Studien verwenden eine Kombination aus lexikalischen und syntaktischen Merkmalen, um zu zeigen, dass Spuren der Ausgangssprache oder shining-through (Teich, 2003) in {\"U}bersetzungen sichtbar bleiben. Dies ist darauf zur{\"u}ckzuf{\"u}hren, dass lexikalische und syntaktische Merkmale Hinweise auf die Ausgangssprache eines {\"u}bersetzten Textes geben k{\"o}nnen (z. B. Wortstellung, grammalische Strukturen). W{\"a}hrend lexikalische und syntaktische Merkmale f{\"u}r die Identifizierung bestimmter Merkmale von Translationese n{\"u}tzlich sein k{\"o}nnen, ist es wichtig, Translationese zu identifizieren, ohne dass eine explizite Kennzeichnung oder {\"U}berwachung erforderlich ist. So k{\"o}nnen beispielsweise bestimmte Muster oder Strukturen im semantischen Raum eines {\"u}bersetzten Textes auf Translationese hinweisen, auch wenn sie nicht direkt mit spezifischen lexikalischen oder syntaktischen Merkmalen {\"u}bereinstimmen. Dies f{\"u}hrt uns zu der n{\"a}chsten Forschungsfrage. RQ3:Ist es m{\"o}glich, Translationese in semantischen R{\"a}umen in einer un{\"u}berwachten Weise auf zu sp{\"u}ren?Um diese Frage zu beantworten, f{\"u}hrt der dritte Beitrag dieser Dissertation eine neue Forschungsrichtung ein: das Aufsp{\"u}ren von Translationese-Signalen in einem semantischen Raum, ohne dass eine explizite Kennzeichnung oder {\"U}berwachung erforderlich ist. Im Gegensatz zu fr{\"u}heren Arbeiten, die sich auf {\"u}berwachte Klassifikation und Feature-Engineering st{\"u}tzten, um Translationese zu identifizieren, ist unser Ansatz v{\"o}llig unbeaufsichtigt und basiert auf einem Schl{\"u}sselkonzept: dem Begriff des Isomorphismus. Das Isomorphie-Prinzip besagt, dass Sprachen ein hohes Ma{\ss} an {\"U}bereinstimmung zwischen Bedeutung und Form auf einer Eins-zu-Eins-Basis aufweisen (Barone, 2016). Im Zusammenhang mit der Erkennung von Translationese in semantischen R{\"a}umen w{\"u}rde Isomorphie bedeuten, dass der semantische Raum, der aus den Originaldaten der Zielsprache erstellt wurde, derselbe sein sollte wie der Raum, der aus den {\"U}bersetzungen in diese Sprache erstellt wurde, und zwar in Bezug auf die Art und Weise, wie die W{\"o}rter innerhalb des Einbettungsraums miteinander verbunden sind. Unser Ziel ist es, Translationese auf der Grundlage von Abweichungen von der Graphen-Isomorphie nachzuvollziehen, wobei die urspr{\"u}ngliche Zielsprache und die {\"U}bersetzungen in diese Zielsprache als Graphenstrukturen in den semantischen R{\"a}umen dargestellt werden. Die Abweichungen von der Isomorphie zwischen diesen Graphen deuten auf systematische Anzeichen von Translationese hin. Insbesondere stellen wir fest, dass mit abnehmender Isomorphie der linguistische Abstand zwischen etymologisch weit entfernten Sprachfamilien zunimmt, was den Nachweis erbringt, dass die durch die Abweichung von der Isomorphie erkannten Translationese Signale mit der Interferenz der Ausgangssprache verbunden sind. Unsere Ergebnisse sind vergleichbar mit fr{\"u}heren Ans{\"a}tzen, die auf oberfl{\"a}chlichen Merkmalen wie W{\"o}rtern, n-Grammen oder Parser-Ausgaben basieren. Anschlie{\ss}end zeigen wir, dass die vorgeschlagenen Methoden unter einer Vielzahl von Trainingsbedingungen robust sind, die die Datengr{\"o}{\ss}e, den Datentyp und die Wahl der Worteinbettungsmodelle umfassen. Au{\ss}erdem zeigen unsere Ergebnisse, dass unsere Methoden sprachunabh{\"a}ngig sind, in dem in dem Sinne, dass sie auf mehrere Sprachen angewendet werden k{\"o}nnen und nicht auf eine bestimmte Sprache oder Sprachfamilie beschr{\"a}nkt sind. Schlie{\ss}lich setzen wir das Aufsp{\"u}ren von Translationese in semantischen R{\"a}umen fort und reduzieren dabei die Auswirkungen m{\"o}glicher unterschiedlicher Dom{\"a}nen in {\"u}bersetzten und urspr{\"u}nglichen Daten, indem wir verschiedene Sichten auf die Daten verwenden (W{\"o}rter, PoS, Synsets und semantische Tags). Im vorangegangenen Kapitel haben wir gezeigt, dass Translationese-Signale in semantischen Worteinbettungsr{\"a}umen, die aus {\"u}bersetzten und Originaldaten erstellt wurden, erkannt werden k{\"o}nnen, aber es bleibt unklar, ob die Signale wirklich auf Translationese hinweisen oder ob sie von anderen Faktoren beeinflusst werden, wie z.B. von m{\"o}glichen thematischen oder Dom{\"a}nen Unterschieden zwischen dem Original und {\"u}bersetzten Texten. Translationese Signale sind subtil und k{\"o}nnen mit anderen Signalen in den Daten konkurrieren, insbesondere mit denen, die Spezifika von Dom{\"a}nen zusammenh{\"a}ngen. Dies veranlasst uns zu unserer letzten Forschungsfrage. RQ4: Inwieweit lassen sich die in der Antwort auf RQ3 beobachteten Ergebnisse auf Dom{\"a}nenunterschiede zwischen Original und {\"u}bersetztem Text zur{\"u}ckf{\"u}hren, im Gegensatzzu echten Translationese Signalen? Unser vierter Beitrag in Kapitel 6 untersucht das Zusammenspiel verschiedener linguistischer Repr{\"a}sentationen (lexikalisch, morphologisch und syntaktisch) und die Frage, ob die Maskierung lexikalischer Informationen und die dadurch bedingte Verringerung potenzieller Dom{\"a}nensignale die Aufgabe der un{\"u}berwachten R{\"u}ckverfolgung von {\"U}bersetzungen in semantischen R{\"a}umen beeinflussen, um RQ4 anzugehen. Bei der Analyse von {\"u}bersetzten Daten, die Texte enthalten, die aus mehreren Quellen (z. B. aus entfernten Sprachen wie Deutsch und Bulgarisch) in dieselbe Zielsprache (z. B. Englisch) {\"u}bersetzt wurden, k{\"o}nnen die Ergebnisse unserer Analyse des semantischen Raums durch Dom{\"a}nenunterschiede in den Daten verzerrt werden und nicht durch eigentliche Tranlationese-Signale wie die Ausgangssprachen der {\"U}bersetzungen bedingt sein. Um dies zu ber{\"u}cksichtigen, maskieren wir lexikalische Dom{\"a}neninformationen in den Daten. Bei diesem Ansatz werden entlexikalisierte Darstellungen verwendet, die W{\"o}rter durch Wortarten (Parts of Speech, PoS), semantische Tags oder Synsets ersetzen. Durch die Anwendung unserer Graph-Isomorphismus-Methoden auf diese Darstellungen k{\"o}nnen wir bestimmte linguistische Merkmale (wie morphologische Informationen oder einfache syntaktische Konfigurationen - PoS-Sequenzen) erfassen und den Einfluss dom{\"a}nenspezifischer lexikalischer Merkmale (insbesondere des Vokabulars) auf die Analyse von {\"U}bersetzungen minimieren. Unsere Ergebnisse zeigen, dass delexikalisierte Darstellungen (PoS, Synsets oder semantische Tags) immer noch erhebliche Interferenzen mit der Ausgangssprache aufweisen. Dies deutet darauf hin, dass die lexikalisierten Ergebnisse auf der niedrigsten Abstraktionsebene (d. h. W{\"o}rter) nicht nur auf m{\"o}gliche Unterschiede in der Dom{\"a}ne zwischen Original- und Translationese Text zur{\"u}ckzuf{\"u}hren sind. Insgesamt ist dies ein Beleg daf{\"u}r, dass morphologische und einfache syntaktische Repr{\"a}sentationen in den Daten auch Translationese Signale enthalten. Um das un{\"u}berwachte Aufsp{\"u}ren von Translationese Signalen in semantischen R{\"a}umen zu bewerten, untersuchen wir au{\ss}erdem, inwieweit es m{\"o}glich ist, die Sprachphylogenie oder die genetischen Beziehungen zwischen Sprachen mit diesen delexikalisierten Repr{\"a}sentationen zu clustern. Wir zeigen, dass unabh{\"a}ngig von der Ebene der sprachlichen Repr{\"a}sentation aus den Isomorphieabst{\"a}nden Familenverbindungen der Sprachen mit {\"a}hnlichen Eigenschaften wie linguistisch motivierte phylogenetische B{\"a}ume abgeleitet werden k{\"o}nnen, wobei alle Kombinationen von urspr{\"u}nglicher Zielsprache und {\"U}bersetzungen in diese Zielsprache aus verschiedenen Ausgangssprachen verwendet werden. Im vorigen Kapitel haben wir einige implizite Hinweise darauf gegeben, dass die Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen auf strukturelle Oberfl{\"a}chenunterschiede zwischen Sprachfamilien hinweisen, die wir aus der linguistischen Literatur kennen. Eine gr{\"o}{\ss}ere Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen deutet auf eine gr{\"o}{\ss}ere sprachliche Distanz in Bezug auf von Sprachfamilien und damit auf einen vermeintlich oberfl{\"a}chlichen strukturellen linguistischen Abstand (z. B. Morphologie, Syntax) zwischen Sprachen, wie sie in der linguistischen Literatur beschrieben werden. Dies wird in Kapitel 6 indirekt durchdie POS-Experimente (und die anderen verschiedenen Ansichten) gezeigt die von lexikalischen Informationen in der urspr{\"u}nglichen und {\"u}bersetzerischen Einbettung abstrahieren Experimente, bei denen maskierte Ansichten (POS usw.) immer noch vern{\"u}nftige Unterschiede in der Isomorphie zwischen den Einbettungsr{\"a}umen im Original und in der {\"U}bersetzung zeigen, und darauf aufbauend phylogenetische Stammbaumergebnisse. Dies wirft die Frage auf, ob es explizite Beweise f{\"u}r den Zusammenhang zwischen Einbettungen und strukturellen Oberfl{\"a}chenunterschieden gibt, was uns dazu veranlasst, unsere letzte Forschungsfrage zu formulieren. RQ5: Inwieweit kann graphbasierte Divergenz von Isomorphie in Einbettungsr{\"a}umen als Proxy f{\"u}r Surprisal auf der Ebene von Oberfl{\"a}chentexten dienen? Wir behandeln RQ5 als den f{\"u}nften Beitrag dieser Dissertation. Um dieser Frage nachzugehen, berechnen wir die Korrelation zwischen (a) Unterschieden in der Oberfl{\"a}chenstringentropie von Original- und {\"u}bersetzten Daten, die von Sprachmodellen berechnet werden, die auf Originaldaten trainiert wurden, und (b) der Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen, die auf denselben Textdaten berechnet werden. Unsere Ergebnisse zeigen eine Korrelation zwischen diesen beiden Ma{\ss}en, d. h. eine gr{\"o}{\ss}ere Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen entspricht einem gr{\"o}{\ss}eren Unterschied in der Oberfl{\"a}chenentropie. Dies stellt eine direkte Verbindung zwischen dem Einbettungsraum und der Darstellung von Oberfl{\"a}chenstrings her, wobei letztere durch die Entropie des Sprachmodells gemessen wird. Dar{\"u}ber hinaus zeigen unsere Ergebnisse, dass {\"U}bersetzungen in dieselbe Zielsprache aus strukturell unterschiedlichen Ausgangssprachen im Allgemeinen h{\"o}here Entropieunterschiede aufweisen, w{\"a}hrend solche aus strukturell {\"a}hnlichen Ausgangssprachen geringere Unterschiede aufweisen. Diese Ergebnisse spiegeln die Muster wider, die bei der Divergenz von Isomorphie zwischen Einbettungsr{\"a}umen beobachtet wurden, wo {\"U}bersetzungen aus strukturell st{\"a}rker divergierenden Sprachen zu einer gr{\"o}{\ss}eren Divergenz bei der Isomorphie f{\"u}hren. Diese Ergebnisse stellen explizit eine Verbindung zwischen unseren beiden Messgr{\"o}{\ss}en her: der Isomorphiedivergenz zwischen Original- und {\"u}bersetzten Einbettungsr{\"a}umen und den Entropieunterschieden in den Oberfl{\"a}chenstrings derselben Textdaten.},
pubstate = {published},
type = {phdthesis}
}