Publications

Tumurchuluun, Ariun-Erdene; Al Ghussin, Yusser; Mareček, David ; van Genabith, Josef; Dutta Chowdhury, Koel

TenseLoC: Tense Localization and Control in a Multilingual LLM Inproceedings

Ifeoluwa Adelani, David; Arnett, Catherine; Ataman, Duygu; A. Chang, Tyler; Gonen, Hila; Raja, Rahul; Schmidt, Fabian; Stap, David; Wang, Jiayi (Ed.): Proceedings of the 5th Workshop on Multilingual Representation Learning (MRL 2025), Association for Computational Linguistics, pp. 243-264, Suzhuo, China, 2025, ISBN 979-8-89176-345-6.

Multilingual language models excel across languages, yet how they internally encode grammatical tense remains largely unclear. We investigate how decoder-only transformers represent, transfer, and control tense across eight typologically diverse languages: English, German, French, Italian, Portuguese, Hindi, Spanish, and Thai. We construct a synthetic tense-annotated dataset and combine probing, causal analysis, feature disentanglement, and model steering to LLaMA-3.1 8B. We show that tense emerges as a distinct signal from early layers and transfers most strongly within the same language family. Causal tracing reveals that attention outputs around layer 16 consistently carry cross-lingually transferable tense information. Leveraging sparse autoencoders in this subspace, we isolate and steer English tense-related features, improving target-tense prediction accuracy by up to 11%% in a downstream cloze task.

@inproceedings{tumurchuluun-etal-2025-tenseloc,
title = {TenseLoC: Tense Localization and Control in a Multilingual LLM},
author = {Ariun-Erdene Tumurchuluun and Yusser Al Ghussin and David Mare{\v{c}ek and Josef van Genabith and Koel Dutta Chowdhury},
editor = {David Ifeoluwa Adelani and Catherine Arnett and Duygu Ataman and Tyler A. Chang and Hila Gonen and Rahul Raja and Fabian Schmidt and David Stap and Jiayi Wang},
url = {https://aclanthology.org/2025.mrl-main.17/},
doi = {https://doi.org/10.18653/v1/2025.mrl-main.17},
year = {2025},
date = {2025},
booktitle = {Proceedings of the 5th Workshop on Multilingual Representation Learning (MRL 2025)},
isbn = {979-8-89176-345-6},
pages = {243-264},
publisher = {Association for Computational Linguistics},
address = {Suzhuo, China},
abstract = {Multilingual language models excel across languages, yet how they internally encode grammatical tense remains largely unclear. We investigate how decoder-only transformers represent, transfer, and control tense across eight typologically diverse languages: English, German, French, Italian, Portuguese, Hindi, Spanish, and Thai. We construct a synthetic tense-annotated dataset and combine probing, causal analysis, feature disentanglement, and model steering to LLaMA-3.1 8B. We show that tense emerges as a distinct signal from early layers and transfers most strongly within the same language family. Causal tracing reveals that attention outputs around layer 16 consistently carry cross-lingually transferable tense information. Leveraging sparse autoencoders in this subspace, we isolate and steer English tense-related features, improving target-tense prediction accuracy by up to 11%% in a downstream cloze task.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Sentsova, Uliana; Ciminari, Debora; van Genabith, Josef; España-Bonet, Cristina

MultiCoPIE: A Multilingual Corpus of Potentially Idiomatic Expressions for Cross-lingual PIE Disambiguation Inproceedings Forthcoming

21st Workshop on Multiword Expressions (MWE 2025) @NAACL2025, Albuquerque, New Mexico, U.S.A., 2025.

Language models are able to handle compositionality and, to some extent, noncompositional phenomena such as semantic idiosyncrasy, a feature most prominent in the case of idioms. This work introduces the MultiCoPIE corpus that includes potentially idiomatic expressions in Catalan, Italian, and Russian, extending the language coverage of PIE corpus data. The new corpus provides additional linguistic features of idioms, such as their semantic compositionality, part-of-speech of idiom head as well as their corresponding idiomatic expressions in English. With this new resource at hand, we first fine-tune an XLM-RoBERTa model to classify figurative and literal usage of potentially idiomatic expressions in English. We then study cross-lingual transfer to the languages represented in the MultiCoPIE corpus, evaluating the model’s ability to generalize an idiom-related task to languages not seen during fine-tuning. We show the effect of ‘cross-lingual lexical overlap’: the performance of the model, fine-tuned on English idiomatic expressions and tested on the MultiCoPIE languages, increases significantly when classifying ‘shared idioms’— idiomatic expressions that have direct counterparts in English with similar form and meaning. While this observation raises questions about the generalizability of cross-lingual learning, the results from experiments on PIEs demonstrate strong evidence of effective cross-lingual transfer, even when accounting for idioms similar across languages.

@inproceedings{Sentsova-etal-2025,
title = {MultiCoPIE: A Multilingual Corpus of Potentially Idiomatic Expressions for Cross-lingual PIE Disambiguation},
author = {Uliana Sentsova and Debora Ciminari and Josef van Genabith and Cristina Espa{\~n}a-Bonet},
url = {https://multiword.org/mwe2025/},
year = {2025},
date = {2025},
booktitle = {21st Workshop on Multiword Expressions (MWE 2025) @NAACL2025},
address = {Albuquerque, New Mexico, U.S.A.},
abstract = {Language models are able to handle compositionality and, to some extent, noncompositional phenomena such as semantic idiosyncrasy, a feature most prominent in the case of idioms. This work introduces the MultiCoPIE corpus that includes potentially idiomatic expressions in Catalan, Italian, and Russian, extending the language coverage of PIE corpus data. The new corpus provides additional linguistic features of idioms, such as their semantic compositionality, part-of-speech of idiom head as well as their corresponding idiomatic expressions in English. With this new resource at hand, we first fine-tune an XLM-RoBERTa model to classify figurative and literal usage of potentially idiomatic expressions in English. We then study cross-lingual transfer to the languages represented in the MultiCoPIE corpus, evaluating the model’s ability to generalize an idiom-related task to languages not seen during fine-tuning. We show the effect of ‘cross-lingual lexical overlap’: the performance of the model, fine-tuned on English idiomatic expressions and tested on the MultiCoPIE languages, increases significantly when classifying ‘shared idioms’— idiomatic expressions that have direct counterparts in English with similar form and meaning. While this observation raises questions about the generalizability of cross-lingual learning, the results from experiments on PIEs demonstrate strong evidence of effective cross-lingual transfer, even when accounting for idioms similar across languages.},
pubstate = {forthcoming},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Sizov, Fedor; España-Bonet, Cristina; van Genabith, Josef; Xie, Roy; Dutta Chowdhury, Koel

Analysing Translation Artifacts: A Comparative Study of LLMs, NMTs, and Human Translations Inproceedings

Haddow, Barry; Kocmi, Tom; Koehn, Philipp; Monz, Christof (Ed.): Proceedings of the Ninth Conference on Machine Translation, Association for Computational Linguistics, pp. 1183-1199, Miami, Florida, USA, 2024.

Translated texts exhibit a range of characteristics that make them appear distinct from texts originally written in the same target language. With the rise of Large Language Models (LLMs), which are designed for a wide range of language generation and understanding tasks, there has been significant interest in their application to Machine Translation. While several studies have focused on improving translation quality through fine-tuning or few-shot prompting techniques, there has been limited exploration of how LLM-generated translations qualitatively differ from those produced by Neural Machine Translation (NMT) models, and human translations. Our study employs explainability methods such as Leave-One-Out (LOO) and Integrated Gradients (IG) to analyze the lexical features distinguishing human translations from those produced by LLMs and NMT systems. Specifically, we apply a two-stage approach: first, classifying texts based on their origin {–} whether they are original or translations {–} and second, extracting significant lexical features (highly attributed input words) using post-hoc interpretability methods. Our analysis shows that different methods of feature extraction vary in their effectiveness, with LOO being generally better at pinpointing critical input words and IG capturing a broader range of important words. Finally, our results show that while LLMs and NMT systems can produce translations of a good quality, they still differ from texts originally written by native speakers. Specifically, we find that while some LLMs often align closely with human translations, traditional NMT systems exhibit distinct characteristics, particularly in their use of certain linguistic features.

@inproceedings{sizov-etal-2024-analysing,
title = {Analysing Translation Artifacts: A Comparative Study of LLMs, NMTs, and Human Translations},
author = {Fedor Sizov and Cristina Espa{\~n}a-Bonet and Josef van Genabith and Roy Xie and Koel Dutta Chowdhury},
editor = {Barry Haddow and Tom Kocmi and Philipp Koehn and Christof Monz},
url = {https://aclanthology.org/2024.wmt-1.116},
doi = {https://doi.org/10.18653/v1/2024.wmt-1.116},
year = {2024},
date = {2024},
booktitle = {Proceedings of the Ninth Conference on Machine Translation},
pages = {1183-1199},
publisher = {Association for Computational Linguistics},
address = {Miami, Florida, USA},
abstract = {Translated texts exhibit a range of characteristics that make them appear distinct from texts originally written in the same target language. With the rise of Large Language Models (LLMs), which are designed for a wide range of language generation and understanding tasks, there has been significant interest in their application to Machine Translation. While several studies have focused on improving translation quality through fine-tuning or few-shot prompting techniques, there has been limited exploration of how LLM-generated translations qualitatively differ from those produced by Neural Machine Translation (NMT) models, and human translations. Our study employs explainability methods such as Leave-One-Out (LOO) and Integrated Gradients (IG) to analyze the lexical features distinguishing human translations from those produced by LLMs and NMT systems. Specifically, we apply a two-stage approach: first, classifying texts based on their origin {--} whether they are original or translations {--} and second, extracting significant lexical features (highly attributed input words) using post-hoc interpretability methods. Our analysis shows that different methods of feature extraction vary in their effectiveness, with LOO being generally better at pinpointing critical input words and IG capturing a broader range of important words. Finally, our results show that while LLMs and NMT systems can produce translations of a good quality, they still differ from texts originally written by native speakers. Specifically, we find that while some LLMs often align closely with human translations, traditional NMT systems exhibit distinct characteristics, particularly in their use of certain linguistic features.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Kunilovskaya, Maria; Dutta Chowdhury, Koel; Przybyl, Heike; España-Bonet, Cristina; van Genabith, Josef

Mitigating Translationese with GPT-4: Strategies and Performance Inproceedings

Proceedings of the 25th Annual Conference of the European Association for Machine Translation, 1, European Association for Machine Translation, pp. 411–430, 2024.

Translations differ in systematic ways from texts originally authored in the same language. These differences, collectively known as translationese, can pose challenges in cross-lingual natural language processing: models trained or tested on translated input might struggle when presented with non-translated language.Translationese mitigation can alleviate this problem. This study investigates the generative capacities of GPT-4 to reduce translationese in human-translated texts. The task is framed as a rewriting process aimed
at modified translations indistinguishable from the original text in the target language. Our focus is on prompt engineering that tests the utility of linguistic knowledge as part of the instruction for GPT-4. Through a series of prompt design experiments, we show that GPT4-generated revisions are more similar to originals in the target language when the prompts incorporate specific linguistic instructions instead of relying solely on the model’s internal knowledge. Furthermore, we release the segment-aligned bidirectional German–English data built from the Europarl corpus that underpins this study.

@inproceedings{kunilovskaya-etal-2024-mitigating,
title = {Mitigating Translationese with GPT-4: Strategies and Performance},
author = {Maria Kunilovskaya and Koel Dutta Chowdhury and Heike Przybyl and Cristina Espa{\~n}a-Bonet and Josef van Genabith},
url = {https://eamt2024.github.io/proceedings/vol1.pdf},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 25th Annual Conference of the European Association for Machine Translation},
pages = {411–430},
publisher = {European Association for Machine Translation},
abstract = {Translations differ in systematic ways from texts originally authored in the same language. These differences, collectively known as translationese, can pose challenges in cross-lingual natural language processing: models trained or tested on translated input might struggle when presented with non-translated language.Translationese mitigation can alleviate this problem. This study investigates the generative capacities of GPT-4 to reduce translationese in human-translated texts. The task is framed as a rewriting process aimed at modified translations indistinguishable from the original text in the target language. Our focus is on prompt engineering that tests the utility of linguistic knowledge as part of the instruction for GPT-4. Through a series of prompt design experiments, we show that GPT4-generated revisions are more similar to originals in the target language when the prompts incorporate specific linguistic instructions instead of relying solely on the model’s internal knowledge. Furthermore, we release the segment-aligned bidirectional German–English data built from the Europarl corpus that underpins this study.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Projects:   B6 B7

Bafna, Niyati; España-Bonet, Cristina; van Genabith, Josef; Sagot, Benoît; Bawden, Rachel

When Your Cousin Has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages Inproceedings

Calzolari, Nicoletta; Kan, Min-Yen; Hoste, Veronique; Lenci, Alessandro; Sakti, Sakriani; Xue, Nianwen (Ed.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA and ICCL, pp. 17544-17556, Torino, Italia, 2024.

Most existing approaches for unsupervised bilingual lexicon induction (BLI) depend on good quality static or contextual embeddings requiring large monolingual corpora for both languages. However, unsupervised BLI is most likely to be useful for low-resource languages (LRLs), where large datasets are not available. Often we are interested in building bilingual resources for LRLs against related high-resource languages (HRLs), resulting in severely imbalanced data settings for BLI. We first show that state-of-the-art BLI methods in the literature exhibit near-zero performance for severely data-imbalanced language pairs, indicating that these settings require more robust techniques. We then present a new method for unsupervised BLI between a related LRL and HRL that only requires inference on a masked language model of the HRL, and demonstrate its effectiveness on truly low-resource languages Bhojpuri and Magahi (with <5M monolingual tokens each), against Hindi. We further present experiments on (mid-resource) Marathi and Nepali to compare approach performances by resource range, and release our resulting lexicons for five low-resource Indic languages: Bhojpuri, Magahi, Awadhi, Braj, and Maithili, against Hindi.

@inproceedings{bafna-etal-2024-cousin-right,
title = {When Your Cousin Has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages},
author = {Niyati Bafna and Cristina Espa{\~n}a-Bonet and Josef van Genabith and Benoît Sagot and Rachel Bawden},
editor = {Nicoletta Calzolari and Min-Yen Kan and Veronique Hoste and Alessandro Lenci and Sakriani Sakti and Nianwen Xue},
url = {https://aclanthology.org/2024.lrec-main.1526},
year = {2024},
date = {2024},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
pages = {17544-17556},
publisher = {ELRA and ICCL},
address = {Torino, Italia},
abstract = {Most existing approaches for unsupervised bilingual lexicon induction (BLI) depend on good quality static or contextual embeddings requiring large monolingual corpora for both languages. However, unsupervised BLI is most likely to be useful for low-resource languages (LRLs), where large datasets are not available. Often we are interested in building bilingual resources for LRLs against related high-resource languages (HRLs), resulting in severely imbalanced data settings for BLI. We first show that state-of-the-art BLI methods in the literature exhibit near-zero performance for severely data-imbalanced language pairs, indicating that these settings require more robust techniques. We then present a new method for unsupervised BLI between a related LRL and HRL that only requires inference on a masked language model of the HRL, and demonstrate its effectiveness on truly low-resource languages Bhojpuri and Magahi (with <5M monolingual tokens each), against Hindi. We further present experiments on (mid-resource) Marathi and Nepali to compare approach performances by resource range, and release our resulting lexicons for five low-resource Indic languages: Bhojpuri, Magahi, Awadhi, Braj, and Maithili, against Hindi.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

A representation learning based approach to the study of translationese PhD Thesis

Saarland University, Saarbruecken, Germany, 2024.

Translated texts exhibit systematic linguistic differences compared to original texts in the same language. These differences are referred to as translationese, and can be categorised as either source language dependent or universal. Basic research on translationese aims to understand and characterise the language-specific and language-independent aspects of translationese. Additionally, translationese has practical implications in the context of natural language processing tasks that involve translation. Translationese effects can cause biased results in a variety of cross-lingual tasks. Therefore, understanding, analysing and mitigating translationese is crucial for improving the accuracy and effectiveness of cross-lingual natural language processing. Focusing on representation learning, this dissertation addresses both foundational as well as practical aspects of translationese. Our first task is to investigate the effectiveness of representation learning-based methods in mono- and multilingual translationese classification. Traditional manual featureengineering based methods for translationese classification may result in potentially partial, non-exhaustive linguistic features and often require linguistic annotation tools. In contrast, our approach involves developing a suite of representation-learning methods based on word embeddings, eliminating the need for manual feature engineering. Our experiments demonstrate superior performance, outperforming previous traditional hand-crafted linguistically inspired feature-selection methods for translationese classification on a wide range of tasks. Translationese artifacts have been found to exert a substantial influence on diverse downstream tasks involving translated data. Therefore, to mitigate the impact of translationese on downstream tasks, we propose a new approach: translationese debiasing. Our research is the first to adapt the Iterative Null Space Projection (INLP) algorithm, originally designed to mitigate gender attributes, to translationese-induced bias in both word and sentence embedding spaces. Additionally, we develop two techniques for debiasing translationese at the word level representations. We confirm the effectiveness of our debiasing approach by comparing the classification performance before and after debiasing on the translationese classification task. Additionally, we demonstrate the practical utility of our debiasing method by applying it to a natural language inference task involving translated data, where we observed improved accuracy as a result of reduced translation-induced bias. Next, we address the foundational question of whether translationese signals can be observed in semantic word embedding spaces and, if so, what practical implications this observation may have. To this end, we propose a novel approach for unsupervised tracking of translationese in semantic spaces, which does not rely on explicit linguistic labels. Our method is based on graph-isomorphism approaches that examine departures from isomorphism between embedding spaces built from original language data and translations into this language. By comparing the normalised distances between these spaces, we are able to identify systematic evidence of translationese. Specifically, we find that as isomorphism weakens, the linguistic distance between etymologically distant language families increases, providing evidence that translationese signals are linked to source language interference. Following this, we show that the proposed methods are robust under a variety of training conditions, encompassing data size, type, and choice of word embedding models. Additionally, our findings indicate our methods are language-independent, in the sense that they can be applied to multiple languages and are not limited to a specific language or language family. We extend the work on unsupervised tracking of translationese in semantic spaces to evaluate the impact of domain in translationese data. Translationese signals are subtle and may compete with other signals in the data, particularly those related to domain. To address this, we mask domain information by applying our graph-isomorphism methods to different delexicalized representations using various views, including words, parts of speech, semantic tags, and synsets. Our results demonstrate that while source-language interference is most pronounced in lexicalised embeddings (word), it is also present in delexicalised views. This indicates that our lexicalised findings are not only the result of possible topic differences between original and translated texts. Additionally, we show that, regardless of the level of linguistic representation, language family ties with characteristics similar to linguistically motivated phylogenetic trees can be inferred from the degree of departures from isomorphism, using all combinations of original target language and translations into this target language from different source languages. Finally, we explore whether the graph-based divergence from isomorphism in embeddings can serve as a viable proxy for surprisal at the the level of surface texts. To do this, we explicitly compute the correlation between (a) differences in surface string entropy of original vs. translated data computed by language models trained on originally authored data and (b) divergence from isomorphism between embedding spaces computed on the same text data. Our results show a positive correlation between these two measures with a higher departure from isomorphism between embedding spaces corresponding to a greater difference in surface entropy. Additionally, similar to the findings of graph-based divergence from isomorphism between embedding spaces where higher divergence from isomorphism implicitly indicates higher linguistic distance in terms of language families and, supposedly, surface structural linguistic distance between languages — our entropy-based findings demonstrate that the observed differences in surface string representations between the original and translated datasets also correspond, at a higher level, with the surface structural linguistic distance between the source languages themselves. These results establish an explicit link between our two measures: divergence from isomorphism between original and translated embedding spaces and entropy differences of the surface strings of the same text data.


ÜbersetzteTexte weisen im Vergleich zu Originaltexten in derselben Sprache systematische sprachliche Unterschiede auf, die zu einer einzigartigen Teilsprache mit eigenen Unterscheidungsmerkmalen führen. Diese Unterschiede werden als Translationese (Gellerstam, 1986) bezeichnet und können entweder als ausgangssprachabhängig oder universell kategorisiert werden. Es ist wichtig zu beachten, dass Translationese keine eigenständige Sprache ist, sondern vielmehr eine Reihe von sprachlichen Merkmalen (Baker et al., 1993; Toury, 1980), die übersetzte Texte von denen unterscheiden, die ursprünglich in der Zielsprache geschrieben wurden. Verschiedene Faktoren tragen zu den Unterschieden zwischen den Originaltexten und übersetzten Texten bei, von denen viele unter die Kategorie der universellen Merkmale der Übersetzung fallen. Zu diesen universellen Merkmalen gehören die Vereinfachung, d. h. die Vereinfachung komplexer Ausgangsstrukturen in der Zielsprache, die Standardisierung, d. h. die Neigung, sich eng an die Normen der Zielsprache zu halten, und die Explizierung, d. h. die Verdeutlichung impliziter Ausgangsstrukturen in der Zielsprache. Im Gegensatz zu diesen übersetzerischen Universalien spiegelt die Interferenz den Einfluss der Ausgangssprache auf das Übersetzungsprodukt wider. Interferenz ist von Natur aus ein sprachpaarspezifisches Phänomen, bei dem isomorphe Strukturen, die Ausgangs- und Zielsprache gemeinsam haben, einander leicht ersetzen können. Dies verdeutlicht den zugrunde liegenden sprachübergreifenden Einfluss der Ausgangssprache auf das Übersetzungsergebnis. Nach dieser Definition wird das Übersetzen als eine besondere Form der sprachübergreifenden Sprachvarietät betrachtet, die einen Sonderfall innerhalb der breiteren Landschaft des Sprachkontakts darstellt. Trotz des beträchtlichen Umfangs der Forschung zu verschiedenen sprachübergreifenden Sprachvarietäten gibt es eine auffällige Lücke, wenn es um die spezifische Untersuchung des Translationese geht. Bisherige Studien haben sich vor allem auf zwei Aspekte konzentriert, nämlich auf die Identifizierung charakteristischer Merkmale von Übersetzungen und auf die Klassifizierung von Translationese, wobei sorgfältige korpusbasierte Studien (Baker et al., 1993) verwendet wurden, die Unterschiede in der Verteilung linguistischer Merkmale zwischen Originalen und übersetzten Texten aufzeigen, oder klassifikationsbasierte Ansätze bei denen ein Klassifikator trainiert wird und dann Merkmalsbedeutungsmaße verwendet werden, um darauf zu schließen, welche Merkmale bei der Klassifizierung von Übersetzungen besonders wichtig sind (Rabinovich and Wintner, 2015; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Die praktischen Implikationen von Translationswissenschaft gehen jedoch über die Identifizierung linguistischer Merkmale und die Klassifizierung hinaus. Die ausgeprägten sprachlichen Unterschiede, die zwischen Originaltexten und übersetzten Texten in derselben Sprache zu beobachten sind, lassen sich im Großen und Ganzen entweder als quellsprachenabhängig oder als universell klassifizieren. Die Durchführung von Grundlagenforschung zum Translationese ist wichtig, da sie wertvolle Einblicke sowohl in sprachspezifische als auch in sprachunabhängige Aspekte dieses sprachlichen Phänomens liefert. Die Grundlagenforschung ermöglicht ein tieferes Verständnis der zugrundeliegenden Muster und Strukturen, die das Translationese definieren, sowie der Variationen, die in verschiedenen Sprachen und Sprachfamilien beobachtet werden. Es ist jedoch auch wichtig, eine bestehende Lücke in der Erforschung des Translationese zu schließen. Translationese hat spürbare Auswirkungen auf verschiedene sprachübergreifende Aufgaben der natürlichen Sprachverarbeitung (NLP), was zu verzerrten Ergebnissen und verminderter oder künstlich aufgeblähter Leistung führen kann. Daher ist die Untersuchung und Abschwächung von Translationese für die Verbesserung der Genauigkeit und Effektivität dieser Aufgaben von entscheidender Bedeutung. Die Abschwächung von Translationese ist bisher ein wenig erforschtes Gebiet. Ein wichtiger Teil der in dieser Arbeit vorgestellten Forschung besteht darin, diese Lücke zu schließen. In dieser Arbeit konzentrieren wir uns auf das Repräsentationslernen als einen umfassenden Ansatz, um sowohl die grundlegenden als auch die praktischen Aspekte von Translationese zu behandeln. Mit dieser Forschungsarbeit wollen wir einen Beitrag zum breiteren Feld der sprachübergreifenden Sprachstudien leisten und eine bestehende Lücke im Verständnis und in der Behebung von Translationese schließen. Zunächst befassen wir uns mit den praktischen Aspekten von Translationese. Frühere Studien haben gezeigt dass die Verwendung verschiedener manuell erstellter Merkmale für überwachtes Lernen für die Klassifizierung von Translationese effektiv sein kann (Avner, Ordan, and Wintner, 2016; Baroni and Bernardini, 2005; Rabinovich, Ordan, and Wintner, 2017; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Dies hat sich als nützlich für eine Vielzahl von Aufgaben erwiesen, wie z. B. die Analyse von Übersetzungsstrategien (Lapshinova- Koltunski, 2015), die Untersuchung der Merkmale (Koppel and Ordan, 2011; Rubino, Lapshinova-Koltunski, and Genabith, 2016) von Translationese oder die Bewertung von maschinellen Übersetzungssystemen (Graham, Haddow, and Koehn, 2019; Zhang and Toral, 2019). In Anlehnung an diese Forschungslinie in der Erforschung des Translationese, konzentrieren wir uns auf zwei praktische Aufgaben: (i) mehrsprachige Klassifizierung von Translationese, und (ii) wir schlagen eine neue Aufgabe vor, nämlich die Milderung von Translationese-Artefakten. Im Rahmen von (i) entwerfen, entwickeln und evaluieren wir verschiedene Repräsentationslernansätze zur Klassifikation mehrsprachigen Translationese und vergleichende sie mit klassischen manuellen, auf Feature-Engineering basierenden Ansätzen für dieselben Daten. In (ii) führen wir die neue Aufgabe ein, Translationese Artefakte aus latenten Repräsentationsräumen zu entfernen. Dies bezieht sich auf den Prozess der Entfernung oder die Reduzierung des Einflusses von Artefakten auf die gelernten Repräsentationen von Texten, um die Eigenschaften der Originaltexte besser wiederzugeben. Translationese wurde als eine Reihe von spezifischen linguistischen Merkmalen und Konventionen charakterisiert, die Übersetzungen von Originaltexten unterscheiden (Baker et al., 1993; Teich, 2003; Toury, 1979). Frühere bahnbrechende Forschungen zur automatischen Klassifizierung von Übersetzungen (Baroni and Bernardini, 2005; Koppel and Ordan, 2011) verwendeten traditionelle, handgefertigte, linguistisch inspirierte, auf Features basierende, überwachte maschinelle Lernansätze, um Klassifikatoren zu trainieren. Häufig wurden Feature-Ranking-Methoden verwendet, um herauszufinden, welche der Features wichtige Indikatoren für Translationese sind (Avner, Ordan, and Wintner, 2016; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Manuelle, linguistisch inspirierte, auf Feature- Engineering basierende Ansätze haben den Vorteil, dass die verwendeten Merkmale (und ihre Rangfolge) für menschliche Experten leicht zu interpretieren sind. Es gibt jedoch einige Gründe, warum es problematisch sein kann, sich bei der überwachten Klassifizierung von Übersetzungen auf manuell erstellte linguistische Merkmale zu verlassen. Eines der Hauptprobleme bei diesem Ansatz ist, dass die manuell erstellten Merkmale möglicherweise nicht vollständig sind und nicht alle wichtigen Unterscheidungsmerkmale der Eingabedaten während des Trainings erfassen. Dies liegt daran, dass die Merkmale auf linguistischen Intuitionen beruhen und möglicherweise nicht alle möglichen Variationen in den Eingabedaten berücksichtigen. Darüber hinaus erfordert die Annotation linguistischer Daten in großem Umfang (automatische) Annotationswerkzeuge, und die Beschaffung linguistischer Annotationswerkzeuge, wie Tokenisierer, Tagger, morphologische Analysatoren, NERs, Chunkers, Parser usw., kann für viele Sprachen eine Herausforderung darstellen (insbesondere für Sprachen mit geringen Ressourcen), was den Nutzen dieses Ansatzes einschränkt. Darüber hinaus ist die automatische Annotation im großen Maßstab immer verrauscht, und die Merkmale können sprach- oder linguistiktheoriespezifisch sein. Teilweise als Reaktion auf die Beschränkungen der von der linguistischen Theorie inspirierten Merkmale wurden in früheren Arbeiten auch einfache lexikalisierte Merkmale wie Wort-Token und Zeichen-N-Gramme (Avner, Ordan, and Wintner, 2016) oder Merkmale auf der Grundlage von Zählmodellen, Informationsdichte, Überraschung und Komplexität für die Textklassifizierung, insbesondere bei der Bewertung der Übersetzungsqualität, untersucht. Diese Merkmale dienen als Indikatoren für Translationese sowohl von ursprünglich verfassten als auch von manuell übersetzten Texten (Rubino, Lapshinova-Koltunski, and Genabith, 2016). Diese Forschung stützt sich jedoch auf diskrete zählbasierte Ansätze, die Wörter als diskrete Einheiten behandeln, was zu begrenzten Möglichkeiten der Kontextmodellierung führt. In dieser Arbeit erforschen wir einen alternativen Ansatz zur Klassifizierung von mehrsprachigem Translationese, ohne uns auf manuelles Feature Engineering zu verlassen, was uns dazu motiviert, unsere erste Forschungsfrage zu formulieren. RQ1: Inwieweit können Techniken des Repräsentationslernens, wie z. B. Einbettungen, übersetzte und nicht übersetzte Texte ohne vorherige linguistische Annahmen unterscheiden? Der erste Beitrag dieser Dissertation in Kapitel 3 besteht darin, eine Reihe von auf Repräsentationslernen basierenden Methoden zu entwerfen, zu implementieren und zu evaluieren, so dass die manuelle Erstellung von Merkmalen überflüssig wird. Auf Merkmalen und Repräsentationen basierende Lernmethoden werden in erster Linie von Faktoren wie den Daten, der Aufgabe und dem Lerner beeinflusst, ohne sich auf vorherige linguistische Annahmen oder Vorurteile zu stützen. Dies steht im Gegensatz zu linguistisch inspirierten, handgefertigten Feature-Engineering-Ansätzen, die keine Garantie dafür bieten, dass die Features und Repräsentationen vollständig sind. Daher wollen wir die Ergebnisse, die mit auf Repräsentationslernen basierendenAnsätzen für die Klassifikation mehrsprachiger Übersetzungen erzielt werden, mit denen unserer früheren klassischen, auf manuellem Feature-Engineering basierenden Ansätze vergleichen, die linguistisch informierte Methoden und automatische Annotationswerkzeuge für dieselben Daten verwenden, um RQ1 zu behandeln. In Kapitel 3 zeigen wir, dass bereits statisch eingebettete, auf Repräsentationslernen basierende Ansätze handgefertigte, linguistisch inspirierte Feature-Selection- Methoden für die Übersetzungsklassifikation bei einer Vielzahl von Aufgaben übertreffen. Darüber hinaus führen wir Experimente mit einer Reihe von Ausgangs-/Zielspachenkombinationen in ein- und mehrsprachigen Umgebungen durch, die belegen, dass auf Repräsentationslernen basierende Methoden bei der Generalisierung auf verschiedene mehrsprachige Aufgaben effektiver sind. Darüber hinaus vergleichen wir unsere Ansätze mit sprachübergreifende neuronalen Ansätzen auf denselben Daten und heben hervor, dass die Klassifizierung von Übersetzungen tiefe neuronale Modelle mit starker Kontextmodellierung erfordert, um optimale Ergebnisse zu erzielen. Übersetzungsartefakte üben einen erheblichen Einfluss auf verschiedene nachgelagerte Aufgaben aus, die mit Übersetzung zu tun haben. In jüngster Zeit wurde die Aufmerksamkeit auf den Einfluss von Translationese auf Bewertungsmetriken gelenkt (Graham, Haddow, and Koehn, 2019; Toral, 2019; Zhang and Toral, 2019). Edunov et al. (2020) and Freitag, Caswell, and Roy (2019) identifizierten Translationese als eine signifikante Quelle für die Diskrepanz zwischen BLEU-Scores (Papineni et al., 2002) und menschlichen Bewertungen. Die Auswirkung der Übersetzungssprache in den Testsätzen ist mit der Auswirkung in den Trainingsdaten (Bogoychev and Sennrich, 2019; Kurokawa, Goutte, and Isabelle, 2009; Lembersky, Ordan, and Wintner, 2012; Riley et al., 2020a) verbunden, unterscheidet sich aber von dieser. Daher ist es für die Verbesserung der Genauigkeit und Effektivität von sprachübergreifendem NLP von entscheidender Bedeutung, Translationese in der Übersetzungsausgabe zu verstehen, zu analysieren und vor allem abzuschwächen. Dies führt uns zur Formulierung unserer nächsten Forschungsfrage. RQ2:Ist es möglich, Übersetzungsartefakte effektiv abzuschwächen? Bis heute ist diese wichtige Forschungsfrage unteruntersucht. Die RQ2 zu adressieren, ist der zweite Beitrag, den die Dissertation liefert. Wir präsentieren einen Ansatz zur Minderung der negativen Auswirkungen von Translationese auf sprachübergreifende Aufgaben. Um dies zu erreichen, schlagen wir einen neuen Ansatz vor: Translationese-Debiasing. Wir entwerfen, implementieren und evaluieren diesen Ansatz, der auf latenten Repräsentationen arbeitet. Durch die Reduzierung der Effekte von Translationese auf nachgelagerte Aufgaben zielt dieser Ansatz darauf ab, die Genauigkeit und Wirksamkeit der überlingualen natürlichen Sprachverarbeitung zu verbessern. Um dieses Ziel zu erreichen, passen wir den Iterativen Nullraumprojektionsalgorithmus (Ravfogel et al., 2020), der ursprünglich zur Reduzierung von Geschlechtsattributen in neuronalen Repräsentationen entwickelt wurde, an übersetzungsbedingte Verzerrungen in Wort- und Satzeinbettungsräumen an. Zusätzlich entwickeln wir zwei Techniken zum Debiasing von Übersetzungsfehlern auf der Wortebene. Wir evaluieren unseren Ansatz, indem wir die Klassifizierungsleistung von Übersetzungsfehlern vorund nach dem Debiasing vergleichen, und stellen erwartungsgemäß eine geringere Genauigkeit als Folge fest. Darüber hinaus evaluieren wir die Auswirkungen des Debiasing von Übersetzungsartefakten auf die extrinsische Aufgabe der Natural Language Inference (NLI) in zwei verschiedenen Datenumgebungen. Unsere Ergebnisse zeigen, dass das entzerrte Modell in der Lage ist, die Beziehungen zwischen den Sätzen in der Inferenzaufgabe besser zu erhalten und genauere Inferenzen zu produzieren. Im zweiten Teil befasst sich die Dissertation mit grundlegenden Fragen zum Tranlationese, einschließlich der Frage, ob die Signale des Translationese in semantischen Worteinbettungsräumen beobachtet werden können und welche praktischen Auswirkungen dies hat. Übersetzte Texte weisen häufig Muster von Interferenzen in aus Ausgangssprache auf, wobei Merkmale des Ausgangstextes auf den Zieltext übertragen werden Teich, 2003; Toury, 1980. Während frühere Studien mit Hilfe von überwachter Klassifikation und Feature-Engineering (Baroni and Bernardini, 2005; Koppel and Ordan, 2011; Rabinovich, Ordan, and Wintner, 2017) systematische Belege für Translationese in übersetzten Texten aufzeigen konnten, sind die Auswirkungen von Translationese auf semantische Räume noch weitgehend unerforscht. Wir entwerfen, implementieren und evaluieren einen strukturierten und nicht überwachten Ansatz zur Erkennung von Translationese in semantischen Räumen ohne die Notwendigkeit expliziter linguistischer Annotationen. Unser Ansatz verfolgt drei Ziele: erstens die Identifizierung von Translationese-Effekten in semantischen Repräsentationen von Texten; zweitens die Entwicklung einer unüberwachten Methode zur Erkennung dieser Effekte ohne menschliche Annotation; und drittens die Bewertung, ob mögliche Domänenunterschiede für einige unserer Ergebnisse verantwortlich sein könnten. Um diese Ziele zu erreichen, konzentrieren wir uns auf zwei primäre Aufgaben: (i) das Aufspüren von Translationese in semantischen Räumen (ii) die Untersuchung des Einflusses der Domäne auf diese Aufgabe. Die charakteristischen Merkmale übersetzter Texte werden traditionell in zwei Hauptkategorien eingeteilt: Eigenschaften, die sich aus der Interferenz der Ausgangssprache ergeben, und universelle Merkmale, die sich aus der Übersetzung als kommunikativem Prozess selbst ergeben. Frühere Studien verwenden eine Kombination aus lexikalischen und syntaktischen Merkmalen, um zu zeigen, dass Spuren der Ausgangssprache oder shining-through (Teich, 2003) in Übersetzungen sichtbar bleiben. Dies ist darauf zurückzuführen, dass lexikalische und syntaktische Merkmale Hinweise auf die Ausgangssprache eines übersetzten Textes geben können (z. B. Wortstellung, grammalische Strukturen). Während lexikalische und syntaktische Merkmale für die Identifizierung bestimmter Merkmale von Translationese nützlich sein können, ist es wichtig, Translationese zu identifizieren, ohne dass eine explizite Kennzeichnung oder Überwachung erforderlich ist. So können beispielsweise bestimmte Muster oder Strukturen im semantischen Raum eines übersetzten Textes auf Translationese hinweisen, auch wenn sie nicht direkt mit spezifischen lexikalischen oder syntaktischen Merkmalen übereinstimmen. Dies führt uns zu der nächsten Forschungsfrage. RQ3:Ist es möglich, Translationese in semantischen Räumen in einer unüberwachten Weise auf zu spüren?Um diese Frage zu beantworten, führt der dritte Beitrag dieser Dissertation eine neue Forschungsrichtung ein: das Aufspüren von Translationese-Signalen in einem semantischen Raum, ohne dass eine explizite Kennzeichnung oder Überwachung erforderlich ist. Im Gegensatz zu früheren Arbeiten, die sich auf überwachte Klassifikation und Feature-Engineering stützten, um Translationese zu identifizieren, ist unser Ansatz völlig unbeaufsichtigt und basiert auf einem Schlüsselkonzept: dem Begriff des Isomorphismus. Das Isomorphie-Prinzip besagt, dass Sprachen ein hohes Maß an Übereinstimmung zwischen Bedeutung und Form auf einer Eins-zu-Eins-Basis aufweisen (Barone, 2016). Im Zusammenhang mit der Erkennung von Translationese in semantischen Räumen würde Isomorphie bedeuten, dass der semantische Raum, der aus den Originaldaten der Zielsprache erstellt wurde, derselbe sein sollte wie der Raum, der aus den Übersetzungen in diese Sprache erstellt wurde, und zwar in Bezug auf die Art und Weise, wie die Wörter innerhalb des Einbettungsraums miteinander verbunden sind. Unser Ziel ist es, Translationese auf der Grundlage von Abweichungen von der Graphen-Isomorphie nachzuvollziehen, wobei die ursprüngliche Zielsprache und die Übersetzungen in diese Zielsprache als Graphenstrukturen in den semantischen Räumen dargestellt werden. Die Abweichungen von der Isomorphie zwischen diesen Graphen deuten auf systematische Anzeichen von Translationese hin. Insbesondere stellen wir fest, dass mit abnehmender Isomorphie der linguistische Abstand zwischen etymologisch weit entfernten Sprachfamilien zunimmt, was den Nachweis erbringt, dass die durch die Abweichung von der Isomorphie erkannten Translationese Signale mit der Interferenz der Ausgangssprache verbunden sind. Unsere Ergebnisse sind vergleichbar mit früheren Ansätzen, die auf oberflächlichen Merkmalen wie Wörtern, n-Grammen oder Parser-Ausgaben basieren. Anschließend zeigen wir, dass die vorgeschlagenen Methoden unter einer Vielzahl von Trainingsbedingungen robust sind, die die Datengröße, den Datentyp und die Wahl der Worteinbettungsmodelle umfassen. Außerdem zeigen unsere Ergebnisse, dass unsere Methoden sprachunabhängig sind, in dem in dem Sinne, dass sie auf mehrere Sprachen angewendet werden können und nicht auf eine bestimmte Sprache oder Sprachfamilie beschränkt sind. Schließlich setzen wir das Aufspüren von Translationese in semantischen Räumen fort und reduzieren dabei die Auswirkungen möglicher unterschiedlicher Domänen in übersetzten und ursprünglichen Daten, indem wir verschiedene Sichten auf die Daten verwenden (Wörter, PoS, Synsets und semantische Tags). Im vorangegangenen Kapitel haben wir gezeigt, dass Translationese-Signale in semantischen Worteinbettungsräumen, die aus übersetzten und Originaldaten erstellt wurden, erkannt werden können, aber es bleibt unklar, ob die Signale wirklich auf Translationese hinweisen oder ob sie von anderen Faktoren beeinflusst werden, wie z.B. von möglichen thematischen oder Domänen Unterschieden zwischen dem Original und übersetzten Texten. Translationese Signale sind subtil und können mit anderen Signalen in den Daten konkurrieren, insbesondere mit denen, die Spezifika von Domänen zusammenhängen. Dies veranlasst uns zu unserer letzten Forschungsfrage. RQ4: Inwieweit lassen sich die in der Antwort auf RQ3 beobachteten Ergebnisse auf Domänenunterschiede zwischen Original und übersetztem Text zurückführen, im Gegensatzzu echten Translationese Signalen? Unser vierter Beitrag in Kapitel 6 untersucht das Zusammenspiel verschiedener linguistischer Repräsentationen (lexikalisch, morphologisch und syntaktisch) und die Frage, ob die Maskierung lexikalischer Informationen und die dadurch bedingte Verringerung potenzieller Domänensignale die Aufgabe der unüberwachten Rückverfolgung von Übersetzungen in semantischen Räumen beeinflussen, um RQ4 anzugehen. Bei der Analyse von übersetzten Daten, die Texte enthalten, die aus mehreren Quellen (z. B. aus entfernten Sprachen wie Deutsch und Bulgarisch) in dieselbe Zielsprache (z. B. Englisch) übersetzt wurden, können die Ergebnisse unserer Analyse des semantischen Raums durch Domänenunterschiede in den Daten verzerrt werden und nicht durch eigentliche Tranlationese-Signale wie die Ausgangssprachen der Übersetzungen bedingt sein. Um dies zu berücksichtigen, maskieren wir lexikalische Domäneninformationen in den Daten. Bei diesem Ansatz werden entlexikalisierte Darstellungen verwendet, die Wörter durch Wortarten (Parts of Speech, PoS), semantische Tags oder Synsets ersetzen. Durch die Anwendung unserer Graph-Isomorphismus-Methoden auf diese Darstellungen können wir bestimmte linguistische Merkmale (wie morphologische Informationen oder einfache syntaktische Konfigurationen – PoS-Sequenzen) erfassen und den Einfluss domänenspezifischer lexikalischer Merkmale (insbesondere des Vokabulars) auf die Analyse von Übersetzungen minimieren. Unsere Ergebnisse zeigen, dass delexikalisierte Darstellungen (PoS, Synsets oder semantische Tags) immer noch erhebliche Interferenzen mit der Ausgangssprache aufweisen. Dies deutet darauf hin, dass die lexikalisierten Ergebnisse auf der niedrigsten Abstraktionsebene (d. h. Wörter) nicht nur auf mögliche Unterschiede in der Domäne zwischen Original- und Translationese Text zurückzuführen sind. Insgesamt ist dies ein Beleg dafür, dass morphologische und einfache syntaktische Repräsentationen in den Daten auch Translationese Signale enthalten. Um das unüberwachte Aufspüren von Translationese Signalen in semantischen Räumen zu bewerten, untersuchen wir außerdem, inwieweit es möglich ist, die Sprachphylogenie oder die genetischen Beziehungen zwischen Sprachen mit diesen delexikalisierten Repräsentationen zu clustern. Wir zeigen, dass unabhängig von der Ebene der sprachlichen Repräsentation aus den Isomorphieabständen Familenverbindungen der Sprachen mit ähnlichen Eigenschaften wie linguistisch motivierte phylogenetische Bäume abgeleitet werden können, wobei alle Kombinationen von ursprünglicher Zielsprache und Übersetzungen in diese Zielsprache aus verschiedenen Ausgangssprachen verwendet werden. Im vorigen Kapitel haben wir einige implizite Hinweise darauf gegeben, dass die Abweichung von der Isomorphie zwischen Einbettungsräumen auf strukturelle Oberflächenunterschiede zwischen Sprachfamilien hinweisen, die wir aus der linguistischen Literatur kennen. Eine größere Abweichung von der Isomorphie zwischen Einbettungsräumen deutet auf eine größere sprachliche Distanz in Bezug auf von Sprachfamilien und damit auf einen vermeintlich oberflächlichen strukturellen linguistischen Abstand (z. B. Morphologie, Syntax) zwischen Sprachen, wie sie in der linguistischen Literatur beschrieben werden. Dies wird in Kapitel 6 indirekt durchdie POS-Experimente (und die anderen verschiedenen Ansichten) gezeigt die von lexikalischen Informationen in der ursprünglichen und übersetzerischen Einbettung abstrahieren Experimente, bei denen maskierte Ansichten (POS usw.) immer noch vernünftige Unterschiede in der Isomorphie zwischen den Einbettungsräumen im Original und in der Übersetzung zeigen, und darauf aufbauend phylogenetische Stammbaumergebnisse. Dies wirft die Frage auf, ob es explizite Beweise für den Zusammenhang zwischen Einbettungen und strukturellen Oberflächenunterschieden gibt, was uns dazu veranlasst, unsere letzte Forschungsfrage zu formulieren. RQ5: Inwieweit kann graphbasierte Divergenz von Isomorphie in Einbettungsräumen als Proxy für Surprisal auf der Ebene von Oberflächentexten dienen? Wir behandeln RQ5 als den fünften Beitrag dieser Dissertation. Um dieser Frage nachzugehen, berechnen wir die Korrelation zwischen (a) Unterschieden in der Oberflächenstringentropie von Original- und übersetzten Daten, die von Sprachmodellen berechnet werden, die auf Originaldaten trainiert wurden, und (b) der Abweichung von der Isomorphie zwischen Einbettungsräumen, die auf denselben Textdaten berechnet werden. Unsere Ergebnisse zeigen eine Korrelation zwischen diesen beiden Maßen, d. h. eine größere Abweichung von der Isomorphie zwischen Einbettungsräumen entspricht einem größeren Unterschied in der Oberflächenentropie. Dies stellt eine direkte Verbindung zwischen dem Einbettungsraum und der Darstellung von Oberflächenstrings her, wobei letztere durch die Entropie des Sprachmodells gemessen wird. Darüber hinaus zeigen unsere Ergebnisse, dass Übersetzungen in dieselbe Zielsprache aus strukturell unterschiedlichen Ausgangssprachen im Allgemeinen höhere Entropieunterschiede aufweisen, während solche aus strukturell ähnlichen Ausgangssprachen geringere Unterschiede aufweisen. Diese Ergebnisse spiegeln die Muster wider, die bei der Divergenz von Isomorphie zwischen Einbettungsräumen beobachtet wurden, wo Übersetzungen aus strukturell stärker divergierenden Sprachen zu einer größeren Divergenz bei der Isomorphie führen. Diese Ergebnisse stellen explizit eine Verbindung zwischen unseren beiden Messgrößen her: der Isomorphiedivergenz zwischen Original- und übersetzten Einbettungsräumen und den Entropieunterschieden in den Oberflächenstrings derselben Textdaten.

@phdthesis{Chowdhury_Diss_2024,
title = {A representation learning based approach to the study of translationese},
author = {},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/40059},
doi = {https://doi.org/20.500.11880/40059},
year = {2024},
date = {2024},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {Translated texts exhibit systematic linguistic differences compared to original texts in the same language. These differences are referred to as translationese, and can be categorised as either source language dependent or universal. Basic research on translationese aims to understand and characterise the language-specific and language-independent aspects of translationese. Additionally, translationese has practical implications in the context of natural language processing tasks that involve translation. Translationese effects can cause biased results in a variety of cross-lingual tasks. Therefore, understanding, analysing and mitigating translationese is crucial for improving the accuracy and effectiveness of cross-lingual natural language processing. Focusing on representation learning, this dissertation addresses both foundational as well as practical aspects of translationese. Our first task is to investigate the effectiveness of representation learning-based methods in mono- and multilingual translationese classification. Traditional manual featureengineering based methods for translationese classification may result in potentially partial, non-exhaustive linguistic features and often require linguistic annotation tools. In contrast, our approach involves developing a suite of representation-learning methods based on word embeddings, eliminating the need for manual feature engineering. Our experiments demonstrate superior performance, outperforming previous traditional hand-crafted linguistically inspired feature-selection methods for translationese classification on a wide range of tasks. Translationese artifacts have been found to exert a substantial influence on diverse downstream tasks involving translated data. Therefore, to mitigate the impact of translationese on downstream tasks, we propose a new approach: translationese debiasing. Our research is the first to adapt the Iterative Null Space Projection (INLP) algorithm, originally designed to mitigate gender attributes, to translationese-induced bias in both word and sentence embedding spaces. Additionally, we develop two techniques for debiasing translationese at the word level representations. We confirm the effectiveness of our debiasing approach by comparing the classification performance before and after debiasing on the translationese classification task. Additionally, we demonstrate the practical utility of our debiasing method by applying it to a natural language inference task involving translated data, where we observed improved accuracy as a result of reduced translation-induced bias. Next, we address the foundational question of whether translationese signals can be observed in semantic word embedding spaces and, if so, what practical implications this observation may have. To this end, we propose a novel approach for unsupervised tracking of translationese in semantic spaces, which does not rely on explicit linguistic labels. Our method is based on graph-isomorphism approaches that examine departures from isomorphism between embedding spaces built from original language data and translations into this language. By comparing the normalised distances between these spaces, we are able to identify systematic evidence of translationese. Specifically, we find that as isomorphism weakens, the linguistic distance between etymologically distant language families increases, providing evidence that translationese signals are linked to source language interference. Following this, we show that the proposed methods are robust under a variety of training conditions, encompassing data size, type, and choice of word embedding models. Additionally, our findings indicate our methods are language-independent, in the sense that they can be applied to multiple languages and are not limited to a specific language or language family. We extend the work on unsupervised tracking of translationese in semantic spaces to evaluate the impact of domain in translationese data. Translationese signals are subtle and may compete with other signals in the data, particularly those related to domain. To address this, we mask domain information by applying our graph-isomorphism methods to different delexicalized representations using various views, including words, parts of speech, semantic tags, and synsets. Our results demonstrate that while source-language interference is most pronounced in lexicalised embeddings (word), it is also present in delexicalised views. This indicates that our lexicalised findings are not only the result of possible topic differences between original and translated texts. Additionally, we show that, regardless of the level of linguistic representation, language family ties with characteristics similar to linguistically motivated phylogenetic trees can be inferred from the degree of departures from isomorphism, using all combinations of original target language and translations into this target language from different source languages. Finally, we explore whether the graph-based divergence from isomorphism in embeddings can serve as a viable proxy for surprisal at the the level of surface texts. To do this, we explicitly compute the correlation between (a) differences in surface string entropy of original vs. translated data computed by language models trained on originally authored data and (b) divergence from isomorphism between embedding spaces computed on the same text data. Our results show a positive correlation between these two measures with a higher departure from isomorphism between embedding spaces corresponding to a greater difference in surface entropy. Additionally, similar to the findings of graph-based divergence from isomorphism between embedding spaces where higher divergence from isomorphism implicitly indicates higher linguistic distance in terms of language families and, supposedly, surface structural linguistic distance between languages — our entropy-based findings demonstrate that the observed differences in surface string representations between the original and translated datasets also correspond, at a higher level, with the surface structural linguistic distance between the source languages themselves. These results establish an explicit link between our two measures: divergence from isomorphism between original and translated embedding spaces and entropy differences of the surface strings of the same text data.


{\"U}bersetzteTexte weisen im Vergleich zu Originaltexten in derselben Sprache systematische sprachliche Unterschiede auf, die zu einer einzigartigen Teilsprache mit eigenen Unterscheidungsmerkmalen f{\"u}hren. Diese Unterschiede werden als Translationese (Gellerstam, 1986) bezeichnet und k{\"o}nnen entweder als ausgangssprachabh{\"a}ngig oder universell kategorisiert werden. Es ist wichtig zu beachten, dass Translationese keine eigenst{\"a}ndige Sprache ist, sondern vielmehr eine Reihe von sprachlichen Merkmalen (Baker et al., 1993; Toury, 1980), die {\"u}bersetzte Texte von denen unterscheiden, die urspr{\"u}nglich in der Zielsprache geschrieben wurden. Verschiedene Faktoren tragen zu den Unterschieden zwischen den Originaltexten und {\"u}bersetzten Texten bei, von denen viele unter die Kategorie der universellen Merkmale der {\"U}bersetzung fallen. Zu diesen universellen Merkmalen geh{\"o}ren die Vereinfachung, d. h. die Vereinfachung komplexer Ausgangsstrukturen in der Zielsprache, die Standardisierung, d. h. die Neigung, sich eng an die Normen der Zielsprache zu halten, und die Explizierung, d. h. die Verdeutlichung impliziter Ausgangsstrukturen in der Zielsprache. Im Gegensatz zu diesen {\"u}bersetzerischen Universalien spiegelt die Interferenz den Einfluss der Ausgangssprache auf das {\"U}bersetzungsprodukt wider. Interferenz ist von Natur aus ein sprachpaarspezifisches Ph{\"a}nomen, bei dem isomorphe Strukturen, die Ausgangs- und Zielsprache gemeinsam haben, einander leicht ersetzen k{\"o}nnen. Dies verdeutlicht den zugrunde liegenden sprach{\"u}bergreifenden Einfluss der Ausgangssprache auf das {\"U}bersetzungsergebnis. Nach dieser Definition wird das {\"U}bersetzen als eine besondere Form der sprach{\"u}bergreifenden Sprachvariet{\"a}t betrachtet, die einen Sonderfall innerhalb der breiteren Landschaft des Sprachkontakts darstellt. Trotz des betr{\"a}chtlichen Umfangs der Forschung zu verschiedenen sprach{\"u}bergreifenden Sprachvariet{\"a}ten gibt es eine auff{\"a}llige L{\"u}cke, wenn es um die spezifische Untersuchung des Translationese geht. Bisherige Studien haben sich vor allem auf zwei Aspekte konzentriert, n{\"a}mlich auf die Identifizierung charakteristischer Merkmale von {\"U}bersetzungen und auf die Klassifizierung von Translationese, wobei sorgf{\"a}ltige korpusbasierte Studien (Baker et al., 1993) verwendet wurden, die Unterschiede in der Verteilung linguistischer Merkmale zwischen Originalen und {\"u}bersetzten Texten aufzeigen, oder klassifikationsbasierte Ans{\"a}tze bei denen ein Klassifikator trainiert wird und dann Merkmalsbedeutungsma{\ss}e verwendet werden, um darauf zu schlie{\ss}en, welche Merkmale bei der Klassifizierung von {\"U}bersetzungen besonders wichtig sind (Rabinovich and Wintner, 2015; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Die praktischen Implikationen von Translationswissenschaft gehen jedoch {\"u}ber die Identifizierung linguistischer Merkmale und die Klassifizierung hinaus. Die ausgepr{\"a}gten sprachlichen Unterschiede, die zwischen Originaltexten und {\"u}bersetzten Texten in derselben Sprache zu beobachten sind, lassen sich im Gro{\ss}en und Ganzen entweder als quellsprachenabh{\"a}ngig oder als universell klassifizieren. Die Durchf{\"u}hrung von Grundlagenforschung zum Translationese ist wichtig, da sie wertvolle Einblicke sowohl in sprachspezifische als auch in sprachunabh{\"a}ngige Aspekte dieses sprachlichen Ph{\"a}nomens liefert. Die Grundlagenforschung erm{\"o}glicht ein tieferes Verst{\"a}ndnis der zugrundeliegenden Muster und Strukturen, die das Translationese definieren, sowie der Variationen, die in verschiedenen Sprachen und Sprachfamilien beobachtet werden. Es ist jedoch auch wichtig, eine bestehende L{\"u}cke in der Erforschung des Translationese zu schlie{\ss}en. Translationese hat sp{\"u}rbare Auswirkungen auf verschiedene sprach{\"u}bergreifende Aufgaben der nat{\"u}rlichen Sprachverarbeitung (NLP), was zu verzerrten Ergebnissen und verminderter oder k{\"u}nstlich aufgebl{\"a}hter Leistung f{\"u}hren kann. Daher ist die Untersuchung und Abschw{\"a}chung von Translationese f{\"u}r die Verbesserung der Genauigkeit und Effektivit{\"a}t dieser Aufgaben von entscheidender Bedeutung. Die Abschw{\"a}chung von Translationese ist bisher ein wenig erforschtes Gebiet. Ein wichtiger Teil der in dieser Arbeit vorgestellten Forschung besteht darin, diese L{\"u}cke zu schlie{\ss}en. In dieser Arbeit konzentrieren wir uns auf das Repr{\"a}sentationslernen als einen umfassenden Ansatz, um sowohl die grundlegenden als auch die praktischen Aspekte von Translationese zu behandeln. Mit dieser Forschungsarbeit wollen wir einen Beitrag zum breiteren Feld der sprach{\"u}bergreifenden Sprachstudien leisten und eine bestehende L{\"u}cke im Verst{\"a}ndnis und in der Behebung von Translationese schlie{\ss}en. Zun{\"a}chst befassen wir uns mit den praktischen Aspekten von Translationese. Fr{\"u}here Studien haben gezeigt dass die Verwendung verschiedener manuell erstellter Merkmale f{\"u}r {\"u}berwachtes Lernen f{\"u}r die Klassifizierung von Translationese effektiv sein kann (Avner, Ordan, and Wintner, 2016; Baroni and Bernardini, 2005; Rabinovich, Ordan, and Wintner, 2017; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Dies hat sich als n{\"u}tzlich f{\"u}r eine Vielzahl von Aufgaben erwiesen, wie z. B. die Analyse von {\"U}bersetzungsstrategien (Lapshinova- Koltunski, 2015), die Untersuchung der Merkmale (Koppel and Ordan, 2011; Rubino, Lapshinova-Koltunski, and Genabith, 2016) von Translationese oder die Bewertung von maschinellen {\"U}bersetzungssystemen (Graham, Haddow, and Koehn, 2019; Zhang and Toral, 2019). In Anlehnung an diese Forschungslinie in der Erforschung des Translationese, konzentrieren wir uns auf zwei praktische Aufgaben: (i) mehrsprachige Klassifizierung von Translationese, und (ii) wir schlagen eine neue Aufgabe vor, n{\"a}mlich die Milderung von Translationese-Artefakten. Im Rahmen von (i) entwerfen, entwickeln und evaluieren wir verschiedene Repr{\"a}sentationslernans{\"a}tze zur Klassifikation mehrsprachigen Translationese und vergleichende sie mit klassischen manuellen, auf Feature-Engineering basierenden Ans{\"a}tzen f{\"u}r dieselben Daten. In (ii) f{\"u}hren wir die neue Aufgabe ein, Translationese Artefakte aus latenten Repr{\"a}sentationsr{\"a}umen zu entfernen. Dies bezieht sich auf den Prozess der Entfernung oder die Reduzierung des Einflusses von Artefakten auf die gelernten Repr{\"a}sentationen von Texten, um die Eigenschaften der Originaltexte besser wiederzugeben. Translationese wurde als eine Reihe von spezifischen linguistischen Merkmalen und Konventionen charakterisiert, die {\"U}bersetzungen von Originaltexten unterscheiden (Baker et al., 1993; Teich, 2003; Toury, 1979). Fr{\"u}here bahnbrechende Forschungen zur automatischen Klassifizierung von {\"U}bersetzungen (Baroni and Bernardini, 2005; Koppel and Ordan, 2011) verwendeten traditionelle, handgefertigte, linguistisch inspirierte, auf Features basierende, {\"u}berwachte maschinelle Lernans{\"a}tze, um Klassifikatoren zu trainieren. H{\"a}ufig wurden Feature-Ranking-Methoden verwendet, um herauszufinden, welche der Features wichtige Indikatoren f{\"u}r Translationese sind (Avner, Ordan, and Wintner, 2016; Rubino, Lapshinova-Koltunski, and Genabith, 2016; Volansky, Ordan, and Wintner, 2015). Manuelle, linguistisch inspirierte, auf Feature- Engineering basierende Ans{\"a}tze haben den Vorteil, dass die verwendeten Merkmale (und ihre Rangfolge) f{\"u}r menschliche Experten leicht zu interpretieren sind. Es gibt jedoch einige Gr{\"u}nde, warum es problematisch sein kann, sich bei der {\"u}berwachten Klassifizierung von {\"U}bersetzungen auf manuell erstellte linguistische Merkmale zu verlassen. Eines der Hauptprobleme bei diesem Ansatz ist, dass die manuell erstellten Merkmale m{\"o}glicherweise nicht vollst{\"a}ndig sind und nicht alle wichtigen Unterscheidungsmerkmale der Eingabedaten w{\"a}hrend des Trainings erfassen. Dies liegt daran, dass die Merkmale auf linguistischen Intuitionen beruhen und m{\"o}glicherweise nicht alle m{\"o}glichen Variationen in den Eingabedaten ber{\"u}cksichtigen. Dar{\"u}ber hinaus erfordert die Annotation linguistischer Daten in gro{\ss}em Umfang (automatische) Annotationswerkzeuge, und die Beschaffung linguistischer Annotationswerkzeuge, wie Tokenisierer, Tagger, morphologische Analysatoren, NERs, Chunkers, Parser usw., kann f{\"u}r viele Sprachen eine Herausforderung darstellen (insbesondere f{\"u}r Sprachen mit geringen Ressourcen), was den Nutzen dieses Ansatzes einschr{\"a}nkt. Dar{\"u}ber hinaus ist die automatische Annotation im gro{\ss}en Ma{\ss}stab immer verrauscht, und die Merkmale k{\"o}nnen sprach- oder linguistiktheoriespezifisch sein. Teilweise als Reaktion auf die Beschr{\"a}nkungen der von der linguistischen Theorie inspirierten Merkmale wurden in fr{\"u}heren Arbeiten auch einfache lexikalisierte Merkmale wie Wort-Token und Zeichen-N-Gramme (Avner, Ordan, and Wintner, 2016) oder Merkmale auf der Grundlage von Z{\"a}hlmodellen, Informationsdichte, {\"U}berraschung und Komplexit{\"a}t f{\"u}r die Textklassifizierung, insbesondere bei der Bewertung der {\"U}bersetzungsqualit{\"a}t, untersucht. Diese Merkmale dienen als Indikatoren f{\"u}r Translationese sowohl von urspr{\"u}nglich verfassten als auch von manuell {\"u}bersetzten Texten (Rubino, Lapshinova-Koltunski, and Genabith, 2016). Diese Forschung st{\"u}tzt sich jedoch auf diskrete z{\"a}hlbasierte Ans{\"a}tze, die W{\"o}rter als diskrete Einheiten behandeln, was zu begrenzten M{\"o}glichkeiten der Kontextmodellierung f{\"u}hrt. In dieser Arbeit erforschen wir einen alternativen Ansatz zur Klassifizierung von mehrsprachigem Translationese, ohne uns auf manuelles Feature Engineering zu verlassen, was uns dazu motiviert, unsere erste Forschungsfrage zu formulieren. RQ1: Inwieweit k{\"o}nnen Techniken des Repr{\"a}sentationslernens, wie z. B. Einbettungen, {\"u}bersetzte und nicht {\"u}bersetzte Texte ohne vorherige linguistische Annahmen unterscheiden? Der erste Beitrag dieser Dissertation in Kapitel 3 besteht darin, eine Reihe von auf Repr{\"a}sentationslernen basierenden Methoden zu entwerfen, zu implementieren und zu evaluieren, so dass die manuelle Erstellung von Merkmalen {\"u}berfl{\"u}ssig wird. Auf Merkmalen und Repr{\"a}sentationen basierende Lernmethoden werden in erster Linie von Faktoren wie den Daten, der Aufgabe und dem Lerner beeinflusst, ohne sich auf vorherige linguistische Annahmen oder Vorurteile zu st{\"u}tzen. Dies steht im Gegensatz zu linguistisch inspirierten, handgefertigten Feature-Engineering-Ans{\"a}tzen, die keine Garantie daf{\"u}r bieten, dass die Features und Repr{\"a}sentationen vollst{\"a}ndig sind. Daher wollen wir die Ergebnisse, die mit auf Repr{\"a}sentationslernen basierendenAns{\"a}tzen f{\"u}r die Klassifikation mehrsprachiger {\"U}bersetzungen erzielt werden, mit denen unserer fr{\"u}heren klassischen, auf manuellem Feature-Engineering basierenden Ans{\"a}tze vergleichen, die linguistisch informierte Methoden und automatische Annotationswerkzeuge f{\"u}r dieselben Daten verwenden, um RQ1 zu behandeln. In Kapitel 3 zeigen wir, dass bereits statisch eingebettete, auf Repr{\"a}sentationslernen basierende Ans{\"a}tze handgefertigte, linguistisch inspirierte Feature-Selection- Methoden f{\"u}r die {\"U}bersetzungsklassifikation bei einer Vielzahl von Aufgaben {\"u}bertreffen. Dar{\"u}ber hinaus f{\"u}hren wir Experimente mit einer Reihe von Ausgangs-/Zielspachenkombinationen in ein- und mehrsprachigen Umgebungen durch, die belegen, dass auf Repr{\"a}sentationslernen basierende Methoden bei der Generalisierung auf verschiedene mehrsprachige Aufgaben effektiver sind. Dar{\"u}ber hinaus vergleichen wir unsere Ans{\"a}tze mit sprach{\"u}bergreifende neuronalen Ans{\"a}tzen auf denselben Daten und heben hervor, dass die Klassifizierung von {\"U}bersetzungen tiefe neuronale Modelle mit starker Kontextmodellierung erfordert, um optimale Ergebnisse zu erzielen. {\"U}bersetzungsartefakte {\"u}ben einen erheblichen Einfluss auf verschiedene nachgelagerte Aufgaben aus, die mit {\"U}bersetzung zu tun haben. In j{\"u}ngster Zeit wurde die Aufmerksamkeit auf den Einfluss von Translationese auf Bewertungsmetriken gelenkt (Graham, Haddow, and Koehn, 2019; Toral, 2019; Zhang and Toral, 2019). Edunov et al. (2020) and Freitag, Caswell, and Roy (2019) identifizierten Translationese als eine signifikante Quelle f{\"u}r die Diskrepanz zwischen BLEU-Scores (Papineni et al., 2002) und menschlichen Bewertungen. Die Auswirkung der {\"U}bersetzungssprache in den Tests{\"a}tzen ist mit der Auswirkung in den Trainingsdaten (Bogoychev and Sennrich, 2019; Kurokawa, Goutte, and Isabelle, 2009; Lembersky, Ordan, and Wintner, 2012; Riley et al., 2020a) verbunden, unterscheidet sich aber von dieser. Daher ist es f{\"u}r die Verbesserung der Genauigkeit und Effektivit{\"a}t von sprach{\"u}bergreifendem NLP von entscheidender Bedeutung, Translationese in der {\"U}bersetzungsausgabe zu verstehen, zu analysieren und vor allem abzuschw{\"a}chen. Dies f{\"u}hrt uns zur Formulierung unserer n{\"a}chsten Forschungsfrage. RQ2:Ist es m{\"o}glich, {\"U}bersetzungsartefakte effektiv abzuschw{\"a}chen? Bis heute ist diese wichtige Forschungsfrage unteruntersucht. Die RQ2 zu adressieren, ist der zweite Beitrag, den die Dissertation liefert. Wir pr{\"a}sentieren einen Ansatz zur Minderung der negativen Auswirkungen von Translationese auf sprach{\"u}bergreifende Aufgaben. Um dies zu erreichen, schlagen wir einen neuen Ansatz vor: Translationese-Debiasing. Wir entwerfen, implementieren und evaluieren diesen Ansatz, der auf latenten Repr{\"a}sentationen arbeitet. Durch die Reduzierung der Effekte von Translationese auf nachgelagerte Aufgaben zielt dieser Ansatz darauf ab, die Genauigkeit und Wirksamkeit der {\"u}berlingualen nat{\"u}rlichen Sprachverarbeitung zu verbessern. Um dieses Ziel zu erreichen, passen wir den Iterativen Nullraumprojektionsalgorithmus (Ravfogel et al., 2020), der urspr{\"u}nglich zur Reduzierung von Geschlechtsattributen in neuronalen Repr{\"a}sentationen entwickelt wurde, an {\"u}bersetzungsbedingte Verzerrungen in Wort- und Satzeinbettungsr{\"a}umen an. Zus{\"a}tzlich entwickeln wir zwei Techniken zum Debiasing von {\"U}bersetzungsfehlern auf der Wortebene. Wir evaluieren unseren Ansatz, indem wir die Klassifizierungsleistung von {\"U}bersetzungsfehlern vorund nach dem Debiasing vergleichen, und stellen erwartungsgem{\"a}{\ss} eine geringere Genauigkeit als Folge fest. Dar{\"u}ber hinaus evaluieren wir die Auswirkungen des Debiasing von {\"U}bersetzungsartefakten auf die extrinsische Aufgabe der Natural Language Inference (NLI) in zwei verschiedenen Datenumgebungen. Unsere Ergebnisse zeigen, dass das entzerrte Modell in der Lage ist, die Beziehungen zwischen den S{\"a}tzen in der Inferenzaufgabe besser zu erhalten und genauere Inferenzen zu produzieren. Im zweiten Teil befasst sich die Dissertation mit grundlegenden Fragen zum Tranlationese, einschlie{\ss}lich der Frage, ob die Signale des Translationese in semantischen Worteinbettungsr{\"a}umen beobachtet werden k{\"o}nnen und welche praktischen Auswirkungen dies hat. {\"U}bersetzte Texte weisen h{\"a}ufig Muster von Interferenzen in aus Ausgangssprache auf, wobei Merkmale des Ausgangstextes auf den Zieltext {\"u}bertragen werden Teich, 2003; Toury, 1980. W{\"a}hrend fr{\"u}here Studien mit Hilfe von {\"u}berwachter Klassifikation und Feature-Engineering (Baroni and Bernardini, 2005; Koppel and Ordan, 2011; Rabinovich, Ordan, and Wintner, 2017) systematische Belege f{\"u}r Translationese in {\"u}bersetzten Texten aufzeigen konnten, sind die Auswirkungen von Translationese auf semantische R{\"a}ume noch weitgehend unerforscht. Wir entwerfen, implementieren und evaluieren einen strukturierten und nicht {\"u}berwachten Ansatz zur Erkennung von Translationese in semantischen R{\"a}umen ohne die Notwendigkeit expliziter linguistischer Annotationen. Unser Ansatz verfolgt drei Ziele: erstens die Identifizierung von Translationese-Effekten in semantischen Repr{\"a}sentationen von Texten; zweitens die Entwicklung einer un{\"u}berwachten Methode zur Erkennung dieser Effekte ohne menschliche Annotation; und drittens die Bewertung, ob m{\"o}gliche Dom{\"a}nenunterschiede f{\"u}r einige unserer Ergebnisse verantwortlich sein k{\"o}nnten. Um diese Ziele zu erreichen, konzentrieren wir uns auf zwei prim{\"a}re Aufgaben: (i) das Aufsp{\"u}ren von Translationese in semantischen R{\"a}umen (ii) die Untersuchung des Einflusses der Dom{\"a}ne auf diese Aufgabe. Die charakteristischen Merkmale {\"u}bersetzter Texte werden traditionell in zwei Hauptkategorien eingeteilt: Eigenschaften, die sich aus der Interferenz der Ausgangssprache ergeben, und universelle Merkmale, die sich aus der {\"U}bersetzung als kommunikativem Prozess selbst ergeben. Fr{\"u}here Studien verwenden eine Kombination aus lexikalischen und syntaktischen Merkmalen, um zu zeigen, dass Spuren der Ausgangssprache oder shining-through (Teich, 2003) in {\"U}bersetzungen sichtbar bleiben. Dies ist darauf zur{\"u}ckzuf{\"u}hren, dass lexikalische und syntaktische Merkmale Hinweise auf die Ausgangssprache eines {\"u}bersetzten Textes geben k{\"o}nnen (z. B. Wortstellung, grammalische Strukturen). W{\"a}hrend lexikalische und syntaktische Merkmale f{\"u}r die Identifizierung bestimmter Merkmale von Translationese n{\"u}tzlich sein k{\"o}nnen, ist es wichtig, Translationese zu identifizieren, ohne dass eine explizite Kennzeichnung oder {\"U}berwachung erforderlich ist. So k{\"o}nnen beispielsweise bestimmte Muster oder Strukturen im semantischen Raum eines {\"u}bersetzten Textes auf Translationese hinweisen, auch wenn sie nicht direkt mit spezifischen lexikalischen oder syntaktischen Merkmalen {\"u}bereinstimmen. Dies f{\"u}hrt uns zu der n{\"a}chsten Forschungsfrage. RQ3:Ist es m{\"o}glich, Translationese in semantischen R{\"a}umen in einer un{\"u}berwachten Weise auf zu sp{\"u}ren?Um diese Frage zu beantworten, f{\"u}hrt der dritte Beitrag dieser Dissertation eine neue Forschungsrichtung ein: das Aufsp{\"u}ren von Translationese-Signalen in einem semantischen Raum, ohne dass eine explizite Kennzeichnung oder {\"U}berwachung erforderlich ist. Im Gegensatz zu fr{\"u}heren Arbeiten, die sich auf {\"u}berwachte Klassifikation und Feature-Engineering st{\"u}tzten, um Translationese zu identifizieren, ist unser Ansatz v{\"o}llig unbeaufsichtigt und basiert auf einem Schl{\"u}sselkonzept: dem Begriff des Isomorphismus. Das Isomorphie-Prinzip besagt, dass Sprachen ein hohes Ma{\ss} an {\"U}bereinstimmung zwischen Bedeutung und Form auf einer Eins-zu-Eins-Basis aufweisen (Barone, 2016). Im Zusammenhang mit der Erkennung von Translationese in semantischen R{\"a}umen w{\"u}rde Isomorphie bedeuten, dass der semantische Raum, der aus den Originaldaten der Zielsprache erstellt wurde, derselbe sein sollte wie der Raum, der aus den {\"U}bersetzungen in diese Sprache erstellt wurde, und zwar in Bezug auf die Art und Weise, wie die W{\"o}rter innerhalb des Einbettungsraums miteinander verbunden sind. Unser Ziel ist es, Translationese auf der Grundlage von Abweichungen von der Graphen-Isomorphie nachzuvollziehen, wobei die urspr{\"u}ngliche Zielsprache und die {\"U}bersetzungen in diese Zielsprache als Graphenstrukturen in den semantischen R{\"a}umen dargestellt werden. Die Abweichungen von der Isomorphie zwischen diesen Graphen deuten auf systematische Anzeichen von Translationese hin. Insbesondere stellen wir fest, dass mit abnehmender Isomorphie der linguistische Abstand zwischen etymologisch weit entfernten Sprachfamilien zunimmt, was den Nachweis erbringt, dass die durch die Abweichung von der Isomorphie erkannten Translationese Signale mit der Interferenz der Ausgangssprache verbunden sind. Unsere Ergebnisse sind vergleichbar mit fr{\"u}heren Ans{\"a}tzen, die auf oberfl{\"a}chlichen Merkmalen wie W{\"o}rtern, n-Grammen oder Parser-Ausgaben basieren. Anschlie{\ss}end zeigen wir, dass die vorgeschlagenen Methoden unter einer Vielzahl von Trainingsbedingungen robust sind, die die Datengr{\"o}{\ss}e, den Datentyp und die Wahl der Worteinbettungsmodelle umfassen. Au{\ss}erdem zeigen unsere Ergebnisse, dass unsere Methoden sprachunabh{\"a}ngig sind, in dem in dem Sinne, dass sie auf mehrere Sprachen angewendet werden k{\"o}nnen und nicht auf eine bestimmte Sprache oder Sprachfamilie beschr{\"a}nkt sind. Schlie{\ss}lich setzen wir das Aufsp{\"u}ren von Translationese in semantischen R{\"a}umen fort und reduzieren dabei die Auswirkungen m{\"o}glicher unterschiedlicher Dom{\"a}nen in {\"u}bersetzten und urspr{\"u}nglichen Daten, indem wir verschiedene Sichten auf die Daten verwenden (W{\"o}rter, PoS, Synsets und semantische Tags). Im vorangegangenen Kapitel haben wir gezeigt, dass Translationese-Signale in semantischen Worteinbettungsr{\"a}umen, die aus {\"u}bersetzten und Originaldaten erstellt wurden, erkannt werden k{\"o}nnen, aber es bleibt unklar, ob die Signale wirklich auf Translationese hinweisen oder ob sie von anderen Faktoren beeinflusst werden, wie z.B. von m{\"o}glichen thematischen oder Dom{\"a}nen Unterschieden zwischen dem Original und {\"u}bersetzten Texten. Translationese Signale sind subtil und k{\"o}nnen mit anderen Signalen in den Daten konkurrieren, insbesondere mit denen, die Spezifika von Dom{\"a}nen zusammenh{\"a}ngen. Dies veranlasst uns zu unserer letzten Forschungsfrage. RQ4: Inwieweit lassen sich die in der Antwort auf RQ3 beobachteten Ergebnisse auf Dom{\"a}nenunterschiede zwischen Original und {\"u}bersetztem Text zur{\"u}ckf{\"u}hren, im Gegensatzzu echten Translationese Signalen? Unser vierter Beitrag in Kapitel 6 untersucht das Zusammenspiel verschiedener linguistischer Repr{\"a}sentationen (lexikalisch, morphologisch und syntaktisch) und die Frage, ob die Maskierung lexikalischer Informationen und die dadurch bedingte Verringerung potenzieller Dom{\"a}nensignale die Aufgabe der un{\"u}berwachten R{\"u}ckverfolgung von {\"U}bersetzungen in semantischen R{\"a}umen beeinflussen, um RQ4 anzugehen. Bei der Analyse von {\"u}bersetzten Daten, die Texte enthalten, die aus mehreren Quellen (z. B. aus entfernten Sprachen wie Deutsch und Bulgarisch) in dieselbe Zielsprache (z. B. Englisch) {\"u}bersetzt wurden, k{\"o}nnen die Ergebnisse unserer Analyse des semantischen Raums durch Dom{\"a}nenunterschiede in den Daten verzerrt werden und nicht durch eigentliche Tranlationese-Signale wie die Ausgangssprachen der {\"U}bersetzungen bedingt sein. Um dies zu ber{\"u}cksichtigen, maskieren wir lexikalische Dom{\"a}neninformationen in den Daten. Bei diesem Ansatz werden entlexikalisierte Darstellungen verwendet, die W{\"o}rter durch Wortarten (Parts of Speech, PoS), semantische Tags oder Synsets ersetzen. Durch die Anwendung unserer Graph-Isomorphismus-Methoden auf diese Darstellungen k{\"o}nnen wir bestimmte linguistische Merkmale (wie morphologische Informationen oder einfache syntaktische Konfigurationen - PoS-Sequenzen) erfassen und den Einfluss dom{\"a}nenspezifischer lexikalischer Merkmale (insbesondere des Vokabulars) auf die Analyse von {\"U}bersetzungen minimieren. Unsere Ergebnisse zeigen, dass delexikalisierte Darstellungen (PoS, Synsets oder semantische Tags) immer noch erhebliche Interferenzen mit der Ausgangssprache aufweisen. Dies deutet darauf hin, dass die lexikalisierten Ergebnisse auf der niedrigsten Abstraktionsebene (d. h. W{\"o}rter) nicht nur auf m{\"o}gliche Unterschiede in der Dom{\"a}ne zwischen Original- und Translationese Text zur{\"u}ckzuf{\"u}hren sind. Insgesamt ist dies ein Beleg daf{\"u}r, dass morphologische und einfache syntaktische Repr{\"a}sentationen in den Daten auch Translationese Signale enthalten. Um das un{\"u}berwachte Aufsp{\"u}ren von Translationese Signalen in semantischen R{\"a}umen zu bewerten, untersuchen wir au{\ss}erdem, inwieweit es m{\"o}glich ist, die Sprachphylogenie oder die genetischen Beziehungen zwischen Sprachen mit diesen delexikalisierten Repr{\"a}sentationen zu clustern. Wir zeigen, dass unabh{\"a}ngig von der Ebene der sprachlichen Repr{\"a}sentation aus den Isomorphieabst{\"a}nden Familenverbindungen der Sprachen mit {\"a}hnlichen Eigenschaften wie linguistisch motivierte phylogenetische B{\"a}ume abgeleitet werden k{\"o}nnen, wobei alle Kombinationen von urspr{\"u}nglicher Zielsprache und {\"U}bersetzungen in diese Zielsprache aus verschiedenen Ausgangssprachen verwendet werden. Im vorigen Kapitel haben wir einige implizite Hinweise darauf gegeben, dass die Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen auf strukturelle Oberfl{\"a}chenunterschiede zwischen Sprachfamilien hinweisen, die wir aus der linguistischen Literatur kennen. Eine gr{\"o}{\ss}ere Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen deutet auf eine gr{\"o}{\ss}ere sprachliche Distanz in Bezug auf von Sprachfamilien und damit auf einen vermeintlich oberfl{\"a}chlichen strukturellen linguistischen Abstand (z. B. Morphologie, Syntax) zwischen Sprachen, wie sie in der linguistischen Literatur beschrieben werden. Dies wird in Kapitel 6 indirekt durchdie POS-Experimente (und die anderen verschiedenen Ansichten) gezeigt die von lexikalischen Informationen in der urspr{\"u}nglichen und {\"u}bersetzerischen Einbettung abstrahieren Experimente, bei denen maskierte Ansichten (POS usw.) immer noch vern{\"u}nftige Unterschiede in der Isomorphie zwischen den Einbettungsr{\"a}umen im Original und in der {\"U}bersetzung zeigen, und darauf aufbauend phylogenetische Stammbaumergebnisse. Dies wirft die Frage auf, ob es explizite Beweise f{\"u}r den Zusammenhang zwischen Einbettungen und strukturellen Oberfl{\"a}chenunterschieden gibt, was uns dazu veranlasst, unsere letzte Forschungsfrage zu formulieren. RQ5: Inwieweit kann graphbasierte Divergenz von Isomorphie in Einbettungsr{\"a}umen als Proxy f{\"u}r Surprisal auf der Ebene von Oberfl{\"a}chentexten dienen? Wir behandeln RQ5 als den f{\"u}nften Beitrag dieser Dissertation. Um dieser Frage nachzugehen, berechnen wir die Korrelation zwischen (a) Unterschieden in der Oberfl{\"a}chenstringentropie von Original- und {\"u}bersetzten Daten, die von Sprachmodellen berechnet werden, die auf Originaldaten trainiert wurden, und (b) der Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen, die auf denselben Textdaten berechnet werden. Unsere Ergebnisse zeigen eine Korrelation zwischen diesen beiden Ma{\ss}en, d. h. eine gr{\"o}{\ss}ere Abweichung von der Isomorphie zwischen Einbettungsr{\"a}umen entspricht einem gr{\"o}{\ss}eren Unterschied in der Oberfl{\"a}chenentropie. Dies stellt eine direkte Verbindung zwischen dem Einbettungsraum und der Darstellung von Oberfl{\"a}chenstrings her, wobei letztere durch die Entropie des Sprachmodells gemessen wird. Dar{\"u}ber hinaus zeigen unsere Ergebnisse, dass {\"U}bersetzungen in dieselbe Zielsprache aus strukturell unterschiedlichen Ausgangssprachen im Allgemeinen h{\"o}here Entropieunterschiede aufweisen, w{\"a}hrend solche aus strukturell {\"a}hnlichen Ausgangssprachen geringere Unterschiede aufweisen. Diese Ergebnisse spiegeln die Muster wider, die bei der Divergenz von Isomorphie zwischen Einbettungsr{\"a}umen beobachtet wurden, wo {\"U}bersetzungen aus strukturell st{\"a}rker divergierenden Sprachen zu einer gr{\"o}{\ss}eren Divergenz bei der Isomorphie f{\"u}hren. Diese Ergebnisse stellen explizit eine Verbindung zwischen unseren beiden Messgr{\"o}{\ss}en her: der Isomorphiedivergenz zwischen Original- und {\"u}bersetzten Einbettungsr{\"a}umen und den Entropieunterschieden in den Oberfl{\"a}chenstrings derselben Textdaten.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   B6

Jalota, Rricha; Dutta Chowdhury, Koel; España-Bonet, Cristina; van Genabith, Josef

Translating away Translationese without Parallel Data Inproceedings

Bouamor, Houda; Pino, Juan; Bali, Kalika (Ed.): Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp. 7086-7100, Singapore, 2023.

Translated texts exhibit systematic linguistic differences compared to original texts in the same language, and these differences are referred to as translationese. Translationese has effects on various cross-lingual natural language processing tasks, potentially leading to biased results. In this paper, we explore a novel approach to reduce translationese in translated texts: translation-based style transfer. As there are no parallel human-translated and original data in the same language, we use a self-supervised approach that can learn from comparable (rather than parallel) mono-lingual original and translated data. However, even this self-supervised approach requires some parallel data for validation. We show how we can eliminate the need for parallel validation data by combining the self-supervised loss with an unsupervised loss. This unsupervised loss leverages the original language model loss over the style-transferred output and a semantic similarity loss between the input and style-transferred output. We evaluate our approach in terms of original vs. translationese binary classification in addition to measuring content preservation and target-style fluency. The results show that our approach is able to reduce translationese classifier accuracy to a level of a random classifier after style transfer while adequately preserving the content and fluency in the target original style.

@inproceedings{jalota2023translating,
title = {Translating away Translationese without Parallel Data},
author = {Rricha Jalota and Koel Dutta Chowdhury and Cristina Espa{\~n}a-Bonet and Josef van Genabith},
editor = {Houda Bouamor and Juan Pino and Kalika Bali},
url = {https://aclanthology.org/2023.emnlp-main.438/},
doi = {https://doi.org/10.18653/v1/2023.emnlp-main.438},
year = {2023},
date = {2023},
booktitle = {Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing},
pages = {7086-7100},
publisher = {Association for Computational Linguistics},
address = {Singapore},
abstract = {Translated texts exhibit systematic linguistic differences compared to original texts in the same language, and these differences are referred to as translationese. Translationese has effects on various cross-lingual natural language processing tasks, potentially leading to biased results. In this paper, we explore a novel approach to reduce translationese in translated texts: translation-based style transfer. As there are no parallel human-translated and original data in the same language, we use a self-supervised approach that can learn from comparable (rather than parallel) mono-lingual original and translated data. However, even this self-supervised approach requires some parallel data for validation. We show how we can eliminate the need for parallel validation data by combining the self-supervised loss with an unsupervised loss. This unsupervised loss leverages the original language model loss over the style-transferred output and a semantic similarity loss between the input and style-transferred output. We evaluate our approach in terms of original vs. translationese binary classification in addition to measuring content preservation and target-style fluency. The results show that our approach is able to reduce translationese classifier accuracy to a level of a random classifier after style transfer while adequately preserving the content and fluency in the target original style.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Borah, Angana; Pylypenko, Daria; España-Bonet, Cristina; van Genabith, Josef

Measuring Spurious Correlation in Classification: "Clever Hans" in Translationese Inproceedings

Mitkov, Ruslan; Angelova, Galia (Ed.): Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, INCOMA Ltd., Shoumen, Bulgaria, pp. 196-206, Varna, Bulgaria, 2023.
Recent work has shown evidence of „Clever Hans“ behavior in high-performance neural translationese classifiers, where BERT-based classifiers capitalize on spurious correlations, in particular topic information, between data and target classification labels, rather than genuine translationese signals. Translationese signals are subtle (especially for professional translation) and compete with many other signals in the data such as genre, style, author, and, in particular, topic. This raises the general question of how much of the performance of a classifier is really due to spurious correlations in the data versus the signals actually targeted for by the classifier, especially for subtle target signals and in challenging (low resource) data settings. We focus on topic-based spurious correlation and approach the question from two directions: (i) where we have no knowledge about spurious topic information and its distribution in the data, (ii) where we have some indication about the nature of spurious topic correlations. For (i) we develop a measure from first principles capturing alignment of unsupervised topics with target classification labels as an indication of spurious topic information in the data. We show that our measure is the same as purity in clustering and propose a „topic floor“ (as in a „noise floor“) for classification. For (ii) we investigate masking of known spurious topic carriers in classification. Both (i) and (ii) contribute to quantifying and (ii) to mitigating spurious correlations.

@inproceedings{borah-etal-2023-measuring,
title = {Measuring Spurious Correlation in Classification: "Clever Hans" in Translationese},
author = {Angana Borah and Daria Pylypenko and Cristina Espa{\~n}a-Bonet and Josef van Genabith},
editor = {Ruslan Mitkov and Galia Angelova},
url = {https://aclanthology.org/2023.ranlp-1.22},
year = {2023},
date = {2023},
booktitle = {Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing},
pages = {196-206},
publisher = {INCOMA Ltd., Shoumen, Bulgaria},
address = {Varna, Bulgaria},
abstract = {

Recent work has shown evidence of "Clever Hans" behavior in high-performance neural translationese classifiers, where BERT-based classifiers capitalize on spurious correlations, in particular topic information, between data and target classification labels, rather than genuine translationese signals. Translationese signals are subtle (especially for professional translation) and compete with many other signals in the data such as genre, style, author, and, in particular, topic. This raises the general question of how much of the performance of a classifier is really due to spurious correlations in the data versus the signals actually targeted for by the classifier, especially for subtle target signals and in challenging (low resource) data settings. We focus on topic-based spurious correlation and approach the question from two directions: (i) where we have no knowledge about spurious topic information and its distribution in the data, (ii) where we have some indication about the nature of spurious topic correlations. For (i) we develop a measure from first principles capturing alignment of unsupervised topics with target classification labels as an indication of spurious topic information in the data. We show that our measure is the same as purity in clustering and propose a "topic floor" (as in a "noise floor") for classification. For (ii) we investigate masking of known spurious topic carriers in classification. Both (i) and (ii) contribute to quantifying and (ii) to mitigating spurious correlations.
},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Dutta Chowdhury, Koel; Jalota, Rricha; van Genabith, Josef; España-Bonet, Cristina

Towards Debiasing Translation Artifacts Inproceedings

Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics, pp. 3983-3991, Seattle, United States, July 2022, 2022.

Cross-lingual natural language processing relies on translation, either by humans or machines, at different levels, from translating training data to translating test sets. However, compared to original texts in the same language, translations possess distinct qualities referred to as translationese. Previous research has shown that these translation artifacts influence the performance of a variety of cross-lingual tasks. In this work, we propose a novel approach to reducing translationese by extending an established bias-removal technique. We use the Iterative Null-space Projection (INLP) algorithm, and show by measuring classification accuracy before and after debiasing, that translationese is reduced at both sentence and word level. We evaluate the utility of debiasing translationese on a natural language inference (NLI) task, and show that by reducing this bias, NLI accuracy improves. To the best of our knowledge, this is the first study to debias translationese as represented in latent embedding space.

@inproceedings{Chowdhury_2022_Debiasing,
title = {Towards Debiasing Translation Artifacts},
author = {Koel Dutta Chowdhury and Rricha Jalota and Josef van Genabith and Cristina Espa{\~n}a-Bonet},
url = {https://aclanthology.org/2022.naacl-main.292/},
doi = {https://doi.org/10.18653/v1/2022.naacl-main.292},
year = {2022},
date = {2022},
booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
pages = {3983-3991},
publisher = {Association for Computational Linguistics},
address = {Seattle, United States, July 2022},
abstract = {Cross-lingual natural language processing relies on translation, either by humans or machines, at different levels, from translating training data to translating test sets. However, compared to original texts in the same language, translations possess distinct qualities referred to as translationese. Previous research has shown that these translation artifacts influence the performance of a variety of cross-lingual tasks. In this work, we propose a novel approach to reducing translationese by extending an established bias-removal technique. We use the Iterative Null-space Projection (INLP) algorithm, and show by measuring classification accuracy before and after debiasing, that translationese is reduced at both sentence and word level. We evaluate the utility of debiasing translationese on a natural language inference (NLI) task, and show that by reducing this bias, NLI accuracy improves. To the best of our knowledge, this is the first study to debias translationese as represented in latent embedding space.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

España-Bonet, Cristina; Barrón-Cedeño, Alberto

The (Undesired) Attenuation of Human Biases by Multilinguality Inproceedings

Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp. 2056–2077, Online and Abu Dhabi, UAE, Dec 2022, 2022.
Some human preferences are universal. The odor of vanilla is perceived as pleasant all around the world. We expect neural models trained on human texts to exhibit these kind of preferences, i.e. biases, but we show that this is not always the case. We explore 16 static and contextual embedding models in 9 languages and, when possible, compare them under similar training conditions. We introduce and release CA-WEAT, multilingual cultural aware tests to quantify biases, and compare them to previous English-centric tests. Our experiments confirm that monolingual static embeddings do exhibit human biases, but values differ across languages, being far from universal. Biases are less evident in contextual models, to the point that the original human association might be reversed. Multilinguality proves to be another variable that attenuates and even reverses the effect of the bias, specially in contextual multilingual models. In order to explain this variance among models and languages, we examine the effect of asymmetries in the training corpus, departures from isomorphism in multilingual embedding spaces and discrepancies in the testing measures between languages.

@inproceedings{espana-bonet-barron-cedeno-2022-undesired,
title = {The (Undesired) Attenuation of Human Biases by Multilinguality},
author = {Cristina Espa{\~n}a-Bonet and Alberto Barrón-Cede{\~n}o},
url = {https://aclanthology.org/2022.emnlp-main.133},
year = {2022},
date = {2022},
booktitle = {Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing},
pages = {2056–2077},
publisher = {Association for Computational Linguistics},
address = {Online and Abu Dhabi, UAE, Dec 2022},
abstract = {

Some human preferences are universal. The odor of vanilla is perceived as pleasant all around the world. We expect neural models trained on human texts to exhibit these kind of preferences, i.e. biases, but we show that this is not always the case. We explore 16 static and contextual embedding models in 9 languages and, when possible, compare them under similar training conditions. We introduce and release CA-WEAT, multilingual cultural aware tests to quantify biases, and compare them to previous English-centric tests. Our experiments confirm that monolingual static embeddings do exhibit human biases, but values differ across languages, being far from universal. Biases are less evident in contextual models, to the point that the original human association might be reversed. Multilinguality proves to be another variable that attenuates and even reverses the effect of the bias, specially in contextual multilingual models. In order to explain this variance among models and languages, we examine the effect of asymmetries in the training corpus, departures from isomorphism in multilingual embedding spaces and discrepancies in the testing measures between languages.
},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Bafna, Niyati; van Genabith, Josef; España-Bonet, Cristina; Zabokrtský, Zdenêk

Combining Noisy Semantic Signals with Orthographic Cues: Cognate Induction for the Indic Dialect Continuum Inproceedings

Proceedings of the 26th Conference on Computational Natural Language Learning (CoNLL), Association for Computational Linguistics, pp. 110-131, Abu Dhabi, UAE, Dec 2022, 2022.
We present a novel method for unsupervised cognate/borrowing identification from monolingual corpora designed for low and extremely low resource scenarios, based on combining noisy semantic signals from joint bilingual spaces with orthographic cues modelling sound change. We apply our method to the North Indian dialect continuum, containing several dozens of dialects and languages spoken by more than 100 million people. Many of these languages are zero-resource and therefore natural language processing for them is non-existent. We first collect monolingual data for 26 Indic languages, 16 of which were previously zero-resource, and perform exploratory character, lexical and subword cross-lingual alignment experiments for the first time at this scale on this dialect continuum. We create bilingual evaluation lexicons against Hindi for 20 of the languages. We then apply our cognate identification method on the data, and show that our method outperforms both traditional orthography baselines as well as EM-style learnt edit distance matrices. To the best of our knowledge, this is the first work to combine traditional orthographic cues with noisy bilingual embeddings to tackle unsupervised cognate detection in a (truly) low-resource setup, showing that even noisy bilingual embeddings can act as good guides for this task. We release our multilingual dialect corpus, called HinDialect, as well as our scripts for evaluation data collection and cognate induction.

@inproceedings{bafna-etal-2022-combining,
title = {Combining Noisy Semantic Signals with Orthographic Cues: Cognate Induction for the Indic Dialect Continuum},
author = {Niyati Bafna and Josef van Genabith and Cristina Espa{\~n}a-Bonet and Zdenêk Zabokrtský},
url = {https://aclanthology.org/2022.conll-1.9},
year = {2022},
date = {2022},
booktitle = {Proceedings of the 26th Conference on Computational Natural Language Learning (CoNLL)},
pages = {110-131},
publisher = {Association for Computational Linguistics},
address = {Abu Dhabi, UAE, Dec 2022},
abstract = {

We present a novel method for unsupervised cognate/borrowing identification from monolingual corpora designed for low and extremely low resource scenarios, based on combining noisy semantic signals from joint bilingual spaces with orthographic cues modelling sound change. We apply our method to the North Indian dialect continuum, containing several dozens of dialects and languages spoken by more than 100 million people. Many of these languages are zero-resource and therefore natural language processing for them is non-existent. We first collect monolingual data for 26 Indic languages, 16 of which were previously zero-resource, and perform exploratory character, lexical and subword cross-lingual alignment experiments for the first time at this scale on this dialect continuum. We create bilingual evaluation lexicons against Hindi for 20 of the languages. We then apply our cognate identification method on the data, and show that our method outperforms both traditional orthography baselines as well as EM-style learnt edit distance matrices. To the best of our knowledge, this is the first work to combine traditional orthographic cues with noisy bilingual embeddings to tackle unsupervised cognate detection in a (truly) low-resource setup, showing that even noisy bilingual embeddings can act as good guides for this task. We release our multilingual dialect corpus, called HinDialect, as well as our scripts for evaluation data collection and cognate induction.
},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Amponsah-Kaakyire, Kwabena; Pylypenko, Daria; van Genabith, Josef; España-Bonet, Cristina

Explaining Translationese: why are Neural Classifiers Better and what do they Learn? Inproceedings

Proceedings of the Fifth BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, Association for Computational Linguistics, pp. 281-296, Abu Dhabi, United Arab Emirates (Hybrid), Dec 2022, 2022.

Recent work has shown that neural feature- and representation-learning, e.g. BERT, achieves superior performance over traditional manual feature engineering based approaches, with e.g. SVMs, in translationese classification tasks. Previous research did not show (i) whether the difference is because of the features, the classifiers or both, and (ii) what the neural classifiers actually learn. To address (i), we carefully design experiments that swap features between BERT- and SVM-based classifiers. We show that an SVM fed with BERT representations performs at the level of the best BERT classifiers, while BERT learning and using handcrafted features performs at the level of an SVM using handcrafted features. This shows that the performance differences are due to the features. To address (ii) we use integrated gradients and find that (a) there is indication that information captured by hand-crafted features is only a subset of what BERT learns, and (b) part of BERT’s top performance results are due to BERT learning topic differences and spurious correlations with translationese.

@inproceedings{amponsah-kaakyire-etal-2022-explaining,
title = {Explaining Translationese: why are Neural Classifiers Better and what do they Learn?},
author = {Kwabena Amponsah-Kaakyire and Daria Pylypenko and Josef van Genabith and Cristina Espa{\~n}a-Bonet},
url = {https://aclanthology.org/2022.blackboxnlp-1.23},
doi = {https://doi.org/10.48550/ARXIV.2210.13391},
year = {2022},
date = {2022-01-19},
booktitle = {Proceedings of the Fifth BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP},
pages = {281-296},
publisher = {Association for Computational Linguistics},
address = {Abu Dhabi, United Arab Emirates (Hybrid), Dec 2022},
abstract = {Recent work has shown that neural feature- and representation-learning, e.g. BERT, achieves superior performance over traditional manual feature engineering based approaches, with e.g. SVMs, in translationese classification tasks. Previous research did not show (i) whether the difference is because of the features, the classifiers or both, and (ii) what the neural classifiers actually learn. To address (i), we carefully design experiments that swap features between BERT- and SVM-based classifiers. We show that an SVM fed with BERT representations performs at the level of the best BERT classifiers, while BERT learning and using handcrafted features performs at the level of an SVM using handcrafted features. This shows that the performance differences are due to the features. To address (ii) we use integrated gradients and find that (a) there is indication that information captured by hand-crafted features is only a subset of what BERT learns, and (b) part of BERT's top performance results are due to BERT learning topic differences and spurious correlations with translationese.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Amponsah-Kaakyire, Kwabena; Pylypenko, Daria; España-Bonet, Cristina; van Genabith, Josef

Do not Rely on Relay Translations: Multilingual Parallel Direct Europarl Inproceedings

Proceedings of the Workshop on Modelling Translation: Translatology in the Digital Age (MoTra21), International Committee on Computational Linguistics, pp. 1-7, Iceland (Online), 2021.

Translationese data is a scarce and valuable resource. Traditionally, the proceedings of the European Parliament have been used for studying translationese phenomena since their metadata allows to distinguish between original and translated texts. However, translations are not always direct and we hypothesise that a pivot (also called ”relay”) language might alter the conclusions on translationese effects. In this work, we (i) isolate translations that have been done without an intermediate language in the Europarl proceedings from those that might have used a pivot language, and (ii) build comparable and parallel corpora with data aligned across multiple languages that therefore can be used for both machine translation and translation studies.

@inproceedings{AmposahEtal:MOTRA:2021,
title = {Do not Rely on Relay Translations: Multilingual Parallel Direct Europarl},
author = {Kwabena Amponsah-Kaakyire and Daria Pylypenko and Cristina Espa{\~n}a-Bonet and Josef van Genabith},
url = {https://aclanthology.org/2021.motra-1.1/},
year = {2021},
date = {2021},
booktitle = {Proceedings of the Workshop on Modelling Translation: Translatology in the Digital Age (MoTra21)},
pages = {1-7},
publisher = {International Committee on Computational Linguistics},
address = {Iceland (Online)},
abstract = {Translationese data is a scarce and valuable resource. Traditionally, the proceedings of the European Parliament have been used for studying translationese phenomena since their metadata allows to distinguish between original and translated texts. However, translations are not always direct and we hypothesise that a pivot (also called ”relay”) language might alter the conclusions on translationese effects. In this work, we (i) isolate translations that have been done without an intermediate language in the Europarl proceedings from those that might have used a pivot language, and (ii) build comparable and parallel corpora with data aligned across multiple languages that therefore can be used for both machine translation and translation studies.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Pylypenko, Daria; Amponsah-Kaakyire, Kwabena; Dutta Chowdhury, Koel; van Genabith, Josef; España-Bonet, Cristina

Comparing Feature-Engineering and Feature-Learning Approaches for Multilingual Translationese Classification Inproceedings

Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp. 8596–8611, Online and Punta Cana, Dominican Republic, 2021.

Traditional hand-crafted linguistically-informed features have often been used for distinguishing between translated and original non-translated texts. By contrast, to date, neural architectures without manual feature engineering have been less explored for this task. In this work, we (i) compare the traditional feature-engineering-based approach to the feature-learning-based one and (ii) analyse the neural architectures in order to investigate how well the hand-crafted features explain the variance in the neural models’ predictions. We use pre-trained neural word embeddings, as well as several end-to-end neural architectures in both monolingual and multilingual settings and compare them to feature-engineering-based SVM classifiers. We show that (i) neural architectures outperform other approaches by more than 20 accuracy points, with the BERT-based model performing the best in both the monolingual and multilingual settings; (ii) while many individual hand-crafted translationese features correlate with neural model predictions, feature importance analysis shows that the most important features for neural and classical architectures differ; and (iii) our multilingual experiments provide empirical evidence for translationese universals across languages.

@inproceedings{pylypenko-etal-2021-comparing,
title = {Comparing Feature-Engineering and Feature-Learning Approaches for Multilingual Translationese Classification},
author = {Daria Pylypenko and Kwabena Amponsah-Kaakyire and Koel Dutta Chowdhury and Josef van Genabith and Cristina Espa{\~n}a-Bonet},
url = {https://aclanthology.org/2021.emnlp-main.676/},
doi = {https://doi.org/10.18653/v1/2021.emnlp-main.676},
year = {2021},
date = {2021},
booktitle = {Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing},
pages = {8596–8611},
publisher = {Association for Computational Linguistics},
address = {Online and Punta Cana, Dominican Republic},
abstract = {Traditional hand-crafted linguistically-informed features have often been used for distinguishing between translated and original non-translated texts. By contrast, to date, neural architectures without manual feature engineering have been less explored for this task. In this work, we (i) compare the traditional feature-engineering-based approach to the feature-learning-based one and (ii) analyse the neural architectures in order to investigate how well the hand-crafted features explain the variance in the neural models’ predictions. We use pre-trained neural word embeddings, as well as several end-to-end neural architectures in both monolingual and multilingual settings and compare them to feature-engineering-based SVM classifiers. We show that (i) neural architectures outperform other approaches by more than 20 accuracy points, with the BERT-based model performing the best in both the monolingual and multilingual settings; (ii) while many individual hand-crafted translationese features correlate with neural model predictions, feature importance analysis shows that the most important features for neural and classical architectures differ; and (iii) our multilingual experiments provide empirical evidence for translationese universals across languages.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Dutta Chowdhury, Koel; España-Bonet, Cristina; van Genabith, Josef

Tracing Source Language Interference in Translation with Graph-Isomorphism Measures Inproceedings

Proceedings of Recent Advances in Natural Language Processing (RANLP 2021), pp. 380-390, Online, 2021, ISSN 2603-2813.

Previous research has used linguistic features to show that translations exhibit traces of source language interference and that phylogenetic trees between languages can be reconstructed from the results of translations into the same language. Recent research has shown that instances of translationese (source language interference) can even be detected in embedding spaces, comparing embeddings spaces of original language data with embedding spaces resulting from translations into the same language, using a simple Eigenvectorbased divergence from isomorphism measure. To date, it remains an open question whether alternative graph-isomorphism measures can produce better results. In this paper, we (i) explore Gromov-Hausdorff distance, (ii) present a novel spectral version of the Eigenvectorbased method, and (iii) evaluate all approaches against a broad linguistic typological database (URIEL). We show that language distances resulting from our spectral isomorphism approaches can reproduce genetic trees on a par with previous work without requiring any explicit linguistic information and that the results can be extended to non-Indo-European languages. Finally, we show that the methods are robust under a variety of modeling conditions.

@inproceedings{Chowdhury2021tracing,
title = {Tracing Source Language Interference in Translation with Graph-Isomorphism Measures},
author = {Koel Dutta Chowdhury and Cristina Espa{\~n}a-Bonet and Josef van Genabith},
url = {https://aclanthology.org/2021.ranlp-1.43/},
year = {2021},
date = {2021},
booktitle = {Proceedings of Recent Advances in Natural Language Processing (RANLP 2021)},
issn = {2603-2813},
pages = {380-390},
address = {Online},
abstract = {Previous research has used linguistic features to show that translations exhibit traces of source language interference and that phylogenetic trees between languages can be reconstructed from the results of translations into the same language. Recent research has shown that instances of translationese (source language interference) can even be detected in embedding spaces, comparing embeddings spaces of original language data with embedding spaces resulting from translations into the same language, using a simple Eigenvectorbased divergence from isomorphism measure. To date, it remains an open question whether alternative graph-isomorphism measures can produce better results. In this paper, we (i) explore Gromov-Hausdorff distance, (ii) present a novel spectral version of the Eigenvectorbased method, and (iii) evaluate all approaches against a broad linguistic typological database (URIEL). We show that language distances resulting from our spectral isomorphism approaches can reproduce genetic trees on a par with previous work without requiring any explicit linguistic information and that the results can be extended to non-Indo-European languages. Finally, we show that the methods are robust under a variety of modeling conditions.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Bizzoni, Yuri; Juzek, Tom; España-Bonet, Cristina; Dutta Chowdhury, Koel; van Genabith, Josef; Teich, Elke

How Human is Machine Translationese? Comparing Human and Machine Translations of Text and Speech Inproceedings

The 17th International Workshop on Spoken Language Translation, Seattle, WA, United States, 2020.

Translationese is a phenomenon present in human translations, simultaneous interpreting, and even machine translations. Some translationese features tend to appear in simultaneous interpreting with higher frequency than in human text translation, but the reasons for this are unclear. This study analyzes translationese patterns in translation, interpreting, and machine translation outputs in order to explore possible reasons. In our analysis we (i) detail two non-invasive ways of detecting translationese and (ii) compare translationese across human and machine translations from text and speech. We find that machine translation shows traces of translationese, but does not reproduce the patterns found in human translation, offering support to the hypothesis that such patterns are due to the model (human vs. machine) rather than to the data (written vs. spoken).

@inproceedings{Bizzoni2020,
title = {How Human is Machine Translationese? Comparing Human and Machine Translations of Text and Speech},
author = {Yuri Bizzoni and Tom Juzek and Cristina Espa{\~n}a-Bonet and Koel Dutta Chowdhury and Josef van Genabith and Elke Teich},
url = {https://aclanthology.org/2020.iwslt-1.34/},
doi = {https://doi.org/10.18653/v1/2020.iwslt-1.34},
year = {2020},
date = {2020},
booktitle = {The 17th International Workshop on Spoken Language Translation},
address = {Seattle, WA, United States},
abstract = {Translationese is a phenomenon present in human translations, simultaneous interpreting, and even machine translations. Some translationese features tend to appear in simultaneous interpreting with higher frequency than in human text translation, but the reasons for this are unclear. This study analyzes translationese patterns in translation, interpreting, and machine translation outputs in order to explore possible reasons. In our analysis we (i) detail two non-invasive ways of detecting translationese and (ii) compare translationese across human and machine translations from text and speech. We find that machine translation shows traces of translationese, but does not reproduce the patterns found in human translation, offering support to the hypothesis that such patterns are due to the model (human vs. machine) rather than to the data (written vs. spoken).},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Projects:   B6 B7

Dutta Chowdhury, Koel; España-Bonet, Cristina; van Genabith, Josef

Understanding Translationese in Multi-view Embedding Spaces Inproceedings

Proceedings of the 28th International Conference on Computational Linguistics, International Committee on Computational Linguistics, pp. 6056-6062, Barcelona, Catalonia (Online), 2020.

Recent studies use a combination of lexical and syntactic features to show that footprints of the source language remain visible in translations, to the extent that it is possible to predict the original source language from the translation. In this paper, we focus on embedding-based semantic spaces, exploiting departures from isomorphism between spaces built from original target language and translations into this target language to predict relations between languages in an unsupervised way. We use different views of the data {—} words, parts of speech, semantic tags and synsets {—} to track translationese. Our analysis shows that (i) semantic distances between original target language and translations into this target language can be detected using the notion of isomorphism, (ii) language family ties with characteristics similar to linguistically motivated phylogenetic trees can be inferred from the distances and (iii) with delexicalised embeddings exhibiting source-language interference most significantly, other levels of abstraction display the same tendency, indicating the lexicalised results to be not “just“ due to possible topic differences between original and translated texts. To the best of our knowledge, this is the first time departures from isomorphism between embedding spaces are used to track translationese.

@inproceedings{DuttaEtal:COLING:2020,
title = {Understanding Translationese in Multi-view Embedding Spaces},
author = {Koel Dutta Chowdhury and Cristina Espa{\~n}a-Bonet and Josef van Genabith},
url = {https://www.aclweb.org/anthology/2020.coling-main.532/},
doi = {https://doi.org/10.18653/v1/2020.coling-main.532},
year = {2020},
date = {2020},
booktitle = {Proceedings of the 28th International Conference on Computational Linguistics},
pages = {6056-6062},
publisher = {International Committee on Computational Linguistics},
address = {Barcelona, Catalonia (Online)},
abstract = {Recent studies use a combination of lexical and syntactic features to show that footprints of the source language remain visible in translations, to the extent that it is possible to predict the original source language from the translation. In this paper, we focus on embedding-based semantic spaces, exploiting departures from isomorphism between spaces built from original target language and translations into this target language to predict relations between languages in an unsupervised way. We use different views of the data {---} words, parts of speech, semantic tags and synsets {---} to track translationese. Our analysis shows that (i) semantic distances between original target language and translations into this target language can be detected using the notion of isomorphism, (ii) language family ties with characteristics similar to linguistically motivated phylogenetic trees can be inferred from the distances and (iii) with delexicalised embeddings exhibiting source-language interference most significantly, other levels of abstraction display the same tendency, indicating the lexicalised results to be not “just“ due to possible topic differences between original and translated texts. To the best of our knowledge, this is the first time departures from isomorphism between embedding spaces are used to track translationese.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

van Genabith, Josef; España-Bonet, Cristina; Lapshinova-Koltunski, Ekaterina

Analysing Coreference in Transformer Outputs Inproceedings

Proceedings of the Fourth Workshop on Discourse in Machine Translation (DiscoMT 2019), Association for Computational Linguistics, pp. 1-12, Hong Kong, China, 2019.

We analyse coreference phenomena in three neural machine translation systems trained with different data settings with or without access to explicit intra- and cross-sentential anaphoric information. We compare system performance on two different genres: news and TED talks. To do this, we manually annotate (the possibly incorrect) coreference chains in the MT outputs and evaluate the coreference chain translations. We define an error typology that aims to go further than pronoun translation adequacy and includes types such as incorrect word selection or missing words. The features of coreference chains in automatic translations are also compared to those of the source texts and human translations. The analysis shows stronger potential translationese effects in machine translated outputs than in human translations.

@inproceedings{lapshinovaEtal:2019iscoMT,
title = {Analysing Coreference in Transformer Outputs},
author = {Josef van Genabith and Cristina Espa{\~n}a-Bonet andEkaterina Lapshinova-Koltunski},
url = {https://www.aclweb.org/anthology/D19-6501},
doi = {https://doi.org/10.18653/v1/D19-6501},
year = {2019},
date = {2019},
booktitle = {Proceedings of the Fourth Workshop on Discourse in Machine Translation (DiscoMT 2019)},
pages = {1-12},
publisher = {Association for Computational Linguistics},
address = {Hong Kong, China},
abstract = {We analyse coreference phenomena in three neural machine translation systems trained with different data settings with or without access to explicit intra- and cross-sentential anaphoric information. We compare system performance on two different genres: news and TED talks. To do this, we manually annotate (the possibly incorrect) coreference chains in the MT outputs and evaluate the coreference chain translations. We define an error typology that aims to go further than pronoun translation adequacy and includes types such as incorrect word selection or missing words. The features of coreference chains in automatic translations are also compared to those of the source texts and human translations. The analysis shows stronger potential translationese effects in machine translated outputs than in human translations.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Rubino, Raphael; Degaetano-Ortlieb, Stefania; Teich, Elke; van Genabith, Josef

Modeling Diachronic Change in Scientific Writing with Information Density Inproceedings

Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, The COLING 2016 Organizing Committee, pp. 750-761, Osaka, Japan, 2016.

Previous linguistic research on scientific writing has shown that language use in the scientific domain varies considerably in register and style over time. In this paper we investigate the introduction of information theory inspired features to study long term diachronic change on three levels: lexis, part-of-speech and syntax. Our approach is based on distinguishing between sentences from 19th and 20th century scientific abstracts using supervised classification models. To the best of our knowledge, the introduction of information theoretic features to this task is novel. We show that these features outperform more traditional features, such as token or character n-grams, while leading to more compact models. We present a detailed analysis of feature informativeness in order to gain a better understanding of diachronic change on different linguistic levels.

@inproceedings{C16-1072,
title = {Modeling Diachronic Change in Scientific Writing with Information Density},
author = {Raphael Rubino and Stefania Degaetano-Ortlieb and Elke Teich and Josef van Genabith},
url = {https://aclanthology.org/C16-1072},
year = {2016},
date = {2016},
booktitle = {Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers},
pages = {750-761},
publisher = {The COLING 2016 Organizing Committee},
address = {Osaka, Japan},
abstract = {Previous linguistic research on scientific writing has shown that language use in the scientific domain varies considerably in register and style over time. In this paper we investigate the introduction of information theory inspired features to study long term diachronic change on three levels: lexis, part-of-speech and syntax. Our approach is based on distinguishing between sentences from 19th and 20th century scientific abstracts using supervised classification models. To the best of our knowledge, the introduction of information theoretic features to this task is novel. We show that these features outperform more traditional features, such as token or character n-grams, while leading to more compact models. We present a detailed analysis of feature informativeness in order to gain a better understanding of diachronic change on different linguistic levels.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Rubino, Raphael; Lapshinova-Koltunski, Ekaterina; van Genabith, Josef

Information Density and Quality Estimation Features as Translationese Indicators for Human Translation Classification Inproceedings

Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics, pp. 960-970, San Diego, California, 2016.

This paper introduces information density and machine translation quality estimation inspired features to automatically detect and classify human translated texts. We investigate two settings: discriminating between translations and comparable originally authored texts, and distinguishing two levels of translation professionalism. Our framework is based on delexicalised sentence-level dense feature vector representations combined with a supervised machine learning approach. The results show state-of-the-art performance for mixed-domain translationese detection with information density and quality estimation based features, while results on translation expertise classification are mixed.

@inproceedings{N16-1110,
title = {Information Density and Quality Estimation Features as Translationese Indicators for Human Translation Classification},
author = {Raphael Rubino and Ekaterina Lapshinova-Koltunski and Josef van Genabith},
url = {http://aclweb.org/anthology/N16-1110},
doi = {https://doi.org/10.18653/v1/N16-1110},
year = {2016},
date = {2016},
booktitle = {Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
pages = {960-970},
publisher = {Association for Computational Linguistics},
address = {San Diego, California},
abstract = {This paper introduces information density and machine translation quality estimation inspired features to automatically detect and classify human translated texts. We investigate two settings: discriminating between translations and comparable originally authored texts, and distinguishing two levels of translation professionalism. Our framework is based on delexicalised sentence-level dense feature vector representations combined with a supervised machine learning approach. The results show state-of-the-art performance for mixed-domain translationese detection with information density and quality estimation based features, while results on translation expertise classification are mixed.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   B6

Successfully