Publications

Avgustinova, Tania; Jágrová, Klára; Stenger, Irina

The INCOMSLAV Platform: Experimental Website with Integrated Methods for Measuring Linguistic Distances and Asymmetries in Receptive Multilingualism Inproceedings

Fiumara, James; Cieri, Christopher; Liberman, Mark; Callison-Burch, Chris (Ed.): LREC 2020 Workshop Language Resources and Evaluation Conference 11-16 May 2020, Citizen Linguistics in Language Resource Development (CLLRD 2020), Peter Lang, pp. 483-500, 2020.

We report on a web-based resource for conducting intercomprehension experiments with native speakers of Slavic languages and present our methods for measuring linguistic distances and asymmetries in receptive multilingualism. Through a website which serves as a platform for online testing, a large number of participants with different linguistic backgrounds can be targeted. A statistical language model is used to measure information density and to gauge how language users master various degrees of (un)intelligibilty. The key idea is that intercomprehension should be better when the model adapted for understanding the unknown language exhibits relatively low average distance and surprisal. All obtained intelligibility scores together with distance and asymmetry measures for the different language pairs and processing directions are made available as an integrated online resource in the form of a Slavic intercomprehension matrix (SlavMatrix).

@inproceedings{Stenger2020b,
title = {The INCOMSLAV Platform: Experimental Website with Integrated Methods for Measuring Linguistic Distances and Asymmetries in Receptive Multilingualism},
author = {Tania Avgustinova and Kl{\'a}ra J{\'a}grov{\'a} and Irina Stenger},
editor = {James Fiumara and Christopher Cieri and Mark Liberman and Chris Callison-Burch},
url = {https://aclanthology.org/2020.cllrd-1.6/},
doi = {https://doi.org/10.3726/978-3-653-07147-4},
year = {2020},
date = {2020},
booktitle = {LREC 2020 Workshop Language Resources and Evaluation Conference 11-16 May 2020, Citizen Linguistics in Language Resource Development (CLLRD 2020)},
pages = {483-500},
publisher = {Peter Lang},
abstract = {We report on a web-based resource for conducting intercomprehension experiments with native speakers of Slavic languages and present our methods for measuring linguistic distances and asymmetries in receptive multilingualism. Through a website which serves as a platform for online testing, a large number of participants with different linguistic backgrounds can be targeted. A statistical language model is used to measure information density and to gauge how language users master various degrees of (un)intelligibilty. The key idea is that intercomprehension should be better when the model adapted for understanding the unknown language exhibits relatively low average distance and surprisal. All obtained intelligibility scores together with distance and asymmetry measures for the different language pairs and processing directions are made available as an integrated online resource in the form of a Slavic intercomprehension matrix (SlavMatrix).},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C4

Stenger, Irina; Jágrová, Klára; Fischer, Andrea; Avgustinova, Tania

“Reading Polish with Czech Eyes” or “How Russian Can a Bulgarian Text Be?”: Orthographic Differences as an Experimental Variable in Slavic Intercomprehension Incollection

Radeva-Bork, Teodora; Kosta, Peter (Ed.): Current Developments in Slavic Linguistics. Twenty Years After (based on selected papers from FDSL 11), Peter Lang, pp. 483-500, 2020.

@incollection{Stenger2020,
title = {“Reading Polish with Czech Eyes” or “How Russian Can a Bulgarian Text Be?”: Orthographic Differences as an Experimental Variable in Slavic Intercomprehension},
author = {Irina Stenger and Kl{\'a}ra J{\'a}grov{\'a} and Andrea Fischer and Tania Avgustinova},
editor = {Teodora Radeva-Bork and Peter Kosta},
url = {https://www.peterlang.com/view/title/19540},
doi = {https://doi.org/10.3726/978-3-653-07147-4},
year = {2020},
date = {2020},
booktitle = {Current Developments in Slavic Linguistics. Twenty Years After (based on selected papers from FDSL 11)},
pages = {483-500},
publisher = {Peter Lang},
pubstate = {published},
type = {incollection}
}

Copy BibTeX to Clipboard

Project:   C4

Avgustinova, Tania

Surprisal in Intercomprehension Book Chapter

Slavcheva, Milena; Simov, Kiril; Osenova, Petya; Boytcheva, Svetla (Ed.): Knowledge, Language, Models, INCOMA Ltd., pp. 6-19, Shoumen, Bulgaria, 2020, ISBN 978-954-452-062-5.

A large-scale interdisciplinary research collaboration at Saarland University (Crocker et al. 2016) investigates the hypothesis that language use may be driven by the optimal utilization of the communication channel. The information-theoretic concepts of entropy (Shannon, 1949) and surprisal (Hale 2001; Levy 2008) have gained in popularity due to their potential to predict human linguistic behavior. The underlying assumption is that there is a certain total amount of information contained in a message, which is distributed over the individual units constituting it. Capturing this distribution of information is the goal of surprisal-based modeling with the intention of predicting the processing effort experienced by humans upon encountering these units. The ease of processing linguistic material is thus correlated with its contextually determined predictability, which may be appropriately indexed by Shannon’s notion of information. Multilingualism pervasiveness suggests that human language competence is used quite robustly, taking on various types of information and employing multi-source compensatory and guessing strategies. While it is not realistic to require from every single person to master several languages, it is certainly beneficial to strive and promote a significantly higher degree of receptive skills facilitating the access to other languages. Taking advantage of linguistic similarity – genetic, typological or areal – is the key to acquiring such abilities as efficiently as possible. Awareness that linguistic structures known of a specific language apply to other varieties in which similar phenomena are detectable is indeed essential

@inbook{TAfestGA,
title = {Surprisal in Intercomprehension},
author = {Tania Avgustinova},
editor = {Milena Slavcheva and Kiril Simov and Petya Osenova and Svetla Boytcheva},
url = {https://www.coli.uni-saarland.de/~tania/ta-pub/Avgustinova2020.Festschrift.pdf},
year = {2020},
date = {2020},
booktitle = {Knowledge, Language, Models},
isbn = {978-954-452-062-5},
pages = {6-19},
publisher = {INCOMA Ltd.},
address = {Shoumen, Bulgaria},
abstract = {A large-scale interdisciplinary research collaboration at Saarland University (Crocker et al. 2016) investigates the hypothesis that language use may be driven by the optimal utilization of the communication channel. The information-theoretic concepts of entropy (Shannon, 1949) and surprisal (Hale 2001; Levy 2008) have gained in popularity due to their potential to predict human linguistic behavior. The underlying assumption is that there is a certain total amount of information contained in a message, which is distributed over the individual units constituting it. Capturing this distribution of information is the goal of surprisal-based modeling with the intention of predicting the processing effort experienced by humans upon encountering these units. The ease of processing linguistic material is thus correlated with its contextually determined predictability, which may be appropriately indexed by Shannon’s notion of information. Multilingualism pervasiveness suggests that human language competence is used quite robustly, taking on various types of information and employing multi-source compensatory and guessing strategies. While it is not realistic to require from every single person to master several languages, it is certainly beneficial to strive and promote a significantly higher degree of receptive skills facilitating the access to other languages. Taking advantage of linguistic similarity – genetic, typological or areal – is the key to acquiring such abilities as efficiently as possible. Awareness that linguistic structures known of a specific language apply to other varieties in which similar phenomena are detectable is indeed essential},
pubstate = {published},
type = {inbook}
}

Copy BibTeX to Clipboard

Project:   C4

Abdullah, Badr M.; Avgustinova, Tania; Möbius, Bernd; Klakow, Dietrich

Cross-Domain Adaptation of Spoken Language Identification for Related Languages: The Curious Case of Slavic Languages Inproceedings

Proceedings of Interspeech 2020, pp. 477-481, 2020.

State-of-the-art spoken language identification (LID) systems, which are based on end-to-end deep neural networks, have shown remarkable success not only in discriminating between distant languages but also between closely-related languages or even different spoken varieties of the same language. However, it is still unclear to what extent neural LID models generalize to speech samples with different acoustic conditions due to domain shift. In this paper, we present a set of experiments to investigate the impact of domain mismatch on the performance of neural LID systems for a subset of six Slavic languages across two domains (read speech and radio broadcast) and examine two low-level signal descriptors (spectral and cepstral features) for this task. Our experiments show that (1) out-of-domain speech samples severely hinder the performance of neural LID models, and (2) while both spectral and cepstral features show comparable performance within-domain, spectral features show more robustness under domain mismatch. Moreover, we apply unsupervised domain adaptation to minimize the discrepancy between the two domains in our study. We achieve relative accuracy improvements that range from 9% to 77% depending on the diversity of acoustic conditions in the source domain.

@inproceedings{abdullah_etal_is2020,
title = {Cross-Domain Adaptation of Spoken Language Identification for Related Languages: The Curious Case of Slavic Languages},
author = {Badr M. Abdullah and Tania Avgustinova and Bernd M{\"o}bius and Dietrich Klakow},
url = {https://arxiv.org/abs/2008.00545},
doi = {https://doi.org/10.21437/Interspeech.2020-2930},
year = {2020},
date = {2020},
booktitle = {Proceedings of Interspeech 2020},
pages = {477-481},
abstract = {State-of-the-art spoken language identification (LID) systems, which are based on end-to-end deep neural networks, have shown remarkable success not only in discriminating between distant languages but also between closely-related languages or even different spoken varieties of the same language. However, it is still unclear to what extent neural LID models generalize to speech samples with different acoustic conditions due to domain shift. In this paper, we present a set of experiments to investigate the impact of domain mismatch on the performance of neural LID systems for a subset of six Slavic languages across two domains (read speech and radio broadcast) and examine two low-level signal descriptors (spectral and cepstral features) for this task. Our experiments show that (1) out-of-domain speech samples severely hinder the performance of neural LID models, and (2) while both spectral and cepstral features show comparable performance within-domain, spectral features show more robustness under domain mismatch. Moreover, we apply unsupervised domain adaptation to minimize the discrepancy between the two domains in our study. We achieve relative accuracy improvements that range from 9% to 77% depending on the diversity of acoustic conditions in the source domain.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Projects:   C1 C4

Abdullah, Badr M.; Kudera, Jacek; Avgustinova, Tania; Möbius, Bernd; Klakow, Dietrich

Rediscovering the Slavic Continuum in Representations Emerging from Neural Models of Spoken Language Identification Inproceedings

Proceedings of the 7th Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2020), International Committee on Computational Linguistics (ICCL), pp. 128-139, Barcelona, Spain (Online), 2020.

Deep neural networks have been employed for various spoken language recognition tasks, including tasks that are multilingual by definition such as spoken language identification (LID). In this paper, we present a neural model for Slavic language identification in speech signals and analyze its emergent representations to investigate whether they reflect objective measures of language relatedness or non-linguists’ perception of language similarity. While our analysis shows that the language representation space indeed captures language relatedness to a great extent, we find perceptual confusability to be the best predictor of the language representation similarity.

@inproceedings{abdullah_etal_vardial2020,
title = {Rediscovering the Slavic Continuum in Representations Emerging from Neural Models of Spoken Language Identification},
author = {Badr M. Abdullah and Jacek Kudera and Tania Avgustinova and Bernd M{\"o}bius and Dietrich Klakow},
url = {https://www.aclweb.org/anthology/2020.vardial-1.12},
year = {2020},
date = {2020},
booktitle = {Proceedings of the 7th Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2020)},
pages = {128-139},
publisher = {International Committee on Computational Linguistics (ICCL)},
address = {Barcelona, Spain (Online)},
abstract = {Deep neural networks have been employed for various spoken language recognition tasks, including tasks that are multilingual by definition such as spoken language identification (LID). In this paper, we present a neural model for Slavic language identification in speech signals and analyze its emergent representations to investigate whether they reflect objective measures of language relatedness or non-linguists’ perception of language similarity. While our analysis shows that the language representation space indeed captures language relatedness to a great extent, we find perceptual confusability to be the best predictor of the language representation similarity.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Projects:   C1 C4

Chen, Yu; Avgustinova, Tania

Machine Translation from an Intercomprehension Perspective Inproceedings

Proc. Fourth Conference on Machine Translation (WMT), Volume 3: Shared Task Papers, pp. 192-196, Florence, Italy, 2019.

Within the first shared task on machine translation between similar languages, we present our first attempts on Czech to Polish machine translation from an intercomprehension perspective. We propose methods based on the mutual intelligibility of the two languages, taking advantage of their orthographic and phonological similarity, in the hope to improve over our baselines. The translation results are evaluated using BLEU. On this metric, none of our proposals could outperform the baselines on the final test set. The current setups are rather preliminary, and there are several potential improvements we can try in the future.

@inproceedings{csplMT,
title = {Machine Translation from an Intercomprehension Perspective},
author = {Yu Chen and Tania Avgustinova},
url = {https://aclanthology.org/W19-5425},
doi = {https://doi.org/10.18653/v1/W19-5425},
year = {2019},
date = {2019},
booktitle = {Proc. Fourth Conference on Machine Translation (WMT), Volume 3: Shared Task Papers},
pages = {192-196},
address = {Florence, Italy},
abstract = {Within the first shared task on machine translation between similar languages, we present our first attempts on Czech to Polish machine translation from an intercomprehension perspective. We propose methods based on the mutual intelligibility of the two languages, taking advantage of their orthographic and phonological similarity, in the hope to improve over our baselines. The translation results are evaluated using BLEU. On this metric, none of our proposals could outperform the baselines on the final test set. The current setups are rather preliminary, and there are several potential improvements we can try in the future.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C4

Jágrová, Klára

Reading Polish with Czech Eyes: Distance and Surprisal in Quantitative, Qualitative, and Error Analyses of Intelligibility PhD Thesis

Saarland University, Saarbruecken, Germany, 2019.

In CHAPTER I, I first introduce the thesis in the context of the project workflow in section 1. I then summarise the methods and findings from the project publications about the languages in focus. There I also introduce the relevant concepts and terminology viewed in the literature as possible predictors of intercomprehension and processing difficulty. CHAPTER II presents a quantitative (section 4) and a qualitative (section 5) analysis of the results of the cooperative translation experiments. The focus of this thesis – the language pair PL-CS – is explained and the hypotheses are introduced in section 6. The experiment website is introduced in section 7 with an overview over participants, the different experiments conducted and in which section they are discussed. In CHAPTER IV, free translation experiments are discussed in which two different sets of individual word stimuli were presented to Czech readers: (i) Cognates that are transformable with regular PL-CS correspondences (section 12) and (ii) the 100 most frequent PL nouns (section 13). CHAPTER V presents the findings of experiments in which PL NPs in two different linearisation conditions were presented to Czech readers (section 14.1-14.6). A short digression is made when I turn to experiments with PL internationalisms which were presented to German readers (14.7). CHAPTER VI discusses the methods and results of cloze translation experiments with highly predictable target words in sentential context (section 15) and random context with sentences from the cooperative translation experiments (section 16). A final synthesis of the findings, together with an outlook, is provided in CHAPTER VII.


In KAPITEL I stelle ich zunächst die These im Kontext des Projektablaufs in Abschnitt 1 vor. Anschließend fasse ich die Methoden und Erkenntnisse aus den Projektpublikationen zu den untersuchten Sprachen zusammen. Dort stelle ich auch die relevanten Konzepte und die Terminologie vor, die in der Literatur als mögliche Prädiktoren für Interkomprehension und Verarbeitungsschwierigkeiten angesehen werden. KAPITEL II enthält eine quantitative (Abschnitt 4) und eine qualitative (Abschnitt 5) Analyse der Ergebnisse der kooperativen Übersetzungsexperimente. Der Fokus dieser Arbeit – das Sprachenpaar PL-CS – wird erläutert und die Hypothesen werden in Abschnitt 6 vorgestellt. Die Experiment-Website wird in Abschnitt 7 mit einer Übersicht über die Teilnehmer, die verschiedenen durchgeführten Experimente und die Abschnitte, in denen sie besprochen werden, vorgestellt. In KAPITEL IV werden Experimente zur freien Übersetzung besprochen, bei denen tschechischen Lesern zwei verschiedene Sätze einzelner Wortstimuli präsentiert wurden: (i) Kognaten, die mit regulären PL-CS-Korrespondenzen umgewandelt werden können (Abschnitt 12) und (ii) die 100 häufigsten PL-Substantive (Abschnitt 13). KAPITEL V stellt die Ergebnisse von Experimenten vor, in denen tschechischen Lesern PL-NP in zwei verschiedenen Linearisierungszuständen präsentiert wurden (Abschnitt 14.1-14.6). Einen kurzen Exkurs mache ich, wenn ich mich den Experimenten mit PL-Internationalismen zuwende, die deutschen Lesern präsentiert wurden (14.7). KAPITEL VI erörtert die Methoden und Ergebnisse von Lückentexten mit hochgradig vorhersehbaren Zielwörtern im Satzkontext (Abschnitt 15) und Zufallskontext mit Sätzen aus den kooperativen Übersetzungsexperimenten (Abschnitt 16). Eine abschließende Synthese der Ergebnisse und ein Ausblick finden sich in KAPITEL VII.

@phdthesis{Jagrova_Diss_2019,
title = {Reading Polish with Czech Eyes: Distance and Surprisal in Quantitative, Qualitative, and Error Analyses of Intelligibility},
author = {Kl{\'a}ra J{\'a}grov{\'a}},
url = {https://publikationen.sulb.uni-saarland.de/handle/20.500.11880/32995},
doi = {https://doi.org/10.22028/D291-32708},
year = {2019},
date = {2019},
school = {Saarland University},
address = {Saarbruecken, Germany},
abstract = {In CHAPTER I, I first introduce the thesis in the context of the project workflow in section 1. I then summarise the methods and findings from the project publications about the languages in focus. There I also introduce the relevant concepts and terminology viewed in the literature as possible predictors of intercomprehension and processing difficulty. CHAPTER II presents a quantitative (section 4) and a qualitative (section 5) analysis of the results of the cooperative translation experiments. The focus of this thesis – the language pair PL-CS – is explained and the hypotheses are introduced in section 6. The experiment website is introduced in section 7 with an overview over participants, the different experiments conducted and in which section they are discussed. In CHAPTER IV, free translation experiments are discussed in which two different sets of individual word stimuli were presented to Czech readers: (i) Cognates that are transformable with regular PL-CS correspondences (section 12) and (ii) the 100 most frequent PL nouns (section 13). CHAPTER V presents the findings of experiments in which PL NPs in two different linearisation conditions were presented to Czech readers (section 14.1-14.6). A short digression is made when I turn to experiments with PL internationalisms which were presented to German readers (14.7). CHAPTER VI discusses the methods and results of cloze translation experiments with highly predictable target words in sentential context (section 15) and random context with sentences from the cooperative translation experiments (section 16). A final synthesis of the findings, together with an outlook, is provided in CHAPTER VII.


In KAPITEL I stelle ich zun{\"a}chst die These im Kontext des Projektablaufs in Abschnitt 1 vor. Anschlie{\ss}end fasse ich die Methoden und Erkenntnisse aus den Projektpublikationen zu den untersuchten Sprachen zusammen. Dort stelle ich auch die relevanten Konzepte und die Terminologie vor, die in der Literatur als m{\"o}gliche Pr{\"a}diktoren f{\"u}r Interkomprehension und Verarbeitungsschwierigkeiten angesehen werden. KAPITEL II enth{\"a}lt eine quantitative (Abschnitt 4) und eine qualitative (Abschnitt 5) Analyse der Ergebnisse der kooperativen {\"U}bersetzungsexperimente. Der Fokus dieser Arbeit - das Sprachenpaar PL-CS - wird erl{\"a}utert und die Hypothesen werden in Abschnitt 6 vorgestellt. Die Experiment-Website wird in Abschnitt 7 mit einer {\"U}bersicht {\"u}ber die Teilnehmer, die verschiedenen durchgef{\"u}hrten Experimente und die Abschnitte, in denen sie besprochen werden, vorgestellt. In KAPITEL IV werden Experimente zur freien {\"U}bersetzung besprochen, bei denen tschechischen Lesern zwei verschiedene S{\"a}tze einzelner Wortstimuli pr{\"a}sentiert wurden: (i) Kognaten, die mit regul{\"a}ren PL-CS-Korrespondenzen umgewandelt werden k{\"o}nnen (Abschnitt 12) und (ii) die 100 h{\"a}ufigsten PL-Substantive (Abschnitt 13). KAPITEL V stellt die Ergebnisse von Experimenten vor, in denen tschechischen Lesern PL-NP in zwei verschiedenen Linearisierungszust{\"a}nden pr{\"a}sentiert wurden (Abschnitt 14.1-14.6). Einen kurzen Exkurs mache ich, wenn ich mich den Experimenten mit PL-Internationalismen zuwende, die deutschen Lesern pr{\"a}sentiert wurden (14.7). KAPITEL VI er{\"o}rtert die Methoden und Ergebnisse von L{\"u}ckentexten mit hochgradig vorhersehbaren Zielw{\"o}rtern im Satzkontext (Abschnitt 15) und Zufallskontext mit S{\"a}tzen aus den kooperativen {\"U}bersetzungsexperimenten (Abschnitt 16). Eine abschlie{\ss}ende Synthese der Ergebnisse und ein Ausblick finden sich in KAPITEL VII.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   C4

Jágrová, Klára; Stenger, Irina; Telus, Magdalena

Slavische Interkomprehension im 5-Sprachen-Kurs – Dokumentation eines Semesters Journal Article

Polnisch in Deutschland. Zeitschrift der Bundesvereinigung der Polnischlehrkräfte. Sondernummer: Emil Krebs und die Mehrsprachigkeit in Europa, pp. 122–133, 2019.

In der Interkomprehensionsforschung wird zwischen inherited (vererbter) und acquired (erworbener) rezeptiver Mehrsprachigkeit unterschieden (Gooskens et al. 2017, 2 f.). Der Gedanke folgt dem Grundsatz, dass genetisch enger verwandte Sprachen leichter zu verstehen und somit auch leichter zu erlernen sind als Sprachen mit einer größeren sprachlichen Distanz. Im Idealfall wird beim Erwerb von (rezeptiver) Mehrsprachigkeit auf den „vererbten” Komponenten aufgebaut. Aber nicht nur die L1 spielt bei der Erschließung neuer Sprachen eine Rolle, sondern auch andere zuvor erworbene Fremdsprachen. In Experimenten konnte bewiesen werden, dass sich Lernende beim Erschließen verwandter Sprachen nicht nur ihrer L1, sondern auch anderer bereits erworbener Sprachen bedienen (Vanhove 2014, Vanhove, Berthele 2015, Jágrová 2019, Stenger 2019).

@article{Jágrová2019,
title = {Slavische Interkomprehension im 5-Sprachen-Kurs – Dokumentation eines Semesters},
author = {Kl{\'a}ra J{\'a}grov{\'a} and Irina Stenger and Magdalena Telus},
url = {https://polnischunterricht.de/wp-content/uploads/2020/01/popr_www_specjalna_2019.indd_.pdf},
year = {2019},
date = {2019},
journal = {Polnisch in Deutschland. Zeitschrift der Bundesvereinigung der Polnischlehrkr{\"a}fte. Sondernummer: Emil Krebs und die Mehrsprachigkeit in Europa},
pages = {122–133},
abstract = {In der Interkomprehensionsforschung wird zwischen inherited (vererbter) und acquired (erworbener) rezeptiver Mehrsprachigkeit unterschieden (Gooskens et al. 2017, 2 f.). Der Gedanke folgt dem Grundsatz, dass genetisch enger verwandte Sprachen leichter zu verstehen und somit auch leichter zu erlernen sind als Sprachen mit einer gr{\"o}{\ss}eren sprachlichen Distanz. Im Idealfall wird beim Erwerb von (rezeptiver) Mehrsprachigkeit auf den „vererbten” Komponenten aufgebaut. Aber nicht nur die L1 spielt bei der Erschlie{\ss}ung neuer Sprachen eine Rolle, sondern auch andere zuvor erworbene Fremdsprachen. In Experimenten konnte bewiesen werden, dass sich Lernende beim Erschlie{\ss}en verwandter Sprachen nicht nur ihrer L1, sondern auch anderer bereits erworbener Sprachen bedienen (Vanhove 2014, Vanhove, Berthele 2015, J{\'a}grov{\'a} 2019, Stenger 2019).},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   C4

Stenger, Irina

Zur Rolle der Orthographie in der slavischen Interkomprehension mit besonderem Fokus auf die kyrillische Schrift PhD Thesis

Saarland University, Saarbrücken, Germany, 2019, ISBN 978-3-86223-283-3.

Die slavischen Sprachen stellen einen bedeutenden indogermanischen Sprachzweig dar. Es stellt sich die Frage, inwieweit sich Sprecher verschiedener slavischer Sprachen interkomprehensiv verständigen können. Unter Interkomprehension wird die Kommunikationsfähigkeit von Sprechern verwandter Sprachen verstanden, wobei sich jeder Sprecher seiner Sprache bedient. Die vorliegende Arbeit untersucht die orthographische Verständlichkeit slavischer Sprachen mit kyrillischer Schrift im interkomprehensiven Lesen. Sechs ost- und südslavische Sprachen – Bulgarisch, Makedonisch, Russisch, Serbisch, Ukrainisch und Weißrussisch – werden im Hinblick auf orthographische Ähnlichkeiten und Unterschiede miteinander verglichen und statistisch analysiert. Der Fokus der empirischen Untersuchung liegt auf der Erkennung einzelner Kognaten mit diachronisch motivierten orthographischen Korrespondenzen in ost- und südslavischen Sprachen, ausgehend vom Russischen. Die in dieser Arbeit vorgestellten Methoden und erzielten Ergebnisse stellen einen empirischen Beitrag zur slavischen Interkomprehensionsforschung und Interkomrepehensionsdidaktik dar.

@phdthesis{Stenger_diss_2019,
title = {Zur Rolle der Orthographie in der slavischen Interkomprehension mit besonderem Fokus auf die kyrillische Schrift},
author = {Irina Stenger},
year = {2019},
date = {2019},
school = {Saarland University},
address = {Saarbr{\"u}cken, Germany},
abstract = {Die slavischen Sprachen stellen einen bedeutenden indogermanischen Sprachzweig dar. Es stellt sich die Frage, inwieweit sich Sprecher verschiedener slavischer Sprachen interkomprehensiv verst{\"a}ndigen k{\"o}nnen. Unter Interkomprehension wird die Kommunikationsf{\"a}higkeit von Sprechern verwandter Sprachen verstanden, wobei sich jeder Sprecher seiner Sprache bedient. Die vorliegende Arbeit untersucht die orthographische Verst{\"a}ndlichkeit slavischer Sprachen mit kyrillischer Schrift im interkomprehensiven Lesen. Sechs ost- und s{\"u}dslavische Sprachen - Bulgarisch, Makedonisch, Russisch, Serbisch, Ukrainisch und Wei{\ss}russisch - werden im Hinblick auf orthographische {\"A}hnlichkeiten und Unterschiede miteinander verglichen und statistisch analysiert. Der Fokus der empirischen Untersuchung liegt auf der Erkennung einzelner Kognaten mit diachronisch motivierten orthographischen Korrespondenzen in ost- und s{\"u}dslavischen Sprachen, ausgehend vom Russischen. Die in dieser Arbeit vorgestellten Methoden und erzielten Ergebnisse stellen einen empirischen Beitrag zur slavischen Interkomprehensionsforschung und Interkomrepehensionsdidaktik dar.},
pubstate = {published},
type = {phdthesis}
}

Copy BibTeX to Clipboard

Project:   C4

Stenger, Irina; Avgustinova, Tania; Belousov, Konstantin I.; Baranov, Dmitrij A.; Erofeeva, Elena V.

Interaction of linguistic and socio-cognitive factors in receptive multilingualism [Vzaimodejstvie lingvističeskich i sociokognitivnych parametrov pri receptivnom mul’tilingvisme] Inproceedings

25th International Conference on Computational Linguistics and Intellectual Technologies (Dialogue 2019), Moscow, Russia, 2019.

@inproceedings{Stenger2019,
title = {Interaction of linguistic and socio-cognitive factors in receptive multilingualism [Vzaimodejstvie lingvisti{\v{c}eskich i sociokognitivnych parametrov pri receptivnom mul’tilingvisme]},
author = {Irina Stenger and Tania Avgustinova and Konstantin I. Belousov and Dmitrij A. Baranov and Elena V. Erofeeva},
url = {http://www.dialog-21.ru/digest/2019/online/},
year = {2019},
date = {2019},
booktitle = {25th International Conference on Computational Linguistics and Intellectual Technologies (Dialogue 2019)},
address = {Moscow, Russia},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C4

Mosbach, Marius; Stenger, Irina; Avgustinova, Tania; Klakow, Dietrich

incom.py - A Toolbox for Calculating Linguistic Distances and Asymmetries between Related Languages Inproceedings

Angelova, Galia; Mitkov, Ruslan; Nikolova, Ivelina; Temnikova, Irina (Ed.): Proceedings of Recent Advances in Natural Language Processing, RANLP 2019, Varna, Bulgaria, 2-4 September 2019, pp. 811-819, Varna, Bulgaria, 2019.

Languages may be differently distant from each other and their mutual intelligibility may be asymmetric. In this paper we introduce incom.py, a toolbox for calculating linguistic distances and asymmetries between related languages. incom.py allows linguist experts to quickly and easily perform statistical analyses and compare those with experimental results. We demonstrate the efficacy of incom.py in an incomprehension experiment on two Slavic languages: Bulgarian and Russian. Using incom.py we were able to validate three methods to measure linguistic distances and asymmetries: Levenshtein distance, word adaptation surprisal, and conditional entropy as predictors of success in a reading intercomprehension experiment.

@inproceedings{Mosbach2019,
title = {incom.py - A Toolbox for Calculating Linguistic Distances and Asymmetries between Related Languages},
author = {Marius Mosbach and Irina Stenger and Tania Avgustinova and Dietrich Klakow},
editor = {Galia Angelova and Ruslan Mitkov and Ivelina Nikolova and Irina Temnikova},
url = {https://aclanthology.org/R19-1094/},
doi = {https://doi.org/10.26615/978-954-452-056-4_094},
year = {2019},
date = {2019},
booktitle = {Proceedings of Recent Advances in Natural Language Processing, RANLP 2019, Varna, Bulgaria, 2-4 September 2019},
pages = {811-819},
address = {Varna, Bulgaria},
abstract = {Languages may be differently distant from each other and their mutual intelligibility may be asymmetric. In this paper we introduce incom.py, a toolbox for calculating linguistic distances and asymmetries between related languages. incom.py allows linguist experts to quickly and easily perform statistical analyses and compare those with experimental results. We demonstrate the efficacy of incom.py in an incomprehension experiment on two Slavic languages: Bulgarian and Russian. Using incom.py we were able to validate three methods to measure linguistic distances and asymmetries: Levenshtein distance, word adaptation surprisal, and conditional entropy as predictors of success in a reading intercomprehension experiment.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Projects:   B4 C4

Avgustinova, Tania; Iomdin, Leonid

Towards a Typology of Microsyntactic Constructions Inproceedings

Corpas-Pastor, Gloria; Mitkov, Ruslan (Ed.): Computational and Corpus-Based Phraseology, Springer, Cham, pp. 15-30, 2019.

This contribution outlines an international research effort for creating a typology of syntactic idioms on the borderline of the dictionary and the grammar. Recent studies focusing on the adequate description of such units, especially for modern Russian, have resulted in two types of linguistic resources: a microsyntactic dictionary of Russian, and a microsyntactically annotated corpus of Russian texts. Our goal now is to discover to what extent the findings can be generalized cross-linguistically in order to create analogous multilingual resources. The initial work consists in constructing a typology of relevant phenomena. The empirical base is provided by closely related languages which are mutually intelligible to various degrees. We start by creating an inventory for this typology for four representative Slavic languages: Russian (East Slavic), Bulgarian (South Slavic), Polish and Czech (West Slavic). Our preliminary results show that the aim is attainable and can be of relevance to theoretical, comparative and applied linguistics as well as in NLP tasks.

@inproceedings{Avgustinova2019,
title = {Towards a Typology of Microsyntactic Constructions},
author = {Tania Avgustinova and Leonid Iomdin},
editor = {Gloria Corpas-Pastor and Ruslan Mitkov},
url = {https://link.springer.com/chapter/10.1007/978-3-030-30135-4_2},
year = {2019},
date = {2019-09-18},
booktitle = {Computational and Corpus-Based Phraseology},
pages = {15-30},
publisher = {Springer, Cham},
abstract = {This contribution outlines an international research effort for creating a typology of syntactic idioms on the borderline of the dictionary and the grammar. Recent studies focusing on the adequate description of such units, especially for modern Russian, have resulted in two types of linguistic resources: a microsyntactic dictionary of Russian, and a microsyntactically annotated corpus of Russian texts. Our goal now is to discover to what extent the findings can be generalized cross-linguistically in order to create analogous multilingual resources. The initial work consists in constructing a typology of relevant phenomena. The empirical base is provided by closely related languages which are mutually intelligible to various degrees. We start by creating an inventory for this typology for four representative Slavic languages: Russian (East Slavic), Bulgarian (South Slavic), Polish and Czech (West Slavic). Our preliminary results show that the aim is attainable and can be of relevance to theoretical, comparative and applied linguistics as well as in NLP tasks.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C4

Jágrová, Klára; Avgustinova, Tania; Stenger, Irina; Fischer, Andrea

Language models, surprisal and fantasy in Slavic intercomprehension Journal Article

Computer Speech & Language, 2018.

In monolingual human language processing, the predictability of a word given its surrounding sentential context is crucial. With regard to receptive multilingualism, it is unclear to what extent predictability in context interplays with other linguistic factors in understanding a related but unknown language – a process called intercomprehension. We distinguish two dimensions influencing processing effort during intercomprehension: surprisal in sentential context and linguistic distance.

Based on this hypothesis, we formulate expectations regarding the difficulty of designed experimental stimuli and compare them to the results from think-aloud protocols of experiments in which Czech native speakers decode Polish sentences by agreeing on an appropriate translation. On the one hand, orthographic and lexical distances are reliable predictors of linguistic similarity. On the other hand, we obtain the predictability of words in a sentence with the help of trigram language models.

We find that linguistic distance (encoding similarity) and in-context surprisal (predictability in context) appear to be complementary, with neither factor outweighing the other, and that our distinguishing of these two measurable dimensions is helpful in understanding certain unexpected effects in human behaviour.

@article{Jágrová2018b,
title = {Language models, surprisal and fantasy in Slavic intercomprehension},
author = {Kl{\'a}ra J{\'a}grov{\'a} and Tania Avgustinova and Irina Stenger and Andrea Fischer},
url = {https://www.sciencedirect.com/science/article/pii/S0885230817300451},
year = {2018},
date = {2018},
journal = {Computer Speech & Language},
abstract = {In monolingual human language processing, the predictability of a word given its surrounding sentential context is crucial. With regard to receptive multilingualism, it is unclear to what extent predictability in context interplays with other linguistic factors in understanding a related but unknown language – a process called intercomprehension. We distinguish two dimensions influencing processing effort during intercomprehension: surprisal in sentential context and linguistic distance. Based on this hypothesis, we formulate expectations regarding the difficulty of designed experimental stimuli and compare them to the results from think-aloud protocols of experiments in which Czech native speakers decode Polish sentences by agreeing on an appropriate translation. On the one hand, orthographic and lexical distances are reliable predictors of linguistic similarity. On the other hand, we obtain the predictability of words in a sentence with the help of trigram language models. We find that linguistic distance (encoding similarity) and in-context surprisal (predictability in context) appear to be complementary, with neither factor outweighing the other, and that our distinguishing of these two measurable dimensions is helpful in understanding certain unexpected effects in human behaviour.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   C4

Jágrová, Klára; Stenger, Irina; Avgustinova, Tania

Polski nadal nieskomplikowany? Interkomprehensionsexperimente mit Nominalphrasen Journal Article

Polnisch in Deutschland. Zeitschrift der Bundesvereinigung der Polnischlehrkräfte, 5/2017, pp. 20-37, 2018.

Dieser Beitrag fasst die Ergebnisse eines webbasierten Experiments zusammen, das die empirische Auswertung unserer in Jágrová u.a. 2016 aufgestellten Hypothesen bezüglich bestimmter Prädiktoren sprachübergreifender Verständlichkeit von Internationalismenvokabular ermöglicht. Somit stellt er eine Fortsetzung dieser vorhergehenden Studie zur vergleichenden Bestimmung der lexikalischen (wortschatzbezogenen) und orthographischen (verschriftlichungsbedingten) Distanz der 100 häufigsten polnischen Substantive dar. Die Weiterführung der zitierten Studie besteht darin, dass (i) zu den dort aufgeführten Substantiven noch die 100 häufigsten Adjektive genommen werden und (ii) die zuvor gemessenen sprachfamilienübergreifenden orthographischen Distanzen mit Verständlichkeitsergebnissen aus Experimenten verglichen werden, um die Prädiktoren für die eigentliche Verstehbarkeit polnischer Stimuli zu präzisieren. Ob die Distanzmaße tatsächlich geeignete Prädiktoren für die Interkomprehension sind, soll nun aus den Ergebnissen der Online-Experimente erkennbar sein. In den durchgeführten Experimenten wird ein Interkomprehensionsszenario approximiert, bei dem Lesende mit Deutsch als Erstsprache (L1) versuchen Polnisch zu verstehen – eine Situation, wie sie auch zu Beginn des Polnischunterrichts an deutschen Bildungseinrichtungen auftreten
könnte.

In der vorhergehenden Studie wurde anhand der 100 häufigsten Substantive die lexikalische und orthographische Distanz des Polnischen zu anderen Sprachen berechnet. Die Distanzen sollen Prädiktoren dafür sein, wie gut das Polnische von Lesenden mit entsprechenden sprachlichen Voraussetzungen auf Anhieb verstanden werden kann. Zwischen dem Polnischen und dem Deutschen wurden eine lexikalische Distanz von 66 % und eine orthographische Distanz der Kognaten (= etymologisch verwandten Wörter mit gleicher Wurzel) in der Liste von 47 % kalkuliert (Jágrová u.a. 2016, 10). Dies bedeutet sinngemäß, dass deutschsprachige Lesende von diesen 100 Substantiven 66 mit hoher Wahrscheinlichkeit nicht verstehen würden und von den restlichen 44 Kognaten 47 % trotz gemeinsamer Etymologie und Bedeutung für sie nicht erschließbar wären. Unter diesen 44 Kognaten befinden sich Internationalismen, z.B. informacja ‚Information’, sowie Wörter mit gemeinsamer indoeuropäischer Etymologie, z.B. matka ‚Mutter’ oder Lehnwörter aus dem Deutschen, z.B. gmina ‚Gemeinde’. In dieser Studie wurde zu diesen Kognaten durch zusätzliche Adjektive ein limitierter Kontext in Form von Nominalphrasen (NPs) hergestellt.

@article{Jágrová2018,
title = {Polski nadal nieskomplikowany? Interkomprehensionsexperimente mit Nominalphrasen},
author = {Kl{\'a}ra J{\'a}grov{\'a} and Irina Stenger and Tania Avgustinova},
url = {https://polnischunterricht.de/wp-content/uploads/2018/02/www_gazeta_2017.pdf},
year = {2018},
date = {2018},
journal = {Polnisch in Deutschland. Zeitschrift der Bundesvereinigung der Polnischlehrkr{\"a}fte},
pages = {20-37},
volume = {5/2017},
abstract = {Dieser Beitrag fasst die Ergebnisse eines webbasierten Experiments zusammen, das die empirische Auswertung unserer in J{\'a}grov{\'a} u.a. 2016 aufgestellten Hypothesen bez{\"u}glich bestimmter Pr{\"a}diktoren sprach{\"u}bergreifender Verst{\"a}ndlichkeit von Internationalismenvokabular erm{\"o}glicht. Somit stellt er eine Fortsetzung dieser vorhergehenden Studie zur vergleichenden Bestimmung der lexikalischen (wortschatzbezogenen) und orthographischen (verschriftlichungsbedingten) Distanz der 100 h{\"a}ufigsten polnischen Substantive dar. Die Weiterf{\"u}hrung der zitierten Studie besteht darin, dass (i) zu den dort aufgef{\"u}hrten Substantiven noch die 100 h{\"a}ufigsten Adjektive genommen werden und (ii) die zuvor gemessenen sprachfamilien{\"u}bergreifenden orthographischen Distanzen mit Verst{\"a}ndlichkeitsergebnissen aus Experimenten verglichen werden, um die Pr{\"a}diktoren f{\"u}r die eigentliche Verstehbarkeit polnischer Stimuli zu pr{\"a}zisieren. Ob die Distanzma{\ss}e tats{\"a}chlich geeignete Pr{\"a}diktoren f{\"u}r die Interkomprehension sind, soll nun aus den Ergebnissen der Online-Experimente erkennbar sein. In den durchgef{\"u}hrten Experimenten wird ein Interkomprehensionsszenario approximiert, bei dem Lesende mit Deutsch als Erstsprache (L1) versuchen Polnisch zu verstehen – eine Situation, wie sie auch zu Beginn des Polnischunterrichts an deutschen Bildungseinrichtungen auftreten k{\"o}nnte. In der vorhergehenden Studie wurde anhand der 100 h{\"a}ufigsten Substantive die lexikalische und orthographische Distanz des Polnischen zu anderen Sprachen berechnet. Die Distanzen sollen Pr{\"a}diktoren daf{\"u}r sein, wie gut das Polnische von Lesenden mit entsprechenden sprachlichen Voraussetzungen auf Anhieb verstanden werden kann. Zwischen dem Polnischen und dem Deutschen wurden eine lexikalische Distanz von 66 % und eine orthographische Distanz der Kognaten (= etymologisch verwandten W{\"o}rter mit gleicher Wurzel) in der Liste von 47 % kalkuliert (J{\'a}grov{\'a} u.a. 2016, 10). Dies bedeutet sinngem{\"a}{\ss}, dass deutschsprachige Lesende von diesen 100 Substantiven 66 mit hoher Wahrscheinlichkeit nicht verstehen w{\"u}rden und von den restlichen 44 Kognaten 47 % trotz gemeinsamer Etymologie und Bedeutung f{\"u}r sie nicht erschlie{\ss}bar w{\"a}ren. Unter diesen 44 Kognaten befinden sich Internationalismen, z.B. informacja ‚Information’, sowie W{\"o}rter mit gemeinsamer indoeurop{\"a}ischer Etymologie, z.B. matka ‚Mutter’ oder Lehnw{\"o}rter aus dem Deutschen, z.B. gmina ‚Gemeinde’. In dieser Studie wurde zu diesen Kognaten durch zus{\"a}tzliche Adjektive ein limitierter Kontext in Form von Nominalphrasen (NPs) hergestellt.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   C4

Fischer, Andrea; Vreeken, Jilles; Klakow, Dietrich

Beyond Pairwise Similarity: Quantifying and Characterizing Linguistic Similarity between Groups of Languages by MDL Journal Article

Computación y Systems, 21, pp. 829-839, 2017.
We present a minimum description length based algorithm for finding the regular correspondences between related languages and show how it can be used to quantify the similarity between not only pairs, but whole groups of languages directly from cognate sets. We employ a two-part code, which allows to use the data and model complexity of the discovered correspondences as information-theoretic quantifications of the degree of regularity of cognate realizations in these languages. Unlike previous work, our approach is not limited to pairs of languages, does not limit the size of discovered correspondences, does not make assumptions about the shape or distribution of correspondences, and requires no expert knowledge or fine-tuning of parameters. We here test our approach on the Slavic languages. In a pairwise analysis of 13 Slavic languages, we show that our algorithm replicates their linguistic classification exactly. In a four-language experiment, we demonstrate how our algorithm efficiently quantifies similarity between all subsets of the analyzed four languages and find that it is excellently suited to quantifying the orthographic regularity of closely-related languages.

@article{Fischer2017,
title = {Beyond Pairwise Similarity: Quantifying and Characterizing Linguistic Similarity between Groups of Languages by MDL},
author = {Andrea Fischer and Jilles Vreeken and Dietrich Klakow},
url = {http://www.cys.cic.ipn.mx/ojs/index.php/CyS/article/view/2865},
year = {2017},
date = {2017},
journal = {Computación y Systems},
pages = {829-839},
volume = {21},
number = {4},
abstract = {

We present a minimum description length based algorithm for finding the regular correspondences between related languages and show how it can be used to quantify the similarity between not only pairs, but whole groups of languages directly from cognate sets. We employ a two-part code, which allows to use the data and model complexity of the discovered correspondences as information-theoretic quantifications of the degree of regularity of cognate realizations in these languages. Unlike previous work, our approach is not limited to pairs of languages, does not limit the size of discovered correspondences, does not make assumptions about the shape or distribution of correspondences, and requires no expert knowledge or fine-tuning of parameters. We here test our approach on the Slavic languages. In a pairwise analysis of 13 Slavic languages, we show that our algorithm replicates their linguistic classification exactly. In a four-language experiment, we demonstrate how our algorithm efficiently quantifies similarity between all subsets of the analyzed four languages and find that it is excellently suited to quantifying the orthographic regularity of closely-related languages.
},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   C4

Jágrová, Klára; Stenger, Irina; Marti, Roland; Avgustinova, Tania

Lexical and orthographic distances between Bulgarian, Czech, Polish, and Russian: A comparative analysis of the most frequent nouns Inproceedings

Joseph Emonds & Markéta Janebová (eds.), Language Use and Linguistic Structure. Proceedings of the Olomouc Linguistics Colloquium 2016, pp. 401–416, Olomouc: Palacký University, 2017.

@inproceedings{Klára2017,
title = {Lexical and orthographic distances between Bulgarian, Czech, Polish, and Russian: A comparative analysis of the most frequent nouns},
author = {Kl{\'a}ra J{\'a}grov{\'a} and Irina Stenger and Roland Marti and Tania Avgustinova},
year = {2017},
date = {2017},
booktitle = {Joseph Emonds & Mark{\'e}ta Janebov{\'a} (eds.), Language Use and Linguistic Structure. Proceedings of the Olomouc Linguistics Colloquium 2016},
pages = {401–416},
address = {Olomouc: Palacký University},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C4

Stenger, Irina; Jágrová, Klára; Fischer, Andrea; Avgustinova, Tania; Klakow, Dietrich; Marti, Roland

Modeling the Impact of Orthographic Coding on Czech-Polish and Bulgarian-Russian Reading Intercomprehension Journal Article

Nordic Journal of Linguistic, 40, pp. 175-199, 2017.

Focusing on orthography as a primary linguistic interface in every reading activity, the central research question we address here is how orthographic intelligibility can be measured and predicted between closely related languages. This paper presents methods and findings of modeling orthographic intelligibility in a reading intercomprehension scenario from the information-theoretic perspective. The focus of the study is on two Slavic language pairs: Czech–Polish (West Slavic, using the Latin script) and Bulgarian–Russian (South Slavic and East Slavic, respectively, using the Cyrillic script). In this article, we present computational methods for measuring orthographic distance and orthographic asymmetry by means of the Levenshtein algorithm, conditional entropy and adaptation surprisal method that are expected to predict the influence of orthography on mutual intelligibility in reading.

@article{Stenger2017b,
title = {Modeling the Impact of Orthographic Coding on Czech-Polish and Bulgarian-Russian Reading Intercomprehension},
author = {Irina Stenger and Kl{\'a}ra J{\'a}grov{\'a} and Andrea Fischer and Tania Avgustinova and Dietrich Klakow and Roland Marti},
url = {https://www.cambridge.org/core/journals/nordic-journal-of-linguistics/article/modeling-the-impact-of-orthographic-coding-on-czechpolish-and-bulgarianrussian-reading-intercomprehension/363BEB5C556DFBDAC7FEED0AE06B06AA},
year = {2017},
date = {2017},
journal = {Nordic Journal of Linguistic},
pages = {175-199},
volume = {40},
number = {2},
abstract = {

Focusing on orthography as a primary linguistic interface in every reading activity, the central research question we address here is how orthographic intelligibility can be measured and predicted between closely related languages. This paper presents methods and findings of modeling orthographic intelligibility in a reading intercomprehension scenario from the information-theoretic perspective. The focus of the study is on two Slavic language pairs: Czech–Polish (West Slavic, using the Latin script) and Bulgarian–Russian (South Slavic and East Slavic, respectively, using the Cyrillic script). In this article, we present computational methods for measuring orthographic distance and orthographic asymmetry by means of the Levenshtein algorithm, conditional entropy and adaptation surprisal method that are expected to predict the influence of orthography on mutual intelligibility in reading.
},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   C4

Stenger, Irina; Avgustinova, Tania; Marti, Roland

Levenshtein distance and word adaptation surprisal as methods of measuring mutual intelligibility in reading comprehension of Slavic languages Inproceedings

Computational Linguistics and Intellectual Technologies: International Conference "Dialogue 2017" , 1, pp. 304-317, 2017.

In this article we validate two measuring methods: Levenshtein distance and word adaptation surprisal as potential predictors of success in reading intercomprehension. We investigate to what extent orthographic distances between Russian and other East Slavic (Ukrainian, Belarusian) and South Slavic (Bulgarian, Macedonian, Serbian) languages found by means of the Levenshtein algorithm and word adaptation surprisal correlate with comprehension of unknown Slavic languages on the basis of data obtained from Russian native speakers in online free translation task experiments. We try to find an answer to the following question: Can measuring methods such as Levenshtein distance and word adaptation surprisal be considered as a good approximation of orthographic intelligibility of unknown Slavic languages using the Cyrillic script?

@inproceedings{Stenger2017,
title = {Levenshtein distance and word adaptation surprisal as methods of measuring mutual intelligibility in reading comprehension of Slavic languages},
author = {Irina Stenger and Tania Avgustinova and Roland Marti},
url = {https://www.semanticscholar.org/paper/Levenshtein-Distance-anD-WorD-aDaptation-surprisaL-Distance/6103d388cb0398b89dec8ca36ec0be025bb6dea2},
year = {2017},
date = {2017},
booktitle = {Computational Linguistics and Intellectual Technologies: International Conference "Dialogue 2017"},
pages = {304-317},
abstract = {In this article we validate two measuring methods: Levenshtein distance and word adaptation surprisal as potential predictors of success in reading intercomprehension. We investigate to what extent orthographic distances between Russian and other East Slavic (Ukrainian, Belarusian) and South Slavic (Bulgarian, Macedonian, Serbian) languages found by means of the Levenshtein algorithm and word adaptation surprisal correlate with comprehension of unknown Slavic languages on the basis of data obtained from Russian native speakers in online free translation task experiments. We try to find an answer to the following question: Can measuring methods such as Levenshtein distance and word adaptation surprisal be considered as a good approximation of orthographic intelligibility of unknown Slavic languages using the Cyrillic script?},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C4

Jágrová, Klára; Stenger, Irina; Avgustinova, Tania; Marti, Roland

POLSKI TO JEZYK NIESKOMPLIKOWANY? Theoretische und praktische Interkomprehension der 100 häufigsten polnischen Substantive Journal Article

In Polnisch in Deutschland. Zeitschrift der Bundesvereinigung der Polnischlehrkräfte, 4/2016, pp. 5-19, 2017.

Ein Text in einer unbekannten Sprache wird erst durch das Vorhandensein von Bekanntem verständlich. Das Vorhandensein von Internationalismen oder auch Wörtern mit gemeinsamer Etymologie und Bedeutung ist ausschlaggebend für das Phänomen der Interkomprehension – der Fähigkeit, eine verwandte, aber unbekannte Sprache zu verstehen, ohne sie jedoch aktiv zu beherrschen (vgl. z.B. Doyé 2005). Dies ist in der Praxis je nach Nähe der Sprachen mehr oder weniger erfolgreich innerhalb einer Sprachgruppe möglich, etwa zwischen dem Tschechischen und Slovakischen (Nábělková 2007, Golubović 2016) oder zwischen Bosnisch, Kroatisch, Montenegrinisch und Serbisch (Gooskens, Golubović 2015, Golubović 2016). Dasselbe Prinzip funktioniert, jedoch nicht gleichermaßen unkompliziert, zwischen dem Polnischen und anderen slavischen Sprachen (ibid.). Auch eine sprachfamilienübergreifende Interkomprehension durch Rückgriff auf Internationalismen und Entlehnungen oder Wörter mit gemeinsamer etymologischer Herkunft (vgl. EuroComSlav und die Sieben Siebe; Mehlhorn 2014) ist längst Thema sprachvergleichender und fremdsprachendidaktischer Forschung geworden (Mehlhorn 2014, Doyé 2008, Ollivier 2007, Klein, Reissner 2006). Filomena Capucho (2002, übersetzt und zitiert nach Mehlhorn 2014) versteht Interkomprehension „nicht nur als ein Resultat linguistischen Transfers zwischen Sprachen derselben Familie, sondern als ein Resultat von Transferstrategien im Rahmen eines allgemeinen Interpretationsprozesses, der jeder kommunikativen Aktivität unterliegtˮ. Dieser Artikel stellt eine Weiterführung einer vorhergehenden Studie dar, die die vergleichende Bestimmung der lexikalischen (auf den Wortschatz bezogenen) und orthographischen Distanz (aktuelle Konvention der Verschriftlichung) zwischen slavischen Sprachen zum Ziel hatte. Die in jener Studie gemessenen linguistischen Distanzen sollen Prädiktoren dafür sein, wie schwierig es für slavische Lesende ist, eine andere slavische Sprache zu lesen und zu verstehen, wobei die beiden Ebenen Lexik und Orthographie getrennt betrachtet werden. Die Weiterführung dieser Studie besteht darin, dass die Methoden der sprachlichen Distanzmessungen nicht nur innerhalb der slavischen Sprachfamilie angewandt werden, sondern auch über ihre Grenzen hinaus. Eine solche sprachfamilienübergreifende Messung soll ein Interkomprehensionsszenario repräsentieren, bei dem z.B. Lesende mit Deutsch als L1 versuchen Polnisch zu verstehen – eine Situation, wie sie auch zu Beginn des Polnisch-Unterrichts an deutschen Bildungseinrichtungen auftreten könnte. Konkret ist hier die Fragestellung: Was sind die empirischen Voraussetzungen dafür, dass Interkomprehension im Polnischunterricht in Deutschland funktioniert? Welche Schlüsse erlauben die Methoden und Resultate linguistischer Distanzmessungen auf das Polnische? Gibt es für das Polnische eventuell sogar sprachliche Voraussetzungen, die Vorteile gegenüber anderen potentiell zu erlernenden Sprachen darstellen und ein Argument für die Wahl des Polnischen als L2/L3/LX wären?

Der Gebrauch von Internationalismen und verwandtem Vokabular ist außerdem eine der Grundvoraussetzungen dafür, dass moderner Fremdsprachenunterricht von Anfang an in der Zielsprache stattfinden kann. Es wird davon ausgegangen, dass die zwischensprachliche Ähnlichkeit nicht nur ein entscheidender Faktor für den Erfolg der Interkomprehension ist (Golubović 2016, Gooskens 2007), sondern auch den Fremdsprachenerwerb erleichtert, wobei Lernende gezielt auf bereits vorhandenes Wissen in einer Sprache zurückgreifen und aufbauen können (Mehlhorn 2014, Ringbom, Jarvis 2007).

Wir demonstrieren die Methoden und Ergebnisse lexikalischer und orthographischer Distanzmessungen des Polnischen gegenüber anderen Sprachen. Anschließend präsentieren wir die Resultate einer Pilotstudie mit einem bezüglich der Sprachkenntnisse sehr heterogenen Sample an Versuchspersonen, deren Aufgabe es war, polnische Internationalismen und Kognaten (Def. unten) mit gemeinsamer indoeuropäischer Herkunft möglichst korrekt in ihre Sprache zu übersetzen. Wir vergleichen die Resultate der Studie hinsichtlich der Art der Stimuli sowie des Sprachenrepertoires der Versuchspersonen.

@article{Jágrová2017,
title = {POLSKI TO JEZYK NIESKOMPLIKOWANY? Theoretische und praktische Interkomprehension der 100 h{\"a}ufigsten polnischen Substantive},
author = {Kl{\'a}ra J{\'a}grov{\'a} and Irina Stenger and Tania Avgustinova and Roland Marti},
year = {2017},
date = {2017},
journal = {In Polnisch in Deutschland. Zeitschrift der Bundesvereinigung der Polnischlehrkr{\"a}fte},
pages = {5-19},
volume = {4/2016},
abstract = {Ein Text in einer unbekannten Sprache wird erst durch das Vorhandensein von Bekanntem verst{\"a}ndlich. Das Vorhandensein von Internationalismen oder auch W{\"o}rtern mit gemeinsamer Etymologie und Bedeutung ist ausschlaggebend f{\"u}r das Ph{\"a}nomen der Interkomprehension – der F{\"a}higkeit, eine verwandte, aber unbekannte Sprache zu verstehen, ohne sie jedoch aktiv zu beherrschen (vgl. z.B. Doy{\'e} 2005). Dies ist in der Praxis je nach N{\"a}he der Sprachen mehr oder weniger erfolgreich innerhalb einer Sprachgruppe m{\"o}glich, etwa zwischen dem Tschechischen und Slovakischen (N{\'a}bělkov{\'a} 2007, Golubović 2016) oder zwischen Bosnisch, Kroatisch, Montenegrinisch und Serbisch (Gooskens, Golubović 2015, Golubović 2016). Dasselbe Prinzip funktioniert, jedoch nicht gleicherma{\ss}en unkompliziert, zwischen dem Polnischen und anderen slavischen Sprachen (ibid.). Auch eine sprachfamilien{\"u}bergreifende Interkomprehension durch R{\"u}ckgriff auf Internationalismen und Entlehnungen oder W{\"o}rter mit gemeinsamer etymologischer Herkunft (vgl. EuroComSlav und die Sieben Siebe; Mehlhorn 2014) ist l{\"a}ngst Thema sprachvergleichender und fremdsprachendidaktischer Forschung geworden (Mehlhorn 2014, Doy{\'e} 2008, Ollivier 2007, Klein, Reissner 2006). Filomena Capucho (2002, {\"u}bersetzt und zitiert nach Mehlhorn 2014) versteht Interkomprehension „nicht nur als ein Resultat linguistischen Transfers zwischen Sprachen derselben Familie, sondern als ein Resultat von Transferstrategien im Rahmen eines allgemeinen Interpretationsprozesses, der jeder kommunikativen Aktivit{\"a}t unterliegtˮ. Dieser Artikel stellt eine Weiterf{\"u}hrung einer vorhergehenden Studie dar, die die vergleichende Bestimmung der lexikalischen (auf den Wortschatz bezogenen) und orthographischen Distanz (aktuelle Konvention der Verschriftlichung) zwischen slavischen Sprachen zum Ziel hatte. Die in jener Studie gemessenen linguistischen Distanzen sollen Pr{\"a}diktoren daf{\"u}r sein, wie schwierig es f{\"u}r slavische Lesende ist, eine andere slavische Sprache zu lesen und zu verstehen, wobei die beiden Ebenen Lexik und Orthographie getrennt betrachtet werden. Die Weiterf{\"u}hrung dieser Studie besteht darin, dass die Methoden der sprachlichen Distanzmessungen nicht nur innerhalb der slavischen Sprachfamilie angewandt werden, sondern auch {\"u}ber ihre Grenzen hinaus. Eine solche sprachfamilien{\"u}bergreifende Messung soll ein Interkomprehensionsszenario repr{\"a}sentieren, bei dem z.B. Lesende mit Deutsch als L1 versuchen Polnisch zu verstehen – eine Situation, wie sie auch zu Beginn des Polnisch-Unterrichts an deutschen Bildungseinrichtungen auftreten k{\"o}nnte. Konkret ist hier die Fragestellung: Was sind die empirischen Voraussetzungen daf{\"u}r, dass Interkomprehension im Polnischunterricht in Deutschland funktioniert? Welche Schl{\"u}sse erlauben die Methoden und Resultate linguistischer Distanzmessungen auf das Polnische? Gibt es f{\"u}r das Polnische eventuell sogar sprachliche Voraussetzungen, die Vorteile gegen{\"u}ber anderen potentiell zu erlernenden Sprachen darstellen und ein Argument f{\"u}r die Wahl des Polnischen als L2/L3/LX w{\"a}ren? Der Gebrauch von Internationalismen und verwandtem Vokabular ist au{\ss}erdem eine der Grundvoraussetzungen daf{\"u}r, dass moderner Fremdsprachenunterricht von Anfang an in der Zielsprache stattfinden kann. Es wird davon ausgegangen, dass die zwischensprachliche {\"A}hnlichkeit nicht nur ein entscheidender Faktor f{\"u}r den Erfolg der Interkomprehension ist (Golubović 2016, Gooskens 2007), sondern auch den Fremdsprachenerwerb erleichtert, wobei Lernende gezielt auf bereits vorhandenes Wissen in einer Sprache zur{\"u}ckgreifen und aufbauen k{\"o}nnen (Mehlhorn 2014, Ringbom, Jarvis 2007). Wir demonstrieren die Methoden und Ergebnisse lexikalischer und orthographischer Distanzmessungen des Polnischen gegen{\"u}ber anderen Sprachen. Anschlie{\ss}end pr{\"a}sentieren wir die Resultate einer Pilotstudie mit einem bez{\"u}glich der Sprachkenntnisse sehr heterogenen Sample an Versuchspersonen, deren Aufgabe es war, polnische Internationalismen und Kognaten (Def. unten) mit gemeinsamer indoeurop{\"a}ischer Herkunft m{\"o}glichst korrekt in ihre Sprache zu {\"u}bersetzen. Wir vergleichen die Resultate der Studie hinsichtlich der Art der Stimuli sowie des Sprachenrepertoires der Versuchspersonen.},
pubstate = {published},
type = {article}
}

Copy BibTeX to Clipboard

Project:   C4

Stenger, Irina

How reading intercomprehension works among Slavic languages with Cyrillic script Inproceedings

Köllner, Marisa; Ziai, Ramon (Ed.): ESSLLI 2016, pp. 30-42, 2016.

This article presents methods and results of a comparative analysis of Slavic languages using the Cyrillic alphabet with the purpose of investigating the orthographic intelligibility in reading intercomprehension. Although many studies have focused on linguistic as well as non-linguistic factors of mutual intelligibility among related languages, the understanding of the role of orthography in this process is quite limited. This study attempts to reveal the main mechanisms and the basic units of the orthographic code with focus on similarities between related languages, which leading to orthographic transparency and thus facilitating reading intercomprehension.

@inproceedings{Stenger2016,
title = {How reading intercomprehension works among Slavic languages with Cyrillic script},
author = {Irina Stenger},
editor = {Marisa K{\"o}llner and Ramon Ziai},
url = {https://esslli2016.unibz.it/wp-content/uploads/2016/09/esslli-stus-2016-proceedings.pdf},
year = {2016},
date = {2016},
pages = {30-42},
publisher = {ESSLLI 2016},
abstract = {This article presents methods and results of a comparative analysis of Slavic languages using the Cyrillic alphabet with the purpose of investigating the orthographic intelligibility in reading intercomprehension. Although many studies have focused on linguistic as well as non-linguistic factors of mutual intelligibility among related languages, the understanding of the role of orthography in this process is quite limited. This study attempts to reveal the main mechanisms and the basic units of the orthographic code with focus on similarities between related languages, which leading to orthographic transparency and thus facilitating reading intercomprehension.},
pubstate = {published},
type = {inproceedings}
}

Copy BibTeX to Clipboard

Project:   C4

Successfully