Dies ist ein utb-Band aus dem Verlag Brill | Fink. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehr- und Lernmedien für das erfolgreiche Studium zu veröffentlichen. ISBN 978-3-8252-5711-8 ,!7ID8C5-cfhbbi! 5711_L-geb_Vorlage_Bild.indd 1 QR-Code für mehr Infos und Bewertungen zu diesem Titel utb.de Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Aus dem Inhalt: • Sprache empirisch untersuchen: methodische Grundlagen • Daten – Metadaten – Annotationen • Rechtliche und ethische Aspekte beim Umgang mit Sprachdaten • Erhebung und Aufbereitung von Sprachdaten • Korpusressourcen zum Deutschen • Werkzeuge für die empirische Sprachanalyse Michael Beißwenger Lothar Lemnitzer Carolin Müller-Spitzer (Hg.) Forschen in der Linguistik Eine Methodeneinführung für das Germanistik-Studium Beißwenger | Lemnitzer Müller-Spitzer (Hg.) Von den Grundlagen der Datenerhebung über rechtliche und ethische Aspekte bis zum konkreten Anwendungsfall: Dieses Handbuch stellt Forschungsmethoden sowie digitale Ressourcen und Werkzeuge der Sprachwissenschaft vor. Fallstudien aus verschiedenen linguistischen Forschungsfeldern zeigen, wie Theorie in konkrete Forschungspraxis überführt wird. Praxisorientierte Methodenkapitel sowie Hinweise auf weiterführende Literatur bilden Ausgangspunkte für eigene Studienarbeiten. Forschen in der Linguistik Germanistik | Sprachwissenschaft Methoden 29.03.22 10:48 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. utb 5711 Eine Arbeitsgemeinschaft der Verlage Brill | Schöningh – Fink · Paderborn Brill | Vandenhoeck & Ruprecht · Göttingen – Böhlau · Wien · Köln Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Narr Francke Attempto Verlag – expert verlag · Tübingen Psychiatrie Verlag · Köln Ernst Reinhardt Verlag · München transcript Verlag · Bielefeld Verlag Eugen Ulmer · Stuttgart UVK Verlag · München Waxmann · Münster · New York wbv Publikation · Bielefeld Wochenschau Verlag · Frankfurt am Main UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 1 24.03.22 11:06 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 2 24.03.22 11:06 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Michael Beißwenger · Lothar Lemnitzer · Carolin Müller-Spitzer (Hg.) Forschen in der Linguistik Eine Methodeneinführung für das Germanistik-Studium BRILL | FINK UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 3 24.03.22 11:06 Umschlagabbildung: © Ruinponche Adobe Stock #117753108 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Online-Angebote oder elektronische Ausgaben sind erhältlich unter www.utb.de Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2022 Brill Fink, Wollmarktstraße 115, D-33098 Paderborn, ein Imprint der Brill-Gruppe (Koninklijke Brill NV, Leiden, Niederlande; Brill USA Inc., Boston MA, USA; Brill Asia Pte Ltd, Singapore; Brill Deutschland GmbH, Paderborn, Deutschland; Brill Österreich GmbH, Wien, Österreich) Koninklijke Brill NV umfasst die Imprints Brill, Brill Nijhoff, Brill Hotei, Brill Schöningh, Brill Fink, Brill mentis, Vandenhoeck & Ruprecht, Böhlau, Verlag Antike und V&R unipress. Internet: www.fink.de Das Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Mikroverfilmungen und die Einspeicherung und Verarbei-tung in elektronischen Systemen. Einbandgestaltung: Atelier Reichert, Stuttgart Herstellung: Brill Deutschland GmbH, Paderborn UTB-Band-Nr: 5711 ISBN 978-3-8252-5711-8 e-ISBN 978-3-8385-5711-3 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 4 24.03.22 11:06 Inhalt I EINFÜHRUNG UND GRUNDLAGEN 1. Einführung Michael Beißwenger, Lothar Lemnitzer und Carolin Müller-Spitzer . . . . . . . . . . . . . 2. Methodische Grundlagen: Empirisches Forschen in der germanistischen Linguistik Carolin Müller-Spitzer, Alexander Koplenig und Sascha Wolfer . . . . . . . . . . . . . . . . 11 21 3. Alles okay! Korpusgestützte Untersuchungen zum Internationalismus OKAY Angelika Storrer und Laura Herzberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. II FALLSTUDIEN 4. Semiotic-Landscape-Forschung: Daten- und Methoden triangulation im „Metropolenzeichen“-Projekt Evelyn Ziegler und Ulrich Schmitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Sprachliche Variation im Gegenwartsdeutschen: Lautliche Realisierungsvarianten im Gespräch Pia Bergmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Diskursmarker: eine Fallstudie zur Einführung in die Methode der Interaktionalen Linguistik Wolfgang Imo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. Emotion und Sprachgebrauch: Ein linguistischer Beitrag zur Entstehungsgeschichte des Nationalsozialismus Heidrun Kämper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Wirksamkeit sprachlicher Förderung überprüfen: Erfassen schriftsprachlicher Fähigkeiten von Schülerinnen und Schülern auf Satzebene Sandra Schwinning und Miriam Morek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. Sind Wörterbücher wirklich nützliche Werkzeuge beim Überarbeiten von Texten? Ein experimenteller Zugang Sascha Wolfer und Carolin Müller-Spitzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10. Höfliches Handeln mit Emojis: eine Fallstudie aus dem Bereich der Angewandten (Medien-)Linguistik Michael Beißwenger und Steffen Pappert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. Fugenelemente im Korpus Sandra Hansen, Felix Bildhauer und Marek Konopka . . . . . . . . . . . . . . . . . . . . . . . . . 37 60 82 103 122 140 162 179 201 12. Redewiedergabe in Hochliteratur und Heftromanen . . . . . . . . . . . . . . . . . . . . . . Annelen Brunner und Fotis Jannidis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 5 24.03.22 11:06 6 Inhalt III DATEN – METADATEN – ANNOTATIONEN 13. Daten und Metadaten Thomas Schmidt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. Linguistische Annotation Lothar Lemnitzer und Michael Beißwenger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 259 IV RECHTLICHE UND ETHISCHE ASPEKTE BEIM UMGANG MIT SPRACHDATEN 16. Schwimmen im Strudel oder: Datenerhebung im Spannungsfeld zwischen Ethik und Erkenntnisinteresse Konstanze Marx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 292 V ERHEBUNG UND AUFBEREITUNG VON SPRACHDATEN Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 15. Was darf die sprachwissenschaftliche Forschung? Juristische Fragen bei der Arbeit mit Sprachdaten Pawel Kamocki und Andreas Witt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17.Audio- und Videografie Anja Stukenbrock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18.Interviewerhebungen Katharina König . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19. Lautes Denken Caroline Schuttkowski und Katharina Staubach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20. Erhebung, Aufbereitung und Auswertung von Korpusdaten Lothar Lemnitzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21. Statistische Aufbereitung von Untersuchungsergebnissen Sandra Hansen und Sascha Wolfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22. Abfrage und Analyse von Korpusbelegen Lothar Lemnitzer und Nils Diewald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23.Gesprächsanalytische Transkription Miriam Morek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 324 338 350 361 374 391 VI KORPUSRESSOURCEN ZUM DEUTSCHEN 24. Korpora geschriebener Sprache Lothar Lemnitzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25. Korpora gesprochener Sprache Thomas Schmidt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26.Korpora internetbasierter Kommunikation Michael Beißwenger und Harald Lüngen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 6 411 421 431 24.03.22 11:06 Inhalt 7 27.Werkzeuge für die Transkription gesprochener Sprache Thomas Schmidt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 VII WERKZEUGE FÜR DIE EMPIRISCHE SPRACHANALYSE 28.Werkzeuge für die statistische Analyse Sascha Wolfer und Sandra Hansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29. Werkzeuge für die Korpusanalyse Susanne Haaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31. INCEpTION – ein Werkzeug für die kollaborative Annotation Marcel Fladrich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 490 503 VIII ANHANG 32. Verzeichnis der Autor*innen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 30. Werkzeuge für die automatische Sprachanalyse Andrea Horbach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461 33. Register . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 7 517 525 24.03.22 11:06 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 8 24.03.22 11:06 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. I EINFÜHRUNG UND GRUNDLAGEN UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 9 24.03.22 11:06 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 10 24.03.22 11:06 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 11 1. Einführung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Michael Beißwenger, Lothar Lemnitzer, Carolin Müller-Spitzer Sprache war und ist ein hochspannender Forschungsgegenstand. Auf der einen Seite verwenden wir alle Sprache und fühlen uns dadurch mit ihr verbunden, auf der anderen Seite gibt es empirische Forschungen über bestimmte Aspekte von Sprache, die mit unseren eigenen subjektiven Eindrücken vielleicht gar nicht übereinstimmen. Die Möglichkeiten der empirisch-wissenschaftlichen Erforschung der deutschen Sprache, ihrer Verwendung und Entwicklung sind in den letzten Jahrzehnten enorm gestiegen. Mit den Möglichkeiten des Internets und der sozialen Medien tun sich Wege der sprachlichen Kommunikation und Partizipation auf, von denen noch vor 30 Jahren nur die Mutigsten zu träumen wagten. Zugleich entfaltet mit diesen neuen Medien die Sprache, oder genauer diejenigen, die sie verwenden, eine besondere Wirkmacht. Man denke nur an den Einfluss, der den sozialen Medien bei politischen Großereignissen wie der sog. Arabellion vor zehn Jahren oder den letzten beiden Präsidentschaftswahlen in den USA zugesprochen wird. Wörter und Texte, die Substanz der Sprache, können heute außerdem so leicht wie nie mit anderen Formen der Darstellung verbunden werden, z. B. mit Grafiken, Bildern und Videos, und so entstehen komplexe, multimodale, mitunter sehr suggestive Gebilde. Mit der Schnelligkeit, mit der heute Texte und deren Überarbeitungen publiziert werden können, ergeben sich Möglichkeiten, Nutzer*innen und Communities bei der Erschaffung von Texten zuzusehen (als Beispiel sei hier nur die Wikipedia genannt mit der Verfügbarkeit vieler Versionen der einzelnen Artikel und den artikelbegleitenden Diskussionsseiten). Nahezu jede*r mit einer Internetverbindung ist heute dazu in der Lage, am Universum der Texte und damit am Gewebe der Sprache mitzuarbeiten. Der Einfluss, den diese Entwicklungen auf den Zustand der Sprache und die Vielfalt des sprachlichen Handelns haben, ist bislang kaum erforscht, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 11 einfach aus dem Grund, dass diese Entwicklungen noch so neu sind. Zugleich geraten Wissenschaft und Forschung unter einen stärkeren Druck. Wissenschaftler*innen müssen ihre Arbeit gegenüber einer breiteren Öffentlichkeit legitimieren, es wird von ihnen erwartet, dass sie harte und belastbare Fakten liefern. Dies wird besonders deutlich etwa beim Diskurs über den Klimawandel. Hier wird jede schlecht abgesicherte Aussage auf dem Operationstisch vor den Augen der Öffentlichkeit seziert, von der Fachwelt, aber auch von den Medien und vor allem von denjenigen, denen eine bestimmte Erkenntnis gerade nicht in ihre Argumentation passt. Nun ist dies hier kein Buch über Klimaforschung. Doch auch die Sprache ist ein Gegenstand öffentlicher Diskussion. Wenn Sie die deutsche Sprache erforschen, haben Sie es mit über 100 Millionen Expert*innen zu tun, die diese Sprache sprechen und damit den Gegenstand, den Sie erforschen, kennen oder zu kennen glauben. Steilen Thesen wie „Das Deutsche verfällt zusehends unter dem Einfluss des Englischen, des Internets, der Migrant*innen usw.“, „Unsere Kinder können alle nicht mehr richtig schreiben“ oder „Gendern macht die Sprache unnötig kompliziert“ und Ähnlichem, was als Zeitungsschlagzeile oder zu einem Partygespräch taugt, wollen und müssen Sie harte Fakten entgegensetzen. Ihre Ausgangssituation als Linguist*in dafür ist aber sehr gut: Sie können zwar Sprache nicht in ihrer ganzen Bandbreite erforschen, aber auf mittlerweile sehr große Mengen digitalisierter und damit leicht durchsuchbarer Äußerungen in geschriebener und gesprochener Sprache (sog. Korpora) zurückgreifen. Sie finden spezialisierte Suchmaschinen und Analysewerkzeuge vor, die ihnen das systematische Durchsuchen dieser riesigen Datenmengen erleichtern. Sie können mit kostenfreien und relativ leicht zu handhabenden Werkzeuge arbeiten, also z. B. große Datenmengen statistisch aufberei- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 12 Einführung und Grundlagen ten. Bemerkungen wie „Der Konjunktiv wird heute kaum noch gebraucht“ oder „weil wird heute mehr und mehr als Konjunktion verwendet, die einen Hauptsatz einleitet und nicht einen Nebensatz“ können Sie mit statistisch gesicherten Erkenntnissen kontern, sei es ablehnend oder zustimmend oder, wie es aus linguistischer Perspektive bei solchen sprachlichen Zweifelsfällen meist der Fall ist, mit einer differenzierenden wissenschaftlichen Bewertung. Genauso können Sie empirisch untersuchen, ob z. B. geschlechtergerechte Texte wirklich weniger verständlich sind als Texte im sogenannten generischen Maskulinum, anstatt darüber Vermutungen auf Basis subjektiven Empfindens anzustellen. Die Möglichkeiten, die sich Ihnen bieten, sollten Sie daher auch als eine Verpflichtung zu methodisch solidem wissenschaftlichem Arbeiten verstehen: weg von der Spekulation, hin zu empirisch gesicherten, d. h. datengestützt gewonnenen und sorgfältig dokumentierten Erkenntnissen. Wenn Sie hier zustimmen, dann wurde das vorliegende Buch für Sie geschrieben. Wir haben als Herausgebende zwei Typen von Beiträgen konzipiert, die verschiedene Funktionen erfüllen sollen: erstens Fallstudien und zweitens kompakte Überblickskapitel zu einzelnen methodischen Aspekten, Forschungsressourcen und Werkzeugen. Den Fallstudien und Überblickkapiteln vorangestellt ist ein Grundlagenkapitel, in dem die typischen Schritte einer empirischen Studie in der germanistischen Linguistik skizziert werden (→ Kapitel 2). Die Fallstudien (→ die Beiträge in Teil II) sollen an konkreten Untersuchungen aufzeigen, wie empirisches Forschen in unterschiedlichen linguistischen Forschungsfeldern „funktioniert“, d. h. wie ausgehend von einer konkreten Forschungsfrage auf der Grundlage empirischer Daten und mit bestimmten Forschungsmethoden linguistische Erkenntnisse gewonnen werden. Dazu haben wir Kolleg*innen eingeladen, bereits durchgeführte und an anderer Stelle schon publizierte Untersuchungen nach einem vorgegebenen Muster aufzubereiten, das die jeweilige Untersuchung ausgehend von den Fragestellungen über die Gewinnung und Analyse der UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 12 Daten bis hin zu den Befunden für Studierende nachvollziehbar macht. Dabei wird insbesondere das methodische Vorgehen bei der jeweiligen Untersuchung reflektiert und es werden die untersuchten Fragestellungen in den weiteren und engeren Fachkontext des zugehörigen linguistischen Forschungsfeldes eingebettet. Die Fallstudien wurden so ausgewählt, dass einerseits eine breite Palette linguistischer Forschungsfelder, andererseits eine große Bandbreite theoretischer und methodischer Zugänge abgedeckt sind. Wir haben diesen Fallstudien in diesem Band einen so breiten Raum gegeben, weil wir davon ausgehen, dass sich ein grundlegendes Methodenbewusstsein am besten an Fallbeispielen erwerben und schärfen lässt. Mit der Einladung, zu diesem Buch mit einer Fallstudie beizutragen, haben wir, die Herausgeber*innen, den Autor*innen den folgenden Wunsch übermittelt: Die einzelnen Fallstudien haben die Funktion, den Studierenden Beispiele von empirischen Untersuchungen aus verschiedenen Bereichen der Linguistik zu zeigen. Die Beiträge sollen keine üblichen Sammelbandbeiträge sein, sondern den Schwerpunkt entsprechend dem Ziel des Buches auf den methodischen Aufbau der Studien legen. Damit verbunden war ein Vorschlag für die Gliederung der Fallstudien: 1. Einleitung, 2. Fragestellung, 3. Material, 4. Methode und Analyse, 5. Ergebnisse und Diskussion, 6. methodische Reflektion und 7. weiterführende Literatur und Literaturverzeichnis. Bei den zehn Fallstudien, die in diesen Band Eingang gefunden haben, handelt es sich also nicht um Berichte über neueste Forschungsergebnisse, sondern um didaktisch besonders aufbereitete Werkstattberichte. Wir hoffen, dass diese Blaupause Ihnen die Orientierung in den einzelnen Fallstudien erleichtert. Um selbst linguistische Untersuchungen durchzuführen, muss man, je nachdem, was man plant, aber nicht nur Fallbeispiele kennen, sondern sich zudem detaillierter mit einzelnen Methoden, Ressourcen und Werkzeugen auseinandersetzen. Eine grundlegende Orientierung dafür sollen die Überblickskapitel bieten, die in → den 24.03.22 11:06 1. Einführung Teilen III bis VII zusammengestellt sind und die zur weiteren Beschäftigung mit der jeweiligen Ressource bzw. Forschungsmethode einladen sollen. Auch für diese Kapitel haben wir ausgewiesene Spezialist*innen des jeweiligen Gebietes als Autor*innen eingeladen. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Die Fallstudien Teil II umfasst insgesamt zehn Fallstudien, die von 18 Autor*innen verfasst wurden: Angelika Storrer und Laura Herzberg stellen in → Kapitel 3 [Fallstudie „OKAY“]1 zwei Studien zum Gebrauch des Internationalismus OKAY im Deutschen und Französischen vor. Für diese medienvergleichenden Studien verwenden sie ein Korpus der gesprochenen Sprache (das Forschungs- und Lehrkorpus Gesprochenes Deutsch FOLK) sowie zwei Korpora der geschriebenen Sprache (die deutsche und die französische Wikipedia, hier vor allem die Diskussionsseiten), um Unterschiede zwischen schriftlicher und mündlicher Verwendung von OKAY zu ermitteln. Im Mittelpunkt ihrer methodischen Reflexion steht das Vorgehen bei der Erhebung, Bereinigung und Analyse der Daten. Die beschriebenen Studien sind quantitativ ausgerichtet, korpusbasiert und verfolgen das Ziel, Hypothesen aus der Fachliteratur empirisch zu überprüfen. Die Lektüre der Untersuchung von Storrer und Herzberg kann durch die Lektüre des → Kapitel 20 [Korpusdaten] sowie die → Beiträge in Teil VI, u.a die Überblicke über Korpora der geschriebenen und gesprochenen Sprache, vor allem aber des Kapitels zu Korpora der internetbasierten Kommunikation, vertieft werden. Die von Evelyn Ziegler und Ulrich Schmitz in → Kapitel 4 [Fallstudie „Metropolenzeichen“] vorgestellte Fallstudie stellt das Unter1 13 suchungsdesign und die zentralen Ergebnisse des interdisziplinären Forschungsprojekts „Metropolenzeichen: Visuelle Mehrsprachigkeit in der Metropole Ruhr“ vor, ein Projekt, das von Linguist*innen, Integrationsforscher*innen und Stadtsoziolog*innen durchgeführt wurde. Den Analysen der Autor*innen bzw. der beteiligten Forscher*innen lagen Daten verschiedener Art zugrunde, nämlich Bilddaten und Interviewdaten. Diese wurden mit verschiedenen Verfahren analysiert und interpretiert. In ihrem Beitrag reflektieren Ziegler und Schmitz die mit den quantitativen und qualitativen methodischen Zugängen verbundenen Möglichkeiten und Grenzen der Analyse verschiedener Datentypen. Die Fallstudie von Ziegler und Schmitz kann durch die Lektüre des Kapitels → Kapitel 18 [Interviewerhebungen] über Interviewerhebungen vertieft werden. Da in → Kapitel 4 [Fallstudie „Metropolenzeichen“] auch rechtliche und ethische Aspekte im Umgang mit den verwendeten Daten thematisiert werden, bietet sich die Lektüre der beiden→ Kapitel in Teil IV zu juristischen und ethischen Fragen im Umgang mit Daten an. Da vor allem die Bilddaten im Projekt selbst erhoben und archiviert wurden, spielt hier das Thema der Relevanz von Metadaten eine Rolle. Näheres dazu finden Sie in → Kapitel 13 [Daten und Metadaten]. Die von Pia Bergmann in → Kapitel 5 [Fallstudie „Sprachliche Variation“] präsentierte Untersuchung stammt aus dem Bereich der gesprochenen Sprache. Anhand der in der gesprochenen Sprache häufig und in unterschiedlicher Funktion verwendeten Phrase „keine Ahnung“ untersucht Bergmann die Frage, ob lautliche Reduktion in diesem Fall zufällig auftritt oder diese systematisch mit dem Verwendungskontext und mit ihren Funktionen im Gespräch zusammenhängt. Die Autorin verwendet Belegbeispiele aus In den folgenden Abschnitten verweisen wir auf die einzelnen Kapitel des Bandes mit derselben Konvention, die im gesamten Band auch den Querverweisen zwischen den Kapiteln zugrundeliegt. Ein Verweis wird eingeleitet durch einen Verweispfeil (→) und besteht aus einer Kennzeichnung des Kapitels (im vorliegenden Fall: „Kapitel 3“) und der näheren Bezeichnung des Kapitels unter Verwendung eines Kurztitels (hier: „Fallstudie ‚OKAY‘“), die in eckigen Klammern steht. Die in den Verweisen gewählten, im Band einheitlich verwendeten Kurztitel finden sich auch in den Kopfzeilen wieder, so dass das betreffende Kapitel nicht nur anhand des Inhaltsverzeichnisses, sondern auch beim Durchblättern im Band aufgefunden werden kann. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 13 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 14 Einführung und Grundlagen dem FOLK-Korpus des gesprochenen Deutsch und unterzieht diese Beispiele einer lautlichen und funktionalen Analyse. Dabei spielen sowohl die Frequenzspektren des Lautsignals als auch die Transkripte der Äußerungskontexte eine Rolle. Die Arbeit ist in dieser Hinsicht empirisch und qualitativ angelegt. Zur Methode der Datenauswertung bietet sich im Anschluss die Lektüre von → Kapitel 23 [Gesprächsanalytische Transkription] an. Wolfgang Imo stellt in → Kapitel 6 [Fallstudie „Diskursmarker“] eine Fallstudie zu Diskursmarkern vor. Sein Beitrag ist so angelegt, dass er auch als Einführung in das Feld und die Methode der Interaktionalen Linguistik gelesen werden kann. Der Autor geht sowohl auf den ‚Kernbereich’ der Interaktionalen Linguistik, die gesprochene Sprache, als auch auf neuere und noch wenig erschlossene Bereiche wie computervermittelte Schriftkommunikation oder verschriftete literarische Interaktionen ein. Dem Gegenstandsbereich entsprechend stehen Beispiele aus der gesprochenen Sprache im Vordergrund. Diese werden den in Münster und Hamburg aufgebauten Audiodatenbanken sowie dem FOLK-Korpus entnommen. Dazu kommen Extrakte aus einem Korpus mit Kurznachrichtenkommunikation und aus Texten von Fontane und Gryphius, die die Modi der internetbasierten Kommunikation und der geschriebenen Sprache abdecken. Methodisch ist diese Studie quantitativ, korpusbasiert und umfasst mehrere Sprachmodi. Einige der von Imo verwendeten Korpora werden in → den Kapiteln des Teils VI zu Korpora gesprochener Sprache und zu Korpora internetbasierter Kommunikation ausführlicher vorgestellt. Als weitere vertiefende Lektüre ist der Text von Thomas Schmidt zu Werkzeugen für die Transkription gesprochener Sprache (→ Kapitel 27 [Transkriptionswerkzeuge]) zu empfehlen. Heidrun Kämper stellt in → Kapitel 7 [Fallstudie „Emotion“] eine Untersuchung vor, die sie hinsichtlich ihres Gegenstands dem Bereich ‚Sprache und Emotion’ zuordnet. Die Fragestellung, die den Ausgangspunkt der Studie bildet, bezieht sich auf die Kodierung von Gefühlen und auf deontisch markierte Ausdrücke. Als Datengrundlage verwendet UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 14 sie ein Korpus mit Berichten von Nationalsozialist*innen, die ihren Weg zur NSDAP schildern, in die sie in der späten Weimarer Republik eintraten. Der Beitrag analysiert diese Texte, indem er danach fragt, welche Gefühlsbezeichnungen in den untersuchten Texten verwendet werden und worauf sie referieren. Die Studie ist primär qualitativ, diskurslinguistisch und auf die genaue Analyse markanter Beispiele aus dem Korpus angelegt und leistet einen linguistischen Beitrag zur Entstehungsgeschichte des Nationalsozialismus. Der Beitrag von Sandra Schwinning und Miriam Morek in → Kapitel 8 [Fallstudie „Sprachliche Förderung]“ beschreibt eine Fallstudie aus dem Bereich der Sprachdidaktik. Am Beispiel einer Studie zu Satzbildungsfähigkeiten von Schüler*innen werden Aufbau und Probleme von Interventionsstudien erläutert, mit denen die Wirksamkeit bestimmter didaktischer Maßnahmen überprüft wird. Der Artikel skizziert die Entwicklung des Untersuchungsdesigns, den Entwurf und die Überprüfung eines Messinstruments (Test) und zeigt zudem anhand einer Beispielhypothese, wie Forschungshypothesen formuliert und statistisch überprüft werden. Methodisch zeigt diese Fallstudie, wie eine Interventionsstudie im Rahmen einer linguistischen Forschungsfrage ausgestaltet werden kann. In der Studie wird dazu ein selbst erstelltes Korpus von Schülertexten als ein Teil der Datenbasis verwendet. Carolin Müller-Spitzer und Sascha Wolfer präsentieren in → Kapitel 9 [Fallstudie „Wörterbücher“] eine Studie, die der Frage nachgeht, ob und in welchem Ausmaß Wörterbücher und andere lexikographische Ressourcen die Ergebnisse von Textüberarbeitungen verbessern. Das Design der Studie ist experimentell: Studierende wurden gebeten, zwei Texte zu optimieren und waren dabei zufällig in drei unterschiedlichen Gruppen mit Versuchsbedingungen eingeteilt: 1. ein Ausgangstext ohne Hinweise auf potenzielle Fehler im Text, 2. ein Ausgangstext, bei dem problematische Stellen im Text hervorgehoben waren und 3. ein Ausgangstext mit hervorgehobenen Problemstellen zusammen mit lexikographischen Ressourcen, die zur Lö- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 1. Einführung sung der spezifischen Probleme verwendet werden konnten. Gemessen werden die Bearbeitungszeiten für die Aufgaben und die Qualität der Lösungen. Mithilfe teststatistischer Mittel wird gezeigt, dass die Bereitstellung lexikographischer Hilfsmittel einen Effekt auf die Qualität der Lösungen hatte. Die Studie verwendet verschiedene statistische Methoden für die Hypothesenprüfung. Begleitend oder vertiefend zu den beiden letztgenannten Kapiteln empfehlen sich → Kapitel 21 [Aufbereitung Untersuchungsergebnisse] und → Kapitel 28 [Werkzeuge statistische Analyse]. Michael Beißwenger und Steffen Pappert präsentieren in → Kapitel 10 [Fallstudie „Emojis“ ] eine Fallstudie zum höflichen kommunikativen Handeln in einem LehrLern-Kontext. Vor dem Hintergrund einerseits der medienlinguistischen Erforschung internetbasierter Kommunikation und andererseits der linguistischen Höflichkeitsforschung werden Funktionen der Emoji-Verwendung bei der Bearbeitung einer Peer-Feedback-Aufgabe untersucht. Die Autoren betten die Arbeit in den weiteren Kontext der angewandten Linguistik ein und verstehen die Fallstudie als ein typisches Beispiel für dieses Forschungsfeld. Das Datenset, auf das sich die Studie bezieht, umfasst eine Sammlung von Postings aus einer digitalen Lernumgebung, mit denen Studierende im Rahmen eines sprachdidaktischen Seminars Arbeitsergebnisse ihrer Kommiliton*innen bewertet und kommentiert haben. Beim Verfassen der Postings konnten die Studierenden auf eine Auswahl an Emojis zurückgreifen. Die Studie vereint qualitative und quantitative Elemente und zeigt vor dem Hintergrund der linguistischen Theorie höflichen Handelns, dass die Studierenden Emojis systematisch als Mittel zur Abfederung gesichtsbedrohender sprachlicher Handlungen eingesetzt haben. Vertiefend zu dieser Studie bietet sich v. a. → Kapitel 26 [Korpora internetbasierter Kommunikation] an. Gegenstand der Untersuchung von Sandra Hansen, Felix Bildhauer und Marek Konopka in → Kapitel 11 [Fallstudie „Fugenelemente“] sind korpuslinguistische Zugänge zur Varia- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 15 15 tion im Auftreten des Fugenelements in Komposita aus zwei Nomen (Arbeit|s|weg). Die Studie fokussiert dann die sehr variable Verfugung nach Erstglied auf Konsonant (Arbeit|s|weg vs. Heimat|ort) und modelliert statistisch den Einfluss von Größen, deren Bedeutung in der bisherigen Forschung nur angenommen, aber nicht überprüft werden konnte. Die Studie ist damit quantitativ angelegt und bezieht – für Studierende der Linguistik – sehr weitreichende statistische Methoden und Analysen ein. Diese Fallstudie zeigt somit auch, wie weit das Feld der statistischen Analysen von geschriebener Sprache methodisch ist und welche Kompetenzen es zu erwerben gilt, wenn tiefergehende statistische Methoden angewandt werden sollen. Vertiefend zu dieser Studie legen wir Ihnen das Kapitel → Kapitel 21 [Aufbereitung Untersuchungsergebnisse] und Kapitel → Kapitel 28 [Werkzeuge statistische Analyse] ans Herz. Der Beitrag von Annelen Brunner und Fotis Jannidis in → Kapitel 12 [Fallstudie „Redewiedergabe“] stellt eine Fallstudie vor, in der die quantitative Verteilung von direkten und nicht-direkten Formen von Redewiedergabe im Vergleich zwischen den Literaturtypen Hochliteratur und Heftromanen untersucht wurden. Die Studie ist ein Beitrag zum Feld der (literaturwissenschaftlichen) Erzählforschung. Sie basiert auf manuell annotierten Daten aus einem selbst zusammengestellten Korpus und überprüft daran die Verlässlichkeit automatischer Annotationswerkzeuge. Die Studie ist damit korpusbasiert, quantitativ ausgerichtet und bezieht dabei auch das Thema ‚maschinelles Lernen’ ein. In ihr konnte nachgewiesen werden, dass sich die Literaturtypen sowie auch unterschiedliche Genres von Heftromanen hinsichtlich der verwendeten Wiedergabeformen unterscheiden. Da in diesem Kapitel Annotationen und Annotationswerkzeuge thematisiert werden, bieten sich als ergänzende Lektüre das → Kapitel 14 [Annotation] zu linguistischer Annotation sowie das → Kapitel 30 [Werkzeuge für die automatische Sprachanalyse] (und damit auch zur linguistischen Annotation) an. 24.03.22 11:06 16 Einführung und Grundlagen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Überblickskapitel zu einzelnen methodischen Aspekten, Ressourcen und Werkzeugen Das Feld der empirischen Linguistik ist sehr breit. Dementsprechend ist es nicht möglich, alle relevanten grundlegenden methodischen Aspekte, Ressourcen und Werkzeuge in einem Buch zu versammeln. Wir haben aber versucht, in → den Teilen III bis VII die grundlegenden Fragen im Zusammenhang mit Sprachdaten, wichtige Vorgehensweisen bei der Erstellung und Analyse von Daten sowie zentrale heute verfügbare Ressourcen und Werkzeuge anzusprechen. Die beiden → Kapitel in Teil III behandeln zentrale Aspekte des Korpusaufbaus und -managements, die für Sie als Nutzer*innen solcher Ressourcen, eventuell auch als jemand, der oder die vergleichbare eigene Sammlungen aufbauen möchte, von hoher Relevanz sind. Ein Sprachkorpus besteht typischerweise aus drei Schichten: den eigentlichen Äußerungen als Primärdaten, weiteren, diesen Daten zugeordneten Annotationen und Metadaten, die die Primärdaten hinsichtlich verschiedener Eigenschaften beschreiben. Thomas Schmidt thematisiert in → Kapitel 13 [Daten und Metadaten] verschiedene Funktionen von Metadaten, d. h. von Daten, die der Dokumentation bzw. Beschreibung empirischer Sprachdaten dienen. Er beschreibt ihre Rolle im Forschungsprozess und ihre Bedeutung für die Konzepte der Ausgewogenheit und Repräsentativität von Korpora. Anhand des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) stellt er sodann Metadaten beispielhaft für ein konkretes Korpus vor und zeigt, wie diese bei Korpusanalysen zum Einsatz kommen. In → Kapitel 14 [Annotation] führen Lothar Lemnitzer und Michael Beißwenger die Funktion und Praxis des Annotierens von Korpusdaten ein. Sie stellen verschiedene für das Deutsche verwendete Annotationsschemata (sog. Tagsets) vor und veranschaulichen an Datenbeispielen, wie diese in die Primärdaten eingebracht werden. Das Kapitel legt die Grundlagen dafür, dass Sie informiert mit annotierten Sprachdaten umgehen, den UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 16 Nutzwert von Annotationen bei der Abfrage und Analyse linguistischer Korpora einschätzen und grundsätzliche Überlegungen für die Planung eigener Annotationsprojekte anstellen können. Sollten Sie selbst eigene Korpusdaten annotieren wollen, dann sollten Sie im Anschluss das Kapitel → Kapitel 30 [Werkzeuge für die automatische Sprachanalyse] zur technischen, genauer computerlinguistischen, Verarbeitung von Sprachdaten lesen. Die dort vorgestellten Methoden bilden die Basis für ein vertieftes Verständnis der technischen Aspekte von Annotation. Im Anschluss haben Sie die Wahl zwischen einfach zu bedienenden Korpusplattformen, in die Annotationswerkzeuge integriert sind (→ Kapitel 29 [Werkzeuge Korpusanalyse]) und einer Annotationsplattform, die auch den Ansprüchen eines größeren Projekts mit einer Vielzahl von Annotator*innen gerecht wird (→ Kapitel 31 [INCEpTION]). In → Teil IV des Bandes haben wir zwei Kapitel zu Themen zusammengestellt, die man beim Forschungsdesign gerne verdrängt und verschiebt, denen man sich aber so früh wie möglich stellen sollte. Es geht um juristische und ethische Fragen beim Umgang mit Sprachdaten für die Zwecke empirischer linguistischer Untersuchungen. Die Problematik klingt in einigen der Fallstudien an, etwa im Zusammenhang mit Probandenbefragungen in → Kapitel 4 [Fallstudie „Metropolenzeichen“] und hinsichtlich der Verwendung von Korpora, die für die Öffentlichkeit gar nicht oder nur mit einiger Mühe zugänglich sind, wie in den Kapiteln → Kapitel 6 [Fallstudie „Diskursmarker“] und → Kapitel 12 [Fallstudie „Redewiedergabe“]. Pawel Kamocki und Andreas Witt führen in → Kapitel 15 [Juristische Fragen] in verschiedene rechtliche Problematiken im Zusammenhang mit der Akquirierung und Nutzung von Sprachdaten ein. Da in den Sprachwissenschaften empirisch gearbeitet wird und Sprachdaten – insbesondere Texte, Ton- und Videoaufnahmen sowie Transkripte gesprochener Sprache, in den letzten Jahren aber auch verstärkt Sprachdaten internetbasierter Kommunikation – als Basis für die linguistische Forschung dienen, müssen 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 1. Einführung rechtliche Rahmenbedingungen für jede Art von Datennutzung beachtet werden. Sprachdaten basieren auf schriftlichen, mündlichen oder gebärdeten Äußerungen von Menschen, wodurch sich juristisch begründete Beschränkungen ihrer Nutzung ergeben. Diesen Fragen müssen Sie sich vor allem dann stellen, wenn Sie für ihr Forschungsprojekt selbstständig Daten erheben und die Ergebnisse Ihrer Forschung früher oder später veröffentlichen oder für Dritte zugänglich machen wollen. Bei der Erhebung von Daten, vor allem aus den sog. sozialen Medien, stehen Ethik und Erkenntnisinteresse in einem Spannungsfeld, das Konstanze Marx in → Kapitel 16 [Ethische Fragen] darstellt. Soziale Medien bilden zwischenmenschliche Interaktion unter quasi-öffentlichen Bedingungen ab. Für die sprachwissenschaftliche Forschung legen forschungspraktische Erwägungen, vor allem hinsichtlich der Verfügbarkeit von Daten, eine Zuwendung zum digitalen Interaktionsraum nahe. Die hiermit verbundenen ethischen Herausforderungen haben u. a. mit den folgenden Fragen zu tun: Was ist zu tun, wenn die Urheber*innen der Daten nichts von der Untersuchung wissen, was, wenn sie eigentlich Autor*innenstatus haben? Welche Daten sind öffentlich, welche privat und darf in Seminararbeiten darauf zurückgegriffen werden? Die gute Nachricht ist, dass es eine Vielzahl von Korpora der internetbasierten Kommunikation gibt, bei deren Zusammenstellung diese Fragen bereits geklärt wurden. Es empfiehlt sich daher, → Kapitel 26 [Korpora internetbasierter Kommunikation] als Überblick zu diesen Korpora zu konsultieren, bevor Sie sich den rechtlichen Fragen und ethischen Herausforderung einer eigenen Sammlung von Online-Daten stellen (diese ist aber immer dann die Mühe wert, wenn die existierenden Bestände partout nicht zu Ihrem Forschungsinteresse passen). Die Beiträge in → Teil V führen in verschiedene empirische Arbeitsmethoden ein, die der Erhebung und Aufbereitung von Sprachdaten dienen. In → Kapitel 17 [Audio- und Videografie] stellt Anja Stukenbrock methodische Grundlagen der Audio- und Videogra- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 17 17 fie von verbaler Interaktion aus der Sicht von multimodaler Konversationsanalyse und verwandten Forschungsrichtungen vor. Der Fokus liegt auf der Erhebung von Videodaten für eigene Forschungszwecke. Den Ausgangspunkt bildet die Reflexion des Konstruktcharakters von Daten, aus dem sich ein enger Zusammenhang zwischen Gütekriterien für Aufnahmen und für darauf basierende Analysen ergibt. → Kapitel 18 [Interviewerhebungen] von Katharina König vermittelt einen Überblick über den Einsatz von Interviews als Erhebungsinstrument in der Linguistik. Neben der Vorstellung verschiedener Interviewformen werden anhand zweier Studien mögliche Fragestellungen und Analysebefunde interviewbasierter linguistischer Forschung skizziert. Abschließend werden prototypische Phasen einer Interview-Studie dargestellt und forschungspraktische und -ethische Herausforderungen diskutiert. In → Kapitel 19 [Lautes Denken] führen Caroline Schuttkowski und Katharina Staubach in die Methode des Lauten Denkens ein. Dabei werden Proband*innen bei der Bearbeitung einer Aufgabe aufgefordert, alle kognitiven Prozesse zu verbalisieren, um diese einer Analyse zugänglich zu machen. In dem Kapitel werden zunächst Methodik und Durchführung des Lauten Denkens präsentiert und eine Möglichkeit zur Auswertung der nach dieser Methode erhobenen Sprachdaten anhand der qualitativen Inhaltsanalyse vorgestellt. Die Erhebung, Aufbereitung und Auswertung von Korpusdaten steht im Zentrum des Kapitels → Kapitel 20 [Korpusdaten] von Lothar Lemnitzer. In diesem Kapitel werden die Entscheidungen und Prozesse dargestellt, die beim Aufbau und vor allem der Aufbereitung von Korpora, besonders von großen Referenzkorpora, getroffen bzw. ausgeführt werden müssen. Die Kenntnis dieser Entscheidungen und Prozesse stellt ein wichtiges Hintergrundwissen dar, um Korpora reflektiert für eigene linguistische Untersuchungen nutzen zu können. Die Aufbereitung von linguistischen Analysen ist Gegenstand des Kapitels → Kapitel 21 [Aufbereitung Untersuchungsergebnisse] von Sandra Hansen und Sascha Wolfer. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 18 Einführung und Grundlagen Sobald eine statistische Datenanalyse abgeschlossen ist, müssen in einem weiteren Schritt die Untersuchungsergebnisse aufbereitet und dargestellt werden. Hierzu gibt es verschiedene Möglichkeiten, die davon abhängig sind, welche Art von Analyse man durchgeführt hat. Der Beitrag geht dabei im Besonderen auf die Aufbereitung der Daten in Tabellenform ein und zeigt an einem Beispiel, wie man die Ergebnisse von statistischen Tests darstellen bzw. visualisieren kann. Lothar Lemnitzer und Nils Diewald befassen sich in ihrem Beitrag in → Kapitel 22 [Korpusabfragen] mit der Abfrage und Analyse von Korpusbelegen. Es werden grundlegende Konzepte von Abfragesystemen und Abfragesprachen für die Suche in Korpora vorgestellt. Diese Konzepte sollen helfen, die einzelnen Abfragesprachen besser verstehen und vergleichen zu können. Die Details und die Möglichkeiten und Grenzen zweier als Beispiel gewählter Abfragesprachen werden im zweiten Teil anhand vieler Beispiele vorgeführt. Miriam Morek führt in → Kapitel 23 [Gesprächsanalytische Transkription] am Beispiel des Gesprächsanalytischen Transkriptionssystems (GAT 2) in die gesprächsanalytische Transkription ein. Transkription bezeichnet den Prozess des Verschriftens gesprochener Sprache und stellt einen zentralen Schritt der Untersuchung mündlicher Kommunikation dar. In diesem Kapitel wird erläutert, welchen Zweck Transkripte im Forschungsprozess erfüllen und wie beim Transkribieren von Gesprächsaufzeichnungen vorgegangen wird. Skizziert werden darüber hinaus auch Möglichkeiten der graphischen Repräsentation von Multimodalität. So zeigen diese verschiedenen Kapitel nicht alle, sondern ausgewählte Methoden, die für die Erhebung und Aufbereitung von Sprachdaten für viele Studienarbeiten in der germanistischen Linguistik wichtig sind. Teil VI und VII des Bandes geben Ihnen schlussendlich einen Überblick darüber, welche Korpusressourcen es bereits für das Deutsche gibt und welche Werkzeuge für die empirische Sprachanalyse zur Verfügung stehen. In Teil VI werden bestehende Korpora und vor allem Korpussammlungen vorgestellt, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 18 die von großen Institutionen wie dem Leibniz-Institut für Deutsche Sprache, der BerlinBrandenburgischen Akademie der Wissenschaften oder von anderen Anbietern für die Forschung bereitgestellt werden, meist im Paket mit Abfragesprachen und Rechercheumgebungen – mehr zu diesen erfahren Sie in → Kapitel 22 [Korpusabfragen]. Die unkompliziertesten und deshalb wohl am häufigsten verwendeten Korpora sind die Korpora geschriebener Sprache. In → Kapitel 24 [Korpora geschriebener Sprache] stellt Lothar Lemnitzer die wichtigsten Vertreter aus der germanistischen Linguistik vor. Computerlinguistische Verfahren (→ Kapitel 30 [Werkzeuge automatische Sprachanalyse[) und Annotationen bzw. Tagsets (→ Kapitel 14 [Annotationen]) sind vor allem anhand dieser Daten entwickelt worden und sind auf diese zugeschnitten. Bei den Korpora gesprochener Sprache bildet das Transkript des Audiosignals (dazu → Kapitel 23 [Gesprächsanalytische Transkription]) die Brücke für einen einfacheren, nämlich zeichenkettenbasierten Zugang zu den Sprachdaten. Bei avancierteren Systemen sind Transkript und Audiosignal aligniert und gelegentlich mit Videoaufnahmen der Äußerungssituation verbunden, sodass man mehrere Modi beobachten und erforschen kann. Die wichtigsten Korpora dieser Art stellt Thomas Schmidt in → Kapitel 25 [Korpora gesprochener Sprache] vor. Wir betrachten Korpora der internetbasierten Kombination als einen eigenen Korpustyp, aus dem einfachen Grund, dass die internetbasierte Kommunikation eine Sprachgebrauchsdomäne mit einer charakteristisch eigenständigen sprachlichen und strukturellen Merkmalhaftigkeit bildet. Ein Großteil der internetbasierten Kommunikation wird im Medium der Schrift organisiert. Die dahinterstehenden Kommunikationstechnologien und Kommunikationsumgebungen ermöglichen aber kommunikative Sequenzen, die interaktional strukturiert sind und daher (zumindest zu einem gewissen Grad) mehr mit den Strukturen eines Gesprächs gemeinsam haben als mit denen monologischer Texte. Durch ihre Schriftlichkeit weisen sie zugleich materiale und mediale Qualitäten von Textformen auf, die sich von 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 1. Einführung den Qualitäten gesprochener Sprache unterscheiden. Dies schlägt sich in charakteristischen sprachlichen Ausformungen nieder. In einigen der in Teil II vorgestellten Fallstudien stehen deshalb Daten der internetbasierten Kommunikation im Mittelpunkt der Untersuchung (→ Kapitel 3 [Fallstudie „OKAY“] und → Kapitel 10 [Fallstudie „Emojis“]) oder werden zumindest mitbedacht (→ Kapitel 6 [Fallstudie „Diskursmarker]“). Michael Beißwenger und Harald Lüngen stellen in → Kapitel 26 [Korpora internetbasierter Kommunikation] die wichtigsten Vertreter von Korpora internetbasierter Kommunikation vor und skizzieren die Herausforderungen, die sich beim Aufbau und der Nutzung solcher Sprachdatensammlungen in spezifischer Weise stellen. Der letzte Teil des Bandes, → Teil VII, ist Werkzeugen gewidmet, die für Sie hilfreich sein können, wenn Sie 1. selbst Sprachdaten zusammenstellen und diese Daten verwalten und nutzen möchten oder 2. aus größeren Datensammlungen spezifisch auf Ihre Forschungsfrage zugeschnittene Samples von Sprachdaten auswerten und im Hinblick auf eine Publikation angemessen visualisieren wollen. Thomas Schmidt stellt in → Kapitel 27 [Transkriptionswerkzeuge] Werkzeuge für die Transkription gesprochener Sprache vor und schließt dadurch an das methodisch ausgerichtete Kapitel → Kapitel 23 [Gesprächsanalytische Transkription] an. Transkriptionswerkzeuge sind spezialisierte Softwaretools für die Transkription und Annotation von Audio- oder Videoaufzeichnungen gesprochener Sprache. Thomas Schmidt erklärt einleitend, worin der Mehrwert solcher Werkzeuge gegenüber einfacher Textverarbeitungssoftware liegt, und gibt dann einen Überblick über grundlegende Prinzipien und einige weitverbreitete Tools. Am Beispiel der Editoren FOLKER und OrthoNormal demonstriert er den praktischen Einsatz zweier Werkzeuge im Zusammenhang mit typischen Arbeitsabläufen eines Korpusprojekts. Ebenfalls an ein konzeptuelles Kapitel, → Kapitel 21 [Aufbereitung Untersuchungsergebnisse] von Sandra Hansen und Sascha Wolfer, schließt das gleichermaßen von Hansen und Wolfer verantwortete Kapitel → 28 [Werkzeuge statistische Analy- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 19 19 se] zu Werkzeugen für die statistische Analyse an. In diesem Kapitel werden Werkzeuge vorgestellt, die Sie bei der quantitativen Analyse der von Ihnen erhobenen Daten unterstützen können. Im Zentrum der Darstellung steht dabei die in der Linguistik weitverbreitete Programmiersprache R sowie damit verbundene Entwicklungsumgebungen. Susanne Haaf stellt in → Kapitel 29 [Werkzeuge Korpusanalyse] Werkzeuge und Plattformen für die Verwaltung, Analyse und Auswertung von Korpusdaten vor. Die vorgestellten Tools sind das Mittel der Wahl, wenn die von großen Plattformen und Anbietern bereitgestellten Daten und Rechercheumgebungen für Ihre Untersuchungen nicht hinreichen. Das Spektrum reicht von einfachen Werkzeugen, die für genau eine Aufgabe etwa im Bereich der Annotation entwickelt wurden, über einfache, aber leicht zu bedienende Korpusplattformen bis hin zu ausgereiften, umfangreichen, von der Bedienung her aber etwas anspruchsvolleren Plattformen, die man sich auch als Werkzeugkisten vorstellen kann. Am Anfang aber steht dabei die Wahl zwischen verschiedenen Werkzeugkisten, aus denen man sich dann die geeigneten Werkzeuge heraussuchen kann. Diese wird dadurch erleichtert, dass die Möglichkeiten der jeweiligen Software am Beispiel einer durchgängigen Fallstudie demonstriert werden. Auch in → Kapitel 30 [Werkzeuge automatische Sprachanalyse] von Andrea Horbach werden Werkzeuge für die Verarbeitung von Sprachdaten vorgestellt. Insofern ergibt sich eine Überschneidung zu → Kapitel 29 [Werkzeuge Korpusanalyse]. Die gemeinsame Lektüre beider Kapitel ist daher sehr zu empfehlen. Das Kapitel → Kapitel 30 [Werkzeuge automatische Sprachanalyse] stattet Sie mit mehr Hintergrundwissen aus der Welt der Sprachtechnologie bzw. Computerlinguistik aus und befähigt Sie zu einer besseren Einschätzung zur Qualität der Ergebnisse, die Sie von einer automatischen Analyse und Annotation von Korpusdaten erwarten können. Diese Qualität ist sowohl von der Art der Daten, die analysiert werden sollen, abhängig als auch von der Komplexität der Analysebzw. Annotationsaufgabe. In → Kapitel 31 [INCEpTION] beschreibt Marcel Fladrich die 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 20 Einführung und Grundlagen Software INCEpTION mit ihren wesentlichen Funktionen und stellt anschließend ein forschungsbezogenes Nutzungsszenario am Beispiel der Annotation literarischer Texte im DFG-Projekt „Interaktionale Sprache bei Andreas Gryphius – datenbankbasiertes Arbeiten zum Dramenwerk aus linguistisch-literaturwissenschaftlicher Perspektive“ vor. Es handelt sich um eine reichhaltige Software, die als Plattform vor allem für große, ein Team umfassende Annotationsprojekte geeignet ist und für diese kollaborative Form des Arbeitens eine Vielzahl von nützlichen Hilfsmitteln bereitstellt. Diese Hilfsmittel erleichtern und beschleunigen nicht nur viele Arbeitsschritte, sondern vereinfachen auch deren Überwachung. Die Lektüre der Kapitel 29 bis 31 kann mit der Lektüre des eher konzeptuellen Kapitels → Kapitel 14 [Annotation] zu Annotationen kombiniert werden. Zu guter Letzt sei noch erwähnt, dass wir die Autor*innen des Bandes gebeten haben, eine Form geschlechtergerechter Sprache zu verwenden und auf die durchgängige Verwendung des sogenannten generischen Maskulinums zu verzichten. Welche Mittel ihnen dafür sinnvoll erschienen, war den Autor*innen überlassen. Innerhalb einzelner Beiträge sollten die Formen des Genderns einheitlich sein, über den Band hinweg sind sie es nicht. Dies scheint uns aber auch am besten den Sprachwandelprozess, in dem wir uns gerade befinden, abzubilden und den Präferenzen der einzelnen Autor*innen entgegenzukommen. Alle Beiträger*innen waren mit diesem Vorgehen einverstanden. Vernetzung der Kapitel des Buches und interessengeleitete Pfade durch dieses Buch zu finden. Einige mögliche Lesepfade haben wir bereits in dieser Einleitung skizziert. Im Zentrum sollten Ihre Forschungsfrage und Ihr Projekt stehen. Eine empirische Studie durchzuführen verlangt immer, dass man sich sowohl mit den Daten, die man erforschen möchte, als auch mit den geeigneten Methoden sorgfältig auseinandersetzt und sich in verschiedene Teilaspekte einarbeitet. Trotzdem lohnt sich diese Investition, weil man im besten Fall mit interessanten, intersubjektiv nachvollziehbaren Forschungsergebnissen belohnt wird. Deshalb möchten wir Sie ausdrücklich dazu ermuntern, diese Mühe auf sich zu nehmen. Wir freuen uns, wenn es uns mit diesem Buch gelingt, Sie dabei in nützlicher Weise zu begleiten. Wir hoffen, dass Ihnen die Lektüre der einzelnen Kapitel ebenso viel Vergnügen bereitet wie uns das Verfassen und Zusammenstellen der Texte. Die Entstehung des Buches wäre ohne die Mithilfe vieler Hände und Köpfe nicht möglich gewesen. In erster Linie gilt deshalb unser Dank den Autor*innen der Kapitel, die unsere Fragen und Anmerkungen mit viel Geduld und Verständnis beantwortet haben. Die studentischen Hilfskräfte Hanna Hoebink, Kristin Katschak und Cathrin Pichler in Essen sowie Dora Hinderer in Mannheim haben die fertigen Manuskripte noch einmal auf Punkt und Komma geprüft. Auch ihnen gilt unser Dank. Schließlich wollen wir von Herzen dem Lektorat des Verlags und besonders Frau Nadine Albert für die ebenso sachkundige wie verständnisvolle Begleitung des Manuskripts auf dem Wege zur Veröffentlichung danken. Die Autor*innen der Beiträge und wir als Herausgeber*innen haben zahlreiche Querverweise in die einzelnen Kapitel gesetzt, die es Ihnen ermöglichen sollen, nicht-lineare Essen, Berlin, Mannheim, 1. Dezember 2021 Michael Beißwenger, Lothar Lemnitzer und Carolin Müller-Spitzer UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 20 24.03.22 11:06 21 2. Methodische Grundlagen: Empirisches Forschen in der germanistischen Linguistik Der folgende Leitfaden bietet eine grundlegende Übersicht darüber, welche Schritte bei der Konzeption und Durchführung einer empirischen Untersuchung in der germanistischen Linguistik zu beachten sind. Wir werden den grundlegenden Ablauf und die zugrunde liegenden Konzepte allgemein bzw. modellhaft beschreiben und sie anhand von einfachen Beispielen illustrieren. Eine stärkere Ausgestaltung anhand von Beispielen zu verschiedenen linguistischen Forschungsfragen und -feldern und damit auch mehr Illustrationen, wie die einzelnen Schritte für bestimmte Forschungsfragen umzusetzen sind, finden Sie in den Fallstudien im → Teil III dieses Bandes.1 Detailliertere Ausführungen zu den zentralen Konzepten des empirischen Arbeitens in der Linguistik finden Sie in → Teil VI dieses Bandes. Weiterführende Literatur findet sich am Ende des Beitrags. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Carolin Müller-Spitzer, Alexander Koplenig, Sascha Wolfer 1. Sprache empirisch untersuchen 1 Wenn wir einen Gegenstand mit wissenschaftlichen Maßstäben und Zielen empirisch untersuchen wollen, dann müssen wir grundsätzlich anders verfahren, als wir dies durch unser alltägliches Wahrnehmen und Handeln gewohnt sind. Empirisch heißt zunächst „auf Erfahrung beruhend“. Das bedeutet, empirische Untersuchungen verlangen, dass wir geeignete Daten auffinden, erheben und dokumentieren. Diese Daten werden dann qualitativ oder quantitativ ausgewertet, um eine Forschungsfrage zu beantworten oder um etwas Interessantes über unseren Forschungsgegenstand herauszufinden. Quantitative Verfahren haben zum Ziel, die Auswahl an Daten, die für die Zwecke der Untersuchung ausgewertet werden sollen (den sog. Datensatz), mit Hilfe von statistischen Verfahren auszuwerten und dadurch Häufigkeiten des Auftretens bestimmter Phänomene zu „messen“. Bei den qualitativen Verfahren werden dagegen oft weniger standardisierte, eher interpretative und hermeneutische („verste1 hende“) Methoden zur Datenanalyse angewandt. Welche Methode für ein konkretes Untersuchungsvorhaben geeignet ist, ergibt sich dabei immer aus dem Forschungsgegenstand sowie den Vorlieben und Vorkenntnissen der Forschenden. Ein Beispiel für eine quantitative linguistische Studie ist die Untersuchung der Frage, ob in den Jahren um 2010 mehr Anglizismen verwendet wurden als um 1980, denn hier handelt es sich um einen Mengenvergleich. Um diese Forschungsfrage zu operationalisieren (d. h. messbar zu machen), muss man allerdings viele Faktoren der Untersuchung festlegen, um eine präzise und für Dritte nachvollziehbare Anwendung der Frage auf die Untersuchung der Daten zu ermöglichen. In unserem Beispiel wären dazu zunächst u. a. die folgenden Fragen zu klären: 1. Was sind Anglizismen? Wie werden sie trennscharf von anderen lexikalischen Elementen unterschieden? 2. Welche Datenbasis zieht man für den Vergleich heran? Eine bestimmte Zeitschrift? Verschiedene Texte zu unterschiedlichen Zeitabschnitten? Wenn Letzteres: Sind diese dann Zu vielen der hier im Folgenden aufgeführten Begriffe (wie Boxplot, Usability-Test, Logfiles etc.) gibt es mittlerweile gute Wikipedia-Artikel auf www.wikipedia.de. Ob diese von genug Autor*innen erarbeitet und geprüft wurden, können Sie anhand der Revisionshistorie der Artikel prüfen und danach entscheiden, ob sie zitierfähig sind. Eine weitere gute Quelle ist das „Internet-Lexikon der Methoden der empirischen Sozialforschung (ILMES): http://wlm.userweb.mwn.de/Ilmes/. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 21 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 22 Einführung und Grundlagen noch vergleichbar? 3. Welche Schlüsse kann man aus dem Vergleich ziehen und welche nicht? 4. Welche statistischen Maße werden für den Vergleich herangezogen? Wenn man diese Punkte geklärt hat, kann man im besten Fall einen quantitativen Vergleich der Anglizismenverwendung in bestimmten Texten vornehmen. Eine eher qualitative linguistische Untersuchung in diesem Zusammenhang wäre, ob sich Sprachteilnehmer*innen an der Verwendung von Anglizismen stören oder welche Funktionen Verwendungen von Anglizismen in einem konkreten Text- oder Gesprächszusammenhang haben. Auch hier muss natürlich die Forschungsfrage genau operationalisiert werden, z. B.: 1. Wie im letzten Beispiel: Was sind Anglizismen? 2. Was heißt „stören“? Wie könnte man das, z. B. in strukturierten Interviews, messen? 3. Welche Sprachteilnehmer*innen sollen an der Untersuchung teilnehmen? Hier gibt es also nicht unbedingt weniger Begriffe zu schärfen, das Ziel der Untersuchung besteht aber eher in einer Bewertung, einer Interpretation der Daten und weniger im Zählen bestimmter Elemente. Wie Sie in den verschiedenen Fallstudien dieses Bandes sehen werden, sind in der Linguistik die meisten Studien allerdings eine Mischung aus quantitativen und qualitativen Herangehensweisen. Bei der Analyse von Sprache ist dabei stets zu beachten, dass sprachliche Daten sehr speziell verteilt sind: Wenige Wörter kommen im dokumentierten Sprachgebrauch sehr häufig vor, sehr viele andere hingegen sehr selten. Diese sog. Zipf-Verteilung (sehr wenige Einheiten sehr häufig, sehr viele sehr selten) bringt bestimmte systematische Herausforderungen mit sich, z. B. dass im Bereich der niedrig-frequenten Wörter immer sehr viel Fluktuation herrscht und sprachliche Daten, die in verschiedenen Zeiträumen erzeugt bzw. erhoben wurden, somit schwer zu vergleichen sind (→ Kapitel 20 [Korpusdaten] sowie → Kapitel 29 [Werkzeuge zur Korpusanalyse] in diesem Band). Man könnte nun denken, dass Sprache leicht empirisch zu untersuchen ist, weil wir fast ständig von ihr umgeben sind. Wir sprechen mit unserem engsten Umfeld, schreiben und lesen Nachrichten, telefonieren und rezi- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 22 pieren die Neuigkeiten der Welt über geschriebene oder gesprochene Sprache. Außerdem wissen wir, dass Unternehmen wie Google oder Facebook sehr viele sprachliche Daten speichern und analysieren, die über ihre Plattformen ausgetauscht werden. Auch die Forschungscommunity hat große digitale Datensammlungen, sog. Korpora, zum geschriebenen und gesprochenen Deutsch aufgebaut (→ Kapitel 24 [Korpora geschriebener Sprache], → Kapitel 25 [Korpora gesprochener Sprache] und → Kapitel 26 [Korpora internetbasierter Kommunikation] in diesem Band). In diese Ressourcen fließen allerdings nur bestimmte sprachliche Daten ein: bei den schriftlichen Korpora zum großen Teil Zeitungstexte, zu einem kleineren Teil Zeitschriften, Belletristik sowie Sprachverwendung in der internetbasierten Kommunikation bzw. in sozialen Medien. Auch bei den mündlichen Korpora ist es beispielsweise schwierig, ungefilterte private Kommunikation zu erfassen. Dass diese Ressourcen nicht die deutsche Sprache abbilden, können Sie sich vielleicht besser verdeutlichen, wenn Sie sich einmal Ihr eigenes soziales Umfeld vor Augen führen: Freund*innen, Familie, Dozierende, Ihre Lehrer*innen aus der Schule. Versuchen Sie sich eine große Gruppe von etwa 50 Personen vorzustellen. Und nun überlegen Sie, wie viel Sprache dieser Personen in linguistische Korpora einfließt. Ihre gesprochene Sprache vermutlich gar nicht, es sei denn, es sind Leute dabei, die bewusst an linguistischen Datenerhebungen teilnehmen. Und auch dann wird die üblicherweise private Kommunikation der Forschung nicht oder nur sehr vereinzelt zur Verfügung stehen. Ihre privaten Textnachrichten oder Posts in sozialen Medien fließen auch nicht in linguistische Korpora ein, da sie in der Regel auf den Seiten privatwirtschaftlicher Unternehmen ausgetauscht werden, auf die die Forschung keinen Zugriff hat bzw. die sie nicht ohne Weiteres im großen Stil auswerten darf. Andere alltagsnahe schriftliche Erzeugnisse wie Einkaufszettel oder E-Mails sind ebenfalls nicht in großem Stil in linguistischen Korpora verfügbar. Genauso wenig die schriftlichen Arbeiten aus der Schule oder der Universität, es sei denn, dafür wurde ein gesondertes Einverständnis abgegeben. Nur 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2. Grundlagen die sprachlichen Daten, die ihr Umfeld für die Öffentlichkeit formuliert und die dann in Organen wie Tageszeitungen, Zeitschriften oder Blogs veröffentlicht werden, stehen der linguistischen Forschung zur Verfügung, d. h. nur wenn Sie eine/n Journalist*in oder Wissenschaftler*innen in Ihrem Umfeld haben, ist deren/dessen Sprache potentieller Gegenstand linguistischer Forschung. Das ist insofern unbefriedigend, als spontane Äußerungen in alltagsnahen Situationen für viele Bereiche der linguistischen Forschung von besonderem Interesse sind. Im alltäglichen Sprachgebrauch findet der größte Teil der Sprachdynamik statt, d. h. hier haben die sprachliche Variation und der sprachliche Wandel ihren Ausgangspunkt und ihren Sitz: Unterschiedliche Generationen sowie Menschen mit unterschiedlichen Familiensprachen und sprachlichen Repertoires kommunizieren miteinander, Kinder erwerben die Sprache, Menschen versuchen sich durch Sprache gegenseitig zu beeindrucken, Konflikte werden sprachlich ausgehandelt usw. Umso mehr muss man hinschauen, welche sprachlichen Daten in welcher Menge man tatsächlich empirisch untersuchen kann. Zumeist möchte man nämlich in der empirischen Forschung nicht nur eine Aussage über die erhobenen bzw. analysierten Daten treffen, sondern diese Aussage auch generalisieren, d. h. von den in einem untersuchten Datensatz beobachteten oder gemessenen Verhältnissen auf die Verhältnisse in einem ganzen Bereich der Sprachverwendung rückschließen, der größer ist als der Datensatz selbst – zum Beispiel auf die Sprachverwendung in privaten WhatsApp-Interaktionen oder die Besonderheiten gesprochener Sprache. Die relevanten Begriffe in diesem Kontext sind interne Validität und externe Validität. In diesem Kontext liest man oft von „repräsentativen Stichproben“, welche vermeintlich Rückschlüsse auf die Grundgesamtheit ermöglichen sollen. Generell (und insbesondere für sprachliche Daten) ist ein Reden über Repräsentativität von Stichprobenuntersuchungen nur mit großer Vorsicht angebracht, denn die hohen Anforderungen an solche Datensätze sind in der Praxis nur in den seltensten Fällen auch wirklich erfüllt. Ein illus- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 23 23 tratives nicht-linguistisches Beispiel ist hier die bekannte „Sonntagsfrage“, wenn in den Medien darüber berichtet wird, dass in einer repräsentativen Umfrage 1000 Deutsche nach ihrer Wahlabsicht bei der nächsten Bundestagswahl telefonisch befragt wurden. Dabei liegt es in der Natur der Sache, dass die Teilnahme an einer solchen Umfrage freiwillig ist. Was ist nun aber mit all jenen Angerufenen, die nicht teilnehmen möchten? Daraus folgt, dass die Umfrage lediglich repräsentativ für all jene Personen sein kann, die überhaupt an Umfragen teilnehmen. Doch auch das lässt sich weiter einschränken, insofern die Umfrage nur für Personen repräsentativ sein kann, die überhaupt ein Telefon besitzen. Und was ist mit Insassen z. B. von Gefängnissen? Die Liste erforderlicher Einschränkungen, unter denen die Antworten auf die „Sonntagsfrage“ repräsentativ die aktuelle Parteienpräferenz in der Gesamtheit der Wahlberechtigten widerspiegeln, ließe sich beliebig erweitern. Bezogen auf unseren Forschungsgegenstand, die deutsche Sprache, bedeutet das im Umkehrschluss, dass, wenn man beispielsweise einer Untersuchung zur deutschen Zeitungssprache nur überregionale Zeitungen (z. B. im Deutschen Referenzkorpus, → Kapitel 24 [Korpora geschriebener Sprache] in diesem Band) zugrunde legt, man strenggenommen nur etwas über die überregionale Zeitungssprache herausfinden kann. Will man aus dieser Datengrundlage auf das ‚schriftliche standardnahe Deutsch’ schließen, muss man genau begründen, warum man meint, dass man dies tun kann. Genauso kann man von einem Korpus zum gesprochenen Deutsch wie FOLK (Forschungs- und Lehrkorpus Deutsch, → Kapitel 25 [Korpora gesprochener Sprache] in diesem Band) nicht Rückschlüsse auf ‚das gesprochene Deutsch’ ziehen, da – wie Sie sich anhand Ihres sozialen Umfelds deutlich machen können – der größte Teil der gesprochenen Sprache der Forschung nicht zur Verfügung steht. Das soll nicht heißen, dass Sprache nicht empirisch zu erforschen ist. Im Gegenteil: Sie werden allein in diesem Band viele Beispiele finden, wie das gewinnbringend funktionieren kann. Ein wesentlicher Bestandteil solider 24.03.22 11:06 24 Einführung und Grundlagen empirischer Arbeit ist aber, genau hinzuschauen, welche Daten man untersucht und wie man sie interpretieren kann. Doch kommen wir nun zu dem Schritt, der am Anfang jeder empirischen Untersuchung stehen sollte, nämlich zur Formulierung der Forschungsfrage. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2. Formulierung und Präzisierung der Forschungsfrage Jedes empirische Projekt beginnt mit einer Frage. Je genauer diese Frage formuliert wird, desto einfacher wird es, die empirische Studie weiter auszuarbeiten. Karl Popper (1994) illustrierte das folgendermaßen: Der Aufforderung „Beobachten Sie!“ kann man nur sinnvoll nachkommen, wenn man weiß, was man beobachten soll. Setzt man sich beispielsweise in ein Klassenzimmer und beobachtet die Wortmeldungen der Schüler*innen einer vierten Klasse im Deutschunterricht, wird man bei der Beobachtung nur dann Regularitäten erkennen, wenn man zuvor eine Frage bzw. ein beobachtungsleitendes Erkenntnisinteresse formuliert hat. Ungesteuerte bzw. ungeleitete Beobachtungen werden keine belastbare Grundlage für einen Erkenntnisgewinn sein. Popper vertritt daher die These: „ohne Problem keine Beobachtung.“ Wenn wir zu neuen Erkenntnissen gelangen möchten, sollte man sich vorher möglichst präzise Fragen stellen (vgl. Popper 1994, S. 19–20) – zum Beispiel diese: Melden sich Mädchen häufiger als Jungen? Hängt die Menge der Wortmeldungen damit zusammen, wie weit vorne die Kinder sitzen? Sind die Wortmeldungen der Jungen in der Klasse länger als die der Mädchen? Nach unserer eigenen Erfahrung wird dieser Punkt im empirischen Forschungsprozess häufig unterschätzt. Da jedoch alle weiteren Schritte einer empirischen Untersuchung von der Forschungsfrage, dem damit verbundenen Forschungsziel und den entsprechenden Hypothesen abhängen, ist es besonders wichtig, diesem Punkt einen entsprechenden Stellenwert einzuräumen: UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 24 Manche Studie krankt daran, daß irgendetwas in einem sozialen Bereich untersucht werden soll, ohne daß das Forschungsziel auch nur annähernd klar umrissen wird. Auch mangelt es häufig an der sorgfältigen, auf das Forschungsziel hin abgestimmten Planung und Auswahl des Forschungsdesign, der Variablenmessung, der Stichprobe und des Erhebungsverfahrens. Das Resultat unüberlegter und mangelhaft geplanter empirischer ‚Forschung’ sind nicht selten ein kaum noch genießbarer Datensalat und aufs äußerste frustrierte Forscher oder Forscherinnen. (Diekmann 2011, S. 187) Zur Formulierung der Forschungsfrage gehört also auch, sich klar darüber zu werden, welche Daten zur Beantwortung dieser Frage erhoben werden müssen oder wie vorhandene Daten aufbereitet werden können, damit die relevanten Merkmale entsprechend gemessen, d. h. operationalisiert, werden können, so wie wir es oben für das Anglizismenbeispiel skizziert haben. 3. Operationalisierung Wenn die Forschungsfrage präzisiert und damit die theoretische Konzeption der Untersuchung geklärt ist, muss entschieden werden, wie man die einzubeziehenden Merkmale messen will. Merkmale werden in diesem Kontext Variablen genannt. Illustriert an einem Beispiel: Ein Projektteam, das ein neues Onlinewörterbuch entwickelt hat, möchte untersuchen, wie dieses Wörterbuch für Nutzer*innen zu benutzen ist. Zu diesem Zweck soll in einem Labor ein sogenannter Usability-Test gemacht werden. Ein Usability-Test dient allgemein dazu, die Gebrauchstauglichkeit einer Soft- oder Hardware mit potenziellen Benutzer*innen zu überprüfen; dazu werden die Versuchspersonen veranlasst, mit dem Testobjekt, d. h. in diesem Beispiel mit dem neuen Onlinewörterbuch, typische Aufgaben zu lösen. Dabei wird geprüft, an welchen Stellen Probleme bei der Benutzung auftreten, z. B. dass ein/e Benutzer*in die passende Suchoption nicht findet, sich im Wörterbuch nicht hinreichend gut und 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2. Grundlagen schnell orientieren kann oder nicht zu einem früher angeschauten Artikel zurückfindet. Für das neue Onlinewörterbuch sollen in der späteren Datenanalyse diejenigen Proband*innen, die schon viele Typen von Sprachwörterbüchern benutzt haben, von denjenigen unterschieden werden, die eher als unerfahrene Nutzer*innen eingeordnet werden können. Die entsprechende Variable könnte man hier also „Erfahrene Benutzer*in“ nennen, welche dann für jede der Versuchspersonen die Variablenausprägung „ja“ bzw. „nein“ beinhalten soll. Gleichzeitig muss bei der Planung der Studie überlegt werden, wie diese Erfahrenheit bzw. Unerfahrenheit gemessen werden kann. Würden die Forscher*innen beispielsweise vor dem Usability-Test eine Frage stellen wie: „Welche Wörterbücher haben Sie schon einmal benutzt?“ und davon ausgehen, dass die Proband*innen dann in ein freies Textfeld die von ihnen genutzten Wörterbuchtypen (z. B. Allgemeinwörterbuch, Fachwörterbuch, Spezialwörterbücher usw.) eintragen, könnten sie eine unangenehme Überraschung erleben. Wenn die Proband*innen in das Textfeld nämlich einfach nur „Langenscheidt“ oder „Duden“ eintragen, d. h. nur den Namen des Verlags und nicht des Wörterbuchtyps oder eines konkreten Wörterbuchprodukts (wie wir es einmal in einer Pilotstudie erfahren durften), dann kann man die Erfahrenheit hinsichtlich verschiedener Typen von Sprachwörterbüchern nicht angemessen operationalisieren. In diesem Fall ist es also besser, wenn eine feste Liste von Typen vorgegeben und zusätzlich vielleicht ein Freitextfeld eingebaut wird für jene Proband*innen, die noch mehr Informationen angeben wollen. Auch bei dem oben eingeführten Anglizismenbeispiel ist eine Operationalisierung nicht so einfach wie vielleicht zuerst gedacht. Allein schon die Frage, was genau man als Anglizismus zählt, ist nicht trivial zu beantworten und bedarf einer genauen Reflexion des mit der Untersuchung verfolgten Erkenntnisinteresses: Sollen beispielsweise Hybride wie „Musikdownload“ oder „abspacen“ als echte Anglizismen betrachtet werden? Wie ist es mit Scheinanglizismen wie „Handy“ oder „Beamer“? Auf der einen UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 25 25 Seite sind Letztere linguistisch gesehen keine Entlehnungen, sollten aber vielleicht bei der Untersuchung englischsprachiger Elemente in der deutschen Sprache nicht ausgeschlossen werden. Zum anderen muss die Frage geklärt werden, wie man die verschiedenen Token, also einzelne Vorkommen von Wörtern, einzelnen Typen zuordnet. Die folgenden drei Belege zum Wort „Rafting“ veranschaulichen dieses Problem: • „Fastenwandern im Frankenwald, Sennerin auf der österreichischen Alm, river rafting in Kanada („nie wieder, lebensgefährlich!“).“ (Die Zeit, 09.07.1998; Monika Putschögl, S. 12) • „Was erwartet den Gast sonst noch in Bad Hausen? Folgendes: mountain climbing beziehungsweise biking, river rafting, hiking, bird watching, mushroom searching, freebenching, freshair snapping, original candlelight brotzeiting sowie Schmei sniffing.“ (Süddeutsche Zeitung, 01.09.2003; Das Streiflicht, S. 1) • „Abseits der Skipisten warten Hunderte Kilometer Loipen, Winterreiten und Schneeschuhwandern, Snowtubing und -rafting im Schlauchboot in Flachau, eine sechs Kilometer lange Rodelbahn in Radstadt oder auch eine romantische Pferdeschlittenfahrt zur Filzmooser Hofalm.“ (Niederösterreichische Nachrichten, 18.01.2010; Sonnenskilauf in der Sportwelt, S. 28) Sollen alle diese Belege zu „Rafting“ gezählt werden? Oder sollte man unterschiedliche Typen ansetzen wie „Riverrafting“ und „Snowrafting“? Dies sind typische Fragen, die bei der Operationalisierung der Forschungsfrage geklärt werden müssen. 4. Erhebungsdesign Mit dem Erhebungsdesign wird der zeitliche Modus der Datenerhebung spezifiziert. Für linguistische Untersuchungen gilt dabei, dass mit Erhebungszeitpunkt nicht der Zeitpunkt der Untersuchung gemeint ist, sondern der Zeitpunkt der Produktion der erhobenen Daten. Wenn Forscher*innen beispielsweise Tex- 24.03.22 11:06 26 Einführung und Grundlagen te aus dem Nachrichtenmagazin „Der Spiegel“ aus den Jahren 1947, 1957 und 1967 untersuchen, dann interessiert nicht, ob sie diese Untersuchung 2012, 2013 oder 2017 machen, sondern natürlich der Zeitpunkt oder Zeitraum, in dem die sprachlichen Daten entstanden sind. Dabei werden hinsichtlich des zeitlichen Modus zwei grundsätzliche Arten von Erhebungsdesigns unterschieden: Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. • Querschnittsdesign • Längsschnittdesign Ein Querschnittsdesign bezeichnet eine Datenerhebung, bei der zu einem bestimmten Zeitpunkt oder in einer kurzen Zeitspanne eine einmalige Erhebung mit beliebig vielen Entitäten (also Proband*innen, Korpora oder Teilen von Korpora, sog. Subkorpora, usw.) vorgenommen wird. Eine Querschnittserhebung erlaubt damit den Vergleich verschiedener Entitäten zu einem bestimmten Zeitpunkt. Individuelle Veränderungen über die Zeit können auf diese Weise nicht gemessen werden. Ein typisches nicht-linguistisches Beispiel ist wieder die weiter oben angesprochenen Sonntagsfrage: „Welche Partei würden Sie wählen, wenn am Sonntag Bundestagswahl wäre?“ Hier werden zu einem bestimmten Zeitpunkt verschiedene Wähler*innen zu ihrer Wahlabsicht befragt. Ein weiteres Beispiel wäre eine Studie zum quantitativen Vergleich von Anglizismen in unterschiedlichen Ressorts des „Spiegel“ aus einem Jahr (z. B. Wirtschaft vs. Gesellschaft) oder der Vergleich zweier Subkorpora (bspw. internetbasierte Kommunikation vs. überregionale Printzeitung) hinsichtlich der Menge verwendeter Anglizismen zu einem Zeitpunkt (bzw. einem kurzen Zeitraum, der aber nicht im zeitlichen Verlauf, sondern als eine Stichprobe untersucht wird). Studien im Längsschnittdesign werden noch einmal unterschieden in ein Trend- bzw. Paneldesign. Von einem Trenddesign spricht man, wenn mehrere Querschnittserhebungen zum gleichen Thema zu mehreren Zeitpunkten durchgeführt wurden und diese zu einem Trend zusammengefasst werden. Genauer: 2 Bei einem Trenddesign werden 1. die Werte der gleichen Variablen zu 2. mehreren Zeitpunkten mit 3. unterschiedlichen Stichproben, d. h. unterschiedlichen Proband*innen oder Subkorpora, erhoben. Um bei dem nicht-linguistischen Fallbeispiel von oben zu bleiben: Eine solche Trendstudie wäre die Entwicklung der Antworten zur Sonntagsfrage über einen bestimmten Zeitraum, z. B. über ein Jahr. Illustriert an der oben skizzierten quantitativen Anglizismenstudie: Wenn man beispielsweise in jedem Jahr im „Spiegel“ die Anzahl der Anglizismen im Wirtschaftsteil analysiert, kann man von einem Trenddesign sprechen. Ein Beispiel für eine Untersuchung von Anglizismen im Trenddesign bietet Eisenberg (2013). Auch die Fallstudie von Wolfgang Imo (→ Kapitel 6 [Fallstudie: „Diskursmarker“] in diesem Band) kann diesem Typ zugeordnet werden. Imo untersucht die Verwendung von Diskursmarkern im 19. Jahrhundert (anhand einiger Werke von Theodor Fontane) und in der Gegenwart (anhand von Korpora der gesprochenen Sprache und der internetbasierten Kommunikation). Im Unterschied zum Trenddesign werden im Paneldesign die 1. Werte der gleichen Variablen zu 2. unterschiedlichen Zeitpunkten, aber mit 3. der gleichen Stichprobe, d. h. den gleichen Personen, erhoben. Dieser formal geringfügige Unterschied ist in der Praxis sehr bedeutsam. Denn anders als beim Trenddesign können bei Panelerhebungen Entwicklungen auf individueller Ebene nachvollzogen werden. Allerdings ist eine Panelerhebung auch ungleich aufwendiger. Es muss viel Zeit darin investiert werden, Kontakt zu den Proband*innen zu halten und dafür zu sorgen, dass sie für viele Panelwellen, wie die einzelnen Erhebungen im Paneldesign genannt werden, zur Verfügung stehen. Ein Beispiel für eine große nicht-linguistische Panelerhebung in Deutschland ist die des Nationalen Bildungspanels (National Educational Panel Study, NEPS6619738472) zu Bildungsverläufen in Deutschland. Ziel dieser sehr umfassenden Studie ist es, Längs- https://www.neps-data.de/ sowie eine kurze Beschreibung unter https://de.wikipedia.org/wiki/Nationales_Bildungspanel. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 26 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2. Grundlagen schnittdaten unter anderem zu Kompetenzentwicklungen, Bildungsprozessen oder Bildungsentscheidungen über die gesamte Lebensspanne zu erheben. Die NEPS-Studie umfasst sechs Kohorten, die in unterschiedlichen Lebensphasen starten und jeweils über einen längeren Zeitraum begleitet werden. Die Fallstudie von Sandra Schwinning und Miriam Morek zur Wirkung einer bestimmten Maßnahme sprachlicher Förderung bei Schülern (→ Kapitel 8 [Fallstudie „Sprachliche Förderung“] in diesem Band) kann als ein Beispiel für ein Paneldesign angesehen werden. Einer festen Gruppe von Proband*innen wurde zunächst eine Aufgabe für das Erkennen einer bestimmten syntaktischen Konstruktion vorgelegt, in einem zweiten Schritt wurden diese in der Ausgangsaufgabe gefundenen Konstruktionen systematisiert und in einem dritten Schritt mussten die Proband*innen das Wissen in einer Produktionsaufgabe anwenden. Eine Intervention, deren Wirkung untersucht werden soll, wurde bei der Versuchsgruppe angewendet, bei der Kontrollgruppe nicht. Trend- und Paneldesignstudien sind beispielsweise auch notwendig, wenn der Spracherwerb von Kindern oder erwachsenen Lernenden untersucht werden soll, denn auch hier geht es immer um eine Entwicklung entweder im individuellen Verlauf oder über bestimmte Alters- oder Lernentwicklungsschritte. In der Linguistik werden Untersuchungen auch oft als synchron oder diachron bezeichnet. Synchrone Betrachtungen analysieren Sprache zu einem Zeitpunkt und sind somit am ehesten mit einem Querschnittsdesign vergleichbar (wenn sie verschiedene Entitäten miteinander vergleichen). Diachrone Studien beziehen immer die zeitliche Dimension mit ein, was auch ein definitorisches Merkmal einer Längsschnittstudie ist. 5. Arten von Forschungsdesigns hinsichtlich der Varianzkontrolle Mit der Entscheidung für ein Quer- oder Längsschnittdesign wird festgelegt, ob im Studiendesign eine zeitliche Dimension berücksichtigt wird. Bei der Planung einer em- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 27 27 pirischen Untersuchung ist noch ein weiterer Aspekt zu berücksichtigen, der sich auf die Bildung von Vergleichsgruppen und die Art der Aufteilung von Proband*innen auf diese Vergleichsgruppen bezieht. Dieser Aspekt wird auch als Varianzkontrolle (Diekmann 2011, S. 329) bezeichnet. Dabei werden drei Arten von Designs unterschieden: • Experimentelle Designs, • Quasiexperimentelle Designs, • Ex-post-facto-Designs. In einem experimentellen Design werden mindestens zwei Gruppen gebildet, wobei diese Gruppen nach einem Zufallsverfahren gebildet werden (‚Randomisierung’) und die unabhängige Variable von den Forschenden manipuliert wird. Die Begriffe „unabhängige“ und „abhängige Variable“ beziehen sich auf die Position in der Hypothese. Allgemein gesagt ist die unabhängige Variable die generierte (Experiment) oder vorgegebene (Expost-facto Design) Variable. Die abhängige Variable ist die Variable, die als abhängig davon berechnet wird, d. h. der Messwert, der in der Studie interessant ist. Ein typisches nichtlinguistisches Beispiel sind Medikamententests, in denen die unabhängige Variable (Medikament oder Placebo) von den Forschenden festgelegt wird und die Proband*innen per Zufall einer Gruppe (der Versuchs-/Stimulusgruppe bzw. der Kontrollgruppe) zugeordnet werden. Die Stimulusgruppe erhält in dem Fall das Medikament, die Kontrollgruppe bekommt ein Placebo – die Proband*innen wissen typischerweise nicht, in welcher Gruppe sie sich befinden. Die abhängige Variable wäre in diesem Fall der Grad, zu welchem sich der Gesundheitszustand der Proband*innen im Vergleich der beiden Gruppen verändert. Ein Beispiel aus dem Bereich der Wörterbuchbenutzungsforschung für eine experimentelle Untersuchung zeigt die Fallstudie in → Kapitel 9 [Fallstudie „Wörterbücher“] in diesem Band, in der die Studierenden per Zufall in unterschiedliche Versuchsbedingungen eingeteilt wurden. Eine berühmte experimentelle Studie ist die Priming-Studie der Psycholog*innen Bargh, Chen und Burrows (1996). In dieser Studie 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 28 Einführung und Grundlagen wurden New Yorker Studierende gebeten, aus einer Reihe von fünf Wörtern Vier-Wort-Sätze zu bilden. Unabhängige Variable war die Gruppenzuordnung der Proband*innen: Die eine Gruppe hatte dabei Wörter zur Verfügung, die (in den USA) mit Alter assoziiert werden, z. B. „grau“, „vergesslich“ oder „Florida“, der anderen Gruppe standen neutrale Wörter zur Verfügung. Danach folgte der für die Forscher*innen interessante Teil des Experiments: Die Versuchspersonen wurden dabei beobachtet, wie lange sie brauchten, um in einen anderen Raum zu gehen (die abhängige Variable). Dabei wurde in der Studie gezeigt, dass die Teilnehmenden, die durch die spezielle Wortauswahl eher auf das Thema Alter gerichtet waren, auch langsamer gingen. Dieser Effekt wurde als „Florida-Effekt“ bekannt. Bargh et al. führten das langsamere Gehen auf Priming zurück, d. h. dass durch subtile Beeinflussungen wie stimmungserzeugende Wörter implizite Gedächtnisinhalte aktiviert werden können, die das Verhalten beeinflussen.3 Allerdings konnte diese berühmte Studie später nicht reproduziert werden (Doyen et al. 2012), was zu einer großen Fachdiskussion um die Replizierbarkeit von sozialpsychologischen Studien führte.4 Die bereits oben erwähnten Fallstudie zur Sprachdidaktik und Sprachförderung (→ Kapitel 8 [Fallstudie „Sprachliche Förderung“] in diesem Band) und zur Wörterbuchbenutzungsforschung (→ Kapitel 9 [Fallstudie „Wörterbücher“] in diesem Band) sind Beispiele für experimentelle Designs mit (mindestens) einer unabhängigen und einer abhängigen Variable. Für ein quasiexperimentelles Design gelten die gleichen Voraussetzungen wie für ein Experiment, nur mit dem Unterschied, dass die Bedingungen nicht zufällig verteilt werden. D. h. die Vergleichsgruppen werden zwar explizit und meist im Vorhinein im Rahmen der Untersuchungsplanung festgelegt, jedoch werden die Teilnehmer*innen den Vergleichsgruppen nicht zufällig zugewiesen. Ein Beispiel für ein solches Design im Bereich der Linguistik könnte eine Untersuchung zu 3 4 der Forschungsfrage sein, ob die Neuregelung der deutschen Orthographie in den Versionen 1996 bzw. 2006 zu einem einheitlicheren oder uneinheitlicheren Schreibgebrauch im Bereich der Groß- und Kleinschreibung geführt hat. Die unabhängige Variable ist dann der Zeitraum vor vs. nach der offiziellen Einführung der neuen Rechtschreibung (je nach Fokus der Untersuchung entweder 1996 oder 2006), abhängige Variablen wären die Frequenz und Vielfalt der nach alter und nach neuer Rechtschreibung geschriebenen Formen im Bereich der Groß- und Kleinschreibung, die von den gültigen Normen abweichen. Als ein Beispiel für ein quasiexperimentelles Design kann die Fallstudie von Beißwenger und Pappert (→ Kapitel 10 [Fallstudie „Emojis“] in diesem Band) angesehen werden. Die beiden Autoren untersuchen den Einsatz von Emojis zum höflichen Handeln. Ausgewertet wird der Gebrauch von Emojis in den Beiträgen der Studierenden, die in einer Spielumgebung zu einem bestimmten Zeitpunkt eine bestimmte Rolle innehatten. Hier ist allerdings einschränkend anzumerken, dass es nur eine Versuchsgruppe und keine Kontrollgruppe gab. Ein Ex-post-facto-Design ist ein Forschungsdesign ohne zufällige Zuordnung zu experimentellen Bedingungen und ohne Manipulation der unabhängigen Variablen, d. h., Gruppen von Proband*innen werden unterschieden auf Grund von Merkmalen, die auch schon vor der Untersuchung existierten und unabhängig von der Untersuchung weiterbestehen. Dieses Design ist sehr üblich in Bezug auf Untersuchungen, die den Einfluss sozio-ökonomischer oder sozio-demografischer Faktoren auf Erziehung, Schulbildung oder beruflichen Erfolg untersuchen wollen. Auch viele linguistische Untersuchungen, die z. B. sprachliche Eigenschaften bestimmter Bevölkerungs- oder Berufsgruppen untersuchen wollen, sind dem Ex-post-facto-Design zuzuordnen, denn die Proband*innen waren schon vor der Erhebung Übersetzer*innen, Sprachwissenschaftler*innen oder Studieren- S. Stangl, W. (2019). Stichwort: ‚Florida-Effekt’. Online Lexikon für Psychologie und Pädagogik. WWW: https://lexikon.stangl.eu/10246/florida-effekt/. S. https://en.wikipedia.org/wiki/Replication_crisis. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 28 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2. Grundlagen de und werden es auch danach sein. Ein ähnliches Beispiel ist die Untersuchung des Sprachgebrauchs von Deutsch-Muttersprachler*innen vs. Deutsch-als-Fremdsprache-Lernenden. Diese werden vor und nach einer Studie über diese Eigenschaft verfügen. Anders bei Medikamententests: Die Zugehörigkeit zu einer Versuchs- bzw. Kontrollgruppe sind Variablen, die nur im Kontext einer Studie bestehen, weder davor noch danach. Ein Beispiel hierfür ist die Fallstudie von Ziegler und Schmitz zu „Metropolenzeichen“ (→ Kapitel 4 [Fallstudie „Metropolenzeichen“] in diesem Band). In der dort dargestellten Studie wurden u. a. Anwohner*innen bestimmter Stadtteile in Interviews zu ihrer Einstellung dazu befragt, wie sie es finden, dass (viele) Beschriftungen und andere Zeichen in ihrer Wohnumgebung mehrsprachig sind. Die Befragten wurden danach unterschieden, ob sie einen Migrationshintergrund haben oder nicht, d. h. nach einer Eigenschaft, die sie unabhängig von der Studie hatten. 6. Erhebungsmethode In der empirischen Sozialforschung werden vier Erhebungsmethoden unterschieden, die grundsätzlich auch in der empirischen linguistischen Forschung Anwendung finden: • Befragung (persönlich, telefonisch, schriftlich) • Beobachtung • Inhaltsanalyse • Verhaltensspuren. Neben dieser Einteilung, die in verschiedene Arten von Erhebungsmethoden unterscheidet, werden als Gruppen meist die reaktiven Verfahren von den nichtreaktiven unterschieden. Nichtreaktive Verfahren sind solche, bei denen eine empirische Untersuchung ohne Wissen des Untersuchungsobjektes durchgeführt wird, reaktive dementsprechend das Gegenteil, also Untersuchungen, bei denen das Untersuchungsobjekt weiß, dass es untersucht wird. Eine Befragung ist somit ein Beispiel für eine reaktive Methode, da die Interviewsituation die Antwortreaktionen beein- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 29 29 flussen kann, weil die Befragten natürlich wissen, dass sie befragt werden. Diekmann (2011, S. 195–196) gibt zur allgemeinen Unterscheidung reaktiver und nichtreaktiver Verfahren ein anschauliches Beispiel: Wenn man die Ernährungsgewohnheiten von Haushalten per Umfrage ermittelt, handelt es sich um eine reaktive Methode. Untersucht man dagegen mit der gleichen Zielsetzung die Haushaltsabfälle, so ist die Erhebungsmethode nichtreaktiv. Die Stärke von nichtreaktiven Verfahren liegt darin, unverfälschte Ergebnisse und Daten über echtes Verhalten zu liefern. Gleichzeitig sind die Möglichkeiten zum Einsatz solcher Verfahren stark eingegrenzt, da die Forscher*innen nur an wenigen Stellen Kontrolle über den Prozess haben. Ein Beispiel für ein nichtreaktives Verfahren aus dem Bereich der Erforschung der Benutzung lexikalisch-lexikografischer Ressourcen ist die Analyse von Logfiles. Logfiles in dem uns hier interessierenden Sinne sind Dateien, in denen Daten zum Umgang von Benutzer*innen mit einer Softwareanwendung automatisch protokolliert werden. Logfiles spielen eine zentrale Rolle zum Beispiel bei Formen internetbasierter Kommunikation, zum Beispiel Chats. Im Logfile hält die Software die von den Benutzer*innen ausgetauschten Kommunikationsbeiträge vor. Für die datengestützte Analyse der Sprachverwendung und der Interaktionsgestaltung in Chats, Foren und anderen Anwendungen bilden Logfiles eine wichtige Grundlage. Korpora internetbasierter Kommunikation wie z. B. das Dortmunder Chat-Korpus (vgl. → Kapitel 26 [Korpora internetbasierter Kommunikation] in diesem Band) umfassen aufbereitete Sammlungen solcher Dateien. Logfiles erlauben interessante Untersuchungen zu den darin dokumentierten Beiträgen und Beitragsverläufen. Sie erlauben es aber nicht ohne Weiteres, die Sprachverwendung der Benutzer*innen in Abhängigkeit zu deren Bildungsstand, Geschlecht, sprachlichen Repertoires zu analysieren, da diese Daten – es sei denn, sie werden von den Benutzer*innen in ihren Beitragen explizit thematisiert – nicht mitprotokolliert werden. Dies bedeutet, dass für viele Forschungsfragen, bei denen zur Beantwortung zum Beispiel Hintergrundinfor- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 30 Einführung und Grundlagen mationen zu den Proband*innen erhoben werden müssen, keine nichtreaktiven Verfahren zur Datenerhebung zur Verfügung stehen (vgl. Trochim 2006). Die bereits oben erwähnte Fallstudie von Beißwenger und Pappert (→ Kapitel 10 [Fallstudie „Emojis“] in diesem Band) ist ein typisches Beispiel für ein nicht-reaktives Verfahren. Die Studierenden, die an dem dort dargestellten Spiel teilnahmen, gaben zwar bewusst ihre Zustimmung zur Verwendung der Daten zu Forschungszwecken, waren sich aber nicht über den in der Fallstudie dargestellten Forschungszweck bewusst bzw. wurden nicht darüber informiert. Auch die meisten korpusbasierten Untersuchungen sind in diesem Sinne nichtreaktiv. Als Beispiel sei hier nur die Fallstudie von Storrer und Herzberger genannt (→ Kapitel 3 [Fallstudie „OKAY“] in diesem Band). Ein in diesem Zusammenhang besonders interessantes Beispiel stellt die Fallstudie in → Kapitel 7 [Fallstudie „Emotion“] in diesem Band über Einstellungen zum Nationalsozialismus dar. Die im Jahr 1934 Befragten waren sich natürlich damals darüber bewusst, dass sie interviewt bzw. befragt wurden. Sie waren sich aber nicht über die Ziele der über 80 Jahre später an diesem Material durchgeführten Untersuchung bewusst. Die Befragung ist die am häufigsten eingesetzte Erhebungsmethode in der Sozialforschung. Kenntnisse der Sozialstruktur, der sozialen Schichtung oder auch von Bildungschancen sind hauptsächlich das Ergebnis quantitativer Bevölkerungsumfragen. Kritiker*innen monieren v. a. die Reaktivität der Methode, z. B. das Problem der sozialen Erwünschtheit. Damit ist gemeint, dass Proband*innen dazu neigen (können), Fragen so zu beantworten, wie es ihrer Auffassung nach gesellschaftlich erwünscht ist. Man wird beispielsweise wenige Menschen finden, die auf die Frage: „Diskriminieren Sie im Alltag Randgruppen?“ mit „Ja“ antworten würden. Ein nicht-linguistisches Beispiel für dieses Phänomen zeigte auch Diekmann (1994) mit seinem Kollegen Preisendörfer in der ‚Drogerie-Sansal-Studie’. Der erste Teil der Studie bestand aus telefonischen Befragungen von über 1000 Teilnehmer*innen zu verschiede- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 30 nen Aspekten des Umwelthandelns. Die Ergebnisse ließen eine sehr hohe Sensibilität gegenüber kommenden Umweltproblemen erkennen. Einem Teil dieser Teilnehmer*innen wurde in einem zweiten Studienteil drei Monate später ein professionell aufgemachter Prospekt der fiktiven Drogerie „Sansal“ zugeschickt, in dem stark verbilligte Markenartikel mit folgender Begründung angeboten wurden: „Wegen der zu erwartenden strengeren Umweltschutzgesetzgebung müssen die Lager mit FCKW-haltigen Artikeln geräumt werden.“ (ebd., S. 20) Eine darauf erfolgende Katalogbestellung wurde in der Studie als Kaufabsicht interpretiert. Interessant war der Vergleich der faktischen Reaktionen mit den Antworten der Telefoninterviews zuvor, denn bei denen, die den Katalog bestellten, handelte es sich nicht vorwiegend um die Personen, die Umweltproblemen gleichgültig gegenüberstehen. Die große Mehrheit der Kaufinteressierten (75%) wusste beispielsweise laut Befragung um die schädlichen Folgen des Einsatzes von FCKW. Diese Studie ist daher ein Beispiel dafür, dass sich bestimmte gesellschaftliche Fragen schwer durch die Methode der Befragung untersuchen lassen. Das Problem der sozialen Erwünschtheit ist allerdings nicht für alle Lebensbereiche gleichermaßen relevant. Bei einer Frage nach dem Nutzen von Wörterbüchern in Situationen, in denen man Texte produziert vs. rezipiert, lässt es sich beispielsweise kaum vorstellen, dass bei der Beantwortung irgendeine Art von sozialer Erwünschtheit eine Rolle spielt. Zur Ausarbeitung eines guten Fragebogens gehört allerdings sehr viel Hintergrundwissen, es ist – wie Trochim (2006) es ausdrückt – „an art in itself“. Die bereits oben erwähnte Fallstudie von Ziegler und Schmitz zu den Metropolenzeichen (→ Kapitel 4 [Fallstudie „Metropolenzeichen“] in diesem Band) ist ein Beispiel für den Einsatz von Befragungen als Untersuchungsinstrument. In einem allgemeinen Sinne sind sämtliche empirische Methoden Beobachtungsverfahren, z. B. wird durch Beobachtung ermittelt, welche Stelle in einer Ratingskala angekreuzt wurde. Als Erhebungsmethode in der Sozialforschung ist mit Beobachtung jedoch spezi- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2. Grundlagen fischer die direkte Beobachtung menschlicher Handlungen, sprachlicher Äußerungen, nonverbaler Reaktionen (z. B. Körpersprache) oder auch die Beobachtung sozialer Merkmale (Kleidung, Wohnungseinrichtung, Statussymbole) gemeint. Ein Beispiel für ein Forschungsgebiet, in dem die Methode der Beobachtung verbreitet ist, ist z. B. die ethnologische Feldforschung. Die Grenze zwischen Sozialreportagen und wissenschaftlichen Beobachtungsstudien ist dabei fließend. Voraussetzung für Letzteres ist ein deutlicher Bezug auf Forschungshypothesen und eine starke Kontrolle und Systematik der Beobachtung. Die Methode der Beobachtung zielt auf tatsächliches Verhalten und kann damit ergänzend zur Befragung angewendet werden oder diese ersetzen. Zum Beispiel könnte man eine Gruppe professioneller Schreiber*innen zu deren Einstellung zur Verwendung bestimmter Formen geschlechtergerechter Sprache befragen und die Antworten anschließend mit ihrem tatsächlichen Schreibverhalten vergleichen, indem man von ihnen produzierte Texte untersucht. Eine ähnliche Untersuchung könnte man zur Verwendung von Anglizismen durchführen. Je nach Forschungsfrage sind die Beobachtungsdaten von höherer Validität als die Ergebnisse von Befragungen. Diekmann (2011, S. 572) gibt dazu ein anschauliches nicht-linguistisches Beispiel einer Befragung mit anschließender Beobachtungsstudie zum Verkehrsverhalten: Während bei der Befragung 72% der Befragten angaben, vor dem Überqueren einer Straße den Autofahrer*innen immer ein Handzeichen zu geben, taten dies in der Beobachtungsstudie nur 10%. Das vermutlich beste Beispiel für ein beobachtendes (und nichtreaktives) Verfahren in der Linguistik ist die korpuslinguistische Untersuchung. Hier werden wie oben bereits angesprochen authentische Texte herangezogen, um Aussagen über die untersuchte Sprache bzw. sprachliche Varietät treffen zu können. Der große Vorteil von Textkorpora liegt dabei in dem Umstand begründet, dass die Daten in einem natürlichen kommunikativen Setting anfallen, also nicht durch die Datenerhebung beeinflusst werden. Gleichzeitig bringt dieser Vorteil aber auch einen großen UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 31 31 Nachtteil gegenüber anderen Erhebungsmethoden mit sich, da die Forscher*in hier nicht, wie zum Beispiel in einem Experiment, die (unabhängigen) Variablen systematisch variieren kann. Man spricht in diesem Kontext auch von einem „Rauschen“ in den Daten, welches die Datenanalyse erschwert (Gilquin/Gries 2009, S. 8). Ein weiteres Beispiel für ein nichtreaktives Verfahren ist die Inhaltsanalyse. Die Inhaltsanalyse befasst sich mit der systematischen Erhebung und Auswertung von Texten, Bildern und Filmen (vgl. Mayring 2011). Die Bezeichnung „Inhaltsanalyse“ ist in einem gewissen Sinn zu eng, da auch formale Gesichtspunkte von Texten, z. B. die Länge von Sätzen, bei der Methode der Inhaltsanalyse eine Rolle spielen können. Datenmaterial ist für diese Methode reichlich vorhanden, beispielsweise Leserbriefe, Heiratsannoncen, Schulbücher aus unterschiedlichen Zeitepochen, Parteiprogramme und vieles mehr. Da die potenzielle Materialfülle so hoch ist, ist – wie Diekmann (2011, S. 580) es formuliert – „wie generell in der empirischen Sozialforschung die disziplinierende Wirkung expliziter Fragestellungen und Hypothesen zu betonen.“ In den Bereich der Inhaltsanalyse fällt die bereits oben erwähnte Fallstudie von Heidrun Kämper. Hier werden anhand von Auszügen aus Interviews mit überzeugten Nationalsozialist*innen Motive herausgearbeitet, die deren Gefolgschaft vor allem zu Adolf Hitler begründen. In weniger direkter Weise trifft dies auch auf die Fallstudie von Imo (→ Kapitel 6 [Fallstudie „Diskursmarker“] in diesem Band) zu, in der die Verwendung bzw. die unterschiedlichen Funktionen von Diskursmarkern mit den Inhalten der solchermaßen markierten Äußerungen bzw. Dialoge in Bezug gesetzt werden. Verhaltensspuren bei linguistischen Untersuchungen können zum Beispiel die Untersuchung von Augenbewegungen, sog. Eyetracking, sein. Möchte man zum Beispiel wissen, ob das Suchfeld in einem Onlinewörterbuch eher in der Mitte oder oben links positioniert sein soll, ist es in den meisten Fällen sinnvoller, die Proband*innen nicht zu befragen, sondern per Eyetracking zu prüfen, wie schnell sie die Eingabefläche als solche erkennen. Genauso 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 32 Einführung und Grundlagen sind durch Eyetracking gemessene Lesezeiten eine gute Verhaltensspur, die etwas über die Verständlichkeit von Texten aussagen kann. Um noch einmal auf die oben getroffene Unterscheidung von reaktiven zu nicht-reaktiven Verfahren zurückzukommen: Man kann die oben genannten Methoden nicht alle pauschal der einen oder anderen Gruppe zuordnen. Befragungen sind immer reaktiv, Beobachtungen können sowohl nicht-reaktiv sein als auch reaktiv, z. B. wenn eine Schulklasse in ihrem Verhalten beobachtet wird, eine beobachtende Person zu diesem Zweck im Klassenraum sitzt und daher zu sehen ist. Es kommt also immer darauf an, ob die Proband*innen wissen, dass sie untersucht werden oder nicht. Man kann auch nicht pauschal sagen, dass nicht-reaktive Verfahren immer aussagekräftiger sind. Zum Beispiel wissen Proband*innen in einer EyetrackingStudie natürlich immer, dass sie ein Untersuchungsobjekt sind. Gleichzeitig weiß man aber, dass sich Blickbewegungen nur äußerst schwer bewusst steuern lassen, d. h. solche Untersuchungen zeigen trotzdem echte Verhaltensspuren. Und manchmal möchte man natürlich auch genau das (Antwort-)Verhalten von Menschen in einer Befragungssituation untersuchen und wählt daher bewusst ein reaktives Verfahren aus. Bei (fast) jeder Art der experimentellen Datenerhebung ist es wichtig, vor dem Beginn der eigentlichen Erhebung einen Probedurchlauf, auch Pretest genannt, durchzuführen, um eventuell missverständliche Formulierungen, unklare Versuchsanleitungen etc. aufzudecken und vor Beginn der Untersuchung noch korrigieren zu können. Pretests können auch mit nur wenigen Personen äußerst aufschlussreich sein. Dabei kann man durchaus auch einen Personenkreis wählen, der einfach „verfügbar“ ist, wie Freund*innen oder Familienmitglieder (‚Anfallsstichprobe’). Es geht hier tatsächlich nur darum, evtl. Fehler oder Unklarheiten im Untersuchungsdesign zu entdecken. Die im Pretest erhobenen Daten werden in der späteren Auswertung nicht berücksichtigt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 32 7. Datenanalyse Sind Daten für eine empirische Forschung erhoben, müssen sie analysiert werden. Je sorgfältiger die vorangegangenen Schritte einer empirischen Erhebung durchgeführt wurden, desto besser wird die Datenanalyse funktionieren. Im besten Fall haben Sie eine grobe Idee, wie die Datenanalyse durchgeführt werden soll, schon bei der ersten Planung der Erhebung skizziert. Im schlechtesten Fall stellt man erst bei der Datenanalyse fest, dass Variablen, die zur Beantwortung der Forschungsfrage benötigt werden, nicht mit erhoben wurden. Wenn Sie eine Studie durchführen, die mit quantitativen Mitteln ausgewertet werden soll, sollten Sie zumindest grundlegende Mittel und Prinzipien der Datenanalyse kennen. Auch wenn Sie andere Studien nachvollziehen möchten, sind solche Kenntnisse wichtig. Denn Sie können so fragwürdige Schlussfolgerungen und eventuelle Fehlerquellen identifizieren. Eine Einführung in die statistische Datenanalyse ist aber nicht auf wenigen Seiten unterzubringen. Eine Einführung in die statistische Datenanalyse im linguistischen Kontext bieten Baayen (2008) und Gries (2008); bei Diekmann (2011, S. 659) finden sich Hinweise auf allgemeine Einführungen in die statistische Datenanalyse. In → Kapitel 28 [Werkzeuge statistische Analyse] in diesem Band finden Sie einige Hinweise und weiterführende Tipps, mit welchen Werkzeugen Sie Daten analysieren können. Generell unterscheidet man in der Statistik zwischen Methoden, mit deren Hilfe man die Daten beschreibt, sog. deskriptive Verfahren, und Methoden, mittels deren man von einer Stichprobe auf eine Grundgesamtheit schließen möchte. Zu Ersteren zählen etwa die Berechnung von Mittelwerten oder Zusammenhangsmaßen (z. B. Korrelationen), während ein bekanntes Beispiel für Letztere die Durchführung von Signifikanztests darstellt. Darüber hinaus sind noch explorative Verfahren als gesonderte Gruppe zu nennen. Hier versucht man, unbekannten Zusammenhängen in den Daten auf die Spur zu kommen. Ein Beispiel für eine explorative Analysemethode ist die sog. Clusteranalyse, mit deren Hilfe ähnliche Versuchsobjekte (z. B. Testpersonen 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2. Grundlagen oder auch untersuchte Wörter) zu Gruppen zusammengefasst werden können. Für die qualitative Datenanalyse gibt es kein vergleichbar festes Methodeninventar. Um als wissenschaftliche Forschung gelten zu können, muss allerdings auch die qualitative Forschung dafür sorgen, dass die Analyse der Daten umfassend dokumentiert, die Interpretation intersubjektiv nachvollziehbar und die gesamte Untersuchung replizierbar ist. „Nicht selten trifft man in punkto qualitative Datenanalyse allerdings auch auf eine Mentalität des (falsch verstandenen) ,anything goes’: Forschende, die aus der Lektüre qualitativer Methodentexte eine solche Schlussfolgerung ziehen, glauben, sie könnten mehr oder weniger machen, was sie wollen, herrlich herum interpretieren und den eigenen Assoziationen freien Lauf lassen, ohne dass die Gefahr bestünde, durch einen strengen Methodiker in die Schranken gewiesen zu werden.“ (Kuckartz 2012, S. 20–21) Dieser Band soll dazu beitragen, einer solchen Haltung entgegenzuwirken. Abschließend wollen wir hier noch versuchen, den Grundgedanken eines statistischen Herangehens an Daten zu verdeutlichen. Unser menschlicher Verstand ist stark darauf ausgerichtet, kausale Ursachen zu erahnen, oft auch da, wo es sich um Zufälligkeiten handelt. Diese Neigung zu kausalem Denken „macht uns anfällig für gravierende Fehler bei der Beurteilung der Zufälligkeit echter Zufallsereignisse.“ (Kahnemann 2011, S. 146) Damit ist gemeint, dass wir dazu neigen, eine Ursache oder eine Musterhaftigkeit in Daten zu sehen, die eigentlich nur durch Zufall so zusammengestellt sind. Verstärkt wird das noch durch den sogenannten confirmation bias, also die Verzerrung hin zur Bestätigung der eigenen Annahme. Dies kennen Sie vielleicht auch durch private Diskussionen, z. B. zum Sprachverfall. Ist jemand der Meinung, dass die deutsche Sprache heute z. B. durch zu viele englische Ausdrücke negativ beeinflusst wird, wird er oder sie auch nur Beispiele nennen, die dies bestätigen. Auch alltägliche Gefühle lassen sich schlecht durch Statistiken lenken. Statistisch gesehen ist Autofahren beispielsweise wesentlich gefährlicher als Fliegen, aber beim Fliegen empfinden UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 33 33 mehr Menschen Angst. Wissenschaftlich muss man aber anders an Daten herangehen. Man muss eben genau schauen, ob man wirklich zeigen kann, dass man die eigene Vermutung nur bestätigt sehen will oder ob man sie auch bestätigt sehen kann. Genauso muss man ausschließen, dass es sich nur um einen zufälligen Befund handelt. Deshalb lenkt die statistische Betrachtungsweise den Blick weg von der Ursache eines Ereignisses, sondern dahin, „was sich stattdessen hätte ereignen können.“ (ebd.) 8. Berichterstattung Der letzte Teil einer empirischen Studie ist in der Regel die Berichterstattung. Grundsätzlich unterscheidet sich die Art der Berichterstattung empirischer Studien nicht von der anderer Forschungsergebnisse. Allerdings hat sich ein bestimmtes Muster für die Darstellung empirischer Studien etabliert, welches in den meisten Veröffentlichungen angewandt wird: die sogenannte IMRAD-Struktur (als Abkürzung für introduction, method, results, and discussion; Sollaci/Pereira 2004). Im Einleitungsteil wird nach dieser Struktur in der Regel die Forschungsfrage mit relevanter Literatur eingeführt, im Methodenteil werden Versuchsaufbau, die Proband*innen bzw. die untersuchten Daten, die Durchführung etc. erläutert. Im Ergebnisteil werden die Resultate der statistischen Analysen dargestellt, die dann im Diskussionsteil diskutiert und in den Forschungszusammenhang eingeordnet werden. Nach dieser relativ festen Struktur sind geübte Leser*innen am besten in der Lage, die Studie reproduzieren und kritisieren zu können, da sie wissen, an welcher Stelle des Berichts welche Art von Informationen zu finden sind. 24.03.22 11:06 34 Einführung und Grundlagen Zum Weiterlesen Eine umfassende Einführung in die empirische Sozialforschung bieten Doering/Bortz (2016) und Diekmann (2011). Gute Einführungen für empirische Arbeiten in der Linguistik sind z. B. Albert/Marx (2016), oder – mehr statistisch ausgerichtet – Meindl (2011) und Gries (2008) sowie Manning/Schütze (1999). Kahnemann (2011) ist darüber hinaus ein sehr lesbares, umfassendes Buch, welches zwar seinen Schwerpunkt auf Psychologie legt, aber dabei auch viele grundlegende Aspekte empirischer Untersuchungen berührt. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Literatur Albert, Ruth/Nicole Marx (2016): Empirisches Arbeiten in Linguistik und Sprachlehrforschung (=narr Studienbücher), 3. Aufl., Tübingen: Narr Francke Attempto. Baayen, Rolf Harald (2008): Analyzing Linguistic Data. A Practical Introduction to Statistics Using R, Cambridge/UK: Cambridge University Press. Bargh, John A./Mark Chen/Laura Burrows (1996): Automaticity of Social Behavior: Direct Effects of Trait Construct and Stereotype Activation on Action, in: Journal of Personality and Social Psychology, Jg. 71, H. 2, S. 230–244. Diekmann, Andreas (1994): Umweltverhalten zwischen Egoismus und Kooperation, in: Spektrum der Wissenschaft, Bd. 6, S. 20–24. Diekmann, Andreas (2011): Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen, 5. Aufl., Hamburg: Rowohlt. Doering, Nicola/Jürgen Bortz (2016): Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (=Springer-Lehrbuch), 5. Aufl., Berlin/ Heidelberg: Springer-Verlag. Doyen, Stéphane/Oliver Klein/Cora-Lise Pichon/ Axel Cleeremans (2012): Behavioral Priming: It’s All in the Mind, but Whose Mind?, in: PLOS ONE, Jg. 7, H.1, S. e29081. Eisenberg, Peter (2013): Anglizismen im Deutschen, in: Deutschen Akademie für Sprache und Dichtung/ Union der deutschen Akademien der Wissenschaften (Hrsg.), Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache, Berlin/Boston: de Gruyter, S. 57–120. Gilquin, Gaëtanelle/Stefan Thomas Gries(2009): Corpora and experimental methods: a state-of-the-art UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 34 review, in: Corpus Linguistics and Linguistic Theory, Bd. 5, S. 1–26. Gries, Stefan Thomas (2008): Statistik für Sprachwissenschaftler, 1. Aufl., Göttingen: Vandenhoeck & Ruprecht. Kahnemann, Daniel (2011): Schnelles Denken, langsames Denken, 11. Aufl., München: Siedler. Kuckartz, Udo (2012): Qualitative Inhaltsanalyse. Methoden, Praxis, Computerunterstützung, 1. Aufl., Weinheim: Beltz Juventa. Manning, Christopher/Hinrich Schütze (1999): Foundations of Statistical Natural Language Processing, Cambridge/MA: MIT Press. Mayring, Philipp (2011): Qualitative Inhaltsanalyse. Grundlagen und Techniken, 8. Aufl., Weinheim: Beltz. Meindl, Claudia (2011): Methodik für Linguisten: Eine Einführung in Statistik und Versuchsplanung, 1. Aufl., Tübingen: Gunter Narr Verlag. Popper, Karl (1994): Alles Leben ist Problemlösen, München: Piper. Sollaci, Luciana B./Mauricio G. Pereira (2004): The introduction, methods, results, and discussion (IMRAD) structure: a fifty-year survey, in: Journal of the Medical Library Association, Bd. 92, S. 364–371. Trochim, William (2006): Design, in: Trochim, William (ed.), Research Methods Knowledge Base, [online] http://www.socialresearchmethods.net/kb/design.php. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 05. Juli 2021. 24.03.22 11:06 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. II FALLSTUDIEN UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 35 24.03.22 11:06 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 36 24.03.22 11:06 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 37 3. Alles okay! Korpusgestützte Untersuchungen zum Internationalismus OKAY Das Kapitel beschreibt zwei Studien zum Gebrauch des Internationalismus OKAY im Deutschen und Französischen. Die medienvergleichende Studie nutzt Daten aus dem deutschen Gesprächskorpus FOLK (Forschungs- und Lehrkorpus Gesprochenes Deutsch) und aus einem Korpus mit schriftlichen deutschen Wikipediadiskussionen, um Unterschiede zwischen schriftlicher und mündlicher Verwendung von OKAY zu ermitteln und Hypothesen aus der Fachliteratur zu überprüfen. Die sprachvergleichende Studie vergleicht deutsche und französische Wikipediadiskussionen an Datensets aus der WikipediaKorpusfamilie des IDS. Wir beschreiben das Vorgehen bei der Erhebung, Bereinigung und Analyse der Daten, und zeigen, welche Ansatzpunkte für weiterführende Studien sich aus unseren Ergebnissen eröffnen. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Angelika Storrer, Laura Herzberg 1. Einleitung Dem Sprachgeschichtsforscher Allen W. Read zufolge begann die Geschichte des Wortes OKAY mit einem Sprachspiel: In einem Bericht der Boston Morning Post vom 23. März 1838 wurde auf Seite 2 erstmals „o.k.“ als ein Akronym für ein bewusst falsch geschriebenes „all correct“ verwendet (vgl. Metcalf 2011, S. 29ff). Man weiß nicht, was den mutmaßlichen Autor des Berichts, Charles G. Green, zu diesem Sprachspiel bewogen hat. Andere bewusst falsch geschriebene Akronyme wie „O.W.“ für „all right“ deuten darauf hin, dass Spiele dieser Art seinerzeit in Mode waren, ähnlich den Graphiespielen im Internetslang, wie „CU“ für „see you“ oder „4U“ für „for you“, oder der sogenannten VONG-Sprache, die 2017 mit Schreibungen wie „I bims“ den gefühlt schlechten Sprachstil in den sozialen Medien karikierte. Da man Charles G. Green nicht mehr befragen kann, wird sich die Frage nach seinem Motiv nicht mehr klären lassen. Es ist in der Sprachgeschichtsforschung noch nicht einmal unumstritten, dass das Sprachspiel in der Boston Morning Post wirklich am Anfang der Wortkarriere von OKAY stand. Unstrittig ist 1 2 allerdings, dass sich das Wort im Laufe des 19. Jahrhunderts zunächst im amerikanischen Sprachraum und von dort aus in viele andere Sprachen auf der ganzen Welt verbreitet hat. Allan Metcalf, der die Geschichte von „America’s greatest word“ in einer 2011 erschienenen Monographie nachzeichnet, illustriert die Vielfalt der Verwendungsweisen von OKAY an Beispielen aus dem Englischen und anderen Sprachen. Dass OKAY heutzutage zum Wortschatz vieler Sprachen gehört, zeigt ein Blick in das Mitmachwörterbuch „Wiktionary“. Der Eintrag zum Stichwort „OK“1 in der englischen Sprachversion ist verlinkt mit Einträgen zu OKAY in vielen anderen Sprachversionen, unter anderem Deutsch, Französisch, Neugriechisch, Russisch, Türkisch, Urdu, Japanisch und Mandarin. Ein Wort, das als Wortschatzeinheit unterschiedlicher Sprachen in ähnlicher Weise verwendet wird, bezeichnet man in der Sprachwissenschaft als Internationalismus und OKAY gilt als einer der am weitesten verbreiteten und am häufigsten gebrauchten Internationalismen der Gegenwart.2 In unserer Untersuchung möchten wir keine Sprachgeschichtsforschung betreiben, auch wenn es zur zeitlichen Ausbreitung https://en.wiktionary.org/w/index.php?title=OK&oldid=58810519. Vgl. z. B. „häufigstes Wort der Welt“ unter https://www.bbc.com/news/magazine-12503686. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 37 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 38 II Fallstudien des Wortes in den verschiedenen Einzelsprachen noch wenig datengestützte Untersuchungen gibt. Unser Erkenntnisinteresse gilt vielmehr dem gegenwärtigen Gebrauch von OKAY im Deutschen und Französischen. Wir analysieren Belege aus großen Sammlungen von Sprachdaten, sog. Korpora (→ Teil VII [Korpusressourcen zum Deutschen] in diesem Band), die wir über spezielle Softwaresysteme, sog. Korpusrecherchesysteme, erheben. Im Mittelpunkt unserer ersten, medienvergleichenden Untersuchung3 steht der Vergleich zwischen dem Gebrauch von OKAY in gesprochener Sprache einerseits und in der geschriebenen Sprache andererseits. In einer zweiten, sprachvergleichenden Studie kontrastieren wir den Gebrauch von OKAY in der deutschen Schriftsprache mit dem Gebrauch in der französischen Schriftsprache. In Abschnitt 2 werden wir zunächst begründen, warum uns genau diese beiden Aspekte – der Vergleich gesprochener und geschriebener Sprache und der Vergleich des Deutschen mit dem Französischen – interessieren, und mit welchen Fragestellungen und Hypothesen wir an unsere Untersuchungen herangehen. Abschnitt 3.1 gibt allgemeine Informationen zu den Korpora, die wir für unsere Studien genutzt haben. In den Abschnitten 3.2.1 und 3.2.2 wird beschrieben, wie wir aus diesen Korpora Datensätze erhoben und für die Zwecke unserer Untersuchung bereinigt haben. In Abschnitt 3.2.3 erläutern wir die Kategorien, nach denen die Belege analysiert wurden, sowie das Vorgehen bei der manuellen Klassifikation der Datensätze. Auf der Basis der klassifizierten Beleglisten beantworten wir dann in Abschnitt 4 unsere in Abschnitt 2 formulierten Forschungsfragen und prüfen unsere Hypothesen. In Abschnitt 5 reflektieren wir abschließend unser methodisches Vorgehen und geben Anregungen für weiterführende Untersuchungen zu OKAY. 3 4 Bevor wir in den Hauptteil dieses Kapitels gehen, muss noch ein wichtiger Punkt geklärt und erklärt werden, nämlich die Bedeutung der Schreibform „OKAY“, die sich sowohl im Titel des Kapitels als auch im Text findet. Diese Schreibform nutzen wir als Platzhalter für alle tatsächlich in Texten und Gesprächen vorkommenden Schreibvarianten, also z. B. ok, OK, okay, o. k 4 Denn in unseren Untersuchungen interessieren wir uns primär für die Funktionen dieses Wortes, unabhängig davon, in welcher Schreibform es vorkommt. Wir haben deshalb bei der Datenerhebung unsere Anfragen so formuliert, dass alle häufig vorkommenden Schreibvarianten in beiden Sprachen gleichermaßen berücksichtigt wurden (vgl. Abschnitt 3.2). Die Schreibform OKAY repräsentiert daher in unserem Kapitel alle Formvarianten, die wir in unseren Abfragen erfasst haben. 2. Fragestellungen und Hypothesen Die Eingrenzung und Präzisierung von Forschungsfragen und die Formulierung von Hypothesen, die sich mit einem Forschungsdesign dann auch verifizieren bzw. falsifizieren lassen, ist ein zentraler Schritt im Forschungsprozess, den viele Studierende bei ihren ersten wissenschaftlichen Gehversuchen unterschätzen. Wir möchten deshalb im Folgenden einen Einblick in diesen Prozess geben, indem wir auch erläutern, wie wir zu unseren Forschungsfragen und Hypothesen gekommen sind. Forschungsfragen beziehen sich grundsätzlich auf einen Gegenstandsbereich, zu dem man arbeitet, sowie auf ein übergreifendes Erkenntnisinteresse. In unserem Fall ist der Gegenstandsbereich die deutsche Gegenwartssprache. Unser übergreifendes Erkenntnisinteresse gilt den Veränderungen, die sich durch die Internetkommunikation in der Wenn wir von „medienvergleichend“ sprechen, folgen wir dem Ansatz von Peter Koch und Wulf Oesterreicher, der die Unterscheidung von phonischer (= gesprochener) vs. graphischer (= geschriebener) Realisierung von Sprache als eine mediale Unterscheidung betrachtet (vgl. u. a. Koch/Oesterreicher 2019, S. 191f). Wir erfassen dabei sowohl orthographisch korrekte Schreibungen – im Deutschen okay/Okay bzw. o. k./O. K. sowie im Französischen O.K. – als auch häufig verwendete, aber eigentlich nicht normkonforme Varianten wie ok/OK. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 38 24.03.22 11:06 39 Abb. 1: Ausschnitt Wikipediadiskussion zum Artikel „Immobilienmarketing“5 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ deutschen Schriftsprache ergeben. Ein in der Fachliteratur beschriebener Trend in der Internetkommunikation ist die Nutzung von Schriftsprache für den schnellen, dialogischen Austausch in Chats, Sozialen Medien und Diskussionsforen (zu denen auch die Diskussionen in der Wikipedia gehören). Dafür bildet sich eine interaktionsorientierte Schreibhaltung heraus, die sich vom planvollen Verfassen von normgerechten Texten, dem sog. textorientierten Schreiben, in vielerlei Hinsicht unterscheidet (vgl. Storrer 2018). Wir arbeiten mit korpuslinguistischen Methoden, um solche Unterschiede an einzelnen Fallbeispielen auch empirisch nachzuweisen. Hierfür eignen sich die Wikipedia-Korpora des Leibniz-Instituts für deutsche Sprache (IDS) (→ Kapitel 26 [Korpora internetbasierter Kommunikation] in diesem Band) besonders gut, weil sie sowohl Produkte des textorientierten Schreibens, nämlich die Artikeltexte, als auch Produkte des interaktionsorientierten Schreibens, nämlich schriftliche Diskussionen, enthalten (vgl. Gredel et al. 2018). Artikeldiskussionen dienen den AutorInnen der Wikipedia dazu, sich über die Arbeit an den Artikeln schriftlich auszutauschen. Dies geschieht, wie man in dem in Abbildung 1 gezeigten Beispiel sieht, in aufeinander bezogenen Diskussionsbeiträgen, die der effizienten Aushandlung offener Fragen dienen und in der sprachlichen Gestal5 tung etliche Merkmale der spontanen, alltagssprachlichen Interaktion aufweisen. 5 Zu diesen Merkmalen gehören sprachliche Einheiten wie na, okay, öhm oder ja, die wir in Anlehnung an die dreibändige Grammatik der deutschen Sprache (GDS 1997) des IDS als „interaktive Einheiten“ bezeichnen. Diese Einheiten wurden bislang vorwiegend in ihrem Gebrauch in mündlichen Gesprächen untersucht, wo sie vielfältige Funktionen übernehmen. Beim interaktionsorientierten Schreiben in der Internetkommunikation gewinnen sie nun auch in der schriftlichen Realisierung von Sprache an Bedeutung (vgl. Storrer 2017). Allerdings lassen sich die Funktionen und Verwendungsweisen, die in der GDS (1997, 362ff) für Gespräche beschrieben wurden, nicht eins zu eins auf die geschriebene Sprache übertragen. Vielmehr konnten Herzberg (2016) für OKAY und Storrer (2017) für die Interjektion HM nachweisen, dass sich beim interaktionsorientierten Schreiben neue Verwendungsmuster für interaktive Einheiten herausbilden; an diese Vorarbeiten knüpft unsere Studie an. Unser Interesse galt also zunächst dem Gebrauch von OKAY als interaktive Einheit (im Folgenden abgekürzt als IE). Die GDS (1997, S. 62f) unterscheidet zwei Arten von IE: 1. Interjektionen wie hm, ach oder huch, die primär der Gesprächssteuerung oder dem Ausdruck von Emotionen dienen; https://de.wikipedia.org/w/index.php?title=Diskussion:Immobilienmarketing&oldid=93564179. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 39 24.03.22 11:06 40 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2. Responsive wie ja, nein, die eine Antwort auf eine Entscheidungsfrage geben und deshalb in anderen Grammatiken und Wörterbüchern auch als Antwortpartikeln bezeichnet werden. In der GDS (1997, S. 63) wird OKAY als „genuines Mitglied“ den Responsiven zugeordnet. Wie bereits erwähnt, beschreibt die GDS (1997) interaktive Einheiten in Bezug auf mündliche Interaktionen und illustriert Formen und Funktionen an transkribierten Gesprächsausschnitten. Auch die meisten anderen empirischen Studien zu interaktiven Einheiten beziehen sich auf Gesprächsdaten. Das gilt auch für die Fachliteratur zum Gebrauch von OKAY, das bisher u. a. in Telefongesprächen, wissenschaftlichen Vorträgen und in der Arzt-Patienten-Kommunikation untersucht wurde (vgl. den Forschungsüberblick in Herzberg/Storrer 2019). In unserer medienvergleichenden Studie steht hingegen der Vergleich von gesprochener und geschriebener Interaktion im Mittelpunkt. Wir vergleichen ein Sample mit Belegen zu OKAY aus einem Korpus mit Gesprächstranskripten (Forschungs- und Lehrkorpus Gesprochenes Deutsch, kurz FOLK) mit einem Sample aus einem Korpus mit schriftlichen Wikipediadiskussionen, also mit Produkten des interaktionsorientierten Schreibens. Wir möchten herausfinden, wie sich der Gebrauch von OKAY in mündlichen Gesprächen von dem Gebrauch in schriftlichen Interaktionen unterscheidet. Diese noch sehr allgemein gefasste Leitfrage mussten wir für die Untersuchungsplanung noch konkretisieren: Welche Unterschiede wollen wir genauer analysieren? Welche Kategorien nutzen wir dafür? Welche Hypothesen wollen wir prüfen? Zunächst haben wir berücksichtigt, dass OKAY nicht nur als IE vorkommt, sondern auch als syntaktische Einheit (im Folgenden abgekürzt als SE). In ihrer Verwendung als SE ist OKAY syntaktisch integriert, d. h. trägt regulär zum Aufbau von Sätzen bei, z. B. als Adverbiale in „Das finde ich nicht okay“ oder als Kopf einer Nominalphrase in „sie gab ihr Okay“ (vgl. genauer Abschnitt 3.2.3). Das Merkmal der syntaktischen Integration unter- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 40 scheidet die SE von den IE. IE tragen nicht zum Aufbau von Sätzen bei, sondern sind den Sätzen vor- oder nachgeschaltet (z. B. „okay, versuchen wir’s mal“ bzw. „wir versuchen es mal, okay?“) oder können – z. B. als Responsiv – eine alleinstehende Äußerungseinheit bilden („Passt das?“ – „Okay“). Wir gehen davon aus, dass sich in der Verteilung dieser beiden funktionalen Hauptklassen – interaktive Einheiten (IE) und syntaktische Einheiten (SE) – interessante Unterschiede zwischen gesprochener und geschriebener Interaktion zeigen könnten. Wir präzisieren deshalb die Fragestellung unserer medienvergleichenden Untersuchung folgendermaßen: F1: Wie unterscheiden sich die Anteile der Kategorien IE und SE (und ihrer Subklassen) im Gebrauch von OKAY in mündlichen Gesprächen einerseits vom Gebrauch in geschriebenen Diskussionen im Internet andererseits? Um dieses „Wie“ dann noch konkreter bestimmen zu können, haben wir in Abschnitt 3.2.3 Subklassen für SE und IE definiert und alle Belege unserer beiden Samples einer der Subklassen bzw. einer Restklasse zugeordnet. Auf dieser Basis können wir in Abschnitt 4 die Anteile der Haupt- und Subklassen in den beiden Samples miteinander vergleichen. An denselben Daten überprüfen wir zusätzlich zwei Hypothesen: H1: Der Anteil von IE-OKAY ist in gesprochener Sprache höher als in geschriebenen Diskussionen. H2: Wenn OKAY als IE gebraucht wird, dann handelt es sich in den meisten Fällen um die Kategorie „Responsiv“. Motivation für die erste Hypothese H1 ist, dass IE in der GDS und auch in der Fachliteratur als wichtige Einheiten zur Steuerung mündlicher Gespräche beschrieben werden. Es ist deshalb plausibel anzunehmen, dass auch OKAY in den Gesprächsdaten häufiger als interaktive Einheit verwendet wird als in den schriftlichen Diskussionen. Die Hypothese H1 wäre falsifiziert, wenn die Zahl als IE klassifizierter Belege im schriftlichen Sample 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ höher wäre als im Sample mit den transkribierten Gesprächen. Mit Hypothese H2 überprüfen wir die oben erwähnte Klassifikation der GDS (1997, S. 63), die OKAY als „genuines Mitglied“ den Responsiven zuordnet, was nahelegt, dass OKAY in seinem Gebrauch als interaktive Einheit vor allem in der Funktion als Responsiv verwendet wird. Die Hypothese wäre falsifiziert, wenn die als IE klassifizierten OKAYVerwendungen mehrheitlich anderen Subklassen der IE zugeordnet würden. Bei dieser Hypothese spielt der Medienvergleich keine zentrale Rolle, es geht vielmehr um die Anteile der verschiedenen Subklassen der IE. Kommen wir nun zu unserer zweiten, sprachvergleichenden Studie. OKAY ist als Internationalismus in vielen Sprachen weit verbreitet. Die Wikipedia-Korpusfamilie des IDS enthält Korpora mit Diskussionen aus verschiedenen europäischen Sprachen, die zum Sprachvergleich genutzt werden können (vgl. Abschnitt 3.1 und Gredel et al. 2018), darauf greifen wir in unserer sprachvergleichenden Studie zurück. Wir verwenden erneut unser analysiertes Sample mit deutschen Diskussionen aus der medienvergleichenden Studie und kontrastieren dieses mit einem Sample zu OKAY-Belegen aus französischen Diskussionen, das mit denselben Erhebungsmethoden gewonnen und mit denselben Kategorien klassifiziert wurde. Auch in dieser Studie legen wir den Fokus auf den Vergleich der Anteile der beiden Hauptklassen SE und IE in beiden Korpora. Die zugrundeliegende Fragestellung lautet also: F2: Wie unterscheiden sich die Anteile der Kategorien IE und SE (und ihrer Subklassen) in französischen Wikipediadiskussionen einerseits und in deutschen Wikipediadiskussionen andererseits? Dieser Vergleich scheint uns deshalb sehr interessant zu sein, weil das Französische als romanische Sprache vom Englischen weiter entfernt ist als das Deutsche als germanische Sprache. Außerdem steht man Anglizismen in Frankreich sehr viel kritischer gegenüber als in Deutschland und versucht, ihre Verbreitung durch sprachpolitische Maßnahmen zu UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 41 41 behindern. Dies macht die Annahme plausibel, dass die Verwendung von OKAY als syntaktische Einheit, die einen höheren Grad von Integration voraussetzt als die Verwendung als IE, im deutschen Sample häufiger vorkommt als im französischen Sample. Diese Annahme prüfen wir mit Hypothese H3: H3: Der Anteil von SE-OKAY ist in den deutschen Wikipediadiskussionen höher als in den französischen Diskussionen. Die Hypothese ist falsifiziert, wenn der Anteil der SE-Verwendungen im französischen Sample den Anteil im deutschen Sample übersteigt. 3. Material, Methode und Analyse In diesem Abschnitt behandeln wir das methodische Vorgehen unserer Untersuchung. Zunächst beschreiben wir in 3.1 die Korpusrecherchesysteme und die Korpora, die wir zur Erhebung der Daten genutzt haben: Die Daten zu OKAY in der gesprochenen Sprache stammen aus dem Korpus FOLK, das in das Korpusrecherchesystem DGD (→ Kapitel 25 [Korpora gesprochener Sprache] in diesem Band) intergiert ist. Die Daten zu OKAY in deutschen und französischen Wikipediadiskussionen stammen aus den Beständen des Deutschen Referenzkorpus – (kurz DeReKo, → Kapitel 25 [Korpora geschriebener Sprache] in diesem Band), das wir über das Korpusrecherchesystem COSMAS IIweb abgerufen haben. In den Abschnitten 3.2.1 und 3.2.2 erläutern wir die Schritte der Datenerhebung und der Bereinigung der Daten um irrelevante Treffer (sog. Pseudotreffer). Resultat dieser Schritte sind drei Beleglisten: 1. aus FOLK, 2. aus der deutschen und 3. aus der französischen Wikipedia. Um diese drei Listen mit Blick auf die Fragestellungen und Hypothesen vergleichen zu können, wurden sie in Excel-Tabellen importiert und dort weiter klassifiziert. Dieser Schritt der Datenanalyse und die zur Klassifikation verwendeten Kategorien sind in Abschnitt 3.2.3 beschrieben. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 42 II Fallstudien Abb. 2: Startbildschirm des Korpusrecherchesystems COSMAS IIweb nach dem Login (eigene Markierung) 3.1 Datengrundlage: Wikipedia-Korpora und FOLK Korpora, d. h. große Sammlungen von Textmaterialien, die zur Untersuchung von linguistischen Fragestellungen genutzt werden können, stehen digital zur Verfügung und können durch ihre Einbindung in ein Korpusrecherchesystem online abgefragt werden. Dabei gilt es, das Recherchesystem vom Korpus selbst zu unterscheiden: Ein Korpus enthält Sprachdaten, z. B. sind im Korpus der Wikipedia-Artikelseiten alle enzyklopädischen Artikel erfasst. Ein Korpusrecherchesystem hingegen enthält nicht nur die Korpora, sondern auch ein Abfragesystem sowie Werkzeuge, mit denen die Ergebnisse einer Suchabfrage exploriert, sortiert und schließlich auch exportiert werden können. 6 7 8 9 Die Wikipedia-Korpusfamilie ist über das Korpusrecherchesystem COSMAS IIweb verfügbar (vgl. Lüngen/Kupietz 2020, S. 332). COSMAS IIweb ist eine „WWW-Applikation, die die Korpusrecherche in einem herkömmlichen WWW-Browser ermöglicht“.6 COSMAS steht für Corpus Search, Management and Analysis System. COSMAS II ist der Nachfolger von COSMAS I und seit 2003 im Dauerbetrieb am IDS.7 Die Textsammlungen bestehen aus insgesamt 573 Korpora (58,4 Mrd. Wörter8) und sind im DeReKo zusammengefasst. DeReKo ist die weltweit größte Sammlung von Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit.9 Dies sind u. a. belletristische, wissenschaftliche und populärwissenschaftliche Texte sowie Zeitungstexte. http://www.ids-mannheim.de/cosmas2/web-app/. Die Nachfolgesoftware von COSMAS II, KorAP, ist bereits in der Beta-Version online: https://korap.idsmannheim.de/. Stand Februar 2020: http://www.ids-mannheim.de/cosmas2/uebersicht.html. https://www1.ids-mannheim.de/kl/projekte/korpora/. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 42 24.03.22 11:06 43 Abb. 3: Startbildschirm des Korpusrecherchesystems DGD nach dem Login sowie dem Klick auf die Reiter Recherche – Tokens (eigene Markierungen) Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ Die für unsere Untersuchungen genutzte Wikipedia-Korpusfamilie ist ebenfalls Bestandteil von DeReKo. Die Wikipedia steht unter freien Lizenzen zur Verfügung (→ Kapitel 15 [Juristische Fragen] in diesem Band) und bietet damit der Forschung die Möglichkeit, die Daten in linguistisch aufbereitete Korpora zu überführen. Seit 2005 bietet das IDS Zugriff auf Korpora mit Artikeltexten einerseits und mit Diskussionen andererseits, die als linguistische Korpora aufbereitet und in DeReKo integriert wurden (vgl. Margaretha/Lüngen, 2014). Wie bereits in Abschnitt 2 erläutert, zählen die Wikipedia-Diskussionen zu den Produkten des interaktionsorientierten Schreibens. Sie eignen sich deshalb besonders gut für medienvergleichende Untersuchungen, die Gebrauchsmuster in der schriftlichen Interaktion mit Gebrauchsmustern in mündlichen Gesprächen vergleichen (wie wir dies am Beispiel von OKAY tun). Sie erlauben es aber auch, Gebrauchsmuster der textorientiert verfassten Wikipedia-Artikeltexte mit Gebrauchsmustern beim interaktionsorientierten Schreiben in Diskussionsbeiträgen zu untersuchen. Die Wikipedia-Korpusfamilie am IDS enthält Sprachdaten aus mehreren Sprachversionen; hiervon profitieren wir bei unserer sprachvergleichenden Studie. Seit 2011 werden alle zwei Jahre neue Korpusversionen erstellt. Wie in Abbildung 2 dargestellt, sind die WikipediaKorpora in drei Archiven organisiert: das Archiv WP enthält Korpora mit deutschsprachigen Wikipedia-Daten aus den Jahren 2013, 2015 und 2017. Das Archiv WPE10 enthält Korpora mit englischsprachigen Wikipedia-Daten aus dem Jahr 2015. In WP_FS11 findet man Wikipedia-Korpora zu anderen Sprachversionen, neben den in unserer Studie genutzten französischen Korpora gibt es auch spanische, kroatische, ungarische, italienische, norwegische und polnische Korpora. Als Datengrundlage für unsere Analysen dienen das deutsche Korpus der WikipediaArtikeldiskussionsseiten (Wiki-D-de12) sowie das französische Korpus der Wikipedia-Artikeldiskussionsseiten (Wiki-D-fr) in der 2015 erstellten Version. Das deutsche Korpus enthält ca. 310 Mio. Token, das französische umfasst ca. 138 Mio. Token. Um den Gebrauch von OKAY beim interaktionsorientierten Schreiben in den Wikipedia-Diskussionen mit dem Gebrauch von OKAY in mündlichen Gesprächen vergleichen zu können, benötigen wir zusätzlich ein Gesprächskorpus. Hierfür haben wir das Gesprächskorpus FOLK genutzt, das in die Datenbank für gesprochenes Deutsch (DGD) integriert ist (→ Kapitel 25 [Korpora gesprochener Sprache] in diesem Band). 10 WPE: Archiv der englischsprachigen Wikipedia-Artikel und Diskussionen. 11 WP_FS: Archiv der fremdsprachigen Wikipedia-Artikel und Diskussionen. 12 Die Abkürzung ist folgendermaßen zu lesen: Wikipedia-Diskussionsseiten deutsch. Selbiges gilt für das französische Kürzel Wiki-D-fr. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 43 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 44 II Fallstudien Die DGD ist eine Korpusrechercheplattform des IDS, die Zugriff auf verschiedene Korpora mit deutschen Gesprächsdaten bietet (vgl. Abbildung 3). Die Gespräche, die als Audio- oder Videodateien aufgenommen wurden, liegen als Transkripte vor, die nach bestimmten Konventionen erstellt wurden (→ Kapitel 23 [Gesprächsanalytische Transkription] in diesem Band). Es gibt verschiedene Arten von Transkripten, die unterschiedlich feinkörnig sind und teilweise auch Merkmale wie Intonation und nicht-sprachliche Ereignisse (Lachen, Gestik) eines Gesprächs erfassen. Auch für Gespräche typische Aspekte wie Überlappungen bzw. Simultansprechen sowie Pausen können in Transkripten abgebildet werden: Ersteres durch eckige Klammern […], Letzteres mithilfe der Angabe einer Sekundenzahl in Klammern, z. B. steht (2.8) für eine Gesprächspause von knapp drei Sekunden, (.) stellt Mikropausen dar (vgl. Selting et al. 2009, S. 364). Nach der kostenfreien Registrierung kann man in den Korpora der DGD recherchieren, indem man z. B. die Suchmaske unter dem Reiter Recherche-Tokens verwendet. Links davon wählt man aus einer Liste von Korpora das für die eigene Untersuchung relevante Korpus aus (vgl. Abbildung 3). Für unsere Untersuchung haben wir das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) verwendet, das deutsche Gesprächsdaten aus unterschiedlichen Lebensbereichen und Gesprächsformen enthält und laufend erweitert wird. Die in unserer Untersuchung verwendete Version des FOLK-Korpus enthält knapp 2 Mio. Tokens.13 3.2 Methode und Analyse Aufgrund der unterschiedlichen Korpusrechercheplattformen unterteilen sich die Erläuterungen zur Datenerhebung in zwei Unterkapitel, die die jeweils spezifisch für jedes System gestellten Suchabfragen, die Erstellung von Stichproben sowie die Bereinigung der Trefferliste näher beschreiben. Stichproben wurden gezogen, da die absoluten Trefferanzahlen in allen von uns genutzten Korpora die Grenzen einer manuellen Auswertung überstiegen. Bevor die Datenerhebung in FOLK vorgestellt wird, sollen weitere grundlegende Begriffe definiert werden. Wir unterscheiden zwischen Treffern, Pseudotreffern und Belegen (vgl. Storrer 2011, S. 218). Als Treffer bezeichnet man alle Einheiten, die als Ergebnis einer Suchabfrage, in unserem Fall die Abfrage von Schreibvarianten für OKAY, ausgegeben werden. In den vom Korpusrecherchesystem erzeugten Trefferlisten sind aber durchaus OKAY-Verwendungen enthalten, die für unsere Untersuchungsfrage nicht relevant sind – z. B. Treffer, in denen die Suchform „OK“ als Abkürzung für Oberkommando oder Olympisches Komitee verwendet wird. Man spricht in solchen Fällen von Pseudotreffern (false positives). Weitere Beispiele für Pseudotreffer, die wir in unseren Stichproben zu OKAY aussortiert haben, werden in den beiden Folgeabschnitten vorgestellt. Nach dem Aussortieren von Pseudotreffern verbleiben für unsere Untersuchungen relevante OKAY-Verwendungen, die wir als Belege (true positives) bezeichnen. Diese Beleglisten wurden dann weiter kategorisiert und ausgewertet (vgl. Abschnitt 3.2.3). 3.2.1 Datenerhebung DGD Die Datenerhebung der gesprochenen OKAYVerwendungen erfolgt in der DGD. Nach dem Einloggen gelangt man über den Menüpunkt „Recherche – Tokens“ zum Startbildschirm der Suche (vgl. Abbildung 3).14 Im Anschluss wählt man in der linken Spalte das Korpus aus. Für unsere Untersuchungen nutzten wir das FOLK-Korpus. Die Form okay wird in das Feld normalisiert eingetragen (vgl. Abbildung 4) und mit einem Klick auf „Suche starten“ wird die Suchabfrage durchgeführt. Durch die in Tran- 13 Die DGD war zum Zeitpunkt der Datenerhebung in Version 2.8 online. Informationen zur Versionsgeschichte sind abrufbar unter: https://dgd.ids-mannheim.de/DGD2Web/jsp/VersionHistory.jsp?v_session_id=EE 7C97E7E03187C53226D529B50AFE7F. 14 Zur Verwendung der DGD gibt es mehrere Video-Tutorials, die bei erstmaliger Recherche innerhalb der Plattform hilfreich sind: https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.help_b?v_session_id=#1. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 44 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ 45 Abb. 4: Ausschnitt aus der Trefferliste zu OKAY in der DGD: Treffer 5 der Ergebnisse zeigt die ausgeklappte Transkript-Ansicht skripten standardisierte Schreibweise von Wörtern, z. B. deren konsequente Kleinschreibung, ist es nicht notwendig, verschiedene Suchformen von OKAY abzufragen. In den cGAT-Konventionen für das computergestützte Transkribieren gibt es einen Abschnitt zu okay, der festhält, dass es „nicht mit ‚ok’ oder ‚O.K.’ abgekürzt, sondern als okay transkribiert [wird]“ (Schmidt et al. 2015, S. 26). Zu okay konnten 6.469 Treffer gefunden werden.15 Die Treffer werden in einer KWIC-Liste angezeigt. KWIC steht für keyword in context und zeigt die Treffer so angeordnet an, dass die Suchwörter untereinanderstehen. Das Suchwort ist dabei in fett dargestellt und wird vom Kontext umrahmt (vgl. Abbildung 4). Die einzelnen Treffer können links an- oder abgewählt werden. Es besteht auch die Möglichkeit, die Treffer herunterzuladen. Informationen zu den Sprechern sowie dem eigentlichen Gesprächskontext, indem OKAY benutzt wurde, ist durch Klicken auf die Sigle unter Sprechereignis abrufbar. Der Abspiel-Button dient zum Anhören der Audio-Datei und durch das Betätigen des Textdokument-Symbols wird der Transkriptausschnitt ausge- klappt (vgl. Abbildung 4). Durch Klicken auf die Lupe kann der Transkriptausschnitt auch erneut vergrößert werden. Dies ist je nach Klassifizierung sehr hilfreich, insbesondere bei alleinstehenden OKAY-Verwendungen (wie im ausgeklappten Treffer 5 in Abbildung 4). Man kann sich schnell einen Überblick verschaffen, welche Person davor bzw. danach spricht und in welchem Kontext OKAY geäußert wurde. Abb. 5: Dialogfeld Stichprobe entnehmen in der DGD Es wurde für die Klassifikation der OKAYBelege eine Zufallsstichprobe von 500 Treffern gezogen. In der DGD kann die Größe der Stichprobe angegeben werden (siehe Abbildung 5), indem man auf das WürfelSymbol (Zufallsstichprobe bestimmen) klickt. Aus den 6.469 OKAY-Treffern wurden so 500 Treffer zufällig ausgewählt. Die Trefferliste wurde abschließend zur weiteren Bearbei- 15 Wir haben uns bei dieser Studie an die Transkript-Konventionen gehalten und dementsprechend ausschließlich die Suchform okay abgefragt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 45 24.03.22 11:06 46 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Abb. 6: Ausschnitt aus Excel-Dokument mit OKAY-Verwendungen in FOLK zur weiteren Kategorisierung Abb. 7: Dialogfeld Suchanfrage in der COSMAS IIweb-Plattform tung exportiert. Dies kann in der DGD durch Auswählen zwischen Textdatei oder XMLDatei realisiert werden. Die XML-Datei kann direkt in Excel geöffnet werden (vgl. Abbildung 6). In der Excel-Datei wurden die Treffer dann kategorisiert. Zunächst wurden die 500 Treffer manuell überprüft und 18 Pseudotreffer wurden bestimmt. Dies waren allesamt Treffer, in denen im Transkript OKAY stand, dies aber nicht eindeutig in der verknüpften AudioDatei zu hören war (u. a. bedingt durch Störgeräusche, Lautstärkeschwankungen und Überlappungen) und eine eindeutige Zuordnung in eine der Kategorien nicht möglich war. Die restlichen 482 Belege wurden in jeweils eine unserer Kategorien eingeordnet (vgl. Abschnitt 3.2.3). 3.2.2 Datenerhebung COSMAS IIweb Die Datenerhebung der deutschen und französischen Stichproben lief identisch ab, da beide Korpora über dieselbe Korpusrechercheplattform zur Verfügung stehen. In diesem Abschnitt wird stellvertretend die Erhebung der deutschen Daten beschrieben. Nach dem Login in die COSMAS IIweb-Plattform16 muss zunächst das entsprechende Archiv ausgewählt werden: WP – Wikipedia Artikel u. Artikeldiskussion & Benutzerdiskussion 2013/2015/2017. Danach folgt die Auswahl des Korpus. Zum Zeitpunkt der Datenerhebung wurde das aktuellste Korpus wdd15 – alle Wikipediadiskussionen zu Artikeln 2015 verwendet. Im nächsten Schritt wird die Suchabfrage eingegeben (vgl. Abbildung 7). Die Abfrage okay ok (o. /+w0 k.) sucht nach allen orthographischen Varianten der Schreibweisen ok, okay und o. k., da mehrere Varianten von OKAY in der Wikipedia verwendet werden (vgl. Herzberg 2016; Herzberg/Storrer 2019). Mit der Suchabfrage werden gleichermaßen auch großgeschriebene Varianten einbezogen, z. B. OK, Okay, O. K., etc. Durch das Bestätigen der Suchen-Schaltfläche wird die Recherche von OKAY-Treffern gestartet und letztlich werden 66.307 Treffer ausgegeben für OKAY in Wiki-D-de (siehe Abbil- 16 Erreichbar unter https://cosmas2.ids-mannheim.de/cosmas2-web/. Eine Einführung in die Arbeitsabläufe von COSMAS IIweb findet sich unter http://www.ids-mannheim.de/cosmas2/web-app/hilfe/allgemein/ablaeufe.html. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 46 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ 47 Abb. 8: Dialogfeld KWIC in der COSMAS IIweb-Plattform dung 8) sowie 22.514 Treffer für OKAY im französischen Korpus Wiki-D-fr. Da die Treffermengen sowohl für das Deutsche als auch für das Französische zu umfangreich für eine manuelle Überprüfung sind, wurden, wie bereits für die FOLK-Daten, Stichproben aus diesen Treffermengen gezogen. Dies lässt sich mit COSMAS IIweb durch die entsprechende Einstellung unter dem Reiter Suche im Dialogfeld Optionen durchführen: Durch das Anklicken von Zufallsauswahl wird die angezeigte Ergebnismenge um den entsprechenden Wert (hier 500) begrenzt. Es wurden für die Klassifikation der Trefferlisten insgesamt zwei Zufallsstrichproben (für beide Sprachen) mit jeweils 500 Treffern gezogen. Die so erhaltenen Treffer wurden zur weiteren Klassifikation exportiert (vgl. Abbildung 9). Durch das Klicken auf Exportieren wird eine Exportdatei fertiggestellt, die im Anschluss zum Download zur Verfügung steht. Dabei werden die Treffer gemeinsam mit ihrer URL zur Quelle in ein Dokument überführt, das nicht nur diese enthält, sondern auch eine Zusammenfassung der Suchparameter (Abbildung 10). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 47 Nach Download der Exportdateien (jeweils für die deutschen und französischen Daten) wurden sie in ein Excel-Dokument importiert, um weitere Kategorisierungen vorzunehmen (vgl. Abbildung 11). In diesen Excel-Dokumenten wurden zunächst die Treffer auf Pseudotreffer überprüft. Neben Treffern, die man nicht mehr nachvollziehen konnte (d. h. unter angegebener URL nicht auffindbar), sind aus Wiki-Dde beispielhaft folgende Pseudotreffer zu nennen: 1. Fremdsprachliche Treffer: • Eerst nadem de Nedderlannen denn en egen Staat weren un ehr Amtspraak denn nich mehr Düütsch nömen wullen (harr mit de hoochdüütsche Amtspraak ja ok nich veel gemeen) […] (WDD15/D07.36750: Diskussion:Dialektkontinuum, in: Wikipedia – URL: https://de.wikipedia.org/ wiki/Diskussion:Dialektkontinuum Wikipedia, 2015) • Okay. It was a nice discussion anyway. -13:52, 19. Jun. 2007 (CEST) 24.03.22 11:06 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 48 Abb. 9: Dialogfeld Optionen mit Fokus auf den Einstellungen zur Begrenzung der Ergebnismenge in der COSMAS IIweb-Plattform (eigene Markierung) 2. Treffer in Zitaten: • […] Für derartige Dinge gibt es keine wie auch immer geartete moralische Rechtfertigung. Desweiteren möchte ich auf eine weiter Aussage ihrerseits eingehen. Zitat: „OK, man kann in solchem ton schreiben, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 48 aber wenn schon dann konsequent. […] die leute manchmal 30 km zu fuss zu laufen gezwungen“. […] (WDD15/B44.62994: Dis kussion:Breslau/Archiv, in: Wikipedia – URL: http://de.wikipedia.org/wiki/Dis kussion:Breslau/Archiv: Wikipedia, 2015) 24.03.22 11:06 49 Abb. 10: Dialogfeld Export in der COSMAS IIweb-Plattform (links) sowie Ausschnitt der Exportdatei (rechts) Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ Abb. 11: Ausschnitt aus Excel-Dokument mit OKAY-Verwendungen in der Wikipedia zur weiteren Kategorisierung 3. Treffer in Eigennamen/Titeln: • Ashleys Single „It’s Alright, It’s OK“ in den USA auf Platz 3: „Ihre aktuelle Hitsingle „It’s Alright, It’s Ok!“ rauscht in dieser Woche in den offiziellen US Billboard-Charts aus dem Nichts auf Platz 3.“ -- 10:03, 6. Jul. 2009 (CEST) 4. Homonyme Ausdrücke mit anderen Bedeutungen: • Diese Region lebt doch auch zu einem gewissen Teil davon – Touristen bringen Geld (welches die OK dann den Hotels, Restaurants, usw. als Schutzgeld ‚abnehmen’ könnte) (WDD15/K13.07642: Diskussion: Kalabrien, in: Wikipedia – URL: https:// de.wikipedia.org/wiki/Diskussion:Kala brien: Wikipedia, 2015) • Und auch das vieldiskutierte BÖ scheint nicht beanstandet worden zu sein. Wie in Sachsen stellt sich allerdings auch hier die Frage ob an alten Kreisnamenskürzeln wie UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 49 OK, MQ oder AZE wirklich Bedarf besteht. -- 11:49, 27. Nov. 2012 (CEST) Neben fremdsprachlichen Treffern 1., z. B. Okay in einem englischen Post bzw. ok in der Bedeutung von „auch“ im Niederdeutschen, dem Gebrauch in Zitaten 2. und Titeln 3., treten vor allem andere Bedeutungen der Abkürzung OK als Pseudotreffer auf. Insbesondere hinter dieser Schreibweise verbergen sich für unsere Untersuchung nicht relevante Fundstellen. In den angeführten Beispielen 4. steht OK als Abkürzung für organisierte Kriminalität bzw. das Kfz-Kennzeichen Ohrekreis. Nach Aussonderung der Pseudotreffer wurden die verbliebenen 475 deutschen OKAYBelege in jeweils eine unserer Kategorien eingeordnet (siehe Abschnitt 3.2.3). Analog zur deutschen Stichprobe wurde im Anschluss die französische Stichprobe untersucht. Diese enthält 16 Pseudotreffer, insbesondere englischsprachige OKAY-Verwen- 24.03.22 11:06 50 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. dungen, OKAY in Zitaten sowie als Bestandteil von Titeln. Die damit verbleibenden 484 französischen OKAY-Belege konnten in einem nächsten Schritt dann klassifiziert werden (vgl. Abschnitt 3.2.3). Im Folgenden werden die Haupt- und Subklassen unserer OKAYKategorisierung vorgestellt. 3.2.3 Analyse und Klassifikation Die in den vorherigen Abschnitten beschriebenen Schritte der Datenerhebung und -bereinigung resultieren nun in drei Beleglisten, die wir in Bezug auf unsere Fragestellungen und Hypothesen weiter analysieren. Für diese Analyse gilt es, geeignete Kategorien festzulegen und zu definieren. Im Idealfall kommen die Kategorien und Definitionen aus einem einzigen Kategoriensystem, z. B. aus einer Grammatik oder aus einer theoretischen Arbeit zu OKAY. Ein solches System bietet beispielsweise die GDS (1997), an der wir uns bei der Unterscheidung unserer bei- den Hauptklassen SE und IE orientieren. Die Opposition von SE und IE ist für unsere Fragestellungen und Hypothesen grundlegend. Deshalb haben wir diese beiden Kategorien auch schon bereits in Abschnitt 3.2 erläutert. Um die Unterschiede zwischen gesprochener und geschriebener Sprache sowie die Unterschiede zwischen dem Deutschen und dem Französischen noch feiner zu analysieren, haben wir für die beiden Hauptklassen IE und SE aber noch weitere Subklassen eingeführt. Diese Subklassen stammen teilweise aus der GDS, teilweise aus weiteren Kategoriensystemen, wie z. B. der neuesten Ausgabe der Duden-Grammatik (Duden 2016), die wir zusätzlich herangezogen haben, um relevante Unterschiede, die uns bei der Durchsicht der Belege aufgefallen sind, besser erfassen zu können. Die Ergebnisdiskussion in Abschnitt 4 zeigt, dass sich der Aufwand für diese Feinanalyse gelohnt hat.17 Tab. 1: Kategorien unserer Klassifizierung mit Haupt- und Subklassen Hauptklasse Subklasse Beispiel Interaktive Einheit (IE) Responsiv 1 U1: Könnte man den Artikel nicht langsam mal wieder entsperren? U2: OK, versuchen wir’s mal. Reaktiv 2 U1: sorry, war so lange nicht mehr online, daß wiki mich schon nicht mehr erkannt hat (…)—U2: Okay, ich wußte nicht, ob du dich nochmal meldest (…) Strukturierung 3 U1: „Vielleicht könnte man auch noch etwas ausführlicher die Verallgemeinerung mit Vektoren und noch einige andere Dinge darstellen... OK, wenn ich mal wieder etwas mehr Zeit habe werde ich mich damit mal beschäftigen (…) Rückversicherungs-signal 4 U1: Mal sehen, ob ich (…) aus meiner Barks-Sekundärliteratur ein paar schöne Sätze (…) zusammenkriege, ok? Rezeptionspartikel 5 U1: (…) dann soll entschieden werden [ob des jetzt] wird oder nich (.) und frau s bachs sorge isch halt U2: [okay] U1: (…) dass des in der schulakte äh drinsteht prädikativ 6 U1: Das ist auch vollkommen okay. Adverbial 7 U1: (…) würde ich das schon OK finden. Attributiv 8 U1: (…) um dir ganz okaye chancen vorherzusagen. Nominal 9 U1: (…) warte aber noch auf das Ok von A. Thommen 10 U1: Einleitung: ok Syntaktische Einheit (SE) Rest 17 U1 steht für User eins, U2 für User zwei, etc. und verdeutlicht, welcher Beitrag von den jeweiligen DiskussionsteilnehmerInnen verfasst wurde. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 50 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ Im Folgenden erläutern wir die zur Klassifikation verwendeten Kategorien, die in der Tabelle 1 im Überblick gezeigt sind.18 Die Hauptklasse der syntaktischen Einheiten (SE) unterteilen wir nach ihrer syntaktischen Funktion in vier Subklassen und orientieren uns dabei an den Definitionen im grammatischen Informationssystem Grammis des IDS, das ebenfalls auf der GDS (1997) aufbaut, aber auch Bezüge zu anderen Terminologien und neuerer Fachliteratur herstellt.19 Der Subklasse „prädikativ“ ordnen wir Belege zu, die als Prädikativkomplemente verwendet werden, also z. B. mit einem der Kopulaverben „sein“, „werden“ oder „bleiben“ auftreten (z. B. in „das ist okay“). Belege, in denen OKAY als Adverbiale auftritt, gehören zur Subklasse adverbial (z. B. in „ich finde das okay“). Zur Subklasse „attributiv“ gehören Belege, die als Attribute von Nominalphrasen verwendet sind (z. B. in „okaye Chancen“). Die Subklasse „nominal“ umfasst Belege, in denen OKAY als Nomen verwendet wird (z. B. in „sein Okay geben“). Bei den Subklassen der interaktiven Einheiten (IE) haben wir die Kategorie des Responsivs aus der GDS (1997) übernommen, die bereits in Abschnitt 2 erläutert wurde, weil sie für unsere Hypothese H2 grundlegend ist. Zur Subklasse Responsiv zählen wir Belege, in denen OKAY als Antwort auf eine Entscheidungsfrage dient, also z. B. in einer Sequenz, in der die Frage: „Könnte man den Artikel nicht langsam wieder entsperren?“ beantwortet wird mit „Okay, versuchen wir’s mal“. Weiterhin nutzen wir zwei Kategorien aus dem Kapitel Gesprächspartikeln der aktuellen Duden-Grammatik: das Rückversicherungssignal und die Rezeptionspartikel. Rückversicherungssignale, stehen meist am Ende von Äußerungen und dienen im dialogischen Sprechen und Schreiben dazu, Stellungnahmen oder Bestätigungen des Kommunikationspartners einzufordern. Ein Beispiel ist „Mal sehen, ob ich (…) aus meiner Barks-Sekundärliteratur ein paar schöne Sätze (…) zusammenkriege, ok?“ (Duden 2016, S. 1232). 51 Rezeptionspartikeln dienen per definitionem einem/r HörerIn im mündlichen Gespräch dazu, einem/r SprecherIn parallel zum laufenden Gespräch Rückmeldung zu geben, ohne selbst das Rederecht übernehmen zu wollen (vgl. Duden 2016, S. 1232). Der Transkriptausschnitt des Beispiels 5 (Rezeptionspartikel) aus Tabelle 1 zeigt, dass OKAY von U2 parallel zur Äußerung von U1 „ob des jetzt“ geäußert wird. U1 führt die Äußerung fort und es wird deutlich, dass U2 mit OKAY kein Rederecht einfordert, sondern lediglich eine Rückmeldung gibt. Solche Rezeptionspartikeln haben in geschriebenen Wikipediadiskussionen keine funktionale Entsprechung, weil Lesen und Schreiben dort nicht gleichzeitig verläuft, d. h. die Lesenden sehen nicht, wie ein geschriebener Beitrag entsteht und können deshalb auch nicht zeitlich parallel Rückmeldung geben. Die Kategorie Rezeptionspartikel ist also generell nur auf gesprochene Daten anwendbar, in denen die Rolle von Sprechenden und Hörenden klar unterschieden werden kann. Funktional verwandt sind allerdings Belege, in denen Sprechende oder Schreibende mit OKAY eine Rückmeldung zu einem Vorgängerbeitrag geben. Ein Beispiel dafür ist ein Wikipedia-Thread, in dem die Äußerung „sorry, war so lange nicht mehr online, daß wiki mich schon nicht mehr erkannt hat“ mit der Äußerung „Okay, ich wußte nicht, ob du dich nochmal meldest (…)“ als „in Ordnung“ evaluiert wird. Wir haben für diese und ähnliche Belege die Kategorie „Reaktiv“ übernommen, die Sieberg (2016) eingeführt hat. Reaktive werden präzisiert als Ausdrücke, „die einem Sprecher zur Verfügung stehen, wenn er sich in einem Dialog mit direkt vorgehenden Behauptungen, Vermutungen, Aufforderungen, Fragen, Bitten, Versprechen, Danksagungen und Entschuldigungen konfrontiert sieht und darauf verbal angemessen reagieren möchte. Angemessen [Hervorhebung im Original] bedeutet meinem Verständnis nach, dass es ihm mittels dieser Ausdrücke gelingt, im weiteren Verlauf des 18 Tabelle 1 zeigt Beispiele aus Wikipediadiskussionsbeiträgen, die für diese Übersicht teilweise aber gekürzt und vereinfacht wurden. 19 https://grammis.ids-mannheim.de/terminologie. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 51 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 52 II Fallstudien Dialogs seine eigenen Interessen zu vertreten“ (Sieberg 2016, S. 106). Anders als die hörerseitigen Rezeptionspartikeln werden Reaktive von Sprechenden oder eben auch von Schreibenden in ihre Äußerungen integriert; sie sind somit in allen drei Korpora belegt. Ein wenig kniffliger ist die Abgrenzung der Responsive von den Reaktiven. Nach der o.g. Definition von Sieberg 2016 könnte man auch die Responsive zu den Reaktiven zählen, denn auch sie reagieren auf Entscheidungsfragen in angemessener Weise mit einer Antwort. Um unsere Hypothese H2 testen zu können, definieren wir die Responsive und die Reaktive als disjunkte Subklassen: Belege, in denen OKAY auf eine Entscheidungsfrage antwortet, werden den Responsiven zugeordnet; alle anderen Belege, die der Definition von Sieberg (2016) entsprechen, sind als Reaktive klassifiziert. Bei der Klassifikation der Belege wurde schnell klar, dass es eine ganze Reihe von Verwendungen von OKAY gibt, die zwar eindeutig nicht syntaktisch integriert sind und somit zur Hauptklasse der IE zählen, die aber zu keiner der bisher erläuterten Subklassen passen. Es handelt sich um Fälle, die in der Fachliteratur zu OKAY in der gesprochenen Sprache auch bereits erforscht wurden,20 aber noch nicht in Grammatiken integriert sind. Außerdem entwickeln sich in der schriftlichen Interaktion auch eigenständige Muster, die bislang noch kaum erforscht und beschrieben wurden.21 Gemeinsamer Nenner dieser Verwendungen ist es, dass OKAY längere Beiträge strukturiert und damit auch Funktionen übernimmt, die für mündliche Gespräche als Diskursmarker beschrieben wurden. Für diesen Falltyp haben wir die Subklasse „Strukturierung“ eingeführt. Dieser Klasse ordnen wir Belege zu, in denen OKAY zur Strukturierung einer Äußerung dient. Ein Beispiel ist der folgende Beleg aus dem Wikipedia-Korpus, in dem OKAY den Übergang von Überlegungen einer Artikeloptimierung zur Ankündigung einer geplanten Handlung markiert: „Vielleicht könnte man auch noch etwas ausführlicher die Verallgemeinerung mit Vektoren und noch einige andere Dinge darstellen... OK, wenn ich mal wieder etwas mehr Zeit habe werde ich mich damit mal beschäftigen (…).“ In anderen Belegen des Typs Strukturierung steht OKAY an den Übergängen von Einschüben, Nachträgen oder Themenwechseln. Hierfür ein feineres, interaktionslinguistisch begründetes Kategoriensystem zu entwickeln, ist eines der Ziele der im Entstehen befindlichen Dissertation von Laura Herzberg. Der methodische Schritt der Datenanalyse bestand nun konkret darin, alle Belege der drei Listen restefrei einer der Subklassen zuzuordnen. Dabei fanden wir eine Reihe von Belegen, die sich nicht eindeutig zuordnen ließen. Hierzu gehören Beispiele wie „Einleitung : ok“, die man entweder als Kurzform für „Einleitung ist ok“ (prädikativ) oder für „Einleitung finde ich okay“ (adverbial) oder in einem weiten Sinne als Responsiv auf einen inneren Dialog „Ist die Einleitung in Ordnung? Okay.“ interpretieren kann. Für solche Belege haben wir eine dritte Hauptklasse Rest eingerichtet. Wir werden auf diese Klasse beim Vergleich der deutschen und französischen Daten in Abschnitt 4 noch zurückkommen. An dieser Stelle sei lediglich daran erinnert, dass die Restklasse keine Pseudotreffer enthält, denn diese wurden ja bereits im Bereinigungsschritt (siehe Abschnitte 3.2.1 und 3.2.2) ausgesondert, sondern relevante Belege, die aber nicht eindeutig einer der Subklassen von IE und SE zugeordnet werden können. Für den methodischen Schritt der Datenanalyse haben wir in den Excel-Tabellen mit unseren drei Datensätzen jeweils eine Spalte für alle Subklassen und die Restklasse angelegt. Die Zugehörigkeit zu den beiden Hauptklassen IE und SE ergibt sich dann über die Zuordnung der Subklassen zu diesen beiden Hauptklassen, sie wurde nicht separat klassifiziert. Jeder Beleg wurde intellektuell in seinem Kontext analysiert und genau einer Subklasse zugeordnet. Auffälligkeiten konnten in einer zusätzlichen Spalte „Anmerkungen“ 20 Vgl. Schegloff & Sacks (1973), Levin & Gray (1983), Beach (1993) und Bangerter et al. (2003). 21 Erste Beschreibungen eigenständiger Muster finden sich in Herzberg (2016) und Herzberg/Storrer (2019). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 52 24.03.22 11:06 Fallstudie „OKAY“ 4. Ergebnisse und Diskussion Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. vermerkt werden. Für die Zuordnung der gesprochenen Belege war es oft erforderlich, sich die Belege auch anzuhören, was in der DGD auch möglich ist (vgl. Abschnitt 3.2.1). Für die Zuordnung der Belege aus den Wikipediadiskussionen war der von COSMAS IIweb ausgegebene Kontext oft nicht ausreichend; es musste in der Wikipedia selbst nachrecherchiert werden. Es handelt sich also um eine intellektuelle Klassifikation, die mit Sorgfalt und teilweise mit einem hohen Aufwand betrieben wurde. Wie im vorigen Abschnitt erläutert, haben wir insgesamt drei Samples mit 500 Treffern zu OKAY aus drei verschiedenen Korpora erhoben: 1. dem Gesprächskorpus FOLK, 2. dem 2015 erstellten Korpus mit geschriebenen deutschen Wikipediadiskussionen Wiki-Dde und 3. dem zum gleichen Zeitpunkt erstellten Korpus mit französischen Wikipediadiskussionen Wiki-D-fr. Alle Trefferlisten wurden zunächst bereinigt, d. h. Pseudotreffer (z. B. OK als Abkürzung für Oberkommando) wurden ausgesondert (vgl. Abschnitt 3.2.2). Alle verbliebenen Belege für OKAY wurden genau einer der Subklassen von SE, IE oder der Restklasse zugeordnet. Die absoluten Zahlen sind in den Tabellen 2 und 3 gegenübergestellt. Die Zahl der analysierten Belege ist in den drei Stichproben unterschiedlich, da die drei Trefferlisten eine unterschiedlich hohe Anzahl von Pseudotreffern enthielten. Somit sind unsere finalen Beleglisten unterschiedlich groß. Wenn man sie dennoch vergleichen möchte, muss man die absoluten Zahlen in das Verhältnis zu der Grundgröße der Stichproben setzen. Wir haben deshalb zusätzlich in Klammern angegeben, welchen prozentualen Anteil die absoluten Zahlen an der Gesamtzahl der analysierten Belege im jeweiligen Sample haben. Diese prozentualen Angaben können wir miteinander vergleichen. In den folgenden Abschnitten interpretieren wir unsere Ergebnisse vor dem Hintergrund unserer Untersuchungsfragen und Hypothesen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 53 53 4.1 Ergebnisse der medienvergleichenden Untersuchung Die in Abschnitt 2 erläuterten und motivierten Untersuchungsfragen und Hypothesen zu unserer medienvergleichenden Untersuchung seien im Folgenden noch einmal zusammengestellt. F1: Wie unterscheiden sich die Anteile der Kategorien IE und SE (und ihrer Subklassen) im Gebrauch von OKAY in mündlichen Gesprächen einerseits vom Gebrauch in geschriebenen Diskussionen im Internet andererseits? Hypothesen: H1: Der Anteil von IE-OKAY ist in gesprochener Sprache höher als in geschriebenen Diskussionen. H2: Wenn OKAY als IE gebraucht wird, dann handelt es sich in den meisten Fällen um die Kategorie „Responsiv“. Die Zahlen der Ergebnistabelle 2 zeigen zunächst, dass der Anteil der IE im FOLK-Sample mit 95 % in der Tat deutlich höher ist als im Sample der geschriebenen Wikipediadiskussionen, in dem „nur“ 69.2 % der Belege als IE klassifiziert wurden. Unsere Hypothese H1 wurde also nicht falsifiziert. Vielmehr liefern die Ergebnisse empirische Evidenz für die Annahme der Fachliteratur, dass OKAY in gesprochener Sprache vornehmlich als interaktive Einheit gebraucht wird, anders als in der schriftlichen Verwendung, in der OKAY mit 28 % vergleichsweise häufiger auch syntaktisch integriert vorkommt. Dabei überwiegt deutlich die prädikative Funktion (… ist okay) mit 23,8 % Anteil an den Gesamtbelegen, gefolgt von der adverbialen Funktion (… finde ich okay) mit 3,8 % am Gesamtanteil. Es fanden sich im Sample nur vier Belege für den Gebrauch als Nomen (sein Okay geben) und kein Beleg für den Gebrauch als Attribut (ein okayer Typ). Wenn man konstatiert, dass OKAY im FOLK-Sample deutlich häufiger als IE vorkommt als im geschriebenen Vergleichssample, muss man natürlich berücksichtigen, dass es eine Subklasse von IE gibt, die per definitionem nur in gesprochener Sprache vorkom- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 54 II Fallstudien men kann, nämlich die Rezeptionspartikeln (vgl. die Erläuterungen dazu in Abschnitt 3.2.3). Zu dieser Subklasse gehören immerhin 19,9 % der Belege im FOLK-Sample. Aber selbst wenn man diesen Anteil herausrechnet, verteilen sich die Anteile Haupt- und Subklassen sehr unterschiedlich in den beiden Samples. Das FOLK-Sample enthält nur einen wesentlich geringeren Anteil von SE-Belegen und diese Belege gehören allesamt zur nicht flektierbaren Subklasse prädikativ. In den geschriebenen Diskussionen gibt es mit 20,4 % einen deutlich höheren Anteil an strukturierenden OKAYs als im FOLK-Sample mit 9,8 %. Die Durchsicht der Belege zeigt, dass die Formen und Funktionen der Strukturierung im geschriebenen Korpus vielfältig sind und sich teilweise auch von denen im Gespräch unterscheiden; hier wird die Dissertation von Laura Herzberg noch einmal mit feineren Kategorien und einem größeren Sample ansetzen (vgl. Kap. 5). Überraschend in beiden Samples war hingegen der sehr niedrige Anteil, in denen OKAY als Responsiv, d. h. als Antwort auf eine Entscheidungsfrage, verwendet wird. Für diese Funktion, die in Grammatiken und auch Wörterbüchern oft als Hauptfunktion im Gebrauch von OKAY genannt wird, fanden sich im Wiki-D-de-Sample nur sechs Belege, im FOLK-Sample sogar nur vier. Die Hypothese H2 wurde durch unsere Daten also eindeutig falsifiziert: In unseren Daten ist diese Funktion als Responsiv zwar belegt, aber keineswegs dominant. Sehr viel häufiger sind Verwendungen als Reaktiv, also als schriftliche oder mündliche Rückmeldung auf Vorgängeräußerungen, die aber keine Entscheidungsfragen sind. Dieser Subklasse, die bislang in Grammatiken und Wörterbüchern noch nicht erfasst ist, wurden 41,5 % der Belege im schriftlichen Sample und sogar 68,4 % der Belege im FOLK-Sample zugeordnet. Es zeigt sich also, dass es sich lohnt, Daten aus authentischen Sprachkorpora auch quantitativ auszuwerten, um Beschreibungen in Grammatiken und Wörterbüchern in besseren Einklang mit dem tatsächlichen Sprachgebrauch zu bringen. Tab. 2: Prozentuale Verteilung von OKAY-Verwendungen über alle Kategorien – Stichproben aus Wiki-D-de und FOLK im Vergleich Wiki-D-de IE FOLK Responsiv 6 (1,3 %) 4 (0,8 %) Reaktiv 197 (41,4 %) 329 (68,4 %) Strukturierung 97 (20,4 %) 47 (9,8 %) Rückversicherungs-signal 29 (6,1 %) 10 (2,1 %) 67 (13,9 %) Rezeptionspartikel Summe IE 329 (69,2 %) 457 (95,0 %) adverbial 18 (3,8 %) 0 (0 %) prädikativ 113 (23,8 %) 24 (4,9 %) Attributiv 0 (0 %) 0 (0 %) Nominal 4 (0,8 %) 0 (0 %) Summe SE 135 (28,4 %) 24 (5,0%) REST 11 (2,4 %) 0 (0 %) Belege insgesamt 475 (100 %) 482 (100 %) SE UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 54 24.03.22 11:06 Fallstudie „OKAY“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 4.2 Ergebnisse der sprachvergleichenden Untersuchung Bei der sprachvergleichenden Studie wurden die Daten aus dem deutschen Wiki-D-deSample, die bereits in 4.1 mit dem FOLK-Sample verglichen wurden, mit einem Sample aus französischen Wikipediadiskussionen (WikiD-fr) verglichen. Wenn man sich die Zahlen in Tabelle 3 anschaut, so fällt zunächst auf, dass die Anteile der IE und ihrer Subklassen in beiden Sprachen relativ ähnlich sind, ähnlicher jedenfalls als in der Gegenüberstellung von gesprochenen und geschriebenen Daten in Tabelle 2. Dies ist ein erster Hinweis darauf, dass sich in der geschriebenen Sprache, unabhängig von der Einzelsprache, Verwendungsmuster in der Schriftlichkeit herausbilden, die sich von denen im Gespräch unterscheiden. Dieser Befund, der hier als Nachtrag zur medienvergleichenden Studie zumindest erwähnt werden soll, müsste natürlich an weiteren Sprachen überprüft werden, zudem müssten auch für das Französische Samples aus Gesprächskorpora ausgewertet werden (vgl. Abschnitt 5). Im Folgenden konzentrieren wir uns nun auf die Diskussion unserer sprachverglei- 55 chenden Fragestellung und Hypothese, die in Abschnitt 2 motiviert und erläutert wurden und die lauten: F2: Wie unterscheiden sich die Anteile der Kategorien IE und SE (und ihrer Subklassen) in französischen Wikipediadiskussionen einerseits und in deutschen Wikipediadiskussionen andererseits? Hypothese: H3: Der Anteil von SE-OKAY ist in den deutschen Wikipediadiskussionen höher als in den französischen Diskussionen. Die Zahlen in Tabelle 3 machen deutlich, dass sich das deutsche und das französische Sample vor allem im Anteil der Belege unterscheiden, in denen OKAY syntaktisch integriert, also als einer Subklasse der SE, verwendet wird. Der Anteil der SE-Subklassen ist im deutschen Korpus mit 28,9 % fast dreifach so hoch wie der Anteil im französischen Sample mit 10,3 %. Die Hypothese H3 wurde durch die Daten also nicht falsifiziert. Vielmehr liefert die Auswertung empirische Evidenz für die Annahme, dass der Prozess der grammatischen Integration von OKAY im Französi- Tab. 3: Prozentuale Verteilung von OKAY-Verwendungen über alle Kategorien – Stichproben aus Wiki-D-de und Wiki-D-fr Wiki-D-de IE Wiki-D-fr Responsiv 6 (1,3 %) 6 (1,2 %) Reaktiv 197 (41,4 %) 203 (42,0 %) Strukturierung 97 (20,4 %) 69 (14,3 %) Rückversicherungs-signal 29 (6,1 %) 7 (1,4 %) 329 (69,2 %) 285 (58,9 %) adverbial 18 (3,8 %) 8 (1,6 %) prädikativ 113 (23,8 %) 42 (8,7 %) Attributiv 0 (0 %) 0 (0 %) Nominal Rezeptionspartikel Summe IE SE 4 (0,8 %) 0 (0 %) Summe SE 135 (28,4 %) 50 (10,3 %) REST 11 (2,4 %) 149 (30,8 %) Belege insgesamt 475 (100 %) 484 (100 %) UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 55 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 56 II Fallstudien schen nicht so weit fortgeschritten ist wie im Deutschen. Dafür spricht auch, dass Verwendungen als Nomen im französischen Sample überhaupt nicht belegt sind. Ob dies eine Konsequenz der Ächtung von Anglizismen im Zuge der französischen Sprachpolitik ist, kann man zwar mutmaßen. Unsere Daten können diesen Ursache-Wirkung-Zusammenhang aber natürlich nicht beweisen; es könnten auch andere Faktoren ausschlaggebend sein. Außerdem zeigt sich beim Vergleich der beiden Samples ein auffälliger Unterschied im Anteil der Restklasse, die wir für Fälle eingeführt haben, die sich nicht eindeutig einer der Subklassen von IE und SE zuordnen lassen. Im deutschen Sample gehören dazu 2,4 % der Belege, im französischen Sample jedoch 30,8 %. Hinter diesem hohen Anteil verbergen sich Belege wie „Au niveau encyclopédique, ok pour article sur le scoutisme.“22 oder „Pertinance OK“.23 Diese könnten auch als elliptische Verwendungen eines nominalen Gebrauchs „Au niveau encyclopédique, je donne mon ok pour article sur le scoutisme.“24 oder eines prädikativen Gebrauchs „La pertinance est OK“25 interpretiert werden, was den Anteil von SE wieder ein wenig an den der deutschen Daten angleichen würde. Andererseits könnte der hohe Anteil von Ellipsen in der Restklasse auch als Indiz dafür gewertet werden, dass französische Schreibende von einer syntaktisch integrierten Verwendung zurückschrecken und auf formelhafte und syntaktisch verkürzte Konstruktionen ausweichen. Unsere Befunde beim Vergleich der SE-Anteile sind also ein Beispiel dafür, dass man sich nicht darauf ausruhen sollte, wenn ein quantitativer Befund eine Hypothese empirisch stützt, sondern dass es sich immer lohnt, bei Auffälligkeiten einen Blick in die zugrundeliegenden Sprachdaten zu werfen und ggf. auch über eine Erweiterung bzw. Verfeinerung des Kategoriensystems nachzudenken, in diesem speziellen Fall z. B., um bestimmte Typen von Ellipsen und formelhafte Verwendungen zu erfassen. 22 23 24 25 5. Methodische Reflexion Wir haben bei der Diskussion unserer Ergebnisse bereits einige Punkte angesprochen, die wir in weiterführenden Studien genauer untersuchen möchten. Das in den Studien genutzte Klassifikationssystem (vgl. 3.2.3) wird in der laufenden Dissertation von Laura Herzberg noch weiter verfeinert; besonderes Augenmerk liegt dabei auf der Subklasse Strukturierung, bei der noch feinere Kategorien für unterschiedliche Typen der Binnenstrukturierung entwickelt werden. In der sprachvergleichenden Studie fiel auf, dass im Französischen viele Belege (30,9 %) der Klasse Rest zugeordnet werden mussten. Zu dieser Klasse zählen auch formelhafte Wendungen, beispielsweise die Kombination OKAY pour (OKAY für), die in unseren Daten auffällig häufig zu finden war. Empirische Evidenz dafür, dass es sich hierbei um eine formelhafte Wendung zu OKAY im Französischen handelt, lieferte eine Kookkurrenzanalyse, die wir in COSMAS IIweb im Korpus der französischen Wikipedia-Diskussionen wdf15 durchgeführt haben. Mit Kookkurrenzanalysen lassen sich Wörter ermitteln, die in statistisch signifikanter Regelmäßigkeit gemeinsam mit dem Suchwort (in unserem Fall OKAY) auftreten (vgl. Perkuhn et al. 2012, S. 79). Die Analyse zeigte, dass die Schreibvariante OK (die häufigste für das Französische, vgl. Herzberg/Storrer 2019, S. 113), mit dem Wort pour (für) am signifikant häufigsten auftritt. Eine interessante Anschlussfrage wäre nun, ob diese formelhafte Wendung nur typisch für die geschriebene Verwendung in der Internetkommunikation ist, oder ob sie auch in der gesprochenen Interaktion verbreitet ist. Leider gibt es bislang für das Französische keine der DGD vergleichbare, öffentlich verfügbare Datenbank mit Gesprächskorpora. Deshalb mussten wir bislang unsere medienvergleichenden Analysen auf das Deutsche beschränken. Langfristig wäre es natürlich sehr wünschenswert und sinnvoll, auch im Französischen gesprochene und ge- „Auf enzyklopädischem Niveau, ok für den Artikel über Pfadfinder. [Übersetzungen der Autorinnen].“ „Relevanz OK.“ „Auf enzyklopädischem Niveau gebe ich dir mein ok für den Artikel über Pfadfinder.“ „Die Relevanz ist OK.“ UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 56 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ schriebene Verwendungsmuster von OKAY vergleichen zu können. Und natürlich wäre es auch denkbar und sicherlich sehr interessant, die sprachvergleichende Untersuchung mit weiteren Sprachpaaren durchzuführen. Die Wikipedia-Korpusfamilie am IDS (vgl. Abschnitt 3.1) bietet hierfür eine sehr gute Datengrundlage, indem sie Korpora mit Diskussionen für weitere europäische Sprachen (u. a. Spanisch, Kroatisch, Italienisch) anbietet, die über COSMAS IIweb im WP_FS-Archiv analysiert werden können. Sicherlich wäre es aber auch wünschenswert, Korpora mit Diskussionen aus weiteren Wikipedia-Sprachversionen, z. B. Türkisch, Japanisch oder Mandarin, aufzubauen und vergleichend zu untersuchen. In unseren Untersuchungen mussten wir alle OKAY-Treffer manuell klassifizieren, was mit einem hohen Aufwand verbunden war. Deshalb konnten wir in unseren Untersuchungen alle drei Beleglisten zu OKAY nur von einer einzigen Person klassifizieren lassen. Generell ist es natürlich sehr empfehlenswert, die Daten von mehreren Personen klassifizieren zu lassen, und das Ausmaß der Übereinstimmung zwischen den Klassifikationsergebnissen, das sog. Inter-Annotator-Agreement (vgl. Lemnitzer/Zinsmeister 2015, S. 61), zu überprüfen. Wir werden künftige Studien von vornherein so planen, dass die Klassifikation der Datensätze von mindestens zwei Personen durchgeführt werden kann. Um den Aufwand der Analysen zu senken, wäre es natürlich auch wünschenswert, Ergebnisse von Werkzeugen zur linguistischen Annotation von Korpora nutzen zu können. Vielversprechend ist dafür das Part-of-SpeechTagging (POS-Tagging oder Wortartenannotation), das allen Wörtern eines Korpus automatisch ein Wortarten-Tag (POS-Tag) zuweist (vgl. Lemnitzer/Zinsmeister 2015, S. 63; → Kapitel 30 [Werkzeuge automatische Sprachanalyse] in diesem Band). Durch solch eine automatische Klassifizierung können im Prinzip die Subklassen von OKAY als SE automatisch klassifiziert wer- 57 den. Dies würde den Analyseaufwand erheblich verringern, da die automatischen Zuordnungen nicht oder nur in vereinzelten, kleinen Stichproben manuell überprüft werden müssten. Es gibt verschiedene Tagsets, die für das Deutsche verwendet werden: Ein bekanntes Tagset ist das STTS, das StuttgartTübingen-Tagset.26 Für etliche unserer Subklassen finden sich in diesem Tagset passende POS-Tags, z. B. ADJA für attributives Adjektiv, ADJD für prädikatives Adjektiv, NN für Appellativa (Nomen); für den Gebrauch von OKAY als IE gibt es das Tag PTKANT (Antwortpartikel). In COSMAS IIweb gibt es Teilarchive (TAGGED-T), deren Texte mit Wortartenannotationen des STTS versehen sind. Diese Teilarchive enthalten auch Wikipedia-Texte, allerdings ausschließlich Wikipedia-Artikelseiten. Führt man dort eine Suchabfrage mit OKAY durch, wird die Mehrzahl der OKAYTreffer der IE-Kategorie PTKANT zugeordnet. Ein anderes Teilarchiv (TAGGED-C) enthält dieselben Wikipedia-Texte, die aber mit einem anderen Tagger und Tagset annotiert wurden, nämlich Connexor. Leider sind auch dort die Ergebnisse für unsere Zwecke nicht hilfreich, denn auch hier werden die Vorkommen von OKAY mehrheitlich fälschlicherweise dem Tag A (das steht im Connexor-Tagset für Adjektiv) zugeordnet, obwohl andere Tags – z. B. N für Nomen, ADV für Adverb – auch in diesem Tagset vorhanden sind.27 Es zeigt sich also am Beispiel von OKAY, dass die Wortartenannotation in Korpora zur internetbasierten Kommunikation (IBK), und dazu zählt man auch die Wikipediadiskussionen, den auf monologischen Texten trainierten Taggern Schwierigkeiten bereiten. Diese Schwierigkeiten sind nicht auf IBK-Texte beschränkt, auch in den FOLK-Daten erwiesen sich die Ergebnisse des POS-Taggings als nicht hilfreich für unsere Analysen. In FOLK waren alle von uns untersuchten OKAY-Belege mit dem POS-Tag NGIRR (für Interjektion, Rezeptionssignal und Responsiv28) annotiert, obwohl auch hier andere Tags für eine kor- 26 http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf. 27 https://www.ids-mannheim.de/cosmas2/projekt/referenz/connexor/morph.html#MOOD. 28 https://ids-pub.bsz-bw.de/frontdoor/deliver/index/docId/6063/file/Westpfahl_Schmidt_Jonietz_Borlinghaus_STTS_2_0_2017.pdf. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 57 24.03.22 11:06 58 II Fallstudien Standardsprache. Für das Tagging von Gesprächsdaten und von Produkten des interaktionsorientierten Schreibens in der IBK fehlen Trainingsdaten und auch die Tagsets müssten noch erweitert und verfeinert werden. Arbeiten zur Verbesserung der Situation sind bereits im Gange (vgl. Beißwenger et al. 2016, Lüngen et al. 2016), sodass in naher Zukunft damit zu rechnen ist, dass POS-Tags auch die Analyse interaktiver Einheiten besser unterstützen können. Zum Weiterlesen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. rekte Analyse zur Verfügung stehen (u. a. ADJA, ADJD, NN, etc.). Alles in allem zeigte sich also, dass die von uns genutzten Korpora zwar Wortartentags für verschiedene Subklassen von IE und SE enthalten, dass die beim Tagging erzielten Ergebnisse aber leider extrem fehlerhaft und deshalb nicht hilfreich sind. Die Ursache des Problems ist seit Längerem bekannt: Die POS-Tagger wurden bislang meist an Zeitungstexten trainiert, d. h. an monologisch orientierter schriftlicher Zur Einführung in die Korpuslinguistik empfehlen wir Perkuhn, Keibel und Kupietz (2012) oder Lemnitzer und Zinsmeister (2015). Einen Überblick über Korpora internetbasierter Kommunikation, die für Analysen wie die hier vorgestellten genutzt werden können, bietet → Kapitel 26 [Korpora internetbasierter Kommunikation] in diesem Band. Weitere Beispiele, wie die Wikipedia-Korpusfamilie in der empirischen Sprachwissenschaft genutzt werden kann, finden sich in Gredel, Herzberg und Storrer (2018) und in Storrer (2018). Literatur Bangerter, Adrian/Herbert H. Clark/Anna R. Katz (2003): Navigating Joint Projects in Telephone Conversations, in: Discourse Processes, Jg. 3, S. 1–23. Beach, Wayne A. (1993): Transitional regularities for ‚casual’ “Okay“ usages, in: Journal of Pragmatics, Jg. 19, S. 325–352. Beißwenger, Michael/Sabine Bartsch/Stefan Evert/ Kay-Michael Würzner (2016): EmpiriST 2015: A Shared Task on the Automatic Linguistic Annotation of Computer-Mediated Communication and Web Corpora, in: Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task, Stroudsburg: Association for Computational Linguistics (ACL Anthology W16-2606), S. 44–56. https://www. aclweb.org/anthology/W16-2606.pdf. Duden – Die Grammatik (2016): 9. Auflage, Berlin: Dudenverlag. Gredel, Eva/Laura Herzberg/Angelika Storrer (2018): Linguistische Wikipedistik, in: Zeitschrift für Germanistische Linguistik (ZGL), Jg. 46, S. 480–493. GDS (1997): Zifonun, Gisela/Ludger Hoffmann/Bruno Strecker (Hrsg.), GDS Grammatik der deutschen Sprache. 3 Bände, Berlin/New York: De Gruyter. Herzberg, Laura (2016): Korpuslinguistische Analyse interaktiver Einheiten. Das Beispiel okay. Masterarbeit an der Philosophischen Fakultät, Lehrstuhl für germanistische Linguistik, Universität Mannheim. Herzberg, Laura/Angelika Storrer (2019): Investigating OKAY across genres, modes and languages. A corpus-based study on German and French, in: Cahiers du Laboratoire de Recherche sur le Langage (CLRL), Jg. 8, S. 149–176. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 58 Lemnitzer, Lothar/Heike Zinsmeister (2015): Korpuslinguistik: Eine Einführung (=Narr-Studienbücher), Tübingen: Narr Francke Attempto. Levin, Harry/Deborah Gray (1983): The Lecture’s OK, in: American Speech, Jg. 58, S. 195–200. Lüngen, Harald/Marc Kupietz (2020): IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache, in: Marx, Konstanze/Henning Lobin/ Axel Schmidt (Hrsg.), Deutsch in Sozialen Medien, Berlin, Boston: De Gruyter, S. 319–342. Lüngen, Harald/Michael Beißwenger/Axel Herold/ Angelika Storrer (2016): Integrating corpora of computer-mediated communication in CLARIN-D. Results from the curation project ChatCorpus2CLARIN, in: Dipper, Stefanie/Friedrich Neubarth/Heike Zinsmeister (eds.), Proceedings of the 13th Conference on Natural Language Processing (KONVENS 2016) (=Bochumer Linguistische Arbeitsberichte, Band 16), Bochum: Sprachwissenschaftliches Institut, Ruhr-Universität Bochum, S. 156–164. Koch, Peter/Wulf Oesterreicher (2019): Mündlichkeit und Schriftlichkeit von Texten, in: Janich, Nina (Hrsg.), Textlinguistik 2, aktualisierte und erweiterte Auflage, Tübingen:Narr Francke Attempto, S. 191– 207. Margaretha, Eliza/Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions, in: Journal of Language Technology and Computational Linguistics (JLCL), Jg. 29, H. 2, S. 59–83. Metcalf, Allan (2011): OK: The improbable story of America’s greatest word, New York: Oxford University Press. 24.03.22 11:06 Perkuhn, Rainer/Holger Keibel/Marc Kupietz (2012): Korpuslinguistik, Stuttgart: UTB. Schegloff, Emanuel A. und Harvey Sacks (1973): Opening up Closings in Semiotica, Jg. 8, S. 289-327. Schmidt, Thomas/Wilfried Schütte/Jenny Winterscheid (2015): cGAT. Konventionen für das computergestützte Transkribieren in Anlehnung an das Gesprächsanalytische Transkriptionssystem 2 (GAT2), Mannheim: Institut für Deutsche Sprache. Selting, Margret/Peter Auer/Dagmar Barth-Weingarten/Jörg Bergmann/Pia Bergmann/Karin Birkner/Elizabeth Couper-Kuhlen/Arnulf Deppermann/Peter Gilles/Susanne Günthner/Martin Hartung/Friederike Kern/Christine Mertzlufft/ Christian Meyer/Miriam Morek/Frank Oberzaucher/Jörg Peters/Uta Quasthoff/Wilfried Schütte/ Anja Stukenbrock/Susanne Uhmann (2009): Gesprächsanalytisches Transkriptionssystem GAT 2, in: Gesprächsforschung, Jg. 10, S. 353–402. Sieberg, Bernd (2016): Reaktive. Vorschlag für eine Erweiterung der Kategorie Responsive, in: Handwer- Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „OKAY“ 59 ker, Brigitte/Rainer Bäuerle/Bernd Sieberg (Hrsg.), Gesprochene Fremdsprache Deutsch (=Perspektiven Deutsch als Fremdsprache, Band 32), Baltmannsweiler: Schneider Verlag Hohengehren, S. 101–117. Storrer, Angelika (2011): Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie, in: Knapp, Karlfried (Hrsg.), Angewandte Linguistik. Ein Lehrbuch, Tübingen/Basel: Narr Francke Attempto, S. 216– 239. Storrer, Angelika (2017): Grammatische Variation in Gespräch, Text und internetbasierter Kommunikation, in: Konopka, Marek (Hrsg.), Grammatische Variation. Empirische Zugänge und theoretische Modellierung (=Jahrbuch Institut für Deutsche Sprache), Berlin/Boston: De Gruyter, S. 105–126. Storrer, Angelika (2018): Interaktionsorientiertes Schreiben im Internet, in: Deppermann, Arnulf (Hrsg.), Sprache im kommunikativen, interaktiven und kulturellen Kontext, Berlin/Boston: De Gruyter, S. 219–244. Korpusquellen [COSMAS I/II] Corpus Search, Management and Analysis System. Leibniz-Institut für Deutsche Sprache, [online] http://www.ids-mannheim.de/ cosmas2/. [DeReKo] Das Deutsche Referenzkorpus. Leibniz-Institut für Deutsche Sprache, [online] http://www. ids-mannheim.de/kl/projekte/korpora/. [DGD] Datenbank gesprochenes Deutsch. Leibniz-Institut für Deutsche Sprache, [online] http://agd. idsmannheim.de/folk.shtml. [FOLK] Forschungs- und Lehrkorpus für gesprochenes Deutsch. Leibniz-Institut für Deutsche Sprache, [online] http://dgd.ids-mannheim.de/dgd/ pragdb.dgd_extern.welcome. Interaktive Einheiten, in: Leibniz-Institut für Deutsche Sprache: „Systematische Grammatik“. Grammatisches Informationssystem grammis. [online] DOI: 10.14618/grammatiksystem Permalink: https:// UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 59 grammis.ids-mannheim.de/systematische-grammatik/370. [Wiki-D-de] Korpus mit einer vollständigen Kopie der deutschen Wikipedia-Artikeldiskussionsseiten (Version 01.05.2015). Leibniz-Institut für Deutsche Sprache, [online] http://corpora.ids-mannheim. de/pub/wikipedia-deutsch/2015/. [Wiki-D-fr] Korpus mit einer vollständigen Kopie der französischen Wikipedia-Artikeldiskussionsseiten (Version 01.05.2015). Leibniz-Institut für Deutsche Sprache, [online] http://corpora.ids-mannheim. de/pub/wikipedia-fremdspr/2015/. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 20. April 2021. 24.03.22 11:06 60 4. Semiotic-Landscape-Forschung: Daten- und Methodentriangulation im „Metropolenzeichen“-Projekt Die Fallstudie stellt das Untersuchungsdesign und die zentralen Ergebnisse des interdisziplinären Forschungsprojekts „Metropolenzeichen: Visuelle Mehrsprachigkeit in der Metropole Ruhr“ vor, das von Linguist*innen, Integrationsforscher*innen und Stadtsoziolog*innen der Universitäten Duisburg-Essen und Bochum betrieben wurde. Dabei werden die mit den quantitativen und qualitativen methodischen Zugängen verbundenen Möglichkeiten und Grenzen der Analyse verschiedener Datentypen (Bilddaten, Interviewdaten) kritisch reflektiert, sodass Lehrende ebenso wie Studierende zahlreiche Anregungen für die Konzeption eigener Projekte erhalten. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Evelyn Ziegler, Ulrich Schmitz 1. Einleitung Die Semiotic-Landscape-Forschung untersucht das Zusammenspiel zwischen „language, visual discourse, and the spatial practices and dimensions of culture, especially the textual mediation or discursive construction of place“ (Jaworski/Thurlow 2010: 1). Vor allem geht es darum, ob und in welcher Weise sprachliche und andere semiotische Praktiken den öffentlichen Raum prägen, ihm dabei Bedeutung und Wertigkeit zuweisen und die Sichtbarkeit gesellschaftlicher Gruppen markieren.1 Öffentliche Räume sind durch eine Fülle von In- und Aufschriften an Gebäuden, Wänden, Plakaten, Verkehrs- und Ladenschildern, Informations- und Werbetafeln, Aufstellern, Aufklebern, Zetteln, Bildschirmen, Laufschriften, Leuchtreklamen und dergleichen mehr gekennzeichnet. Sie strukturieren die Wahrnehmung des Raumes und dienen der Information (z. B. über Straßennamen und Hausnummern), Regulierung (z. B. durch Verkehrszeichen), Werbung (z. B. auf Plakatwänden), Selbstinszenierung (z. B. bei Graffitis) oder Meinungskundgabe (z. B. bei politischen Parolen). Häufig werden auch zwei oder mehrere dieser Funktionen gemischt (z. B. bei La1 denschildern). Je intensiver der urbane Raum beschriftet ist (z. B. in großen Bahnhöfen oder auf belebten Plätzen), desto stärker wetteifern die Zeichen um die Aufmerksamkeit der meist eiligen Passant*innen. Deshalb sind die Texte stets (um Blicke auf sich zu lenken und/ oder zwecks routinierter Wiedererkennung) typographisch gestaltet; und sie treten oft in Verbindung mit nichtsprachlichen visuellen Zeichen auf, z. B. mit Fotos, Piktogrammen oder anderen Bildern. Wir haben deshalb den traditionellen Fokus erweitert von der Betextung auf die gesamte Semiotik sichtbarer Zeichen im öffentlichen Raum. Zeichen machen einen öffentlichen Raum nicht nur lesbar, sondern weisen auch über sich hinaus, indem sie Hinweise darauf geben, welche Sprechergruppen in einem gegebenen Raum leben bzw. diesen Raum nutzen, welche Sprachen in diesem Raum gesprochen werden und wo Sprachgrenzen verlaufen. Dabei werden mit den Sprachenwahlen immer auch die vorherrschenden Sprachenregimes (vgl. Gal 2012) angezeigt, d. h. der Status und das Prestige von Sprachen sowie das gesellschaftliche Machtgefüge zwischen den verschiedenen gesellschaftlichen Gruppen (= Symbolfunktion) deutlich. Zeichen im öffentlichen Raum vermitteln insofern immer auch Weitere Literatur z. B. Pütz/Mundt (2019), Shohamy/Ben-Rafael/Barni (2010). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 60 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Metropolenzeichen“ 61 Abb. 1: Dortmund-Nordstadt (Bildnummer 1570) Metainformationen, die außersprachliche, d. h. soziale, kulturelle und politische Bedeutungen transportieren. Die in sie eingeschriebenen semiotischen Praktiken lassen sich dementsprechend auf ihre indexikalische Bedeutung hin (vgl. Agha 2007) untersuchen. Dabei lässt sich nach folgenden indexikalischen Bedeutungen fragen: 1. Wer besitzt die Macht, Zeichen im öffentlichen Raum anzubringen bzw. wer ermächtigt sich selbst dazu? 2. Welche Sprechergruppen sind sichtbar, welche nicht? Warum sind sie sichtbar/ nicht sichtbar? 3. Inwieweit geben Zeichen im öffentlichen Raum Hinweise auf die Identifikation mit einer bestimmten Stadt, Region oder einem 2 bestimmten Land oder einer bestimmten Kultur zu erkennen? 2. Fragestellung Unser „Metropolenzeichen“-Projekt2 gilt der semiotischen Landschaft („semiotic landscape“, vgl. Jaworski/Thurlow 2010) in der Metropole Ruhr. In einem interdisziplinär und multiperspektivisch angelegten Forschungsvorhaben wurden die städteräumliche Verteilung, formale Ausgestaltung, funktionale Bedeutung und gesellschaftliche Bewertung sichtbarer Mehrsprachigkeit im öffentlichen Raum des Ruhrgebiets untersucht. Das Forschungsdesign verbindet Gegenstandsanalyse und Akteursanalyse, d. h. Dieses Kooperationsprojekt zwischen der Universität Duisburg-Essen und der Ruhr-Universität Bochum wurde von August 2013 bis August 2018 vom Mercator Research Center Ruhr gefördert (GZ MERCUR: Pr2012-0045; PI: Evelyn Ziegler). Hauptveröffentlichung: Ziegler et al. 2018. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 61 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 62 II Fallstudien fokussiert neben den Zeichen visueller Mehrsprachigkeit auch auf die Produzent*innen und Rezipient*innen, d. h. auf diejenigen, die als Geschäftsinhaber*innen, Restaurantbesitzer*innen oder auch Mitarbeiter*innen kommunaler Einrichtungen für die Wahl der Sprache(n) verantwortlich sind oder als Passant*innen mehrsprachige Schilder wahrnehmen, nutzen und ihre sprachliche Ausgestaltung bewerten. Folgende Fragen sollten beantwortet werden: 1. Spiegelt sich die internationale Herkunft der Bevölkerung in sichtbarer Mehrsprachigkeit im öffentlichen Raum wider? 2. Gibt es diesbezüglich Unterschiede im offiziellen und kommerziellen Sprachenmanagement (also zum Beispiel auf Wegweisern, Ladenbeschriftungen) sowie im Kontext von Graffitis und anderen nichtautorisierten, d. h. transgressiven Kommunikaten (z. B. illegal angebrachten Stickern und Plakaten)? 3. Wer wird mit den einzelnen Sprachen (Deutsch, Englisch, Türkisch, Französisch, Arabisch etc.) angesprochen, und welche Funktionen werden damit verbunden? 4. Wie wird sichtbare Mehrsprachigkeit wahrgenommen und bewertet? 5. Trägt die Sichtbarkeit von Migrantensprachen zum Gefühl der Beheimatung bei? 3. Material, Methode und Analyse Das genannte Fragenbündel fordert einen interdisziplinären Mehrmethodenansatz, der Semiotic-Landscape-Zugänge, stadtsoziologische Zugänge und Methoden der Spracheinstellungsforschung verbindet und dementsprechend verschiedene Datentypen, d. h. Bilddaten, stadtsoziologische Daten und metasprachliche Daten, integriert. Dabei werden quantitative und qualitative Forschungszugänge, die Innenperspektive der Akteur*innen (emische Perspektive) mit der Außenperspektive der Forscher*innen (etische Perspektive3) verknüpft. Diese komplementären Zugänge wurden gewählt, um die Schwächen 3 der einen wie der anderen Methode auszugleichen. Ein solcher Zugang, der auch als Triangulation bezeichnet wird, ermöglicht eine „dichte Beschreibung“ (Geertz 2003), d. h. eine genauere Beobachtung, Erfassung und Interpretation der Daten, weil durch die ergänzende Untersuchung der Handlungsmotive und der spezifischen Rezeption visueller Mehrsprachigkeit die Perspektiven auf den Gegenstand erweitert und in der Gesamtinterpretation aufeinander bezogen werden können. Dieser Anspruch und der daraus resultierende Multi-Methoden-Ansatz unterscheidet das Metropolenzeichen-Projekt von vielen anderen Untersuchungen in diesem Forschungsfeld. In der Regel konzentrieren sich die Studien auf einen methodischen Zugang und damit verbunden auf einen Datentyp. Dabei sind zwei Typen von Untersuchungen zu unterscheiden: erstens solche Studien, die sich auf eine Untersuchung der Bilddaten und damit auf das Vorkommen visueller Mehrsprachigkeit konzentrieren, etwa im Kontext sprachenpolitischer Fragen, z. B. der Sichtbarkeit von Minderheitensprachen. Zweitens sind hier solche Studien zu nennen, die ausschließlich metasprachliche Daten erheben und damit auf die Rezipient*innen bzw. Produzent*innen visueller Mehrsprachigkeit fokussieren. Diese Studien sind eher neueren Datums. Sie basieren allerdings auf zumeist kleinen Datensätzen und sind insgesamt noch selten. Da Sprachwahlentscheidungsprozesse wie auch Sprachrezeptionsprozesse nicht in situ beobachtet werden können, müssen diese Daten ex post erhoben werden, z. B. durch Befragung der Akteur*innen. Dafür sind ethnografische Befragungstechniken geeignet, weil sie die Möglichkeit bieten, einmal getroffene Sprachwahlentscheidungen zu reflektieren wie auch die Wahrnehmung und Bewertung visueller Mehrsprachigkeit oder Einsprachigkeit zu evozieren, z. B. im Rahmen von VorOrt-Interviews. Zwar hat sich auch die ältere Forschung für Sprachwahlmotive interessiert, allerdings hat sie dabei in der Regel von den konkreten Sprachwahlen auf die Adres- Begriffspaar wurde von Pike (1967) eingeführt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 62 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Metropolenzeichen“ satenorientierung und damit auf die Sprachwahlmotive geschlossen, und zwar ohne Befragung der Akteur*innen. Unsere Untersuchung haben wir als Querschnittsstudie angelegt. Bei einer Querschnittstudie wird eine empirische Untersuchung einmalig zu einem bestimmten Zeitpunkt durchgeführt. Um systematisch Migrationsprägung, visuelle Mehrsprachigkeit und Spracheinstellung untersuchen zu können, erfolgte die Sammlung der Bilddaten und der Interviewdaten in relativer zeitlicher Nähe, und zwar so, dass alle Daten in denselben Stadtteilen erhoben wurden. Das Forschungsdesign stützt sich auf das Sprachenmanagement-Konzept von Spolsky (2009), das die Zusammenhänge zwischen Sprachgebrauch, Sprachenpolitik und Sprachbewertung untersucht, um visuelle Mehrsprachigkeit ethnographisch, lokal und sozial zu verstehen. Charakteristisch dafür ist die integrative Erforschung von Sprachverwendungen und metasprachlichen Aktivitäten, also Entscheidungsprozessen und Wertorientierungen, die die Sprachverwendungen und deren Wahrnehmung bestimmen. Deshalb nutzen wir unterschiedliche Datentypen. 1. Von den Statistischen Ämtern erhielten wir kleinräumige Daten zur multi-ethnischen Bevölkerungsstruktur, d. h. zum Anteil von Deutschen, Nicht-Deutschen und Doppelstaatlern in den Städten des Ruhrgebiets. 2. Auf der Basis dieser bevölkerungssoziologischen Daten wählten wir in den vier größten Städten (Duisburg, Essen, Bochum, Dortmund) je ein eher nördliches und ein eher südliches Gebiet aus, in dem man jeweils eine ebenso reichhaltige wie charakteristische Beschilderung und Beschriftung des öffentlichen Raums erwarten durfte. Alle acht Untersuchungsgebiete wirken gut belebt und weisen eine Mischung aus Wohnen, Einzelhandel, Gastronomie und Dienstleistungen auf. Hier und ergänzend an je einem Hauptbahnhof, einem Bürgerbüro und einer touristischen Attraktion pro Stadt sowie jeweils 4 63 einer Kindertagesstätte pro Erhebungsgebiet haben wir im Herbst 2013 alle öffentlich sichtbaren ortsfesten Zeichen (Inschriften, Schilder, Plakate, Graffitis etc.) vollständig fotografiert, d. h. für jedes öffentlich sichtbare Item wurde ein geokodiertes Foto gemacht. Wo solche Einzelfotos nicht möglich waren, etwa bei Zusätzen, Überschreibungen oder Überklebungen, wurde die entsprechende Information später in der Feinanalyse berücksichtigt (vgl. Schmitz/Ziegler 2016). Sämtliche durchstreifte Einzelflächen zusammen machen etwas mehr als einen halben innerstädtischen Quadratkilometer aus. Die 25.504 geokodierten Fotos wurden 1. in eine Datenbank importiert,4 2. nach diversen (jeweils eindeutig operationalisierten) Kategorien verschlagwortet (vgl. Abbildung 2 & 3) – darunter Ort, Größe, Erscheinungsform (z. B. Schild, Aufkleber, Anzeigetafel), Diskurstyp (nach Scollon, R./Scollon, S. 2003; z. B. infrastrukturell, kommerziell, transgressiv), Sprache (z. B. Deutsch, Englisch, Türkisch) und Typographie (z. B. Antiqua, Kyrillisch, Handschrift) – und 3. quantitativ und qualitativ intensiv ausgewertet. 3. Außerdem wurden 120 Vor-Ort-Interviews mit Passant*innen sowie 60 persönliche Interviews mit Ladenbesitzer*innen, Restaurantbesitzer*innen und Vertreter*innen kommunaler Einrichtungen in allen 8 Stadtteilen geführt. Für die Vor-Ort-Interviews wurden in jedem Stadtteil 15 Personen befragt, sodass insgesamt 120 Vor-Ort-Interviews vorliegen. Die Länge der Interviews variiert zwischen 3 und 12 Minuten. Befragt wurden 65 Männer und 55 Frauen im Alter zwischen 18 und 80 Jahren, davon 49 Personen mit und 71 ohne Migrationshintergrund. Die Interviews wurden auf der Basis eines Interviewleitfadens durchgeführt, der die folgenden Themenblöcke enthält: Wahrnehmung von visueller Mehrsprachigkeit, Stadtteilgeschichte, Bewertung von visueller und gesprochener Mehrsprachigkeit, Funktionen von Mehrsprachigkeit, visuelle Mehrsprachigkeit an öffentlichen Institutionen, Vorzü- Aufbau, Funktionen und Anwendungsmöglichkeiten dieser Datenbank werden detailliert beschrieben bei Mühlan-Meyer/Lützenkirchen (2017). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 63 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 64 II Fallstudien Abb. 2: Eingabemaske der Datenbank ge und Nachteile von Mehrsprachigkeit. Die Interviews erlaubten aber auch eine gewisse Flexibilität und spontane Anpassung an die Antworten der Befragten. Die Audiodaten der Interviews wurden nach GAT 2 (vgl. Selting et al. 2009) als Minimaltranskripte mit dem Partitur-Editor EXMARaLDA transkribiert und anschließend für die Auswertung annotiert.5 Die Interviews wurden mehrheitlich auf Deutsch, einige auch auf Türkisch und Englisch geführt. Für die Produzenteninterviews wurden 61 Personen befragt (43 Männer und 18 Frauen). Das Alter der Befragten variierte zwischen 20 und 60 Jahren. 38 der Befragten hatten einen Migrationshintergrund, von denen die größte Gruppe die Befragten mit einem türkischen Migrationshintergrund bilden (n=18). Dies zeigt, dass sich mehr Befragte mit Migrationshintergrund für ein Interview zur Verfügung stellten als Befragte ohne Migrationshinter5 grund, für die das Thema der Befragung anscheinend weniger interessant und relevant war. Die Länge der Interviews variierte zwischen 2 Minuten und 30 Minuten. Die Interviews wurden mehrheitlich auf Deutsch geführt (44), 12 Interviews wurden auf Türkisch geführt und 2 Interviews auf Französisch. 4. Schließlich wurden 1000 telefonische Leitfadeninterviews mit repräsentativ ausgewählten Personen (500 deutscher, 300 türkischer und 200 italienischer Herkunft) durchgeführt. Die Beschränkung auf die Gruppen der Türkei- und Italienstämmigen hat ihren Grund darin, dass diese beiden Gruppen (neben den Zugewanderten aus Polen) die Migrationsbewegungen im Ruhrgebiet entscheidend geprägt haben, ihre soziale Beheimatung aber unterschiedliche Verläufe genommen hat (vgl. Ziegler et al. 2018: 277). Gegenstand der Telefonbefragung waren folgende Fragen: Wo nehmen Sie mehrspra- Siehe dazu auch Kapitel 23 [Gesprächsanalytische Transkription] in diesem Band. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 64 24.03.22 11:06 65 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Metropolenzeichen“ Abb. 3: Datenbank-Ausgabe für Bild Nr. 1502 chige Beschilderungen oder Beschriftungen wahr, woran erkennen Sie mehrsprachige Beschilderungen oder Beschriftungen, welche Funktion schreiben Sie mehrsprachigen Beschilderungen zu, wie bewerten Sie verschiedene Sprachen und inwieweit gibt Ihnen das Vorhandensein von Schildern in Ihrer Sprache ein Gefühl der Beheimatung? Die Datensammlungen erlauben sowohl quantitative (deskriptiv-statistische) Analysen, um zu allgemeineren Aussagen zu kommen, als auch qualitative Tiefenanalysen zu UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 65 Besonderheiten und Einzelphänomenen. Mit der komplementären Analyse von Interviewdaten (Vor-Ort-Interviews und Telefoninterviews) ist es möglich, den gesellschaftlichen Kontext, in dem die Sprachwahlentscheidungen getroffen sowie bewertet werden, zu berücksichtigen und so auch sprachideologische Aspekte in die Analyse miteinzubeziehen. Dabei erlauben die Vor-Ort-Interviews eine maximale Gegenstandsnähe, während sich die Telefoninterviews durch eine verhältnismäßig große Stichprobengröße auszeichnen. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 66 II Fallstudien Abb. 4: Dortmund-Nordstadt (Bildnummer 2130) 4. Ergebnisse und Diskussion An dieser Stelle können nur auszugsweise einige der wichtigsten Ergebnisse des „Metropolenzeichen“-Projekts skizziert werden.6 4.1 Herkunft der Bevölkerung und sichtbare Mehrsprachigkeit Die Zusammensetzung der Bevölkerung ist unterschiedlich stark durch Vielfalt und Migration geprägt. In den nördlichen Erhebungsgebieten wohnen mehr Nichtdeutsche und Doppelstaatler als in den südlichen. Am höchsten ist der Anteil der Deutschen in Essen-Rüttenscheid (86 %), am niedrigsten in Dortmund-Nordstadt (44 %) und in Duisburg-Marxloh (27 %). Auch die Anzahl der Staatsangehörigkeiten schwankt zwischen 6 7 den Gebieten erheblich: von 23 in BochumLangendreer bis 78 in Duisburg-Innenstadt. Unsere erste Forschungsfrage (s. o. Abschnitt 2) lautete: Spiegelt sich die internationale Herkunft der Bevölkerung in sichtbarer Mehrsprachigkeit im öffentlichen Raum wider? Die kurze Antwort lautet: Teilweise ja, und zwar bis in winzige Details, wenngleich insgesamt in starker Verzerrung zugunsten der Dominanz der deutschen Sprache (vor allem im infrastrukturellen und regulatorischen Diskurs) und außerdem zuungunsten diverser einzelner (vor allem migrantischer) Sprachen. 66 % aller gut 27.000 Sprachvorkommen7 sind (standard)deutsche Passagen, 20 % englische und 4 % türkische. In der Rangliste folgen Französisch (1,6 %), Italienisch (1,4 %) und Spanisch (1 %). Alle übrigen rund 50 Sprachen (von Arabisch und Chinesisch über Dänisch Für Einzelheiten siehe Ziegler et al. (2018) sowie dort genannte weitere Publikationen aus dem Projekt. Viele der 25.504 Fotos zeigen Graffiti-Tags oder keinerlei Sprachanteile, andere mehrere Sprachen (z. B. auf einem mehrsprachigen Schild). So ergeben sich 27.265 Sprachvorkommen (z. B. auf einem zweisprachigen Schild zwei). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 66 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Metropolenzeichen“ und Kurdisch bis zu Swahili und Thailändisch) weisen jeweils Anteile deutlich unter 1 % auf. Die Hälfte aller Sprachen kommt seltener als zehn Mal im öffentlichen Raum der untersuchten Gebiete vor. Die Herkunftssprachen der Einwohner sind in der Öffentlichkeit bei Weitem nicht so präsent, wie das ihrem Anteil an der Bevölkerung theoretisch entspräche. Unter den sichtbaren Fremdsprachen lassen sich drei Typen unterscheiden: solche mit eher hohem Prestige wie die westeuropäischen Schulsprachen (Englisch, Französisch, Italienisch, Spanisch), solche, die vorwiegend in der Gastronomie eine nennenswerte Rolle spielen (z. B. Chinesisch), und solche, die vorwiegend mit Zuwanderung zu tun haben (z. B. Arabisch, Rumänisch). Die Sprachen sind in den verschiedenen Stadtteilen recht ungleich verteilt. Darin schlägt sich die unterschiedliche Bevölkerungsstruktur nieder. Im Norden des Ruhrgebiets sind die Mieten viel niedriger als im Süden und die meisten Personen mit Migrationshintergrund wohnen im Norden. Dabei ist Duisburg-Marxloh stark türkisch geprägt, Dortmund-Nordstadt sehr international. Dementsprechend weisen die nördlichen Bezirke in Duisburg-Marxloh und DortmundNordstadt, aber auch Essen-Altendorf deutlich weniger einsprachige Vorkommen auf als die übrigen fünf Bezirke, dennoch aber viel mehr einsprachig türkische. Über ein Viertel (26 %) aller öffentlich sichtbaren Sprachvorkommen in Marxloh ist Türkisch gehalten. In Altendorf und in Nordstadt sind es immerhin noch jeweils um die 7 %, in allen anderen Stadtteilen erheblich darunter. Dabei haben Marxloh und Nordstadt viel weniger einsprachig deutsche Fälle als die übrigen sechs. Und während im gesamten Durchschnitt 66 % aller Sprachvorkommen deutsch sind, bringen Marxloh und Nordstadt es hier nur auf Werte von 60 % bzw. 58 %, während die beiden Bochumer Bezirke sowie das südliche Dortmund-Hörde zwischen 70 % und 75 % liegen. Englisch ist stark unterrepräsentiert in Marxloh und Altendorf, auffallend überrepräsentiert jedoch in der Dortmunder Nordstadt, die von allen Stadtteilen am stärksten multinational geprägt ist. Arabisch, mit abso- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 67 67 lut 183 Sprachvorkommen die siebthäufigste Sprache, fällt durch hohe Anteile in Altendorf und in Nordstadt auf; tatsächlich wohnen hier vergleichsweise viele Migrant*innen aus arabischsprachigen Ländern. Die überdurchschnittlich hohen Werte für Französisch, Italienisch und Spanisch in der Duisburger Innenstadt und in Essen-Rüttenscheid erklären sich großenteils durch entsprechend zahlreiche Restaurants. In der quantitativen Verteilung der Sprachen sowie bei einer genaueren Detailanalyse der Daten zeigt sich eine klare Tendenz: Junge Migrantensprachen sind im Norden stärker vertreten, Englisch und andere westeuropäische Sprachen im Süden. Trotz zunehmender Wanderungsbewegungen innerhalb des Ruhrgebiets trennt die Autobahn A 40 bis heute Gebiete mit durchschnittlich höherem Zuwanderungsanteil im Norden von solchen mit mehr Menschen ohne jüngeren Migrationshintergrund im Süden. Die unterschiedlichen Arten an Internationalität (Migration vs. Hochkultur) zeigen sich im öffentlichen Raum. Dessen völlig unterschiedliche Anmutung etwa in Duisburg-Marxloh und in EssenRüttenscheid schlägt sich bis in kleine Details unserer Zahlen nieder. Setzt man beispielsweise die Vielfalt der Sprachen und die Diversität der Bevölkerung in den acht Erhebungsgebieten in Beziehung, so ergibt sich folgendes Bild (Abbildung 5). Die Diversität der Bevölkerung nach Staatsangehörigkeiten (x-Achse) streut im Vergleich der Erhebungsgebiete zwischen einem niedrigen Wert von 0,22 in Essen-Rüttenscheid und einer ausgeprägten Diversität von 0,81 in Duisburg-Marxloh. Die entsprechenden Werte für die sichtbaren Sprachen (yAchse) bewegen sich demgegenüber im Bereich einer mittleren Diversität. Der niedrigste Wert liegt bei 0,39 (Bochum-Hamme), der höchste bei 0,59 in der Dortmunder Nordstadt. Setzt man die Werte in Beziehung, so zeigen sich vier Gruppen. 1. Essen-Rüttenscheid weist eine stark unterdurchschnittliche Vielfalt der Staatsangehörigkeiten seiner Bewohner auf, jedoch eine leicht überdurchschnittliche Vielfalt der Sprachen. (Das Untersuchungsgebiet ist sehr bürgerlich geprägt und zieht mit zahlreichen Restaurants und 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 68 II Fallstudien Abb. 5: Diversität von Sprachen und Bevölkerung im Vergleich der Erhebungsgebiete (Diversitäts-Index nach Simpson (1949); vgl. Peukert (2013); Berechnung und Grafik: David H. Gehne/ Ruhr-Universität Bochum) höherpreisigen Geschäften viele Gäste vor allem aus dem Essener Süden an.) 2. Die beiden Bochumer Stadtteile Bochum-Langendreer und Bochum-Hamme sowie Hörde im Dortmunder Süden zeigen eine eher unterdurchschnittliche Diversität, 3. Essen-Altendorf und Duisburg-Innenstadt hingegen eine eher mittlere Diversität in beiden Dimensionen. 4. Duisburg-Marxloh und DortmundNordstadt dagegen sind durch eine ausgeprägte Vielfalt von Bevölkerung und sichtbarer Mehrsprachigkeit gekennzeichnet. Diese sprechenden Werte haben uns veranlasst, Zusammenhänge zwischen Sprachvorkommen im öffentlichen Raum und Sozialstruktur der Stadtteile sowohl quantitativ als auch qualitativ detaillierter zu untersuchen; das kann an dieser Stelle nicht näher ausgeführt werden. Insgesamt hat sich aber gezeigt, dass die Regel: „je größer eine Gruppe – UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 68 desto größer die Sichtbarkeit ihrer Sprache“ nicht immer gilt. So ist das Polnische fast unsichtbar, obwohl die Zuwanderung aus Polen auf eine lange Geschichte zurückblicken kann und die Gruppe der polnischen Zuwanderer in einigen untersuchten Stadtteilen recht groß ist. Auch das Arabische, Bulgarische und Rumänische gewinnen erst langsam an Sichtbarkeit. So geht die stadtsoziologische Forschung davon aus, dass es in der Regel drei bis vier Jahre dauert, bis ethnische Gruppen im öffentlichen Raum sprachlich sichtbar werden. Neue Nationalitäten zeigen sich dann, wenn sie Restaurants, Kioske und Geschäfte eröffnet haben. Das setzt voraus, dass sie erstens für die Gründung eines Gewerbes über die erforderlichen finanziellen Mittel verfügen und zweitens geeignete Gewerbeimmobilien finden. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Metropolenzeichen“ 69 4.2 Unterschiede im Sprachenmanagement verschiedener Diskurse 4.3 Adressat*innen und Funktionen der verschiedenen Sprachen Unsere zweite Forschungsfrage (s.o. Abschnitt 2) bezog sich auf Unterschiede im offiziellen, kommerziellen und transgressiven Sprachenmanagement. Besonders interessant sind hier Vergleiche zwischen offiziellen (infrastrukturellen und regulatorischen) Schildern einerseits und kommerziellen Texten andererseits. 90 % der 2.745 infrastrukturellen und regulatorischen Schilder sind einsprachig Deutsch. Knapp 8 % sind zweisprachig, und zwar darunter zu 89 % Deutsch und Englisch, knapp 4 % Deutsch und Türkisch, 2 % Deutsch und Französisch und 1 % Deutsch und Arabisch. Bei den knapp 2 % dreisprachigen Schildern kommt fast immer die Kombination DeutschEnglisch-Französisch vor, und zwar meistens an Hauptbahnhöfen. Das restliche halbe Prozent viersprachige offizielle Schilder enthält immer Deutsch und Englisch. Migrantensprachen kommen auf weniger als jedem hundertsten offiziellen Schild vor. Von den 12.563 kommerziellen Belegen hingegen sind nur 71 % einsprachig, davon 91 % Deutsch, der Rest vorwiegend Englisch, Türkisch, Französisch, Italienisch und Arabisch. Die Bandbreite der Sprachen ist bei den kommerziellen Schildern wesentlich höher als bei den offiziellen. 24 % der kommerziellen Belege sind zweisprachig; davon enthalten 96 % Deutsch, 57 % Englisch, 17 % Türkisch, 4 % Französisch, 3 % Arabisch. In geringerem Umfang kommen Latein, Polnisch, Spanisch, Niederländisch und, seltener, zahlreiche andere Sprachen vor. Auffällig häufig in einer Vielzahl von Sprachen verfasst sind Aushänge mit dem Hinweis, dass die Kasse regelmäßig geleert werde und ein Einbruch daher sinnlos sei; hier ist der Anteil der Migrantensprachen überproportional hoch. Bei transgressiven Botschaften (z. B. auf Aufklebern) dominiert ebenfalls Deutsch; doch auch sie sind seltener einsprachig gehalten als kommerzielle Texte. Offizielle Akteur*innen orientieren sich also ungleich stärker an einer einsprachig-deutschen Norm als private Akteur*innen. Die dritte Forschungsfrage lautete: Wer wird mit den einzelnen Sprachen (Deutsch, Englisch, Türkisch, Französisch, Arabisch etc.) angesprochen und welche Funktionen werden damit verbunden? Die Ergebnisse der Vor-Ort-Interviews zeigen klare Unterschiede im Antwortverhalten von Befragten mit und ohne Migrationshintergrund. So sieht ein großer Teil der Befragten ohne Migrationshintergrund (45 %) mehrsprachige Schilder in erster Linie als Hinweise auf die Multikulturalität der Bevölkerung, wie die Transkriptausschnitte 1 und 2 zeigen: UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 69 Beispiel 1 (DuInn9) duisburg ist ja °h für mich multikulti| wir haben ja ich glaube hundertvierzig| oder hundertfünfzig verschiedene| äh (--) ne menschen die hier leben| Beispiel 2 (DoHör6) also wir sind multikulturell eigentlich| kann man wirklich so sagen in hörde aufgestellt| wir haben ganz viele (1.0) verschiedenste ethnische gruppen| Am zweithäufigsten, allerdings mit großem Abstand, werden pragmatische Aspekte angeführt (27 %), d. h. es wird auf die Informationsfunktion hingewiesen (vgl. Beispiel 3 und 4): Beispiel 3 (BoLan3) viele sind ja hier| die könn kein deutsch| sind schon zig jahre deutsch| und für die wird dann natürlich erleichternd sein| wenn die dann eben da| wegweiser oder wie auch immer| (--) solche sachen hätten| Beispiel 4 (EsRüt8) ja wahrscheinlich dann um auch den (.)| den touristen einen anhaltspunkt zu geben (-)|die jetzt gerade nicht aus deutschland kommen| und damit sie hier einigermaßen zurecht finden (--)| 24.03.22 11:06 70 II Fallstudien Bei den Befragten mit Migrationshintergrund dominiert dagegen die pragmatische, d. h. die Informationsfunktion (27 %), dicht gefolgt von der Funktion der Multikulturalität (25 %) und der Beheimatung (21 %), vgl. die Beispiele 5 – 7: Beispiel 5 (DuMar14) Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. yani sırf almanca değil| hepsi (--) anlıyorlar (--)| Deutsche Übersetzung weil auch aus dem ausland kommen für gewöhnlich türken hier hin| das heißt sie fühlen sich hier nicht als ausländer| Beispiel 9 (BoHam11) Deutsche Übersetzung deswegen sind die schilder nicht nur auf deutsch| alle leute verstehen sie (--)| in erster linie würde ich natürlich sagen| dass das natürlich (-)| schon von vorteil für das viertel ist| weil das dann halt auch einfach bedeutet| dass sich ähm (-) migranten| beziehungsweise menschen mit migrationshintergrund| in dem viertel auch einfach wohlfühlen| Beispiel 6 (DuMar13) Beispiel 10 (DoNor13) was für eine funktion| ist ja klar| die leute sollen sich halt besser auskennen| und äh auch lesen können was da draufsteht (0.5)| auf den schildern| oder (--) generell| Beispiel 7 (DoNor3) (1.1)| çünkü burası genelde äm| karışık bir sokak yani bütün| (---) yabancıların çok (.) uğradığı bir sokak| o yüzden äm| (1.3)| Deutsche Übersetzung weil hier ist haupsachlich äm| eine gemischte straße also alle| ausländer oft auf dieser straße vorbeikommen| deshalb äm| (1.3)| Viele Befragte mit Migrationshintergrund bringen die Repräsentation ihrer Herkunftssprachen im öffentlichen Raum mit der Funktion der Beheimatung (21 %) in Zusammenhang. Die Sichtbarkeit von Migrantensprachen trägt dazu bei, dass sich die Befragten nicht als „Ausländer“ fühlen (Beispiel 8) bzw. löst ein Gefühl von Beheimatung aus. Auffällig ist, dass die Beheimatungsfunktion vor allen Dingen in den Interviews genannt wurde, die auf Türkisch geführt wurden. Beispiel 8 (DuMar14) yurtdışından da e| türkler genelikle buraya geldiği için| yani onlar da kendilerini burda yabancı hissetmiyorlar| UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 70 birazda böyle| (---) kendini türkiyede hissi veriyor burda insanlara| (0.7)| bu sokakta öyle söyliyeyim| Deutsche Übersetzung und auch ein bisschen lassen sie sich die leuten als ob sie in der türkei wären| ich muss so sagen in dieser straße| Diese Ergebnisse zeigen deutlich, dass die Befragtengruppen unterschiedliche Funktionen mit visueller Mehrsprachigkeit verbinden und dass diese Unterschiede aus ihren unterschiedlichen Perspektiven resultieren. Während in der Gruppe der Befragten ohne Migrationshintergrund visuelle Mehrsprachigkeit vorrangig als Symbol für die Präsenz von Zuwanderern verstanden wird, wird in der Gruppe der Befragten mit Migrationshintergrund visuelle Mehrsprachigkeit als Symbol für Beheimatung gesehen. 4.4 Wahrnehmung und Bewertung sichtbarer Mehrsprachigkeit Viertens gingen wir der Frage nach, ob und wie sichtbare Mehrsprachigkeit wahrgenommen und bewertet wird. Die Auswertung der Vor-Ort-Interviews zeigt, dass gut zwei Drittel der Befragten (= 67,5 %) mehr- bzw. anderssprachige Schilder wahrnehmen, und dies in den nördlichen Stadtteilen deutlich stärker als in den südlichen Stadtteilen, wo 24.03.22 11:06 Fallstudie „Metropolenzeichen“ 71 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Tab. 1: Wahrnehmung visueller Mehrsprachigkeit differenziert nach Stadtteilen Stadtteile nördlich der A 40 Stadtteile südlich der A 40 Duisburg-Marxloh 100 % Duisburg-Innenstadt 60 % Essen-Altendorf 80 % Essen-Rüttenscheid 53 % Bochum-Hamme 87 % Bochum-Langendreer 47 % Dortmund-Nordstadt 93 % Dortmund-Hörde 67 % der Diversitätsindex und die faktische visuelle Mehrsprachigkeit geringer ausgeprägt sind, vgl. Tabelle 1: Interessant sind die Angaben der Befragten zur Frage, welche Sprachen wahrgenommen werden, denn hier zeigt sich eine deutliche Diskrepanz zwischen dem faktischen Vorkommen und dem „gefühlten“ Vorkommen von visueller Mehrsprachigkeit. Das betrifft vor allen Dingen die Sprachen Türkisch und Arabisch. Gefühlt dominieren diese Sprachen im öffentlichen Raum der Metropole Ruhr, faktisch kommen sie aber nur zu 4 % bzw. 1 % vor. Die Überschätzung des Vorkommens von Migrantensprachen bestätigt die Ergebnisse der Studie des britischen Marktforschungsinstituts Ipsus Mori, wonach „die Deutschen 2016 die Zahl der Ausländer wesentlich höher einschätzten, als sie tatsächlich war“ (Angeli 2018: 24f). Wie wird visuelle Mehrsprachigkeit in der Metropole Ruhr bewertet? Die Einstellungsäußerungen der Befragten in den Vor-OrtInterviews lassen sich wie in Tabelle 2 zusammenfassen. Tab. 2: Einstellung der Befragten gegenüber visueller Mehrsprachigkeit differenziert nach nördlichen und südlichen Stadtteilen sowie Migrationshintergrund (MH) n = 120 positiv +MH -MH negativ +MH -MH neutral +MH -MH Norden 66 % 59 % 23 % 23 % 11 % 18 % Süden 56 % 58 % 35 % 36 % 9% 6% UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 71 Deutlich wird, dass visuelle Mehrsprachigkeit mehrheitlich positiv bewertet wird, im Norden sogar deutlich mehr als im Süden. Bedeutsam ist auch der Befund, dass die Befragten mit Migrationshintergrund in den südlichen Stadtteilen eine skeptischere Haltung gegenüber visueller Mehrsprachigkeit einnehmen als Befragte mit Migrationshintergrund im Norden. Dies lässt den Schluss zu, dass sich arrivierte Migrant*innen, die im Süden leben, in ihren Einstellungen der Mehrheitsgesellschaft anpassen. 4.5 Beheimatung durch Sichtbarkeit von Migrantensprachen? Schließlich interessierte uns, fünftens, ob die Sichtbarkeit von Migrantensprachen zum Gefühl der Beheimatung beiträgt. In der Vor-OrtBefragung lautete eine relativ offen formulierte Frage: „Was empfinden Sie, wenn Sie mehrsprachige Schilder sehen (wenn Sie z. B. Ihre eigene Sprache sehen oder wenn Sie nicht alles verstehen)?“ Auf der Basis der Hinweise, die wir in den Vor-Ort-Interviews zum Zusammenhang zwischen Sichtbarkeit von Herkunftssprachen und Beheimatung bekommen haben (vgl. hier auch die Antworten der Befragten in Abschnitt 4.3), haben wir in den Telefoninterviews systematisch danach gefragt, inwieweit Schilder in der eigenen Sprache Gefühle der Zugehörigkeit und der Beheimatung vermitteln. Die Ergebnisse zeigen, dass in beiden Zuwanderergruppen, sowohl den Türkeistämmigen als auch den Italienern, die Existenz von Schildern in der Herkunftssprache mehrheitlich Gefühle der Zugehörigkeit auslöst; und dies bei den Türkeistämmigen etwas mehr (59 %) als bei den Personen 24.03.22 11:06 II Fallstudien mit italienischer Zuwanderungsgeschichte (54 %). Bedeutsam ist darüber hinaus der Befund, dass dies auch für die sog. monolingual Deutschen gilt, und zwar dann, wenn diese in der Minderheitenposition sind. So äußerten fast 80 % der befragten Deutschen (und damit sogar deutlich mehr als in der Gruppe der Zugewanderten), dass es wohltuend ist, wenn sie im Ausland Schilder in deutscher Sprache vorfinden. Die ältesten Befragten hatten hier die höchsten Zustimmungswerte, was die Vermutung zulässt, dass die Fremdsprachenkenntnisse in dieser Gruppe geringer ausgeprägt sind und deshalb die Wahrnehmung deutschsprachiger Beschilderung ein stärkeres Gefühl der Vertrautheit vermittelt (vgl. Ziegler et al. 2020). Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 72 4.6 Motive für Sprachwahlentscheidungen Neben der Frage, wie mehrsprachige Schilder wahrgenommen werden, interessierte uns auch, welche Motive die Produzent*innen von Schildern, Aushängen etc. bei ihrer Sprachwahl leiten. Die Analyse der Interviews mit Produzent*innen mit und ohne Migrationshintergrund zeigt, dass vier Motive dominieren: funktional-pragmatische Motive (z. B. Information, Orientierung), sozialsymbolische Motive (Identifikation mit einer Region oder einem Land), normative Motive wie etwa Firmenvorgaben und das Motiv der Sprachkompetenz. Die Ergebnisse der Produzentenbefragung fasst Tabelle 3 zusammen: Tab. 3: Häufigkeit der von den privaten Produzent*innen genannten Motive für eine mehrsprachige Beschilderung Motiv Befragte + MH Befragte – MH funktional-pragmatisch 55 (50 %) 4 (57 %) sozialsymbolisch 38 (35 %) 3 (43 %) normativ (Firmenvorgaben) 13 (12 %) Sprachkompetenz 3 (3 %) UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 72 Es zeigt sich, dass in beiden Untersuchungsgruppen funktional-pragmatische Motive wie etwa Adressatenorientierung und Informationsmanagement überwiegen. Dazu einige Beispiele: Beispiel 11 (EsRue6) wir haben da die sprachen (--) hm (-) mehr oder weniger den möglichkeiten angepasst die wir haben| und ähm (0.6)|mit englisch (---)|italienisch (-)| kommt man eigentlich sehr weit (--)|in der gastronomie| Beispiel 12 (DueMar1) außerdem|ähm obwohl es wenig ist|haben wir auch deutsche kunden|aus diesem grund haben wir uns auch für die deutsche sprache entschieden| Sozial-symbolische Motive wie etwa die Identifikation mit einer bestimmten ethnischen Gruppe werden dagegen erst an zweiter Stelle genannt: Beispiel 13 (DueDe11) 038 DuDel1: ähm für mich war (.) dass das italienische auch hier (1.1)| 039 heutzutage muss man sagen gibt es viele italienische geschäfte angeblich (0.8)| 040 wo (-) drinnen (.) überhaupt keine italiener sind ne| 041 IntMW: [mhm| ] 042 IntTM: [mhm| ] 043 DuDel1: ich wollte das (-) so direkt wie möglich schr ähm 1.0) nach außen strahlen| 044 ne| 045dass wir wirklich italiener sind| (1.0)| 046 Prestigegründe spielen vor allen Dingen bei den Befragten ohne Migrationshintergrund eine Rolle. Sie setzen Französisch oder Englisch häufig für emblematische Zwecke ein, um mit dem Prestige englischer und französischer Geschäfts- oder Restaurantnamen, 24.03.22 11:06 Fallstudie „Metropolenzeichen“ Werbesprüchen oder Begrüßungsformen das eigene Produkt aufzuwerten. Das Prestige der Sprachen wird dabei vermarktet. So erklärt der Inhaber eines Antiquitätengeschäfts in Essen-Rüttenscheid auf die Frage, warum er für sein Geschäft einen französischen Namen gewählt hat: Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Beispiel 14 (EsRue5) 080 EsRue5: und in anlehnung an das äh (-)| im (-)| 081 082 sehr anmaßend von mir| [[NN in frz.] in paris| ] 083 084 IntTM: [mhm| ] das berühmte museum| 085 EsRue5: 086 ist ja auch von der jahrhundertwende| 087 [diese schönen (-) alten glaskästen| ] Diejenigen, die ihr Geschäft oder Restaurant einsprachig beschildert haben, verweisen in der Regel auf ihre deutsche Kundschaft und darauf, dass man ja in Deutschland ist, deshalb auch Deutsch verwendet werden muss. 4.7 Abschließender Kommentar Insgesamt haben viele Ergebnisse unsere generellen Erwartungen bestätigt, in zahlreichen Details aber sehr viel präziser und detailreicher sichtbar gemacht. Fast ebenso viele Ergebnisse haben uns aber auch überrascht. Wir hätten nicht erwartet, dass die allgemein bekannten sozialen Unterschiede zwischen nördlichen und südlichen Gegenden im Ruhrgebiet sich derart tief bis in kleinste Details der Betextung des öffentlichen Raumes einschreiben. Auch hat uns überrascht, dass im öffentlichen Raum des Ruhrgebiets über 50 verschiedene Sprachen sichtbar sind und Deutsch dennoch in fast allen Bereichen so eindeutig dominiert. Und wir haben derart zahlreiche große und kleine Beobachtungen sowohl statistischer als auch einzelfallbezogener Art machen können, wie wir uns das vorher nicht hätten träumen lassen. Überrascht hat uns auch, dass die Autobahn A 40 die Metropole Ruhr nicht nur sozi- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 73 73 al und sprachlich, sondern auch soziolinguistisch spaltet, indem visuelle Mehrsprachigkeit in den Stadtteilen nördlich der A 40 deutlich positiver bewertet wird als in den Stadtteilen südlich der A 40. Allerdings gab es auch kontraintuitive Befunde: So zeigt die Telefonbefragung, dass sich Befragte mit türkischem und italienischem Migrationshintergrund stärker als deutsche Befragte wünschten, dass mehrsprachige Schilder auch Deutsch enthalten sollten. Dies kann als Indiz einer grundlegend integrationsorientierten Haltung gewertet werden, eventuell auch als Indiz für den sozialen Druck, sich sprachlich zu integrieren. Zugleich wurde Mehrsprachigkeit auch als ein Zeichen von Weltoffenheit betrachtet, insbesondere bei den Deutschen, die eine größere Akzeptanz aufwiesen als Personen mit italienischer und türkischer Zuwanderungsgeschichte. Das Projekt ist in dieser Form nicht replizierbar. Erstens wäre der Aufwand dafür unverhältnismäßig hoch. Zweitens, wichtiger, hat sich die Datenlage in den Jahren seit der Erhebung verändert: besonders stark bei den bevölkerungssoziologischen Daten und im Straßenbild bei einigen kommerziellen und vielen transgressiven Zeichen. Aus Gründen des Datenschutzes können die verwendeten Daten derzeit noch nicht öffentlich zugänglich gemacht werden. Sie wurden aber nachhaltig gesichert und können projektintern weiter genutzt werden. 5. Methodische Reflexion 5.1 Zum multiperspektivischen Ansatz mit verschiedenen Datentypen Ein großer Vorteil der Studie war, dass unser Forschungsgegenstand aus verschiedenen Forschungsdisziplinen mit verschiedenen Methoden untersucht werden konnte. Auch ermöglichte erst die Interdisziplinarität, d. h. die Mischung aus Sprachwissenschaft, Integrationsforschung und Stadtsoziologie, ein innovatives Forschungsdesign, mit dem systematisch und vergleichend die Zusammenhänge zwischen Sprache, Raum und Sprachenmanagement untersucht und Hypo- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 74 II Fallstudien thesen formuliert werden konnten, und zwar auf der Basis großer Datenmengen. Dabei dominierte immer der Blick auf allgemeine Tendenzen in den Daten, ohne jedoch auffällige Besonderheiten zu vernachlässigen. Besondere Probleme zeigten sich allerdings dort, wo Ansprüche der einen Disziplin nicht mit den Möglichkeiten der anderen Disziplin in Einklang gebracht werden konnten: Das betrifft vor allen Dingen die bevölkerungssoziologischen Daten. Hier wäre es aus linguistischer Perspektive sinnvoll gewesen, bei Bewohner*innen aus mehrsprachigen Staaten, wie etwa der Türkei, zu wissen, wie hoch der Anteil Kurdisch oder Armenisch Sprechender ist. Leider erfassen die statistischen Ämter der Kommunen diese Daten nicht; auch die stadtsoziologische Forschung klammert sprachliche Aspekte in der Regel aus, sodass wir auch nicht auf entsprechende stadtsoziologische Studien zum Ruhrgebiet zurückgreifen konnten. Problematisch war – unter zeitlichen Aspekten – auch die Organisation der Zusammenarbeit, insbesondere die Koordination der einzelnen Untersuchungsschritte, damit die Ergebnisse rechtzeitig für die Konzeption nachfolgender Arbeitsschritte zur Verfügung standen – aber das sind Probleme, mit denen alle größeren Projekte zu kämpfen haben. Bei zahlreichen Ergebnissen hätten wir uns zudem gewünscht, mehr Zeit zu haben, um zu untersuchen, was die Gründe für die (Un) sichtbarkeit bestimmter ethnischer Gruppen sind. So wären wir gerne der Frage nachgegangen, warum das Polnische kaum sichtbar ist – obwohl in vielen Stadtteilen die ethnische Konzentration von Bewohner*innen mit polnischer Staatsangehörigkeit sehr hoch ist und die Geschichte der Zuwanderung aus Polen bis ins 19. Jahrhunderts zurückreicht. Gleichzeitig wäre es aus stadtsoziologischer Perspektive wünschenswert gewesen, die Zusammenhänge zwischen Diversität, ethnischer Segregation, ethnischer Ökonomie einerseits und visueller Mehrsprachigkeit andererseits näher zu erforschen, um erklären zu können, welche Bedingungen die sprachliche Sichtbarkeit von Zuwanderergruppen in der lokalen Ökonomie rahmen bzw. fördern oder hemmen. Dazu zählen Fragen wie etwa: Wie lange dauert es und wie groß muss eine ethnische Gruppe sein, bis UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 74 sie öffentlich sichtbar wird? Für Neuzuwanderer*innen aus Rumänien und Bulgarien sowie aus Syrien könnten diese Fragen in Form von Längsschnittstudien in Follow-up-Projekten beantwortet werden. 5.2 Zu den Sozialdaten Die Beschaffung der stadtsoziologischen Daten hat die größten Probleme bereitet: zum einen, weil nicht alle Kommunen Daten zum Migrationshintergrund erfassen; zum anderen, weil sich Staatsangehörigkeit und Geburtsland nicht notwendigerweise decken. Auch Einzelmerkmale wie Herkunftssprache werden in den Kommunen nicht immer erfasst, z. B. in der Schulstatistik, wo zwar danach gefragt wird, ob Deutsch oder eine andere Sprache als Deutsch zuhause verwendet wird, häufig jedoch nicht notiert wird, welche andere Sprache als Deutsch dies ist. Insofern konnten wir nur die Daten mit den Angaben zu den Ausländer*innen und Doppelstaatler*innen berücksichtigen, weil diese Daten einheitlich erhoben werden. Problematisch war darüber hinaus, dass einige Datensätze aus datenschutzrechtlichen Gründen nicht zur Verfügung gestellt werden konnten, weil die statistischen Angaben zur Anzahl der betreffenden Nationalitäten zu klein waren. Ein weiteres Problem ergab sich daraus, dass die Staatsangehörigkeit ein unzureichender Indikator für die Herkunftssprache ist, wie das Beispiel türkischer Staatsangehöriger zeigt, die unterschiedlichen Sprachgemeinschaften, d. h. der türkischen, kurdischen, oder armenischen angehören können. Dasselbe gilt für Angehörige aus dem ehemaligen Jugoslawien. Problematisch ist auch, dass sich nur die wenigsten Sprachen nur einer Staatsangehörigkeit zuordnen lassen, weil viele Sprachen in mehreren Staaten Amtssprache bzw. lokale Amtssprache sind (z. B. Deutsch, Englisch, Französisch, Türkisch, Arabisch). Für die Analyse ist dies insofern problematisch, als die Diversität der ansässigen Bevölkerung in den einzelnen Stadtteilen nur über die Staatsangehörigkeit gemessen werden konnte. 24.03.22 11:06 Fallstudie „Metropolenzeichen“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 5.3 Zum Bilddatenkorpus Frühzeitig haben wir uns für eine vollständige Dokumentation sämtlicher Zeichen im öffentlichen Raum exakt definierter Gebiete entschieden. Erstens erlaubt das Komplettuntersuchungen (und nicht nur Teilbeschreibungen etwa nur kommerzieller Schilder). So können bei der Analyse vielerlei Herangehensweisen, Perspektiven und Fragestellungen verfolgt werden, auch ursprünglich nicht vorhergesehene. Zweitens wird so das Problem „repräsentativer“ Auswahl umgangen. Bei diesem Sujet könnte es ohnehin nicht gelöst werden, weil es keine bekannte Grundgesamtheit (z. B. aller Zeichen in einer Stadt oder einem Land) gibt. Andererseits führt das zu einem erheblichen (personellen, zeitlichen und folglich finanziellen) Aufwand sowohl bei der Aufnahme, Verschlagwortung, Prüfung und Korrektur der Daten und Metadaten als auch bei der Analyse und Interpretation. Dabei sind Aufwand und Ertrag sowie deren Verhältnis oft nicht absehbar – je größer die Datenmenge, desto weniger. Wenn eine fünfstellige Anzahl von Belegen aufgenommen werden sollen (wie viele es sein würden, konnte man vorher nicht wissen), müssen sich mehrere Fotograf*innen die Arbeit teilen. Dafür muss es klar formulierte Richtlinien geben. Dennoch lassen sich Fehler nicht immer vermeiden. So tauchten erst bei der Verschlagwortung und teils noch danach 92 (0,36 %) vorher unentdeckte Dubletten auf, was bei mehreren Fotograf*innen trotz definierter Abgrenzung der Gebiete nie ganz zu vermeiden sein dürfte. Vor der Endauswertung wurden sie gelöscht. Nicht trivial ist die Frage, was genau fotografiert werden soll. Die ideale Forderung „ein Zeichen – ein Foto“ lässt sich nicht immer konsistent durchführen, weil häufig mehrere Zeichen unmittelbar neben- oder übereinander stehen und/oder deren Einheiten nicht immer eindeutig bestimmt werden können. Zwar geben in den meisten Fällen Platzierung, benutztes Material oder gestalterische Mittel (wie Rahmen und leere Ränder) eindeutige Hinweise. Insbesondere bei Graffiti trifft das aber nicht immer zu. Wenn UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 75 75 bei der Verschlagwortung solche Probleme auftauchten, haben wir uns bemüht, sie auf möglichst einheitliche Weise zu lösen. Manchmal beeinflussen auch örtliche Verhältnisse die Entfernung des Fotografen vom Objekt, seine Perspektive und den Bildausschnitt. Jedenfalls entspricht – wie stets bei Fotos – das Abbild nicht völlig dem Vorbild, sondern macht es (scheinbar objektiv) zu einem toten Objekt und enthält schon eine gewisse Deutung. Das Auge des Fotografen kann nie absolut neutral sein. Außerdem führt die Ein-Zeichen-einFoto-Regel in den meisten Fällen dazu, dass der räumliche Kontext jedes einzelnen Beleges im gesamten Straßenbild verloren geht, also die für Passant*innen jeweils sichtbare oder wahrgenommene Gesamtsituation. Das kann – wo nötig – nur durch Zusammenschau mehrerer Fotos (die ja alle geocodiert sind) wettgemacht werden oder ggf. durch die Ortskenntnis der jeweiligen Forscher*innen. (Über die tatsächliche Rezeption durch alltägliche Passant*innen wissen wir dadurch natürlich noch nichts.) Auch die Verschlagwortung sollte zwar möglichst, kann aber nicht völlig frei sein von subjektiven Deutungen. Deshalb wurden die Metadaten (soweit sie nicht automatisch von der Kamera erzeugt werden) von jeweils zwei Personen unabhängig voneinander den einzelnen Belegen zugeordnet und dann wechselseitig geprüft. Dennoch zeigten sich bei der Auswertung der Daten noch einzelne Problemfälle und Fehler. So gibt es einige Aufkleber, die man mit jeweils guten Argumenten dem kommerziellen, aber auch dem transgressiven Diskurs zuordnen kann. Gilt „teleshop“ als deutsches oder als englisches Wort? Auch solche Fälle mussten erkannt, diskutiert und über das gesamte Material hinweg konsistent gelöst werden. In der Kategorie „Nonstandard“ mussten im Nachhinein ruhrgebietsspezifische Varianten (z. B. „Hömma“) von gar nicht erwarteten anderen (z. B. „Moin“) unterschieden werden. Soweit solche Probleme nach Redaktionsschluss der Datenbank nicht ohne Weiteres behoben werden konnten (also ohne neue Unstimmigkeiten zu erzeugen), haben wir relevante Schwierigkeiten in Publikationen 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 76 II Fallstudien benannt und bei Bagatellfällen jedenfalls darauf geachtet, dass die angegebenen Zahlen dennoch stimmen (z. B. durch Verzicht auf eine erste oder zweite Nachkommastelle bei relativen Häufigkeiten). Wir finden diesen Punkt deshalb wichtig, weil in praktisch allen empirischen Untersuchungen, die nicht im Labor stattfinden, kleinere Mängel und Fehler nicht ausgeschlossen werden können und oft auch tatsächlich vorkommen. Sie sollten dann nicht verschwiegen werden. Möglicherweise verbliebene Mängel in vermutlich sehr wenigen einzelnen Fällen dürften die statistische Auswertung großer Datenmengen nicht nennenswert beeinflussen. Bei Auszählungen kleiner Teilmengen (z. B. unter hundert Fälle) sollten ggf. alle Belege noch einmal im Hinblick auf die jeweilige Fragestellung einzeln betrachtet werden. Ohnehin ist ein ständiger Wechsel zwischen statistischer Auswertung und qualitativ orientierter Autopsie zu empfehlen. Die Statistik hilft festzustellen, was rekurrent ist und was selten vorkommt, und sie kann sonst unerkannte Strukturen aufdecken, d. h. Hinweise auf sprachliche Muster oder soziolinguistische Auffälligkeiten liefern, die dann zu neuen Forschungsfragen führen. Eine solche zweigleisige Auseinandersetzung mit dem Material ermöglicht vorher unbedachte Vermutungen und Hypothesen und deren Prüfung. Und genau darin liegt der Vorteil eines Mixed-Methods-Designs. Allerdings verführt die oft mühselige Arbeit mit großen Korpora leicht dazu, auf den ersten Blick eindrucksvolle statistische Werte schon für wesentliche Erkenntnis zu halten. Beispielsweise fällt auf, dass in den vier nördlichen Stadtteilen 54,6 % aller Zeichen kommerzieller und nur 35,6 % transgressiver Natur sind, während man in den südlichen Stadtteilen nur 49,1 % kommerzielle, aber 41,7 % transgressive Zeichen findet. Warum das aber so ist oder ob es sich vielleicht nur zufällig so verhält, bedarf genauerer Betrachtung der einzelnen Stadtteilwerte sowie qualitativer Interpretation der Daten auch in Bezug auf die jeweilige Raum- und Sozialstruktur. Nachdem unsere über 25.000 meist schon an sich interessanten Fotos erst einmal mit zuverlässigen und reichhaltigen Metadaten UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 76 versehen waren und nach vielerlei Dimensionen bequem in der Datenbank recherchiert werden konnten, lud das zu vielerlei Spielchen und teils absurd scheinenden Fragen ein – etwa der Art: Gibt es in Gegenden mit geringem Ausländer- bzw. Migrationsanteil in der Bevölkerung mehr oder weniger regulatorische Zeichen (z. B. Verkehrsschilder)? Kommt auf mehrsprachigen Zeichen immer auch Deutsch vor? Sind Aufkleber häufiger dreisprachig als kommerzielle Zeichen? Auf diese teils erratische, teils abduktive Weise lernten wir immerhin unser umfangreiches Material gut kennen. Nicht selten fanden wir so auch unerwartete, im Nachhinein jedoch leicht erklärbare Ergebnisse. Beispielsweise gibt es im Duisburger und Essener Norden rund drei Mal so viele türkische Gastronomienamen wie im Süden, während es im Norden nur äußerst wenige italienische Gastronomienamen gibt. Aus der Fülle solcher und ähnlicher Beobachtungen ergeben sich relevante Indizien für überzeugende Interpretationen, welche die Zahlen erst verstehen lassen. Umgekehrt laden solche Deutungen zu weiteren Vermutungen und Hypothesen ein. So können ursprüngliche Hypothesen, quantitative Auswertungen, qualitative Untersuchungen, datengestützte Interpretationen sowie Einzelfallanalysen wechselseitig einander stützen und vorantreiben. Hier hilft der kontrollierte Dialog in einem Forschungsvorhaben mit vielen Beteiligten, die unterschiedliche Sach- und Fachkenntnisse mitbringen und sich gegenseitig auf die Finger schauen. Bei dieser kreativen Arbeit am Korpus stellte sich heraus, dass für bestimmte Suchanfragen in der Datenbank die vorgeplante Kategorisierung nicht ausreicht. Sucht man – um das eben erwähnte Beispiel aufzugreifen – italienische Eigennamen an Restaurants und fragt nach der Kombination „italienisch“, „Name: Gastronomie“ und „kommerziell“, so erscheinen auch Fotos, auf denen zwar italienischer Text zu sehen ist, der gesuchte Eigenname aber nicht italienisch, sondern zum Beispiel griechisch ist. Hier muss man aus der automatisch präsentierten Ergebnismenge diejenigen Belege von Hand aussuchen, die nicht irgendeinen italienischen Text und ir- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Metropolenzeichen“ gendeinen Namen, sondern eben einen italienischen Namen zeigen. Schließlich gelangt man auch bei einem vergleichsweise sehr großen Korpus schnell an statistisch aussagefähige Grenzen, wenn man eigentlich interessante Teilkorpora bildet. So gibt es zum Beispiel in Dortmund-Nordstadt 95 Belege für sichtbare arabische Sprache, von denen 19 monolingual sind. Das ist zwar an sich bedeutsam und erklärungswürdig, auch etwa im Vergleich mit Essen-Altendorf (bei einer insgesamt um ein Viertel kleineren Menge aller Zeichen gibt es dort 43 arabische Belege, davon nur zwei monolinguale), erlaubt aber keinerlei statistisch relevante Aussagen. Insbesondere für die selteneren Sprachen haben wir viel zu wenig Material für überzeugende Gruppenbildungen und fundierte Verallgemeinerungen. Gerade diese Belege sind zwar als Einzelfälle qualitativ besonders interessant. Doch als Korpuslinguist*in wünscht man sich immer größere Korpora: Je umfangreicher ein Korpus ist, desto mehr neue Wünsche zieht es nach sich, für deren Erfüllung die Datenmenge nicht reicht. Jede ambitionierte empirische Untersuchung will etwas vorher Unbekanntes herausfinden und wird allein schon deshalb auf unvorhergesehene 1. Schwierigkeiten, 2. Hindernisse, 3. Herausforderungen, 4. Chancen und 5. unerfüllbare Wünsche treffen. 1. Schwierigkeiten: Völlig unerwartet war es nicht immer leicht, sämtliche Zeichen im öffentlichen Raum zu fotografieren. Manchmal hielten Anwohner*innen oder Geschäftsleute uns für staatliche Kontrolleur*innen, die Ärger bereiten könnten. Hier traten unsere Fotograf*innen dann erneut sonntags sehr früh morgens an. (Bei den Interviews hingegen gab es kaum nennenswerte Probleme.) Versehentlich doppelt aufgenommene Objekte wurden frühzeitig aus der Datenbank entfernt. Sämtliche Fotos wurden von zwei Personen unabhängig voneinander kodiert; nicht ganz seltene Diskrepanzen dabei wurden bis zum eindeutigen Ergebnis ausdiskutiert. Für schwierige Fälle (z. B. bei seltenen Sprachen) wurden Expert*innen hinzugezogen. Dennoch zeigten sich während der Auswertungsphase noch vereinzelte Unstimmigkeiten (z. B. bei der Zuordnung zum kom- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 77 77 merziellen bzw. transgressiven Diskurs), die bis unmittelbar vor den einschlägigen Publikationen korrigiert werden konnten. Da die Datenmenge und Granularität der Kodierung weit über das hinausgehen, was bisher in der Linguistic-Landscape-Forschung üblich war, können verbliebene Fehler dennoch nicht ganz ausgeschlossen werden. 2. Hindernisse: Anders als erhofft genügten die verwendeten bevölkerungssoziologischen Daten nicht allen Anforderungen und Zielen der Untersuchung. Teils waren die Angaben der Statistischen Ämter der verschiedenen Städte untereinander inkonsistent, teils für die Zwecke unserer Untersuchung unvollständig. So wurden die Nationalitäten der Migrant*innen aus dem früheren Jugoslawien nicht einheitlich erfasst; und bei Personen mit doppelter Staatsangehörigkeit war oft nur die deutsche, nicht aber die zweite (für uns besonders interessante) bekannt. Je nach dem Ausmaß der Datenlücken mussten wir auf manche durchaus gewünschte Auswertungen verzichten oder aber quantitative Angaben erklärtermaßen vergleichsweise unpräzise halten (z. B. ohne Nachkommastelle). 3. Herausforderungen: Die nach bevölkerungssoziologischen Gesichtspunkten ausgewählten Gebiete in den acht Stadtteilen sind ungefähr gleich groß. Nicht abzusehen war, dass dort jeweils stark unterschiedliche Mengen von Belegen angetroffen wurden (von 1236 bis 6057). Gerade dies ist allerdings bereits aussagekräftig für eine semiotische Interaktion im urbanen Raum. Auch in anderen Hinsichten ist das Korpus natürlicherweise nicht homogen. Derartige Schwankungen sind erstens erklärungsbedürftig und mussten zweitens bei allen statistischen Auswertungen berücksichtigt werden. Während der Arbeit mit dem Material tauchten neue Perspektiven auf, an die bei der Konzeption des Projekts nicht ausreichend gedacht worden war. Beispielsweise wurden alle Schriftzeichen im Hinblick auf ihre typographische Gestaltung (z. B. Wahl des Schriftsystems und der Schriftart; Stilisierung von Schriften) nachkodiert. Erst bei Durchsicht des Materials wurde uns deren besondere interkulturelle Relevanz bewusst. 24.03.22 11:06 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 78 II Fallstudien Abb. 6: Lokale Verteilung von Tags und Text-Graffiti in Dortmund-Nordstadt (Grafik: Irmi Wachendorff/ Universität Duisburg-Essen) UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 78 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Metropolenzeichen“ 4. Chancen: Intensive Arbeit an Korpora erzeugt fast immer auch neue Interessen, unerwartete Fragen, kreative Ideen und frische Hypothesen. Zwar wirkten die vorab festgelegten Projektziele disziplinierend, schärften den Forscherblick und schränkten die wissenschaftliche Neugier insofern sinnvoll ein. Darüber hinaus jedoch regten die intensive mehrfache Durchsicht aller Daten durch mehrere Personen mit unterschiedlichen Fachkenntnissen und der Austausch darüber auch vorher ungeahnte 1. Blickwinkel, 2. Entdeckungen und 3. Darstellungsmöglichkeiten an. 1. Bei der reichhaltigen Fülle des Materials traten manche Aspekte zutage, die eigene Erkenntnisse und Publikationen auch jenseits der ursprünglichen Projektziele ermöglichten, so zum Beispiel über Graffitis und über morphosyntaktische Formen kurzer Texte. 2. Jenseits aller quantitativen Auswertungen fielen mehrere Dutzende besonders prägnanter oder origineller Objekte auf, die ergiebige Einzelinterpretationen nahelegten. 3. Viele Ergebnisse ließen sich durch Karten und Infografiken einfacher, konziser und anschaulicher darstellen als rein verbal. Das gilt beispielsweise für die geographische Verteilung von Tags (Abbildung 6) oder verschiedener Sprachen in kleinen Arealen. 5. Wünsche: Schließlich hätten wir Untersuchungsfeld und –ziel gern ausgeweitet. Erstens wäre ein Vergleich mit einer anderen europäischen Metropolregion spannend gewesen (wir dachten an die Randstad Holland). Zweitens hätten wir uns für eine historische Perspektive eine mindestens partielle Nachuntersuchung im Abstand von etwa fünf oder zehn Jahren gewünscht. Dafür aber hätten trotz Idealismus und Selbstausbeutung der meisten Beteiligten die finanziellen Mittel nicht ausgereicht. Abschließend sei angemerkt, dass man ähnliche Studien auch in viel kleinerem Rahmen durchführen kann, so etwa als Seminar-, Bachelor- oder Masterarbeit. Dazu sollten zunächst ein realistisches Untersuchungsziel (eine bestimmte Forschungsfrage) möglichst exakt formuliert, dazu passende Untersuchungsgebiete definiert und die Menge der dokumentierten Objekte festgelegt werden. Beispielsweise – um nur eine Anregung zu ge- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 79 79 ben – könnte die Vielfalt von Sprachen in der Nähe unterschiedlicher Einrichtungen verglichen werden, etwa auf einem HochschulCampus und in einem Hauptbahnhof, und zwar beschränkt auf offizielle und kommerzielle Zeichen (ohne Aufkleber, Graffitis etc.). Auch bei solch kleineren Studien ist vorab stets ein Pretest mit einer sehr geringen Datenmenge zu empfehlen, um Fehler in der Anlage der Untersuchung möglichst zu vermeiden. 5.4 Zu den Interviews Da wir die die Interviewdaten in zwei Schritten und mit unterschiedlichen Methoden erhoben haben, konnten wir die Vorteile der jeweiligen Methoden nutzen, gleichzeitig die Schwächen der einzelnen Methoden abfedern. Um die Bereitschaft der Informant*innen zu erhöhen, an einer Vor-Ort-Befragung teilzunehmen, konnten die Informant*innen zwischen den Interviewsprachen Deutsch, Türkisch und Englisch wählen. Bei den Vor-Ort-Interviews ging es weniger um Repräsentativität als vielmehr darum, einen Einblick in die Wahrnehmung und Bewertung visueller Mehrsprachigkeit zu bekommen und zu erfahren, wie eine positive oder negative Einstellung begründet wird. Solche explorativen Fragen lassen sich mit schriftlichen Befragungstechniken nur schwer umsetzen, weil diese besser für Fragestellungen geeignet sind, über die man schon einiges weiß. Insgesamt zeigt sich bei den Vor-Ort-Interviews eine Tendenz zur Selbstselektion, die sich etwa daran ablesen lässt, dass wesentlich mehr Befragte mit Migrationshintergrund als ohne an der Befragung teilnahmen, vermutlich, weil das Thema der Befragung für letztere weniger relevant war. Ein großer Vorteil der Vor-Ort-Interviews war, dass die Interviewer*innen sehr flexibel auf das Antwortverhalten der Informant*innen reagieren konnten (z. B. Veränderung der Reihenfolge der Fragen) sowie Rückfragen stellen und nach Erläuterungen fragen konnten. Ein solches Vorgehen ermöglicht das Eingehen auf nicht-antizipierte Antworten, allerdings auf Kosten der Vergleichbarkeit der Interviews. Dies ist aber typisch für leitfadenorientierte 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 80 II Fallstudien Interviews. Problematisch war hingegen, dass einige der Befragten die Fragen sehr ausführlich beantworteten, andere hingegen nur binäre Antworten gaben, d. h. lediglich mit „ja“ oder „nein“ antworteten. Dies schränkt die Vergleichbarkeit der Daten ein. Auch ließ sich beobachten, dass einige Befragte mit Migrationshintergrund nicht alle Fragen beantworten wollten, weil sie befürchteten, ihre Antworten könnten an die Polizei weitergegeben werden. Diese Reaktion ließ sich vor allen Dingen bei den Interviews beobachten, die 2016 durchgeführt wurden, d. h. im Anschluss an die sog. „Flüchtlingskrise“ 2015 und ihre diskursive Verarbeitung. Heikle Themen und Hemmungen mit Blick auf die „soziale Erwünschtheit“ von Antworten wirken sich in Vor-Ort-Interviews stärker aus als bei einer anonymen Telefonbefragung. Ein anderes, generelles Problem stellen die Bedingungen dar, unter denen Vor-Ort-Interviews auf der Straße oder im Laden/Restaurant durchgeführt werden. So gibt es auf der Straße wie auch im Laden oder Restaurant viele und laute Nebengeräusche, aber auch verschiedene Formen der Ablenkung, die die Tonqualität und Konzentration der Befragten negativ beeinflussen können. Bei der Auswertung der Vor-Ort-Interviews war die größte Herausforderung, aus den zahlreichen Argumenten die typischen Argumentationsmuster zu rekonstruieren. Dies ist nicht einfach, weil es gilt, die Waage zu halten zwischen nicht zu detaillierten und nicht zu abstrakten Argumentationsmustern, damit die genannten Argumente dem einen oder anderen Argumentationsmuster zugeordnet werden können. Eine besondere Schwierigkeit bei der Auswertung ergab sich auch daraus, dass Argumente häufig in einer Äußerung verknüpft werden oder nicht immer trennscharf abgegrenzt werden können bzw. sich nicht immer eindeutig sagen lässt, welchem Argumentationsmuster ein bestimmtes Argument entspricht. Diese Zuordnungs- und Auswertungsprobleme treten bei Computer-Assisted-Telephone-Interviews (CATI) nicht auf, weil hier im Vorfeld die Frage-Items und die Antwortmöglichkeiten festgelegt und die Fragen am Computer abgelesen und die Antworten direkt eingegeben werden. Dadurch ist der Ablauf standardisiert (der Wortlaut der Fragen ist immer derselbe) und eine sofortige Überprüfung der Antworten und Fehlerkontrolle möglich. Allerdings müssen die Interviewer*innen für eine solche Befragung geschult sein. Ein großer Vorteil für die Auswertung ist, dass die Antworten digital vorliegen (also nicht mehr transkribiert und annotiert werden müssen, wie dies bei den Vor-Ort-Interviews der Fall war) und sofort für die statistische Auswertung zur Verfügung stehen. Zum Weiterlesen Das Themenheft von Ehrhardt und Marten (2018) liefert zahlreiche Anregungen für den Unterricht und stellt eine App vor, mit der geokodierte Fotos archiviert, georeferenziert auf einer Karte dargestellt und verschlagwortet werden können. Aus den Blickwinkeln unterschiedlicher Einzelprojekte werden im Sammelband von Gessinger, Redder und Schmitz (2018) Möglichkeiten, Probleme und Perspektiven korpuslinguistischen Arbeitens diskutiert. Die Arbeit von Tophinke (2017) ist eine sehr detailreiche Einzelanalyse zur Schrift-Bildlichkeit von Graffitis. Redder et al. (2013) präsentieren eine Stadtsprachenstudie zu Mehrsprachigkeit in verschiedenen gesellschaftlichen Zusammenhängen, darunter auch die Betextung öffentlicher Räume ausgewählter Stadtteile. In Wilk (2015) werden die sprachlichen und nicht-sprachlichen Merkmale, durch die Texte und Medien im öffentlichen Raum Stadtgeschichte herstellen, herausgearbeitet. Der von Ziegler und Marten (2021) herausgegebene Sammelband stellt aktuelle Studien aus dem deutschsprachigen Raum, zu Deutsch als Minderheitensprache sowie aus Ländern mit einer ausgeprägten DaF-Tradition vor. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 80 24.03.22 11:06 Fallstudie „Metropolenzeichen“ 81 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Literatur Agha, Asif (2007): Language and Social Relations, Cambridge: Cambridge University Press. Angeli, Oliviero (2018): Migration und Demokratie. Ein Spannungsverhältnis, Stuttgart: Reclam. Ehrhardt, Claus/Heiko F. Marten (Hrsg.) (2018): Linguistic Landscapes – Sprachlandschaften, Themenheft für Der Deutschunterricht Jg. 4, H 18. Gal, Susan (2012): Sociolinguistic Regimes and the Management of „Diversity“, in: Duchêne, Alexandre/ Monica Heller (eds.), Language in Late Capitalism: Pride and profit, New York: Routledge, S. 22–37. Geertz, Clifford (2003): Dichte Beschreibung. Beiträge zum Verstehen kultureller Systeme, Frankfurt a. Main: Suhrkamp. Gessinger, Joachim/Angelika Redder/Ulrich Schmitz (Hrsg.) (2018): Korpuslinguistik. Osnabrücker Beiträge zur Sprachtheorie (OBST), H. 92. Jaworski, Adam/Crispin Thurlow (2010): Introducing Semiotic Landscapes, in: Jaworski, Adam/Crispin Thurlow (eds.), Semiotic Landscapes: Language, Image, Space, London: Bloomsbury, S. 1–40. Mühlan-Meyer, Tirza und Frank Lützenkirchen (2017): Visuelle Mehrsprachigkeit in der Metropole Ruhr – eine Projektpräsentation: Aufbau und Funktionen der Bilddatenbank „Metropolenzeichen“, in: Zeitschrift für Angewandte Linguistik, H. 66, S. 79–98. Peukert, Hagen (2013): Measuring language diversity in urban ecosystems, in: Duarte, Joana/Ingrid Gogolin (eds.), Linguistic Superdiversity in Urban Areas, Amsterdam/Philadelphia: John Benjamins, S. 75–95. Pike, Kenneth L. (1967): Language in Relation to a Unified Theory of the Structure of Human Behavior, Den Haag: Mouton. Pütz, Martin/Neele Mundt (eds.) (2019): Expanding the Linguistic Landscape. Linguistic Diversity, Multimodality and the Use of Space as a Semiotic Resource, Bristol: Multilingual Matters. Redder, Angelika/Julia Pauli/Roland Kießling/Kristin Bührig/Bernhard Brehmer/Ingrid Breckner/ Jannis Androutsopoulos (2013): Mehrsprachige Kommunikation in der Stadt – das Beispiel Hamburg, Waxmann: Münster. Schmitz, Ulrich/Evelyn Ziegler (2016): Sichtbare Dialoge im öffentlichen Raum, in: Zeitschrift für germanistische Linguistik, Jg. 44 , H. 3, S. 469–502. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 81 Scollon, Ron/Suzie Wong Scollon (2003): Discourses in place. Language in the material world, London u. a.: Routledge. Selting, Margret/Peter Auer/Dagmar Barth-Weingarten/Jörg Bergmann/Pia Bergmann/Karin Birkner (2009): Gesprächsanalytisches Transkriptionssystem 2 (GAT 2), in: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion, Bd. 10, S. 353–402. Shohamy, Elana/Eliezer Ben-Rafael/Monica Barni (eds.) (2010): Linguistic Landscape in the City, Bristol/ Buffalo/Toronto: Multilingual Matters. Simpson, Edward H. (1949): Measurement of Diversity, in: Nature, Bd. 163, S. 688. Spolsky, Bernard (2009): Language Management, Cambridge: Cambridge University Press. Tophinke, Doris (2017): Minimalismus als Konzept: Schrift-Bild-Konstruktionen im Graffiti, in: Wrobel, Dieter/Tilman von Brand/Markus Engelns (Hrsg.), Gestaltungsraum Deutschunterricht. Literatur – Kultur – Sprache, Baltmannsweiler: Schneider, S. 161–173. Wilk, Nicole (2015): »Gebäude erzählen Geschichte(n)« Medienlinguistische und diskursgrammatische Untersuchung zur multimodalen Herstellung historischer Stadt-Räume durch Schilder, Pulte, Stelen, Mobile Tagging und Apps, in: NET.WORX, Bd. 72, [online] http://www.mediensprache.net/networx/networx-72.pdf. Ziegler, Evelyn/Heinz Eickmans/Ulrich Schmitz/ Haci-Halil Uslucan/David H. Gehne/Sebastian Kurtenbach/Tirza Mühlan-Meyer/Irmi Wachendorff (2018): Metropolenzeichen. Atlas zur visuellen Mehrsprachigkeit der Metropole Ruhr, Duisburg: Universitätsverlag Rhein-Ruhr. Ziegler, Evelyn/Ulrich Schmitz/Haci-Halil Uslucan (2020): Community Ma(r)king in the Ruhr Metropolis, in: Linguistic Landscape, Bd. 6.2, S. 183–212. Ziegler, Evelyn/Heiko F. Marten (Hrsg.) (2021): Linguistic Landscapes im deutschsprachigen Kontext. Forschungsperspektiven, Methoden und Anwendungsmöglichkeiten, Frankfurt a. Main: P. Lang. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 5. März 2021. 24.03.22 11:06 82 5. Sprachliche Variation im Gegenwartsdeutschen: Lautliche Realisierungsvarianten im Gespräch Pia Bergmann 1. Einleitung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Die vorliegende Fallstudie führt in die Analyse von lautlicher Variation im spontansprachlichen Gegenwartsdeutschen ein. Ihr Gegenstand sind lautliche Realisierungsvarianten von keine Ahnung – einem Element, das nicht nur in Hinblick auf seine Aussprache variiert, sondern auch verschiedene Funktionen im Gespräch erfüllt. Die Fallstudie steht theoretisch und methodisch im Kontext der Interaktionalen Linguistik und vereint eine funktionalqualitative Analyse mit phonetischen Analysen und quantitativer, statistischer Auswertung. Sicher ist Ihnen schon einmal aufgefallen, dass Wörter in der gesprochenen Sprache nicht immer gleich ausgesprochen werden. Mal sagen wir ich glaub oder ich mein, mal ich glaube oder ich meine, mal das brauch er nich, mal das braucht er nich oder gar das braucht er nicht (vgl. zu glaub(e) Knöbl & Nimz 2013). Solche unterschiedlichen Aussprachemöglichkeiten bezeichnet man auch als lautliche Realisierungsvarianten (eines Wortes). In den gegebenen Beispielen fällt auf, dass die Varianten sich dahingehend unterscheiden, ob ein Laut realisiert wird oder nicht; es handelt sich um Beispiele für sog. Tilgungen. Neben Tilgungen gibt es auch noch andere Arten der lautlichen Variation zwischen Realisierungsvarianten wie beispielsweise Assimilationen (etwa in habm statt haben, wo zusätzlich zur Tilgung des Reduktionsvokals (des sog. Schwa-Lauts) in der zweiten Silbe noch eine Angleichung des Artikulationsortes vom [n] zum [m] vollzogen wird). Mit solchen Realisierungsvarianten beschäftigt man sich im Bereich der Phonetik und um sich Wissen über diesen Untersuchungsgegenstand anzueignen, sollte man sich entsprechend mit Einführungen in die Phonetik und darauf aufbauend weiterer phonetischer Literatur beschäftigen (z. B. Bergmann 2013; Kohler 1995; Pompino-Marschall 2009). Neben der Frage, welche Realisierungsvarianten es gibt und wie man sie beschreiben UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 82 kann, ist aber vor allem auch die Frage interessant, wodurch die Entstehung und die Wahl solcher Varianten begünstigt werden. Unter welchen Umständen treten sie vorrangig auf, wodurch lassen sie sich erklären? Auch hierzu gibt es Forschungsliteratur, mit der wir uns auseinandersetzen sollten, bevor wir uns an die eigene empirische Untersuchung begeben. Einen Ansatzpunkt neben der Phonetik bildet der Bereich der Soziolinguistik. In der Soziolinguistik geht man davon aus, dass die Variation, der wir im alltäglichen Sprachgebrauch begegnen, nicht zufällig ist, sondern bestimmten Einflussfaktoren unterliegt, die mit außersprachlichen Eigenheiten zu tun haben (vgl. Barbour & Stevenson 1998; Szmrecsányi 2013). In unseren Beispielen ist es beispielsweise nicht unplausibel zu vermuten, dass die Variation in Zusammenhang mit der Äußerungssituation steht. In formellen Situationen werden wir eher dazu tendieren, die volle Form zu realisieren, während in informellen Situationen wie einem Gespräch unter gleichaltrigen Freunden eine Tendenz zu den Varianten mit Tilgungen bestehen dürfte. Möglicherweise spielt auch das Alter der SprecherInnen oder ihre regionale Herkunft eine Rolle für die Art der Realisierung. Zu außersprachlichen Einflussfaktoren wie diesen kommen innersprachliche Einflussfaktoren hinzu. So wissen wir aus der Forschung, dass Tilgungen und andere Reduktionen weniger stark auftreten, wenn sie in einer akzentuierten Silbe 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Variation“ vorkommen als in Fällen, in denen diese Silbe keinen Satzakzent trägt (vgl. Keating et al. 2003). Ein weiterer Bereich, der Details in lautlichen Realisierungsweisen als nicht zufällig und potenziell bedeutungsvoll auffasst, ist der Bereich der Interaktionalen Linguistik (vgl. Couper-Kuhlen & Selting 2018; Imo & Lanwer 2019; → Kapitel 6 [Fallstudie „Diskursmarker“] in diesem Band). In diesem linguistischen Ansatz gelten sprachliche Mittel als Ressourcen, die den InteraktionsteilnehmerInnen dazu dienen, die Interaktion zu organisieren und einander aufzuzeigen, wie Redebeiträge zu verstehen sind. Die Interaktionale Linguistik fußt in einigen theoretischen und methodischen Grundannahmen auf der (ethnomethodologischen) Konversationsanalyse (im Folgenden auch KA), auf die wir im Abschnitt 3.3 zu den Methoden der Fallstudie noch genauer eingehen werden. Aus dem Vorangegangenen wird deutlich, dass lautliche Realisierungsvarianten im Gespräch mit vielen verschiedenen Einflussfaktoren in Zusammenhang stehen können. Das sollte uns aber nicht davon abhalten, uns mit diesem Phänomen auseinanderzusetzen, denn dafür ist es viel zu allgegenwärtig und relevant für die Beschreibung unserer alltäglichen (gesprochenen) Sprache. In der Fallstudie in diesem Kapitel wollen wir uns mit einem Fall von lautlicher Variation beschäftigen, bei dem gleich mehrere lautliche Phänomene betroffen sind. Ausgangspunkt der Auseinandersetzung ist zunächst eine alltägliche Beobachtung zur Verwendung der Phrase keine Ahnung. Diese kommt einerseits in Kontexten vor, in denen sie das volle semantische Gewicht des Nicht-Wissens transportiert (Bsp. 1). Andererseits scheint sie aber auch in Kontexten verwendet zu werden, in denen die Bedeutung abgeschwächt ist. Diese Abschwächung der Bedeutung (oder auch semantische Ausbleichung) kann beispielsweise darin liegen, dass die Sprecherin oder der Sprecher kein vollständiges NichtWissen zum Ausdruck bringt, sondern lediglich ein Element des Ausgesagten als unsicheres Wissen oder grobe Schätzung markiert (Beispiel 2). Die Abschwächung ist auch in Fällen zu erkennen, in denen keine Ahnung als UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 83 83 Ankündigung einer Veranschaulichung dient (Beispiel 3). (Alle Beispiele sind nach dem Gesprächsanalytischen Transkriptionssystem GAT 2 (vgl. Selting et al. 2009) transkribiert, siehe dazu auch → Kapitel 23 [Gesprächsanalytische Transkription] in diesem Band). (1) FOLK_E_00021_SE_01_T_17 01 keine AHnung wie das funktioNIERT; (2) FOLK_E_00055_SE_01_T_07_DF_01 01 de:r lAden is dann: (--) <<acc>keĩe AHnung> (.) paar hUndert meter WEIter? (3) FOLK_E_00022_SE_01_T_03 01 der hat NUR schEIß geredet, […] 03 =also äm: °h (-) t <<acc, tief>keine AHnung ich hab> ich sag_n SA:TZ? (.) er sagt irgendwas drauf was Überhaupt net PASST? Zu der Beobachtung, dass keine Ahnung funktional vielfältig eingesetzt wird, kommt noch hinzu, dass die Phrase auch lautlich variiert. Neben einer vollen Realisierung als [ˈkaɪnə ˈʔaːnʊŋ] hört man auch reduzierte Varianten bis hin zu [kaˈnaːnʊŋ]. Fußend auf dieser Alltagsbeobachtung ergibt sich für uns somit die Frage, ob und in welcher Weise die lautliche Variation mit den verschiedenen funktionalen Verwendungsweisen in Zusammenhang gebracht werden kann. Am Beginn der Auseinandersetzung steht hier also schlicht die Beobachtung von verschiedenen Realisierungsweisen eines Wortes oder einer Phrase. Solche Beobachtungen können durchaus sporadisch sein, also zufällig im Alltag, in der U-Bahn oder sonst wo gemacht werden. Äußerst wichtig ist jedoch, dass die weitere Analyse nicht mehr sporadisch erfolgt, sondern systematisch auf der Basis eines klar definierten Datensets durchgeführt wird. Bevor es dazu kommt, steht als erster Schritt ein nochmaliger Blick in die Forschungsliteratur. Zwar haben wir oben schon 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 84 II Fallstudien etwas zu phonetischer Variation und möglichen Einflussfaktoren auf Variation gesagt, aber noch nichts zu dem konkreten Phänomen, das wir uns nun anschauen. Es handelt sich bei keine Ahnung um eine sogenannte (negative) epistemische Konstruktion, die ursprünglich Nicht-Wissen zum Ausdruck bringt.1 Eine vergleichbare Konstruktion, die im Gegenwartsdeutschen ebenfalls ein breites Funktionsspektrum aufweist, ist (ich) weiß nicht (vgl. Helmer & Deppermann 2017; Helmer, Reineke & Deppermann 2016; Bergmann 2017). Nicht nur im Deutschen, sondern auch in anderen Sprachen ist solchen Konstruktionen in der Forschung eine gewisse Aufmerksamkeit entgegengebracht worden. So gibt es Studien zu niederländischem dat weet ik niet und anderen Varianten zum Anzeigen von Nicht-Wissen (vgl. Plug 2010), zu französischem je ne sais pas (vgl. Pekarek Doehler 2016), (amerikanisch/neuseeländisch) englischem I don’t know (vgl. Bybee & Scheibman 1999; Grant 2010; Scheibman 2000; Tsui 1991; Weatherall 2011) oder auch zum estnischen mina ei tea (vgl. Kevallik 2010). Die Studien verdeutlichen, dass die jeweiligen Ausdrücke in den verschiedenen Sprachen in der Tat funktional vielfältig verwendet werden und dabei auch deutlich vom semantischen Gehalt als Ausdruck des NichtWissens abweichen können. Zu diesen Funktionen gehören: • das Anzeigen einer unzureichenden nachfolgenden Antwort (vgl. Pekarek Doehler 2016; Helmer & Deppermann 2017; Helmer, Reineke & Deppermann 2016), • die Markierung eines nachfolgenden Elements als unsicheres Wissen (siehe Beispiel 2) (vgl. Helmer & Deppermann 2017; Helmer, Reineke & Deppermann 2016; Bergmann 2017; Pekarek Doehler 2016; Weatherall 2011), 1 2 • das Anzeigen eines nachfolgenden, reparaturbedürftigen Elements (vgl. Plug 2010), • das Anzeigen einer nachfolgenden Veranschaulichung (siehe Beispiel 3) (vgl. König 2014; Bergmann 2017), • die Verzögerung eines dispräferierten Handlungszugs2 wie beispielsweise einer nicht gleichlaufenden, negativen Bewertung (vgl. Auer & Günthner 2005; Bergmann 2017; Bybee & Scheibman 1999; Helmer, Reineke & Deppermann 2016; Plug 2010; Tsui 1991), • das Anzeigen, dass man seinen Redebeitrag beenden möchte (vgl. Bybee & Scheibman 1999; Pekarek Doehler 2016). Für unser Untersuchungsinteresse besonders aufschlussreich ist, dass einige dieser Studien auch auf die lautliche Realisierung der Einheiten eingehen. So beschreiben zum Beispiel Bybee & Scheibman (1999: 585-587), dass amerik. englisch I don’t know häufiger zu dunno verkürzt wird, wenn es pragmatische Funktionen annimmt, als wenn es nur die lexikalische Bedeutung transportiert. Ebenso deuten die Ergebnisse von Plug (2010) zu ik weet niet im Niederländischen und von Pekarek Doehler (2016) zu je ne sais pas im Französischen darauf hin, dass das Auftreten von lautlichen Reduktionen maßgeblich damit zusammenhängt, ob und gegebenfalls in welcher pragmatischen Funktion die Einheit auftritt. Pekarek Doehler (2016) etwa arbeitet drei verschiedene Vorkommensbereiche von je ne sais pas in Frage-Antwort-Sequenzen heraus, nämlich zum einen das Anzeigen von Nicht-Wissen, zum anderen das Anzeigen einer nachfolgenden nicht ganz passenden Antwort und schließlich das Anzeigen eines Turnabgabewunsches. Sie stellt fest, dass lautliche Reduktionen überwiegend dann vorzufinden sind, wenn die Phrase in einer der beiden letztgenannten Funktionen auftritt, die als Gemeinsamkeit Unter epistemischer Bedeutung versteht man Bedeutungen, die auf das Wissen bezogen sind. Unter Präferenz versteht man in der Konversationsanalyse, dass auf erste Äußerungen wie Einladungen oder Bewertungen bestimmte zweite Äußerungen als Reaktionen begünstigt sind und mit weniger sprachlichem Aufwand geleistet werden. So wird als Reaktion auf eine Einladung eine Annahme im Vergleich zu einer Ablehnung sprachlich weniger aufwändig realisiert – die Annahme als präferierte zweite Äußerung, die Ablehnung als dispräferierte zweite Äußerung (vgl. Stukenbrock 2013: 233-235). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 84 24.03.22 11:06 Fallstudie „Sprachliche Variation“ 2. Fragestellung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. reduziertes „epistemisches Gewicht“ haben und keine eigene Turnkonstruktionseinheit bilden (vgl. Pekarek Doehler 2016: 161). Plug (2010: 2023-2025) hingegen zeigt für das Niederländische, dass die Reduktionen im Zusammenhang damit stehen, ob ik weet niet in sogenannten dispräferierten Handlungszügen auftritt. Ist dies der Fall, ist die Phrase weniger stark reduziert. Mit diesem Wissen im Hintergrund können wir zum nächsten Abschnitt übergehen und unsere Fragestellung konkretisieren. Angeregt durch die sporadischen Beobachtungen zur Variation im Gebrauch von keine Ahnung und auf Basis der nachfolgenden Auseinandersetzung mit der Forschungsliteratur können wir zunächst folgende Forschungsfrage formulieren: F: Tritt die lautliche Reduktion bei keine Ahnung zufällig auf oder hängt sie systematisch mit dem Verwendungskontext, d.i. den Funktionen im Gespräch zusammen? Etwas problematisch ist hierbei allerdings, dass der Aspekt der Funktionen in der Forschungsliteratur zum einen unterschiedlich stark ausdifferenziert wird und zum anderen verschiedene pragmatische Funktionen betrifft. So umfasst die funktionale Ausdifferenzierung bei Bybee & Scheibman (1999) letztlich vor allem den Aspekt „Diskursfunktion: ja oder nein“ (bei ihnen bezeichnet als „lexical“ gegenüber „pragmatic sense“, siehe Bybee & Scheibman 1999: 587). Bei Pekarek Doehler (2016) oder auch Plug (2010) geht die Differenzierung aber darüber hinaus und beinhaltet auch Unterscheidungen zwischen verschiedenen Diskursfunktionen, wie oben bereits deutlich wurde (siehe Abschnitt 1). Weiterhin fällt auf, dass in der Forschungsliteratur teilweise ganz unterschiedliche Funktionen im Zusammenhang mit den lautlichen Realisierungen thematisiert werden, z. B. Markierung von Reparaturen oder Dispräferenz bei Plug (2010) oder Markierung von möglicherweise unzulänglichen Antworten bei Pe- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 85 85 karek Doehler (2016). Dies ist einerseits dem Umstand geschuldet, dass die zitierten Studien selbst unterschiedliche Forschungsfragen verfolgen und somit nicht notwendigerweise genau das Gleiche in den Blick nehmen. Es ergibt sich andererseits aber auch ganz zentral daraus, dass pragmatische Funktionen von Einheiten immer erst und ausschließlich anhand von konkreten sprachlichen Daten herausgearbeitet werden müssen. Das hat zur Folge, dass auch bei vermeintlich ähnlichen Konstruktionen die tatsächlich auftretenden Funktionen erst datenbasiert erarbeitet werden müssen, wobei dann auch immer Funktionen zum Vorschein kommen können, mit denen man anhand der Literatur nicht gerechnet hat. (Genauso wie umgekehrt natürlich auch Funktionen nicht zur Verwendung kommen können, die man auf Basis der Forschungsliteratur erwartet. Dies kann mit der Größe der Datenbasis zusammenhängen und muss nicht zwangsläufig bedeuten, dass die Funktionen in der untersuchten Sprache nicht existieren.) Die Konsequenz für uns ist, dass wir nicht ohne Weiteres die in der Forschungsliteratur aufgezeigten Funktionen auf unsere Untersuchung übertragen können. Stattdessen müssen wir diese zunächst aus dem Datenmaterial herausarbeiten und somit zur Operationalisierung unserer obigen Fragestellung eine weitere Frage voranstellen: F1: Welche Funktionen erfüllt keine Ahnung im Gespräch? Stellt sich heraus, dass auch hier systematisch lexikalische und pragmatische/diskursbezogene Funktionen auftreten, können wir fortfahren mit der Frage nach dem Zusammenhang von lautlicher Realisierungsweise und Funktion im Gespräch, wobei zuerst die weniger differenzierte Ausprägung der Frage relevant wird, dann die differenziertere. F2: Tritt lautliche Variation bei keine Ahnung zufällig auf oder hängt sie systematisch damit zusammen, ob die Einheit eine pragmatische Funktion erfüllt oder nicht? F3: Hängt die lautliche Variation systematisch mit dem Typ von pragmatischer Funktion zusammen? 24.03.22 11:06 II Fallstudien Vor dem Hintergrund des unter Abschnitt 1 skizzierten Forschungshintergrunds erwarten wir ein häufigeres Vorkommen von reduzierten Realisierungsweisen, 1. wenn keine Ahnung in Kontexten mit Diskursfunktion auftritt und 2. bei solchen diskursbezogenen Funktionen, die einen höheren Grad an Abschwächung der epistemischen Bedeutung haben, wie wir es oben bei Beispiel 2 gesehen haben (vgl. Pekarek Doehler 2016), sowie bei solchen, die nicht als dispräferierte Handlungszüge zu kennzeichnen sind (vgl. Plug 2010). (Letzteres gilt natürlich vorbehaltlich der Tatsache, dass keine Ahnung überhaupt in solchen Funktionen vorkommt.) 3. Material, Methode und Analyse Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 86 Bei einer Analyse von lautlichen Realisierungsweisen im Gespräch ist es zentral, mit möglichst authentischem, spontansprachlichem Material zu arbeiten. Eine Möglichkeit, an solches Material zu kommen, besteht darin, selbst Gesprächsdaten zu erheben, indem man sie mit Audio- und gegebenenfalls Videoaufnahmegeräten aufzeichnet (→ Kapitel 17 [Audio- und Videografie] in diesem Band). Eine andere Möglichkeit besteht darin, vorhandene Korpora mit Gesprächsdaten zu nutzen (→ Kapitel 25 [Korpora gesprochener Sprache] in diesem Band). In der vorliegenden Fallstudie wählen wir die zweite Möglichkeit. 3.1 Korpusrecherche und Erstellung des Datensets Je nach der Art der Aufbereitung des gewählten Korpus in einer Datenbank lässt sich im Korpus gezielt nach Lexemen oder Wortformen ebenso wie nach Abfolgen von Lexemen/Wortformen suchen. Eine Datenbank, die so etwas ermöglicht, ist die Datenbank für gesprochenes Deutsch (DGD), die über das 3 Institut für Deutsche Sprache (IDS) in Mannheim angeboten wird (https://dgd.idsmannheim.de/dgd/pragdb.dgd_extern.welcome). Die Datenbank beinhaltet verschiedene Korpora, die nach (kostenloser) Registrierung zu Analysezwecken zur Verfügung stehen. Für unsere Fragestellung wählen wir das Forschungs- und Lehrkorpus für gesprochenes Deutsch (FOLK) aus. In FOLK sind Gespräche unterschiedlicher Art versammelt, etwa Gespräche aus institutioneller Kommunikation, Gespräche unter WG-MitbewohnerInnen oder Interviews aus dialektologischen Datenerhebungen, um nur einige zu nennen. Dieser Variationsbandbreite sollte man sich bewusst sein und gegebenenfalls das Suchergebnis filtern, um Daten auszuschließen, die einen unerwünschten Einfluss auf das untersuchte Phänomen haben können. In unserem Fall behalten wir alle aufgefundenen Treffer bei und filtern nicht nach Art des Gesprächs. Die Suche nach bestimmten Lexemen allein erbringt im Normalfall noch nicht das endgültige Datenset für die Analyse. Häufig ergibt die Suche mehr Treffer als man im Rahmen seiner Studie bearbeiten kann. Es empfiehlt sich also, aus der Trefferliste eine Zufallsstichprobe zu erstellen. In der DGD ist dies über einen voreingestellten Button möglich (d.i. das Würfelsymbol in der Symbolleiste oberhalb der Trefferliste). Weiterhin kann es sein, dass die Trefferliste ‚falsche Treffer’ (sog. false positives) beinhaltet, die zwar in Teilen mit der Suchanfrage übereinstimmen, aber nicht das gesuchte Phänomen darstellen. (Dies hängt natürlich auch davon ab, wie man den Suchausdruck formuliert).3 In unserem Fall haben wir zunächst eine Suchanfrage für das Lemma „Ahnung“ gestellt und dieses dann über Kontext: 1 Token links: Lemma „keine“ gefiltert (siehe Abbildung 1): Es fällt auf, dass keine Ahnung hier in unterschiedlichen syntaktischen Kontexten vorkommt. Einerseits gibt es Treffer für syntak- Häufig geschieht so etwas zum Beispiel bei der Suche nach Wörtern, die gleichlautend mit Wörtern mit anderer Bedeutung sind (sog. Homonyme oder Polyseme). Wenn ich nach dem Lemma Kiefer in der Bedeutung von ‚Baum’ suche, werde ich vermutlich auch Treffer für Kiefer in der Bedeutung ‚Teil des Gesichts’ erhalten (vgl. zu Arbeiten mit Korpora einführend auch Scherer 2006). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 86 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Variation“ 87 Abb. 1: Screenshot Suchanfrage in der DGD zu keine Ahnung [04.11.19] tisch vollständige Konstruktionen mit haben (noch variierend nach Person, z. B. Treffer 1, 2, 8, 11), andererseits aber auch solche, die in dieser Hinsicht isoliert stehen. Weiterhin variieren die Treffer aus syntaktischer Perspektive danach, ob keine Ahnung ein syntaktisch integriertes Komplement (z. B. Treffer 5: keine ahnung was du willst) hat oder nicht (z. B. Treffer 3: keine ahnung naja egal). Schließlich ist bereits aus dieser Übersicht lautliche Variation bei keine zu ersehen. Dies betrifft in diesem Ausschnitt die regionale Realisierungsweise keene. An dieser Stelle des Forschungsprozesses geht es zwar noch nicht darum, alle Einträge systematisch zu analysieren. Das Beispiel zeigt aber, dass man häufig im Laufe der Korpusrecherche dazu gezwungen ist, noch einmal über das zu untersuchende Phänomen nachzudenken und Entscheidungen darüber zu treffen, welche Treffer man tatsächlich in die Analyse hineinnehmen möchte und welche nicht. Nicht selten treten in der Spontansprache auch Fälle auf, die man trotz Studi- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 87 um der Forschungsliteratur nicht erwartet hat. Fälle, die man nicht in die Analyse hereinnehmen möchte, kann und sollte man manuell aus der Trefferliste entfernen. Am Ende dieses Arbeitsschrittes sollte folglich ein Datenset stehen, bei dem klar definiert ist, welche Ausprägungen des zu untersuchenden Phänomens darin vorkommen. In unserer Studie schließen wir die Fälle von keine Ahnung aus, die in Konstruktionen mit haben vorkommen. Es verbleiben für die Analyse somit alle Vorkommen von keine Ahnung ohne Einbettung in einen syntaktisch finiten Satz mit haben. Wichtig ist weiterhin, dass jedem Beleg im Datenset eine eindeutige Belegnummer zur Identifikation zugewiesen wird. Dies können etwa die Nummern der Stichprobe sein. Diese Belegnummern oder auch Labels sind wichtig, um bei der weiteren Analyse, insbesondere der Kodierung, jedes Vorkommen des Phänomens eindeutig zuordnen zu können (zur Kodierung siehe Abschnitt 3.5). 24.03.22 11:06 88 II Fallstudien Arbeitet man mit eigenen Datenaufnahmen, müssen die Aufnahmen in einem ersten Schritt verschriftlicht, d. h. transkribiert werden. Auch bei der Arbeit mit Daten aus der DGD müssen die vorhandenen Transkripte jedoch überprüft und in der Regel überarbeitet werden, sodass sie einer der gängigen Transkriptionskonventionen entsprechen. Die in dieser Fallstudie verwendete Konvention ist das Gesprächsanalytische Transkriptionssystem GAT 2 (vgl. Selting et al. 2009; → Kapitel 23 [Gesprächsanalytische Transkription] in diesem Band). Die Transkription sollte unbedingt mit einem Transkriptionseditor erstellt werden und nicht etwa direkt in Word oder einem anderen Textverarbeitungsprogramm.4 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 3.2 Transkription 3.3 Qualitative Analyse Ist das Datenset einmal erstellt und liegen die Daten transkribiert vor, kann der eigentliche Teil der Analyse beginnen (man beachte aber, dass auch die Erstellung des Datensets schon eine Analyseleistung darstellt, wie oben deutlich wurde). Die Bearbeitung unserer Forschungsfragen setzt sich aus verschiedenen Analyseschritten zusammen, die sich hinsichtlich der grundlegenden Methoden unterscheiden. Zur Beantwortung der ersten (Teil-)Fragestellung nach den Funktionen von keine Ahnung im Gespräch (= F1) sind wir auf eine qualitative Analyse angewiesen. Dies bedeutet, dass die Analyse interpretative Anteile hat (→ Kapitel 2 [Grundlagen] in diesem Band). Es gibt verschiedene Forschungsansätze, die sich mit pragmatischen Funktionen im Gespräch auseinandersetzen. In der Fallstudie wählen wir den Ansatz der ethnomethodologischen Konversationsanalyse (vgl. Liddicoat 2011; Stukenbrock 2013). Auch wenn dies nicht der Ort ist, um in die ethnomethodologische Konversationsanalyse (KA) 4 einzuführen, sollen knapp einige methodologische Grundgedanken dieser Forschungsrichtung wiedergegeben werden. Zentral ist die Annahme, dass die TeilnehmerInnen einer Interaktion einander den Sinn ihrer sprachlichen Handlung aufzeigen müssen, also hör- und sichtbar nach außen tragen müssen, da sie einander nicht „in den Kopf schauen“ können. D. h. jeder Redebeitrag muss so gestaltet sein, dass für das Gegenüber der intendierte Sinn im Äußerungskontext erschließbar wird. Ob das Gegenüber den intendierten Sinn in der gewünschten oder vielleicht in ganz anderer Weise verstanden hat, wird dann wiederum durch dessen/deren Reaktion im folgenden Redebeitrag offenbar. Wie mein Redebeitrag verstanden wurde, kann ich als Sprecherin also immer erst aus der auf meinen Beitrag folgenden Reaktion schließen (dies versteht man unter next turn proof procedure) (vgl. Stukenbrock 2013: 230-231). Aus Forscherperspektive bringt das, was für die Interaktionsteilnehmer eine Notwendigkeit darstellt – nämlich den intendierten Sinn zu jedem Zeitpunkt nach außen aufzuzeigen – einen Vorteil, denn es bedeutet, dass die Mittel zur Sinnerzeugung an der sprachlichen Oberfläche „beobachtbar“ sind und entsprechend aus den Handlungen der InteraktionsteilnehmerInnen rekonstruiert werden können. Ein weiterer relevanter Gedanke der ethnomethodologischen Konversationsanalyse ist der des sog. order at all points (vgl. Sacks 1984: 22). Damit soll zum Ausdruck gebracht werden, dass jedes Detail, jede Lautäußerung, Husten oder Pausen in der Interaktion für die Interaktionsteilnehmer relevant zur Organisation interaktionaler Aufgaben sein kann und somit „geordnet“ auftritt. Insbesondere der letzte Grundgedanke bildet im Grunde die Basis für die Forschungsfrage unserer Studie. Denn wir fragen uns, ob die konkrete Realisierungsweise der Phrase in der Weise geordnet auftritt, dass sie dazu dient, bestimmte pragmatische Funktionen hervorzubringen. Für einen Überblick zu Transkriptionseditoren, anderen Transkriptionssystemen außer GAT 2 sowie für weitere Informationen und Hilfestellungen zum Thema Datenaufnahme und -transkription sei auf →Kapitel 27 [Transkriptionswerkzeuge] in diesem Band sowie auf das Gesprächsanalytische Informationssystem (GAIS) verwiesen (http://prowiki.ids-mannheim.de/bin/view/GAIS/). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 88 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Variation“ Welche Funktionen in unserem Datenset im Zusammenhang mit keine Ahnung durch die Interaktionsteilnehmer umgesetzt werden, ist dann Gegenstand der qualitativen Analyse. Klassischer Ansatzpunkt im Rahmen der KA ist hier die Sequenzanalyse, etwa die Frage, ob das keine Ahnung in Frage-Anwort-Sequenzen vorkommt. Weiterhin spielen Sprecherwechsel und Turnposition eine Rolle für die funktionale Analyse, ebenso wie der Aspekt der Präferenzstruktur. Wichtig ist auch hier, dass Kategorien wie Frage, Antwort und Sprecherwechsel aus den Daten selbst herausgearbeitet werden müssen. So kann etwa das, was in der Konversationsanalyse als eine Frage herausgearbeitet wurde, deutlich von dem abweichen, was man sonst (in der Linguistik) unter lexikalischen, syntaktischen und prosodischen Gesichtspunkten unter einer Frage versteht (vgl. Selting 1995). Ausschlaggebend für die Einordnung als (konversationelle) Frage ist vielmehr, dass die entsprechende Äußerung von den Interaktionspartnern auch als Frage bearbeitet wird. Eine Äußerung, die im Kontext systematisch als Frage bearbeitet wird, ist offenbar so gestaltet, dass sie routinemäßig als Frage erkannt wird. Es lässt sich aus ihr ein wiederkehrendes Muster rekonstruieren, das von den Interaktionsteilnehmern systematisch eingesetzt wird, um die Handlung einer Frage auszuführen. Entsprechend ist somit denkbar, dass auch die Realisierungsweise von keine Ahnung als routinemäßiges Muster auftritt, das von InteraktionsteilnehmerInnen als Ressource genutzt wird, um bestimmte Funktionen oder Handlungen zu realisieren. Methodisch gehen wir aber zunächst so vor, dass wir ungeachtet der formalen Ausprägung der Phrase für jeden einzelnen unserer Belege eine funktionale, konversationsanalytische Analyse im Kontext durchführen. Erste Anhaltspunkte für mögliche relevante Funktionen geben uns dabei die aus der Forschungsliteratur herausgearbeiteten Funktionen. Wie bereits gesagt, ist es aber immer möglich, dass im eigenen Datenset einige Funktionen gar nicht vorkommen und/oder andere Funktionen hinzutreten. Welche Funktionen in unserem Datenset vorkommen, beschreiben wir im Ergebnisteil (Abschnitt 4.1). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 89 89 3.4 Lautliche Analyse Ebenso wie bei der qualitativen Analyse der konversationellen Funktionen gehen wir auch bei der lautlichen Analyse jeden Beleg einzeln durch. Es empfiehlt sich, die formale und funktionale Analyse getrennt voneinander durchzuführen, also beispielsweise erst alle Belege auf ihre lautliche Struktur hin zu analysieren und zu kodieren (siehe Abschnitt 3.5 zur Kodierung) und dann die funktionale Analyse für jeden Beleg vorzunehmen. Dies schränkt die Gefahr etwas ein, dass man sich bei der Analyse von den Hypothesen bezüglich des Zusammenhangs von Form und Funktion leiten lässt. Im Idealfall analysieren zwei oder mehr Personen unabhängig voneinander das gleiche Datenset, sodass man hinterher die Übereinstimmung in den Analysen ermitteln kann. Dies wird zwar im Rahmen von Hausarbeiten oder studentischen Abschlussarbeiten kaum machbar sein und wäre auch etwas zu viel verlangt. Es kann aber im Methodenteil auf diesen Aspekt hingewiesen werden und/oder er kann im Diskussionsteil problematisiert werden. Abhängig von den phonetischen Kenntnissen, die man mitbringt oder sich anzueignen bereit ist, lässt sich die lautliche Analyse akustisch feinkörnig durchführen, indem man in einem akustischen Analyseprogramm eine detaillierte Analyse des Spektrogramms unternimmt. Auch wenn man lediglich eine auditive Analyse vornimmt, empfiehlt es sich aber, die Belege nicht durch Anhören direkt in der Datenbank zu analysieren. Stattdessen sollte jeder Beleg heruntergeladen und auf dem Rechner abgespeichert werden, um ihn dann in einem Audioprogramm wiederholt und beliebig kleinräumig abspielen zu können. Die lautliche Analyse sollte immer mit einem Kopfhörer durchgeführt werden. In der Fallstudie verwenden wir hierzu das akustische Analyseprogramm Praat, das als Freeware zur Verfügung steht (http://praat. org, Boersma & Weenink 2013). In Praat hat man die Möglichkeit, die Sounddatei mit einem sogenannten Textgrid zu versehen. Dies umfasst eine beliebige Anzahl von Textzeilen (sog. Tiers), die zum Sound hinzugefügt werden können. Dadurch ist es möglich, die Ana- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 90 II Fallstudien lyse direkt an der Tonspur zu vermerken und abzuspeichern. Die lautliche Analyse selbst nehmen wir in unserer Fallstudie auditiv und akustisch vor, d. h. ohrenphonetisch durch genaues Hinhören (auditiv) und durch Analyse des Schallereignisses im Spektrogramm (akustisch). Bisher wurde in Bezug auf die lautliche Variation bei [ˈkaɪnə ˈʔaːnʊŋ] lediglich pauschal von lautlicher Reduktion gesprochen. Für eine systematische lautliche Analyse müssen wir jedoch klarstellen, welche konkreten lautlichen Phänomene wir betrachten. Schaut man sich die eingangs gegebene phonetische Umschrift eines stark reduzierten Belegs an ([kaˈnaːnʊŋ]), fällt im Vergleich zur voll realisierten Variante [ˈkaɪnə ˈʔaːnʊŋ] zum einen der Monophthong anstelle des Diphthongs in der ersten Silbe auf: Statt [kaɪ] wird [ka] realisiert; man bezeichnet diesen Prozess als Monophthongierung. Zum anderen ist festzustellen, dass der Glottalverschluss vor Ahnung getilgt wird: Aus [ˈʔaːnʊŋ] wird [aːnʊŋ] (statt des Glottalverschlusses rutscht dann das [n] in den Anfangsrand der Silbe). Vermutlich fällt Ihnen auch noch auf, dass bei [kaˈnaːnʊŋ] im Übergang zwischen [ˈkaɪnə] und [ˈʔaːnʊŋ] auch das Schwa [ə] wegfällt. Zusätzlich zur Tilgung des Glottalverschlusses können wir also eine Schwa-Tilgung beobachten. Für die Fallstudie konzentrieren wir uns der Übersichtlichkeit halber auf die beiden zuerst genannten Phänomene: • Grad der Monophthongierung in [kaɪ], • Vorkommen von Glottalverschluss und Glottalisierung.5 Beide Phänomene analysieren wir mithilfe von Praat mittels akustischer Analyse (Monophthongierung) bzw. auditiver Analyse gestützt durch visuelle Inspektion des Spektrogramms (Glottalverschluss/Glottalisierung). 5 6 Dies ist nicht der Ort für eine Einführung in die akustische Phonetik und ins Spektrogrammlesen.6 Zum besseren Verständnis der Abbildungen sei daher nur so viel gesagt: Ein Spektrogramm ist eine dreidimensionale Darstellung des Sprachschalls. Auf der x-Achse ist die Zeit abgetragen, auf der y-Achse die Frequenz in Hertz (Hz), also die Anzahl der Schwingungen pro Sekunde. Durch die Graustufen wird die unterschiedliche Intensität im jeweiligen Frequenzbereich abgebildet. Dadurch, dass der Luftstrom beim Sprechen in unterschiedlichen Frequenzbereichen mit verschiedenen Amplituden schwingt, entstehen überhaupt erst unterscheidbare Sprachlaute. Im Spektrogramm fallen besonders dicke, horizontale Balken auf. Dies sind die sog. Formanten, die typisch sind für Vokale und je nach Lage im Frequenzbereich auf unterschiedliche Vokale hindeuten. Als besonders relevant für die Binnendifferenzierung von Vokalen gelten die ersten, d. h. im Frequenzbereich (y-Achse) tiefsten beiden Formanten, die deshalb als F1 und F2 (für Formant 1 und Formant 2) bezeichnet werden. Zur Veranschaulichung der untersuchten Variablen dienen die Abbildungen 2 und 3. Dargestellt ist zum einen jeweils das Spektrogramm, aus dem im Übergang zwischen keine und Ahnung in Abbildung 2 keine Glottalisierung zu erkennen ist, während sie in Abbildung 3 sehr ausgesprägt ist (zu erkennen an den vertikalen Linien im Spektrogramm beginnend ab [ə] bis weit in das [a:] hinein). Zum anderen sind durch die gepunkteten schwarzen Linien die Formantbewegungen eingezeichnet. Zur Analyse der Monophthongierung orientieren wir uns in der Studie an der Methode nach Schleef & Turton (2016: 47). Wir messen die Formanten F1 und F2 an fünf Zeitpunkten im Verlauf des Vokals (am Beginn (0%), bei 20%, 50%, 80% und am Ende (100%)), ermit- Ein Glottalverschluss wird durch Verschluss der Stimmritze (Glottis) im Kehlkopf gebildet. In manchen Fällen kommt es nicht zu einem regelrechten Verschluss, sondern die Stimmlippen schwingen stattdessen sehr langsam und unregelmäßig. Dies bezeichnet man als Glottalisierung. Glottalisierung ist im Spektrogramm gut durch ausgeprägte vertikale „Linien“ zu sehen (siehe Abbildung 3) und auditiv als ein „Knarren“ wahrzunehmen. Möglich ist auch, dass Glottalverschluss und Glottalisierung kombiniert vorkommen. Als Einstieg in die akustische Phonetik bieten sich zunächst Bergmann (2013) und vertiefend Neppert (1999) und Reetz (2003) an. Ein online verfügbares Tutorial zum Lesen von Spektrogrammen ist Machelett (1996). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 90 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Variation“ 91 Abb. 2: keine Ahnung mit starker Reduktion (ka47_FOLK_E_00030_SE_01_T_01_DF_01) Abb. 3: keine Ahnung mit weniger Reduktion und deutlich ausgeprägter Glottalisierung (ka20074_ FOLK_E_00074_SE_01_T_02_DF_01) UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 91 24.03.22 11:06 92 [aɪ] II Fallstudien [aɪ] Berechnungen Berechnungen F2 - F2 F1 an 5 Messpunkten (0/ 20/ 50/ 80/ • Differenz: - F1 an 5 Messpunkten (0/20/50/80/100%) Differenz: 100%) • Veränderung über die Zeit: Diff_ZP2 - Diff_ZP1 Veränderung über die Zeit: Diff_ZP2 - Diff_ZP1 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Abb. 4: Berechnungsschritte zur Ermittlung des zur Monophthongisierungsgrads Abb. 4: Berechnungsschritte Ermittlung des Monophthongisierungsgrads teln dann für die jeweiligen Zeitpunkte die Differenz zwischen F2 und F1 und errechnen schließlich die Differenz zwischen je zwei Zeitpunkten (ZP2 - ZP1; siehe Abbildung 4 mit einer schematischen Darstellung des Formantverlaufs im Diphthong [aɪ]). In unserem Beispiel führt diese Berechnungsweise dazu, dass höhere Werte auf eine stärker diphthongische Realisierung hindeuten, niedrigere, gegen 0 tendierende Werte hingegen auf eine Realisierung als Monophthong. Zur Analyse von Glottalverschluss und Glottalisierung orientieren wir uns an Kohler (1994). Entsprechend vermerken wir für jeden Beleg, ob Glottalverschluss und/oder Glottalisierung vorliegen und erhalten dadurch vier Kategorien: ja/ja, ja/nein, nein/ja und nein/nein (vgl. auch Bergmann 2018). Der Blick in die Daten zeigt allerdings, dass ein beträchtlicher Anteil an Belegen mit einer weiteren Variante realisiert wird, nämlich mit einer Realisierungsweise ohne Stimmlippenschwingung und häufig mit leichtem Reibegeräusch, was als kurze Unterbrechung bzw. Grenze zwischen den Wörtern keine und Ahnung wahrgenommen wird. Wir ergänzen die vier Kategorien deshalb um eine weitere, die wir mit „e“ für „Enge“ abkürzen. Da für die Analyse vor allem relevant ist, ob zwischen keine und Ahnung eine wahrnehmbare Grenze ist, bündeln wir außerdem alle Realisierungsweisen mit einer wahrnehmbaren Grenze (d. h. j/j, j/n, n/j und e) und stellen sie den Realisierungen ohne wahrnehmbare Grenze gegenüber (d. h. alle Fälle von n/n). 3.5 Kodierung Beim Arbeitsschritt der Kodierung geht es darum, die Ergebnisse der funktionalen und der UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 92 lautlichen Analyse für jeden Beleg in eindeutiger Weise festzuhalten. Dies unternimmt man am besten in tabellarischer Form, beispielsweise in einer Excel-Tabelle. Darüber hinaus kann es hilfreich sein, relevante Kodierungen auch an der Tonspur direkt zu vermerken, beispielsweise im Textgrid in Praat. Im Folgenden stellen wir die in unserer Fallstudie erstellten Kodierungen anhand eines Auszugs aus der Kodierungstabelle vor (Abbildung 5): Wie in der Tabelle zu sehen ist, befassen sich die ersten Spalten der Tabelle noch nicht mit den kodierten Informationen zur funktionalen und lautlichen Analyse, sondern geben Informationen zur Herkunft des Belegs, zur Identifikationsnummer des Belegs (Label) sowie zu Besonderheiten die lautliche Qualität betreffend, da diese gegebenenfalls Einschränkungen für die phonetische Analyse1 nach sich ziehen: • A-C: Informationen zum Beleg (A), Korpus (B), Aufnahme entsprechend Kürzel aus der DGD (C) • D: Label bezogen auf Stichprobennummer im eigenen DGD-Zugang • E: Kommentar zu möglichen Einschränkungen für phonetische Analyse (Überlappung, Dialekt, Störgeräusche etc.) Selbstverständlich beinhaltet die Tabelle auch alle Ergebnisse der lautlichen Analyse. Zusätzlich zu den lautlichen Variablen von primärem Interesse wird jeder Beleg noch für das Vorkommen von Akzentuierung auf keine (Spalte F) kodiert. Diese Variable steht zwar nicht im Zentrum des Interesses, da Akzentuierung aber einen Einfluss auf lautliche Reduktionserscheinungen hat, kodieren wir sie mit, um sie in die quantitative Auswertung als sog. Kovariate einbeziehen zu können. (Man be- 24.03.22 11:06 93 Abb. 5: Excel-Tabelle mit Kodierungen zu keine Ahnung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Variation“ achte, dass auch andere Faktoren wie Status als Intonationsphrase, Position in der Intonationsphrase oder Sprechgeschwindigkeit einen Einfluss auf Reduktionserscheinungen haben können. Der Einfachheit halber blenden wir diese jedoch aus dieser Fallstudie aus). • F: PitchAkz; kategorische Einteilung, ob keine akzentuiert ist (ja, nein) • G: Glott; kategorische Einteilung von Glottalverschluss/Glottalisierung und „e“ • H: Grenze; kategorische Einteilung, ob wahrnehmbare Grenze (ja, nein) • I - N: V1_Diff_Fg-o etc.; ermittelter Wert für Veränderung der Differenz F2 - F1 Die funktionale Analyse findet ihren Niederschlag in den Spalten O und P:7 • O: DiskFunktion; kategorische Einordnung, ob Diskursmarkerfunktion vorliegt (ja, nein) • P: Marker; Typ der Diskursfunktion 7 In Zellen, die nicht ausgefüllt werden können – etwa weil die Tonqualität zu schlecht ist, um Formantenmessungen vornehmen zu können oder eine Überlappung dies verhindert – wird einheitlich „NA“ (kurz für not available) eingetragen. Grundsätzlich ist es wichtig, dass die Schreibweisen für die Kodierungen strikt einheitlich sind. Unregelmäßigkeiten oder Fehlschreibungen führen bei der quantitativen Auswertung und statistischen Analyse sonst zu unerwünschten Kategorien und anderen Problemen, denen man mühsam nachgehen muss, um sie zu beheben. 3.6 Quantitative Analyse der Verteilung Die Fragestellungen 2 und 3 machen eine quantitative Analyse der Verteilung der verschiedenen Realisierungsformen auf die verschiedenen funktionalen Gruppen erforderlich. Die lautlichen Parameter Monophthonigierungsgrad und Vorkommen von Wie schon bei der lautlichen Analyse können auch bei der funktionalen Analyse weitere Einflussfaktoren vorliegen, die bei einer Analyse und Kodierung ebenfalls zu vermerken wären, beispielsweise die Turnposition, das Vorkommen in Frage-Antwortsequenzen oder auch die Position zum Bezugselement (vorangestellt, nachgestellt), ebenso wie die syntaktische Position (parenthetisch oder nicht etc.). In der Fallstudie konzentrieren wir uns lediglich auf einen kleinen Ausschnitt der potentiell einflussreichen Faktoren (siehe dazu auch den Abschnitt 5 „Methodische Reflexion“). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 93 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 94 II Fallstudien Glottalverschluss/Glottalisierung bzw. einer Grenze behandeln wir dafür als abhängige Variablen. Der Faktor Diskursfunktion „ja/ nein“ (für Fragestellung 2) und die verschiedenen Diskursfunktionen (für Fragestellung 3) stellen die unabhängigen Variablen dar. Die statistische Analyse für die Fallstudie wurde in R (R Core Team 2013/2017) durchgeführt (→ Kapitel 28 [Werkzeuge statistische Analyse] in diesem Band). Zur Anwendung kamen die Pakete languageR (vgl. Baayen 2011), lme4 (vgl. Bates, Maechler & Bolker 2013), lmerTest (vgl. Kuznetsova, Brockhoff & Christensen 2016), MASS (vgl. Venables & Ripley 2002) und Visreg (vgl. Breheny & Burchett 2019). Für die kategorischen Variablen „Glott“ und „Grenze“ wurden Chi-Quadrat-Tests sowie ein generalized linear mixed effects model mit ‚Aufnahme’ als Zufallsfaktor durchgeführt. Für die kontinuierliche Variable „Monophthongierungsgrad“ wurden mixed effects linear regression models (cf. Baayen 2008: 242 ff.) berechnet. 4. Ergebnisse und Diskussion Wir beginnen diesen Teil mit den Ergebnissen der qualitativen Analyse im Rahmen der ethnomethodologischen Konversationsanalyse und gehen dabei auch auf die quantitative Verteilung der Belege auf die verschiedenen funktionalen Gruppen ein. Danach präsentieren wir die Ergebnisse für unsere Fragestellungen, die die lautliche Realisierungsweise von keine Ahnung im spezifischen funktionalen Äußerungskontext betreffen. 4.1 Funktionen von keine Ahnung Wie die in der Einleitung beschriebenen sporadischen Beobachtungen zur Verwendung von keine Ahnung und auch die Forschungsergebnisse zu negativen epistemischen Konstruktionen nahe legen, kommt keine Ahnung sowohl in semantisch vollwertiger Form als auch in semantisch reduzierter Form vor. In letztgenannten Fällen treten stattdessen dis- Tab. 1: Überblick Funktionsspektrum keine Ahnung Funktion Beispiel 1. volle semantische Bedeutung n = 137 keine AHnung wie das funktioNIERT (FOLK_E_00021_SE_01_T_17) 2. epistemischer Marker n = 50 3. epistemisch, dispräferiert n = ges. 10 4. epistemisch, strukturierend n = 30 5. epistemisch, Turn-Abgabe n = 20 6. pragmatischer Marker n = 28 de:r lAden is dann: (--) <<acc>keĩ_e AHnung> (.) paar hUndert meter WEIter? (FOLK_E_00055_SE_01_T_07_DF_01) wenn ich in_ner BANK arbeiten will, und will da °h glaub ich_en sehr hohen POSten bekleiden? dass ich dann °h (.) nicht mit nem::: JA; sehr stArken diaLEKT (.) irgendwie (.) versuchen weil_s einfach auch KUNdenkontakt is un: <<acc>keine ahnung> °h vielleicht nicht so seriÖS wirkt; (FOLK_E_00182_SE_01_T_02) hat_s ʔ äh sind_s irgendwie wegen ((...)) <<tief>was weiß> Ich für_n VORwand, keine AHnung? °h is jetz halt EIN tutorium pro kurs gestrIchen worden wieder; (FOLK_E_00055_SE_01_T_04_DF_01_c653) ich hab gedacht vielleicht Is_er auch (.) hat geMERKT dass halt da jetz die ganze zeit rUmgelärmt isund war vielleicht tatsächlich auch WEG, und KAM dann irgendwann später; pff (.) <<p, behaucht>keine AH[nung].> (FOLK_E_00119_SE_01_T_02_DF_01) der hat NUR schEIß geredet, […] =also äm: °h (-) t <<acc, tief>keine AHnung ich hab> ich sag_n SA:TZ? (.) er sagt irgendwas drauf was Überhaupt net PASST? (FOLK_E_00022_SE_01_T_03) UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 94 24.03.22 11:06 Fallstudie „Sprachliche Variation“ tion gegenüber 140 Belegen mit Diskursfunktion (die fehlenden zwei Belege wurden als nicht analysierbar eingestuft und in der Kodierungstabelle entsprechend mit NA vermerkt). Wenden wir uns also den Ergebnissen zur Fragestellung 2 zu: F2: Tritt lautliche Variation bei keine Ahnung zufällig auf oder hängt sie systematisch damit zusammen, ob die Einheit eine pragmatische Funktion erfüllt oder nicht? Um unsere weiterführenden Fragestellungen die phonetische Realisierung betreffend zu verfolgen, sei zuerst darauf hingewiesen, dass alle Belege, die in der obigen Tabelle einer anderen Funktion als 1. zugewiesen wurden, als Belege mit Diskursfunktion einzustufen sind. Es ergeben sich somit 137 Belege mit vollem semantischen Gewicht und ohne Diskursfunk- Die lautliche Variation betrifft zum einen das Auftreten einer wahrnehmbaren Grenze zwischen keine und Ahnung, zum anderen den Grad der Monophthongierung in keine (siehe Abschnitt 3.4). Die Verteilung der Rohdaten für beide Phänomene veranschaulichen die Abbildungen 6 und 7. Abbildung 6 ist so zu lesen, dass auf der horizontalen Achse die Diskursfunktion angegeben ist (linker Balken = „ja“, rechter Balken = „nein“), auf der vertikalen Achse hingegen das Vorkommen einer Grenze (oberer, dunkelgrauer Kasten = „ja“, unterer, hellgrauer Kasten = „nein“). Abb. 6: Grenze/Diskursfunktion Abb. 7: Monophthongierung/Diskursfunktion 4.2 Die lautliche Realisierung im funktionalen Kontext Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. kursbezogene Funktionen in den Vordergrund und die epistemische Bedeutung bleicht aus und tritt in den Hintergrund. In der analysierten Datenbasis von insgesamt 279 Belegen für keine Ahnung treten sechs abgrenzbare Funktionen auf, die in Tabelle 1 kurz skizziert werden. In der linken Spalte ist die funktionale Kategorie eingetragen sowie die Vorkommenshäufigkeit dieser Kategorie; die rechte Spalte gibt je ein Beispiel im Kontext.8 95 8 Es ist zu beachten, dass eine solche tabellarische Darstellungsweise unüblich für konversationsanalytische Arbeiten ist; eine explizite teilnehmerorientierte Herleitung und Begründung der Kategorienzuweisung auf der Basis einer sequenziellen Analyse ist dort unbedingt erforderlich (vgl. Liddicoat 2011; Stukenbrock 2013). Ebenfalls ist zu beachten, dass die Transkriptausschnitte in der rechten Spalte aus Darstellungsgründen auf Zeilennummern und Sprecherkürzel verzichten. Die skizzenhafte Präsentation soll in dieser Fallstudie genügen, um das Funktionsspektrum vorzustellen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 95 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. II Fallstudien Bei den Elementen mit Diskursfunktion weisen 76 eine Grenze auf, 41 nicht. Bei den Elementen ohne Diskursfunktion sind es 59 Elemente mit Grenze gegenüber 43 Elementen ohne Grenze. Abbildung 7 zeigt, dass Elemente mit Diskursfunktion (linke Box) einen niedrigeren Median von 75,1 haben – also eine stärker monophthongische Ausprägung – als Elemente ohne Diskursfunktion (Median = 151,4). Statistische Tests verdeutlichen, dass sich die abgebildete Realisierung von Elementen mit oder ohne Diskursfunktion in Hinblick auf die Variable „Grenze/Glottalisierung“ nicht unterscheiden (χ2 = 0,896, df = 1, p-Wert = 0,3468). Demgegenüber scheinen Elemente mit Diskursfunktion gegenüber jenen ohne Diskursfunktion tatsächlich einen signifikant höheren Grad an Monophthongierung aufzuweisen (t-Wert = 2,62, df = 175,13, p < 0,01). Ganz wesentlich ist hierbei jedoch zu bedenken, dass mit der Akzentuierung von keine ein potenzieller Einflussfaktor für die Monophthongierung hinzutritt. Der isoliert betrachtete Haupteffekt der Diskursfunktion auf die Monophthongierung darf also keinesfalls vorschnell interpretiert werden, sondern es ist zu prüfen, ob er mit dem Vorkommen eines Satzakzents auf keine interagiert. Die statistische Analyse zeigt, dass dies tatsächlich der Fall ist. Betrachten wir dafür Abbildung 8, die die Interaktion zwischen ja ja Diskursfunktion und Akzent darstellt. Die Verteilung auf der linken Seite bezieht sich auf Elemente mit Diskursfunktion (Kästchenüberschrift „ja“), die auf der rechten Seite auf Elemente ohne Diskursfunktion (Kästchenüberschrift „nein“). Die Balken innerhalb der Spalten geben jeweils den Median für die Monophthongierung an; der linke Balken steht jeweils für Elemente mit Akzent, der rechte für Elemente ohne Akzent. Es ist zu erkennen, dass der Unterschied zwischen akzentuierten und unakzentuierten Elementen gleichbleibend groß erscheint, unabhängig davon, ob die Elemente Diskursfunktion haben oder nicht (also unabhängig davon, ob wir die Balken in der linken oder rechten Spalte anschauen). Vergleichen wir hingegen die Höhe der Balken zwischen der linken und der rechten Spalte, so minimiert sich der Unterschied bei gleichbleibenden Akzentverhältnissen. Am ausgeprägtesten ist der Unterschied zwischen Elementen mit Diskursfunktion aber ohne Akzent (rechter Balken in der linken Spalte, Median = 7,88) und Elementen ohne Diskursfunktion aber mit Akzent (linker Balken rechte Spalte, Median = 199,16) (t-Wert = 4,26, p < 0,001). Signifikant sind außerdem die Kontraste zwischen akzentuierten und nicht akzentuierten Fällen bei gleichbleibendem Diskursstatus, d. h. ohne Diskursfunktion (Median = 199,16 vs. 71,05; nein nein 600 400 f(DiskFunktion) Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 96 200 0 −200 −400 ja nein DiskFunktion Abb. 8: Interaktion Akz*Monophthonierung UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 96 Abb. 9: Akzentuierung/Diskursfunktion 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Variation“ t-Wert = 2,36, p < 0,001) und mit Diskursfunktion (Median = 156,38 vs. 7,88; t-Wert = 2,77, p < 0,01) sowie Akzent als Haupteffekt (Median = 164,14 vs. 15,93; t-Wert = 3,58, p < 0,001). Das Ergebnis ist also so zu interpretieren, dass die Diskursfunktion alleine keinen unmittelbaren Einfluss auf die Monophthongierung hat. Stattdessen können wir feststellen, dass die Monophthongierung durch das Fehlen eines Akzents auf keine befördert wird. Nur in Interaktion mit der Akzentuierung wird keine Ahnung mit Diskursfunktion stärker reduziert als keine Ahnung ohne Diskursfunktion. Da unakzentuierte Elemente signifikant häufiger vorkommen, wenn keine Ahnung eine der oben beschriebenen Diskursfunktionen erfüllt (siehe Abbildung 9, χ2 = 19,25, df = 1, p < 0,001), können wir somit lediglich von einem mittelbaren, über die Akzentstruktur vermittelten Effekt auf die lautliche Reduktion des Diphthongs zum Monophthong sprechen. Die Realisierung der Grenze zwischen keine und Ahnung erweist sich als stabil gegenüber dem Faktor Diskursfunktion. Es ist nicht der Fall, dass keine Ahnung mit Diskursfunktion eine stärkere Reduktion der Grenze aufweist als Vorkommen ohne Diskursfunktion. 97 F3: Hängt die lautliche Variation systematisch mit dem Typ von pragmatischer Funktion zusammen? Kommen wir nun zu den Ergebnissen zu Fragestellung 3: Ausgangspunkt dieser Auswertung sind die 138 Einheiten, die oben den funktionalen Kategorien 2 bis 6 zugeordnet sind. Die Datenbasis reduziert sich damit erheblich gegenüber den zuvor verfügbaren Einheiten. Hinzu kommt, dass sich die Belege nun nicht mehr auf zwei Kategorien (Diskursfunktion ‚ja’ oder ‚nein’) verteilen, sondern auf fünf verschiedene, die zudem in ihrer Vorkommenshäufigkeit zwischen 10 und 50 variieren (also sehr kleine Fallzahlen darstellen, siehe Tabelle 1). Eine statistische Auswertung ist deshalb mit Vorsicht zu genießen und die Darstellung der quantitativen Verteilung soll an dieser Stelle vor allem dazu dienen, auf mögliche Besonderheiten hinsichtlich der spezifischen Funktionen hinzuweisen. Betrachten wir zunächst die Verteilung der Grenzrealisierungen auf die funktionalen Gruppen (Abbildung 10). Auf der horizontalen Achse ist die Diskursfunktion abgetragen, auf der vertikalen Achse das Vorkommen einer Grenze zwischen keine und Ahnung: Es fällt hier auf, dass sich insbesondere die Realisierungen von keine Ahnung als Anzeiger dispräferierter Handlungszüge von den übrigen Gruppen abheben. Sie weisen generell we- Abb. 10: Grenze/Marker Abb. 11: Glottalisierung/Marker UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 97 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 98 II Fallstudien niger Grenzmarkierung zwischen den Elementen auf (Abbildung 10), und wenn eine solche auftritt, dann handelt es sich um eine Glottalisierung, niemals jedoch um eine Produktionsweise, die wir in Abschnitt 3.4 als „e“ kategorisiert haben (siehe hierzu Abbildung 11). Die Verteilung von Monophthongierungsgrad und Akzentuierung veranschaulichen die Abbildungen 12 und 13. Die Extrempunkte werden in beiden Fällen von keine Ahnung als pragmatischer Marker einerseits (stärkster Monophthongierungsgrad, Median = -44,7; geringste Akzentuierungsanzahl = 16 „nein“ vs. 8 „ja“) und keine Ahnung als Strukturierungshinweis mit epistemischem Gehalt (schwächster Monophthongierungsgrad, Median = 157; höchste Akzentuierungsanzahl = 3 „nein“ vs. 14 „ja“) gebildet. Die Ergebnisse zeigen, dass sich tatsächlich Unterschiede hinsichtlich der lautlichen Realisierung von keine Ahnung in den verschiedenen funktionalen Gruppen auffinden lassen (statistisch signifikant ist hierbei der Kontrast zwischen epist.-strukt. und pragm., t-Wert = 2,7982, p < 0,01 unter Berücksichtigung von PA als Kovariate, man bedenke aber die geringe Anzahl an Belegen). Eine einfache Differenzierung nach pragmatischer Funktion vs. epistemischem Gehalt scheint hierbei jedoch nicht möglich zu sein. Stattdessen treten andere funktionale Aspekte wie Markierung von Dispräferenz oder Strukturierungshinweis zutage, die in einer weiterführenden Analyse verfolgt werden müssten. Zusammenfassend können wir also festhalten, dass sich bezüglich der Fragestellung 1 tatsächlich verschiedene Funktionen für keine Ahnung herausarbeiten lassen. Im Vergleich mit unserem kleinen Forschungsüberblick zur Verwendung negativer epistemischer Konstruktionen (Abschnitt 1) lassen sich alle dort aufgeführten Funktionen auch für keine Ahnung finden. (Zur Funktion „Anzeigen einer unzureichenden nachfolgenden Antwort“ können wir keine Aussagen machen, da wir das Vorkommen in Frage-Antwort-Sequenz in dieser Fallstudie nicht berücksichtigt haben). In Hinblick auf die lautliche Realisierung ergibt sich ein recht komplexes Bild. Eine eindeutige Zuordnung der untersuchten lautlichen Realisierungsformen zu Vorkommen mit oder ohne Diskursfunktion (= Fragestellung 2) ist nicht möglich. Das Auftreten einer Grenze zwischen keine und Ahnung hängt nicht mit dem Vorkommenskontext im Gespräch zusammen, die Monophthongierung in keine tut dies, aber lediglich in Abhängigkeit von der Akzentuierung auf keine. Wir müssen wir also sagen, dass es zwar einen lautlichen Parameter gibt, der unmittelbar mit der Diskursfunktion variiert, jedoch handelt es sich hierbei um Abb. 12: Monophthongierung/Marker Abb. 13: Akzentuierung/Marker UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 98 24.03.22 11:06 die Akzentuierung und nicht, wie eingangs vermutet, um Grenzmarkierung oder Monophthongierung. Die Diskursfunktion hat somit Einfluss auf die lautlich-prosodische Struktur der Phrase, die wiederum die Reduktion zum Monophthong beeinflusst. Die Ergebnisse zur Differenzierung zwischen verschiedenen Funktionen (= Fragestellung 3) werfen neue Fragen auf. So fällt auf, dass ganz im Gegensatz zu Plug (2010) dispräferierte Elemente einen höheren Grad an Reduktion aufweisen als die anderen Elemente. Auch die von Pekarek Doehler (2016) beschriebene Unterscheidung nach epistemischem Gewicht findet sich in unserer Studie nicht ohne Weiteres wieder. Es entstehen hier folglich Anschlussfragen, die diskutiert und gegebenenfalls in einer weiteren Studie verfolgt werden müssten. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Variation“ 5. Methodische Reflexion Die größte methodische Herausforderung in einer Studie der lautlichen Variation in der Spontansprache liegt sicherlich in der großen Menge an potenziellen Einflussfaktoren auf lautliche Realisierungsweisen. Wie schon im Abschnitt zur Kodierung 3.5 angedeutet wurde, kämen auch in unserer Studie etliche weitere Einflussfaktoren in Frage, die eigentlich zu berücksichtigen wären, etwa die Sprechgeschwindigkeit, mit der die jeweilige Äußerung getätigt wird, die Frage, ob keine Ahnung alleine in einer Intonationsphrase steht oder nicht oder die regionale Herkunft der Sprecherin/des Sprechers, um nur einige zu nennen. Ist die Datenmenge, die einem zur Verfügung steht, groß genug, kann man bereits bei der Zusammenstellung des Datensets versuchen, bestimmte Faktoren konstant zu halten, etwa indem man sich für SprecherInnen aus nur einer dialektalen Region entscheidet. Dies ist jedoch nicht immer möglich und vielleicht auch nicht erwünscht. Der andere Weg besteht also darin, zusätzliche Einflussfaktoren ebenfalls zu kodieren und sie in der Auswertung als Kovariate mit einzubeziehen, so wie wir es in der Studie mit dem Faktor der Akzentuierung gemacht haben. Auch diesem Verfahren sind Grenzen gesetzt, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 99 99 denn abhängig von der Belegzahl lassen sich nicht beliebig viele Faktoren in ein statistisches Modell einspeisen. Zudem kommt es häufig zu Konfundierungen zwischen den verschiedenen Faktoren, was wiederum Konsequenzen für die statistische Modellierung hat. Dies ist ein sehr komplexes Thema, das wir an dieser Stelle nur anreißen können. Es sei jedoch darauf hingewiesen, dass dies eine notorische Schwierigkeit bei der Analyse von lautlichen Feinheiten in der Spontansprache ist, derer man sich bewusst sein sollte. Vor diesem Hintergrund sind aber möglicherweise zumindest teilweise die abweichenden Ergebnisse dieser Studie im Vergleich zu Plug (2010) zu sehen, nämlich, dass Elemente in dispräferierten Kontexten stärker zur Reduktion neigen. Es ist durchaus denkbar, dass die jeweiligen Phrasen zwar das Vorkommen in dispräferierten Kontexten teilen, dass diese sich aber darüber hinaus noch in anderen Aspekten unterscheiden, eben beispielsweise dahingehend, ob sie alleine in einer Intonationsphrase stehen oder nicht, ob sie eine eigene Turnkonstruktionseinheit bilden oder nicht, oder ob sie dem problematischen Element vorangestellt sind oder nicht etc. Es zeigt sich hier somit durchaus auch eine Beschränkung des quantitativen Zugangs. Zwar ist es wünschenswert, möglichst viele Fälle zu analysieren und statistisch überprüfbare Aussagen treffen zu können, die situierte Verwendungsweise ist auf der anderen Seite aber so komplex gesteuert (und interaktional ausgehandelt), dass es kaum möglich sein wird, alle Faktoren für eine große Datenmenge analysieren, kodieren und auswerten zu können. Ein weiteres methodisches Problem betrifft die in Abschnitt 2 thematisierte Notwendigkeit einer qualitativen und datengeleiteten, induktiven Analyse, die sich aus den Prämissen der ethnomethodologischen Konversationsanalyse und mit ihr der Interaktionalen Linguistik ergibt. Wie in Abschnitt 2 bereits erwähnt wurde, bringt diese mit sich, dass die ermittelten funktionalen Kategorien nicht immer zu einer vollständigen Passung mit den in der Forschungsliteratur thematisierten Funktionen führen muss. Auch hieraus resul- 24.03.22 11:06 100 II Fallstudien Bestandteile wären aber ebenso denkbar gewesen (vgl. Bergmann 2018). Grundsätzlich gilt, dass die Auswahl der Parameter von der Lektüre von Forschungsliteratur geleitet werden sollte, aber durchaus auch von Höreindrücken, die einen selbst überhaupt erst auf das Phänomen aufmerksam gemacht haben. Darüber hinaus kann eine Vorabanalyse eines kleinen Datensets Aufschluss über vielversprechende Parameter geben. Zum Weiterlesen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. tiert, dass die erzielten Ergebnisse nicht immer ohne Weiteres miteinander vergleichbar sind. Methodisch zu überdenken ist schließlich auch immer die Auswahl der lautlichen Variationsparameter. Die Auswahl fiel auf den Monophthongierungsgrad und die Markierung der Grenze zwischen keine und Ahnung. Andere Parameter wie generelle Dauerreduktion der ganzen Phrase oder einzelner Zu lautlicher Variation gibt es sehr viel Literatur. Ein sehr hilfreicher Überblicksartikel ist Ernestus & Warner (2011). Ein aktueller Sammelband zum Thema ist Cangemi et al. (2018). Einen konversationsanalytischen Blick auf lautliche Variation bieten u. a. Barth-Weingarten (2012); Local (2003); Local, Kelly & Wells (1986); Local, Wells & Sebba (1985); Ogden (2006); Szczepek-Reed (2015) und Walker (2012). Empfehlenswert ist auch immer ein Blick in thematisch einschlägige Handbücher: Cohn, Fougeron & Huffman (2011) und Sidnell & Stivers (2012). Für einen Einstieg in das Thema Diskursmarker bieten sich Blühdorn et al. (2017); Fischer (2006) und Imo (2012) sowie das → Kapitel 6 [Fallstudie „Diskursmarker“] in diesem Band an. Literatur Auer, Peter/Susanne Günthner (2005): Die Entstehung von Diskursmarkern im Deutschen – ein Fall von Grammatikalisierung?, in: Leuschner, Torsten/Tanja Mortelmans/Sarah de Groodt (Hrsg.): Grammatikalisierung im Deutschen, Berlin: de Gruyter, S. 335–362. Baayen, Rolf Harald (2008): Analyzing Linguistic Data. A practical Introduction to Statistics Using R, Cambridge: Cambridge University Press. Baayen, Rolf Harald (2011): languageR: Data sets and functions with ‚Analyzing Linguistic Data: A practical introduction to statistics’. R package version 1.4, [online] http://CRAN.R-project.org/package=langua geR. Barbour, Stephen/PatrickStevenson (1998): Variation im Deutschen, Berlin: de Gruyter. Barth-Weingarten, Dagmar (2012): Of ens ’n’ ands: Observations on the phonetic make-up of a coordinator and its uses in talk-in-interaction, in: Language and speech, Bd. 55, S. 35–56. Bates, Douglas/Martin Maechler/Ben Bolker (2013): lme4: Linear mixed-effects models using S4 classes. R package version 0.999999-2, [online] http://CRAN.Rproject.org/package=lme4. Bergmann, Pia (2013): Laute, in: Peter Auer (Hrsg.), Sprachwissenschaft: Grammatik - Interaktion - Kognition, Stuttgart: J.B. Metzler, S. 43–90. Bergmann, Pia (2017): Gebrauchsprofile von weiß nich und keine Ahnung im Gespräch – Ein Blick auf nichtresponsive Vorkommen, in: Blühdorn, Hardarik/ Arnulf Deppermann/Henrike Helmer/Thomas UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 100 Spranz-Fogasy (Hrsg.), Diskursmarker im Deutschen. Reflexionen und Analysen, Göttingen: Verlag für Gesprächsforschung, S. 157–182. Bergmann, Pia (2018): Morphologisch komplexe Wörter: Prosodische Struktur und phonetische Realisierung (=Studies in Laboratory Phonology), Berlin: Language Science Press, [online] http://langsci-press. org/catalog/book/155. Blühdorn, Hardarik/Arnulf Dappermann/Henrike Helmer/Thomas Spranz-Fogasy (2017) (Hrsg.): Diskursmarker im Deutschen. Reflexionen und Analysen, Göttingen: Verlag für Gesprächsforschung, S. 7–48. Boersma, Paul/David Weeink (2013): Praat: doing phonetics by computer [Computer program], [online] http://www.praat.org/. Breheny, Patrick/Woodrow Burchett (2019): Visualization of regression models, R package Visreg version 2.6-0, [online] http://pbreheny.github.io/visreg. Bybee, Joan/Joan Scheibman (1999): The effect of usage on degree of constituency: the reduction of don’t in English, in: Linguistics, Bd. 37, S. 575–596. Cangemi, Francesco/Meghan Clayards/Oliver Niebuhr/Barbara Schuppler/Margaret Zellers (2018) (eds.): Rethinking reduction: Interdisciplinary perspectives on conditions, mechanisms, and domains for phonetic variation, Berlin: de Gruyter. Cohn, Abigail C./Cécile Fougeron/Marie Huffman (2011) (eds.): The Oxford handbook of laboratory phonology, Oxford: Oxford University Press. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Variation“ Couper-Kuhlen, Elizabeth/Margret Selting (2018): Interactional Linguistics: Studying language in social interaction, Cambridge: Cambridge University Press. Ernestus, Mirjam/Natasha Warner (2011): An introduction to reduced pronunciation variants, in: Journal of Phonetics, Bd. 39, S. 253–260. Fischer, Kerstin (2006): Towards an Understanding of the Spectrum of Approaches to Discourse Particles: Introduction to the Volume, in: Fischer, Kertin (ed.), Approaches to Discourse Particles, Amsterdam: Elsevier, S. 1-20. Grant, Lynn (2010): A corpus comparison of the use of I don’t know by British and New Zealand speakers, in: Journal of Pragmatics, Bd. 42, S. 2282–2296. Helmer, Henrike/Arnulf Deppermann (2017): Ich weiß nicht zwischen Assertion und Diskursmarker. Temporale in situ-Interpretation und Kriterien für Diskursmarker, in: Blühdorn, Hardarik/Arnulf Deppermann/Henrike Helmer/Thomas Spranz-Fogasy (Hrsg.): Diskursmarker im Deutschen. Reflexionen und Analysen, Göttingen: Verlag für Gesprächsforschung, S. 131–156. Helmer, Henrike/Silke Reineke/Arnulf Deppermann (2016): A range of uses of negative epistemic constructions in German: ICH WEIß NICHT as a resource for dispreferred actions, in: Journal of Pragmatics, Bd. 106, S. 97–114. Imo, Wolfgang (2012): Wortart Diskursmarker?, in: Rothstein, Björn (Hrsg.), Nicht-flektierende Wortarten, Berlin: de Gruyter, S. 48–88. Imo, Wolfgang/Jens Philipp Lanwer (2019): Interaktionale Linguistik: Eine Einführung, Stuttgart: J.B. Metzler. Keating, Patricia A./Cho Taehong/Cécile Fougeron/ Chae-Shune Hsu (2003): Domain-initial strengthening in four languages, in: Local, John/Richard Ogden/Rosalind Temple (eds.), Papers in Laboratory Phonology 6: Phonetic Interpretations, Cambridge: Cambridge University Press, S. 145–163. Kevallik, Leelo (2010): Clauses emerging as epistemic adverbs in Estonian conversation, in: Linguistica Uralica, Bd. XLVI, S. 81–101, [online] doi:10.3176/ lu.2010.2.01. König, Katharina (2014): Spracheinstellungen und Identitätskonstruktion, Berlin: de Gruyter. Kohler, Klaus J. (1994): Glottal stops and glottalization in German, in: Phonetica, Bd. 51, S. 38–51. Kohler, Klaus J. (1995): Einführung in die Phonetik des Deutschen, Berlin: Erich Schmidt Verlag. Knöbl, Ralf/Madlen Nimz (2013): Sprachräumliche Aspekte des Gebrauchs der deverbalen Modalpartikel glaub(e) zur Modulierung des Geltungsanspruchs von Äußerungen, in: Raum in der Sprache: Raum der Sprache; Raum der Interaktionen. Festschrift zum 30-jährigen Bestehen des Instituts für Philologie und interkulturelle Kommunikation der Universität Wolgograd, Wolgograd: Verlag der Universität Wolgograd, [online] https://ids-pub.bszbw.de/frontdoor/deliver/index/docId/1796/ file/Knoebl_Sprachraeumliche+Aspekte_2013.pdf. Kuznetsova, Alexandra/Per Bruun Brockhoff/Rune ChristensenHaubo Bojesen (2016): Tests in linear UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 101 101 fixed effects models. R package version v2.0-33, in: Journal of Statistical Software, Jg. 82, H. 13, S. 1–26, [online] http://CRAN.R-project.org/package=lmerTest. Liddicoat, Anthony J. (2011): An introduction to conversation analysis, 2. Aufl., London: Continuum. Local, John (2003): Variable domains and variable relevance: interpreting phonetic exponents, in: Journal of Phonetics, Bd. 31, S. 321–339. Local, John K./John Kelly/William Wells (1986): Towards a phonology of conversation: turn-taking in Tyneside English, in: Journal of Linguistics, Bd. 22, S. 411-437. Local, John K./William H.G. Wells /Mark Sebba (1985): Phonology for conversation. Phonetic aspects of turn delimitation in London Jamaican, in: Journal of Pragmatics, Bd. 9, S. 309–330. Machelett, Kirsten (1996): Das Lesen von Sonagrammen V1.0, [online] https://www.phonetik.uni-muenchen.de/studium/skripten/SGL/SGLHome.html. Neppert, Joachim M.H. (1999): Elemente einer akustischen Phonetik, Hamburg: Helmut Buske. Ogden, Richard (2006): Phonetics and social action in agreements and disagreements, in: Journal of Pragmatics, Bd. 38, S. 1752–1775. Pekarek Doehler, Simona (2016): More than an epistemic hedge: French je sais pas ‚I don’t know’ as a resource for the sequential organization of turns and actions, in: Journal of Pragmatics, Bd. 106, S. 148–162, [online] http://dx.doi.org/10.1016/j. pragma.2016.06.014. Plug, Leendert (2010): Pragmatic constraints in usage-based phonology, with reference to some Dutch phrases, in: Journal of Pragmatics, Bd. 42, S. 2014– 2035. Pompino-Marschall, Bernd (2009): Einführung in die Phonetik, Berlin: de Gruyter. R Core Team (2013/2017): R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna/Austria, [online] http:// www.R-project.org/. Reetz, Henning (2003): Artikulatorische und akustische Phonetik, Trier: Wissenschaftlicher Verlag, Sacks, Harvey (1984): Notes on methodology, in: Atkinson, John Maxwell/John Heritage (eds.), Structures of social action, Cambridge: Cambridge University Press, S. 21–27. Scheibman, Joan (2000): I dunno. A usage-based account of the phonological reduction of don’t in American English conversation, in: Journal of Pragmatics, Bd. 32, S. 105–124. Scherer, Carmen (2006): Korpuslinguistik, Heidelberg: Universitätsverlag Winter. Schleef, Erik/Danielle Turton (2016): Sociophonetic variation of like in British dialects: effects of function, context and predictability, in: English language and linguistics, Bd. 22, S. 35–75. Selting, Margret (1995): Prosodie im Gespräch. Tübingen: Niemeyer. Selting, Margret et al. (2009): Gesprächsanalytische Transkriptionssystem 2 (GAT 2), in: Gesprächsforschung Online, Bd. 10, S. 353–402. 24.03.22 11:06 II Fallstudien Sidnell, Jack/Tanja Stivers (eds.) (2012): The Handbook of Conversation Analysis, Chichester: John Wiley & Sons. Stukenbrock, Anja (2013): Sprachliche Interaktion, in: Auer, Peter (Hrsg.), Sprachwissenschaft: GrammatikInteraktion-Kognition, Stuttgart: Metzler Verlag, S. 217–259. Szmrecsányi, Benedikt (2013): Variation und Wandel, in: Auer, Peter (Hrsg.), Sprachwissenschaft: Grammatik - Interaktion - Kognition, Stuttgart: J.B. Metzler, S. 261–284. Szczepek-Reed, Beatrice (2015): Managing the boundary between “yes“ and “but“: Two ways of disaffiliating with German ja aber and jaber, in: Research on language and social interaction, Bd. 48, 32–57. Tsui, Amy B.M. (1991): The pragmatic functions of I don’t know, in: Text - Interdisciplinary Journal for the Study of Discourse, Bd. 11, S. 607–622. Venables, William N./Brian D. Ripley (2002): Modern Applied Statistics with S, 4. Aufl., New York: Springer. Walker, Gareth (2012): Phonetics and prosody in conversation, in: Sidnell, Jack/Tanja Stivers (eds.), The Handbook of Conversation Analysis, Chichester [u. a.]: John Wiley & Sons, S. 455–474. Weatherall, Ann (2011): I don’t know as a prepositioned epistemic hedge, in: Research on language and social interaction, Bd. 44, S. 317–337. [DGD 2021] Datenbank gesprochenes Deutsch, [online] https://dgd.ids-mannheim.de/dgd/pragdb. dgd_extern.welcome. [GAIS 2020] Gesprächsanalytisches Informationssystem, [online] http://prowiki.ids-mannheim.de/bin/view/GAIS/. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 05. Juli 2021. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 102 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 102 24.03.22 11:06 103 6. Diskursmarker: Eine Fallstudie zur Einführung in die Methode der Interaktionalen Linguistik In der vorliegenden Fallstudie geht es darum, anhand der syntaktisch-pragmatischen Kategorie der Diskursmarker (äußerungsinitial positionierte, grammatisch und semantisch nicht-obligatorische Wörter oder kurze, feste Phrasen, die interaktionsorganisierende Funktionen haben) in die Methode der Interaktionalen Linguistik einzuführen. Dabei wird sowohl auf den ‚Kernbereich’ der Interaktionalen Linguistik, die gesprochene Sprache, eingegangen als auch auf neuere und z.T. noch ‚zu entdeckende’ Bereiche wie computervermittelte Schriftkommunikation oder verschriftete literarische Interaktionen. 1. Einleitung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Wolfgang Imo Die Interaktionale Linguistik ist ein Forschungsansatz, der primär verbale (aber auch nonverbale) Interaktion untersucht. Interaktion bedeutet wörtlich das Zwischen-Handeln (inter = zwischen und agere = handeln), und diese wörtliche Bedeutung gibt an, was erfüllt sein muss, damit von verbaler (= sprachlicher) Interaktion – die in dieser Fallstudie im Zentrum steht – die Rede sein kann: Zwei oder mehr Kommunizierende handeln gemeinsam. Sprachliche Handlungen umfassen so Banales wie den Klatsch über einen gemeinsamen Bekannten ebenso wie das Führen eines Bewerbungsgesprächs, das Schreiben von Liebes-SMS ebenso wie einen E-Mail-Austausch mit einem Mitarbeiter der Krankenversicherung. Um handeln zu können, benötigen wir Kontextwissen (In welchen Situationen mit welchen Beteiligten befinden wir uns gerade?) und Ko-Textwissen (Was wurde sequenziell zuvor bereits geäußert, auf das Folgeäußerungen Bezug nehmen können?). Als Interaktion kann jede sprachliche – mündliche oder schriftliche – Kommunikation betrachtet werden, die folgende Merkmale aufweist (vgl. die Diskussion in Imo/Lanwer 2019: Kap. 2.5): 1. Prozessorientierung: Sprache wird als prozesshaft aufgefasst. Damit ist gemeint, dass Strukturen im zeitlichen Ablauf des Sprechens (oder des interaktionalen Schreibens UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 103 beispielsweise in einem Messenger-Chat) entstehen. Solche zeitlichen Prozesse machen sich besonders deutlich bemerkbar, wenn Äußerungen repariert werden müssen, bei Formulierungsproblemen oder aber auch bei der Ankündigung einer Geschichte, bei der bestimmte Vorlaufelemente (sogenannte pre’s = Präsequenzen; ausführlich dazu Schegloff 2007; vgl. auch Heritage/Sorjonen 1994) die Interaktionspartner darauf hin orientieren, dass nun ein längerer narrativer Turn folgen wird. Auch die in diesem Beitrag diskutierten Diskursmarker – hier verstanden als Wörter oder kurze phrasale Einheiten, die äußerungsinitial stehen und aus syntaktischer Sicht nicht in den Satz integriert sind – haben eine solche Funktion eines pragmatischen Vorlaufelementes, sie kündigen Folgeäußerungen mit bestimmten Funktionen an (vgl. Blühdorn/Deppermann/Helmer/SpranzFogasy (2017) für eine Darstellung unterschiedlicher Diskursmarker-Ansätze). Eines der wichtigsten Konzepte der Interaktionalen Linguistik ist daher das der Sequenzialität, das sie aus der Konversationsanalyse (s.u.) übernommen hat. Mit Sequenzialität wird die Tatsache erfasst, dass sprachliche Äußerungen aufeinander aufbauen, d. h. auf eigene und fremde Vorgängeräußerungen Bezug nehmen und umgekehrt eigene Folgeäußerungen ankündigen oder bestimmte Folgeäußerungen von Interaktionspartnern einfordern. Ein einfaches sequenzielles Muster sind 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 104 II Fallstudien die sogenannten Nachbarschaftspaare wie Frage → Antwort oder Bitte → Nachkommen/ Ablehnen der Bitte. Aber auch Diskursmarker sind sequenziell strukturiert, insofern sie immer vor der Äußerung bzw. den Äußerungen stehen, die sie ‚anmoderieren’ und sie somit sequenziell für die Interaktionspartner ankündigen und erwartbar machen. 2. Situationsorientierung: Wie bereits erwähnt, hängen Handlung und Situation eng zusammen. Man spricht dabei von einem reflexiven Handlungs- und Situationsbegriff: Eine Situation ist nach Esser (2002: 111) durch die Orientierung der Interaktionspartner auf eine gemeinsame Handlung hin gekennzeichnet. Die gemeinsame Handlung erzeugt also eine Situation. Zugleich werden durch handlungsexterne Parameter wie den Ort, an dem eine Interaktion stattfindet, die sozialen Rollen und Milieus, die Vorgeschichte der Interaktionspartner etc. bestimmte Handlungen erwartbar – aber nicht vorhersagbar – gemacht, also die Situation dadurch mitaufgebaut. Weder Situationen noch Handlungen sind also stabil und ‚einfach so’ gegeben, beide bedingen einander. Ein Beispiel soll dies illustrieren: Wenn man zu seiner Hausärztin geht, lassen externe Situationsparameter und Rollen (Arzt vs. Patient; Praxisräume; Sprechstunde) eine Interaktion des Typs eines Arzt-Patient-Gesprächs erwarten. Man kann aber dennoch, vor allem dann, wenn man die Ärztin schon lange kennt, problemlos eine Plauderei über den vergangenen Urlaub beginnen. Damit das geschehen kann, müssen die Interaktionspartner einen Rahmen des Plauderns bilden, was beispielsweise durch eine Frage der Ärztin („Sie waren doch kürzlich auf Bali – war’s schön dort?“) geschehen kann. Wenn dann der Patient darauf eingeht, ist gemeinsam eine neue Situation und eine neue Handlung entstanden. In der Sprache hat sich eine ganze Reihe von Routinen herausgebildet, mit denen solche Rahmungen einer neuen Situation und Handlung angezeigt werden können (z. B. Ausdrücke wie „a propos“, „mal was ganz anderes“, „darf ich mal was Privates fragen?“ etc.). Wenn die Interaktionspartner diese Rahmungen akzeptieren, ist die gemeinsame Hervorbringung einer neuen Situation gelungen. Auch Diskursmarker können neue Situations- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 104 rahmen hervorbringen, insofern sie Begründungssequenzen (weil, deswegen), konzessive Sequenzen (obwohl, freilich, andererseits, klar, nur), Einschätzungen (ich mein, ich glaub) u.v.m. ankündigen. 3. Kooperationsorientierung: Interaktionale sprachliche Handlungen werden stets kooperativ und häufig sogar kollaborativ hergestellt. Das gilt sowohl für die strukturelle als auch für die inhaltliche Ebene. Auf struktureller Ebene ist beispielsweise die Kooperativität unmittelbar sichtbar bei den sogenannten Nachbarschaftspaaren. Dabei handelt es sich um zwei- bis dreizügige Sequenzen, die über mindestens zwei Interaktionspartner verteilt sind, wie Frage-Antwort, GrußGegengruß, Aufforderung-Nachkommen/ Nicht-Nachkommen der Aufforderung etc. Die Kooperativität ist so sehr in diese sprachlichen Strukturen eingeschrieben, dass ein Interaktionspartner keine Wahl hat, nicht zu reagieren: Auf einen Gruß kann man entweder zurückgrüßen (dann hat man kooperativ das Nachbarschaftspaar Gruß-Gegengruß erzeugt) oder man grüßt nicht – was dann als absichtliches Nicht-Grüßen interpretiert werden kann, also sozusagen als ‚kooperativ unkooperativ’. Auch auf der inhaltlichen und funktionalen Ebene ist die Kooperativität maßgeblich: Die einschlägige Untersuchung von Günthner (2000a) zu Vorwürfen zeigt beispielsweise, dass Interaktionspartner erst durch ihre Reaktion eine sprachliche Handlung zu einem Vorwurf machen. Als kollaborativ bezeichnet man interaktionale sprachliche Strukturen, wenn die Interaktionspartner gemeinsam an derselben sprachlichen Äußerung ‚arbeiten’. Damit wird oft ein Gleichlauf in der Situationseinschätzung signalisiert, wie z. B. in dem Fall, wenn A sagt: „Eigentlich wollte Thomas morgen vorbeikommen, aber er hat mal wieder keine Zeit“ und B parallel zu „aber er hat mal wieder keine Zeit“ mit einer Äußerung wie „aber er kann wieder mal nicht“ o. Ä. einsteigt. Damit zeigt B an, dass er vorausahnt, was A sagen wird und er somit A versteht (vgl. ausführlich zu Verstehensdokumentationen Deppermann/Schmitt 2008 sowie die Darstellung in Imo/Lanwer 2019: Kap. 8.2). Auch bei Diskursmarkern finden sich koope- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Diskursmarker“ rative und kollaborative Strukturen, letztere beispielsweise, wenn A fragt „Willst du noch ein Stück Kuchen?“ und B antwortet: „Nein. Obwohl…“. Selbst wenn dem Diskursmarker obwohl kein weiteres sprachliches Material folgt, kann A daraus schlussfolgern, dass B damit anzeigt, dass er seine Handlung überdenkt und nun doch ein Stück Kuchen haben möchte; wenn A ihm daraufhin wortlos den Teller reicht, wurde die Handlungsprojektion, die obwohl auslöst (nämlich etwas wie „Gib mir doch noch ein Stück Kuchen!“), umgesetzt, ohne verbalisiert werden zu müssen. 4. Handlungsorientierung: Wie in den bisherigen Ausführungen klar wurde, sind Handlungen nicht monologisch zu betrachten, also nicht auf Intentionen eines Interaktionsteilnehmers zurückzuführen, sondern als interaktionale Gegebenheiten. Um das Vorwurf-Beispiel erneut aufzugreifen: Für die Perspektive der Interaktionalen Linguistik ist nicht von vorrangiger Bedeutung, ob A, wenn sie sagt „Weißt du, dass die Tür schon wieder offensteht?“, einen Vorwurf beabsichtigt oder eine einfache Informationsfrage stellen möchte. Was relevant ist, ist die Reaktion von B, die diese Äußerung erst zu einem Vorwurf oder einer Frage macht – und natürlich wieder die Reaktion von A auf die Äußerung von B, aus der ersichtlich ist, ob sie mit der Handlungsinterpretation und -konstruktion einverstanden ist oder nicht etc. Ein großer Vorteil der Verlagerung der Handlungsbeschreibung in die Interaktion und das sequenzielle Nacheinander von Äußerungen besteht darin, dass Handlungen auf diese Weise – anders als Intentionen – beobachtbar werden: Wir hören oder sehen die Reaktionen der Interaktionspartner und können auf diese Weise empirisch fundiert Aussagen über Handlungen treffen, im Sinne der Frage „Wie interpretiert Person X eine Äußerung von Y?“. 2. Fragestellung Das Interesse der Interaktionalen Linguistik besteht nun darin, zu fragen, „ob und wie sich im Handeln überhaupt erst Sprache (qua Grammatik) konstituiert, und ob und wie andererseits Handeln durch Sprache (qua Grammatik) möglich wird“ (Auer 1999: 6). Dem UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 105 105 liegt ein sehr weit gefasster Grammatikbegriff zu Grunde: Es geht darum, die sprachlichen Regularitäten – wiederkehrende sprachliche Routinen – in ihrer Funktion für die Handlungserzeugung und Interaktionsstrukturierung zu beschreiben. Grammatik umfasst dabei nicht nur syntaktische Muster, sondern auch prosodische (z. B. Akzente, Tonhöhenverläufe, Pausen etc.) und gestische (Kopfbewegungen, Gesten etc.), die stets zusammen mit ihren jeweiligen interaktionalen Funktionen betrachtet werden müssen. Ein Beispiel für ein solches grammatisches Phänomen sind die in dieser Fallstudie vorgestellten Diskursmarker. Grammatik wird dabei nicht als abstraktes, von der Interaktion losgelöstes System verstanden, sondern als „mode of social interaction“ und als „lived behavior“ (Schegloff/ Ochs/Thompson 1996: 38). Bevor wir uns nun endgültig den Diskursmarkern zuwenden, müssen aber noch einige methodische Grundlagen der Interaktionalen Linguistik geklärt werden. Letztere baut in ihren methodischen Voraussetzungen vor allem auf der ethnomethodologischen Konversationsanalyse (vgl. Bergmann 2010) auf. Während die Konversationsanalyse als soziologischer Ansatz aber primär die Handlungen der Interagierenden in den Blick nimmt und Sprache dabei ‚nur’ als einen der wichtigsten Handlungsträger berücksichtigt, erweitert die Interaktionale Linguistik – die von Elizabeth Couper-Kuhlen und Margret Selting (2000; 2001a, b) begründet wurde – das Beschreibungsinventar und -interesse um dezidiert linguistische Aspekte: „‚Interaktionale Linguistik’ ist ein neuer Ansatz, als Interface von Linguistik im engeren Sinne und Konversations- bzw. Interaktionsanalyse konzipiert. […] Die ‚interaktionale Linguistik’ versteht sich klar als ein linguistischer Forschungsansatz. Als primären Verwendungskontext von Sprache sieht sie in erster Linie Alltagsgespräche, in zweiter Linie institutionelle Gespräche an. Sprachliche Strukturen sind auf die Erfüllung fundamentaler Aufgaben der Aktivitätskonstitution und der Interaktionsorganisation zugeschnitten, und hier primär der Interaktion im Rahmen natürlicher Alltagsgespräche.“ (CouperKuhlen/Selting 2001a: 260-261) 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 106 II Fallstudien Die beiden Grundfragen der Interaktionalen Linguistik lauten somit Wie wird mit sprachlichen Mitteln gesellschaftliche Struktur erzeugt? (diese Frage wurde von der Konversationsanalyse übernommen) sowie Inwiefern kann man Syntax (bzw. sprachliche Muster generell) als Resultat der Tatsache betrachten, dass Sprache dazu eingesetzt wird, gesellschaftliche Strukturen zu erzeugen? Das Besondere der Interaktionalen Linguistik ist, dass sie diese Fragen strikt empirisch beantwortet. Das bedeutet, dass mit Hilfe von vor allem qualitativen, in neuerer Zeit auch häufiger Verbindungen aus quantitativen und qualitativen Analysen (z. B. Lanwer 2018) die jeweiligen Kategorien erarbeitet werden (= induktives Vorgehen), nicht aber vorab postulierte Kategorien – wie z. B. Wortarten, Satztypen oder Sprechakte als linguistische Konzepte – lediglich mit Hilfe von Daten ‚belegt’ werden (= deduktives Vorgehen). Der Grund besteht darin, dass die Interaktionale Linguistik davon ausgeht, dass man gar nicht in der Lage ist, durch reines Nachdenken valide sprachliche Strukturbeschreibungen zu erhalten. Nicht zuletzt durch die Schul- und Universitätsbildung hat man einen Blick auf Sprache, der durch die Brille der Schriftlichkeit (vgl. Fiehler 2015: 27) geprägt ist und das Erkennen von genuin interaktional-sprachlichen Strukturen verhindert oder doch erschwert. Entsprechend schreiben Ono/Thompson (1995: 215) über das Vorgehen der Interaktionalen Linguistik: „Instead of approaching the data with an idea of what a theory of syntax should look like, we have followed Schegloff, [who] tried to outline a theory of syntax that arises from the data, postulating just those abstract elements and units that are needed to account for the data. “ Die Kategorie der Diskursmarker ist ein Paradebeispiel für dieses Vorgehen: Lange Zeit 1 wurden diese in der Linguistik schlichtweg nicht wahrgenommen, da sie nicht in ‚traditionelle’ Kategorien passten. Erst nachdem man empirische Analysen von Gesprächsdaten durchgeführt hat, wurden Diskursmarker als eigenständige Struktur interaktionaler Sprache ‚entdeckt’ und beschrieben. Welche Daten zieht die Interaktionale Linguistik für ihre Untersuchungen heran? Durch die historische Entstehung aus der Konversationsanalyse1 heraus ist bis heute ein starker Fokus auf gesprochensprachliche Interaktionen verbreitet. Dabei ist eine wichtige Forderung an die Daten, dass sie authentisch sein sollen. Das bedeutet, dass sie zum einen möglichst nahe am ‚Original’ sein müssen, was zur Folge hat, dass man im Idealfall Videoaufnahmen, meist aber aus Praktikabilitätsgründen Audioaufnahmen macht (→ Kapitel 17 [Audio- und Videografie] in diesem Band), die dann nach wissenschaftlichen Standards transkribiert werden (→ Kapitel 23 [Gesprächsanalytische Transkription], Kapitel 27 [Transkriptionswerkzeuge] in diesem Band). Nur solche Daten ermöglichen eine „passiv registrierende Methode der Datenerfassung“ und ein „materialgestütztes Untersuchungsverfahren“ (Deppermann 2001: 19-21), wobei unvoreingenommen alles aufgezeichnet wird, was in einer Interaktion abläuft, sodass wir die Möglichkeit haben, durch wiederholtes Anhören/Ansehen der Interaktionen Strukturen rekonstruieren zu können und somit die „Prinzipien der Organisation und der Sinnbildung in Gesprächen zu entdecken“ (Deppermann 2001: 19), denen die Interaktionsteilnehmer folgen. Neben der Nähe zum ‚Original’ ist auch die Fokussierung auf authentische Daten bei Ablehnung inszenierter Daten ein Merkmal dieser Methode: „Authentisch heißt, dass die Gespräche nicht extra zum Zweck der Untersuchung geführt oder inszeniert wurden; es werden also natürliche Gespräche aus dem Alltags- und Berufsleben untersucht“ (Be- Die Interaktionale Linguistik ist aus der ethnomethodologischen Konversationsanalyse hervorgegangen. Zu einer Klärung der Begriffe und der Zusammenhänge der wissenschaftlichen Schulen vgl. Imo/Lanwer (2019: Kapitel 2 „Terminologische Klärung“). Speziell zur Konversationsanalyse siehe auch Auer/Bauer/Birkner/ Kotthoff (2020), Stukenbrock (2013) und ten Have (2007) und zum Forschungsfeld der Interaktionalen Linguistik Couper-Kuhlen/Selting (2018) und Imo (2013). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 106 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Diskursmarker“ cker-Mrotzek/Brünner 2006: 3). Im Idealfall macht man also Gesprächsaufnahmen in Situationen, die ‚auch so’, also ohne die Aufnahme, genauso abgelaufen wären (zu einer detaillierten Darstellung und Problematisierung der Forderung nach authentischen Daten vgl. Imo/Lanwer 2019: Kap. 4). In den letzten Jahren hat sich neben der Beschäftigung mit gesprochener Sprache auch die mit schriftlicher Interaktion etabliert, sodass man von der Entstehung einer Interaktionalen Schriftlinguistik (vgl. Imo/Lanwer 2019: Kap. 11) sprechen kann. Diese Entstehung hängt mit dem Aufkommen von computervermittelter Kommunikation zusammen, die schon früh mit E-Mails ein schriftliches interaktionales Kommunizieren ermöglichte und seit der ‚Erfindung’ des World Wide Web sowie des Mobiltelefons und später des Smartphones mit Chat, SMS und Messengerkommunikation weit verbreitete interaktionale Kommunikationsformen geschaffen hat (→ Kapitel 26 [Korpora internetbasierter Kommunikation] in diesem Band). Diese Kommunikationsformen wurden anfangs mit den Mitteln der Konversationsanalyse – dabei diese Methode auch kritisch reflektierend – untersucht (vgl. Beißwenger 2007; Günthner/Schmidt 2001; Schönfeldt 2002; Schönfeldt/Golato 2003) und dann immer häufiger mit denen der Interaktionalen Linguistik (z. B. Beißwenger 2016; Dürscheid 2005, 2015, 2016; Günthner 2011, 2012, 2014, 2017; Imo 2012a, 2013: 269-284, 2015a, b, 2017, 2019 König 2015a, b und König/Hector 2017). Auch bei der Analyse interaktionaler schriftlicher Sprache gilt, dass die Daten authentisch sein müssen (was deutlich einfacher umzusetzen ist, da diese Daten ja bereits schriftlich vorliegen und entsprechend einfacher zu erheben und zu analysieren sind als Audio- und Videodaten, die erst noch transkribiert werden müssen). Je nach Untersuchungsfrage können für heutige interaktionslinguistische Untersuchungen wahlweise nur gesprochensprachliche, nur schriftsprachliche oder beide Datentypen verwendet werden. Bei der vorliegenden Fallstudie zu einem pragmatischsyntaktischen Phänomen, nämlich den Diskursmarkern, bietet es sich an, alle Datentypen zu berücksichtigen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 107 107 3. Material und methodisches Vorgehen interaktional-linguistischer Untersuchungen Die Interaktionale Linguistik geht qualitativ vor, d. h. es werden Kollektionen von Daten mit interaktionalem Sprachgebrauch erstellt, die dann im Detail analysiert werden. Für die vorliegende Studie wurden 1. Gesprächsdaten, 2. Kurznachrichtenkommunikation und 3. Dialoge aus älteren literarischen Werken verwendet. Die Gesprächsdaten entstammen der von Susanne Günthner (Universität Münster) aufgebauten linguistischen Audio Datenbank lAuDa3 (https://lauda-ms.lingdata.de), der von Wolfgang Imo (Universität Hamburg) aufgebauten linguistischen Audio Datenbank lAuDa (https://lauda.spracheinteraktion.de) sowie dem Forschungs- und Lehrkorpus des IDS Mannheim (http://agd.ids-mannheim. de/folk.shtml, → Kapitel 25 [Korpora gesprochener Sprache] in diesem Band). Die Kurznachrichtenkommunikation wurde den beiden Datenbanken MoCoDa 1 und 2 entnommen (https://mocoda.spracheinteraktion.de und https://db.mocoda2.de/; vgl. Beißwenger et al. 2019), während die literarischen Dialoge aus Werken von Fontane und Gryphius stammen. Aus diesen Daten werden insgesamt wenige Belege, diese aber sehr detailliert in Bezug auf ihre sequenziellen Einbettungen, Diskursfunktionen, Prosodie oder graphische Gestaltung etc. analysiert. Wie ten Have (2007) hervorhebt, sind qualitative Studien trotz ihrer Beschränkung auf wenige Fälle aussagekräftig, da sie versuchen, die Struktur hinter den Belegen zu entdecken und so die Ordnung des Gebrauchs zu beschreiben: Wenn man sich beispielsweise dafür interessiert, wie Begrüßungen ablaufen, so ten Have (2007: 51), ist es nicht nötig, 100.000 Grußsequenzen aufzunehmen und zu analysieren – schon eine einzige kann dazu dienen, die Systematik aufzudecken, da es sich um ein orderly product, also eine geordnete, Interaktionsregeln gehorchende Struktur handelt. Die im Folgenden präsentierten Ergebnisse beruhen entsprechend auf solchen stichprobenartigen, aber entsprechend detailreichen Analysen, von denen hier Auszüge präsentiert werden. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 108 II Fallstudien In der Forschungsrealität der Linguistik ist es natürlich sehr selten so, dass man eine sogenannte Einzelfallstudie (single case study) durchführt. Das typische methodische Vorgehen der Interaktionalen Linguistik ist folgendes: 1. Man ‚bemerkt’ ein Phänomen, wie zum Beispiel das Phänomen, dass das Wort weil, das man eigentlich als subordinierende Konjunktion anzusehen gewohnt ist, an einer unerwarteten Position (z. B. vor einem Aussagesatz mit Verbzweitstellung) auftritt. 2. Um zu klären, ob dahinter eine Systematik festzustellen ist, stellt man eine sogenannte „Kollektion“ (Deppermann 2001: 35-38 und Imo/Lanwer 2019: 132) von Daten zusammen. Eine Kollektion ist eine Datensammlung, die man dem Erkenntnisinteresse und der eigenen Fragestellung entsprechend erstellt hat. Die Bildung einer Kollektion hat zwei Gründe: Zum einen liegen gerade für interaktionale Sprachdaten (gesprochene Sprache, Videodaten, schriftliche Interaktion) noch vergleichsweise wenige und zudem nur kleine öffentlich zugängliche Korpora vor, sodass man oft gezwungen ist, eigene Daten zu erheben (auch in diesem Beitrag werden an einigen Stellen Daten verwendet, die aus nicht öffentlich zugänglichen Korpora stammen). Zum anderen kann es auch sein, dass manche Korpora wiederum zu groß sind, sodass man überhaupt nicht in der Lage wäre, alle der Phänomene, die im Zentrum der Fragestellung stehen, qualitativ zu analysieren. Im Fall von weil ist es so, dass dieses sehr häufig vorkommt und man entsprechend eine Begrenzung der Daten vornehmen muss. 3. In die Kollektion werden nun sowohl Fälle von weil mit folgender Verbzweitstellung als auch mit Verbendstellung aufgenommen, um einen Vergleich der interaktionalen Funktionen zu ermöglichen. Wie viele Fälle in eine solche Kollektion aufgenommen werden müssen, ist nicht geregelt – man stellt so viele Belege zusammen, bis man das Gefühl einer ‚Sättigung’ der Daten bekommt, d. h., das Gefühl, dass sich die Strukturen zu wiederholen beginnen und keine neuen Erkenntnisse durch noch mehr Daten gewonnen werden. 4. Die Kollektion wird nun analysiert und die Ergebnisse werden festgehalten. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 108 Da im vorliegenden Fall diese Schritte bereits in vorigen Analysen (z. B. Gohl/Günthner 1999; Günthner 1993, 2008) durchlaufen wurden, also das Phänomen weil als Diskursmarker bereits analysiert ist, ist es natürlich nicht mehr sinnvoll, erneut ‚von Null auf’ anzufangen: Einmal interaktionslinguistisch beschriebene Kategorien können natürlich an folgende Analysen herangetragen werden. Das Vorgehen in dem vorliegenden Beitrag unterscheidet sich daher in Teilen von der oben beschriebenen Methode. In Teilen deshalb, weil die in Abschnitt 4 dargestellte Untersuchung mehrere Teilabschnitte umfasst: Zunächst soll der Forschungsstand zu Diskursmarkern anhand der Daten dargestellt werden, die bislang in der interaktionalen Linguistik Beachtung fanden, nämlich gesprochensprachliche Interaktionen. In diesem Abschnitt werden die präsentierten Daten, die z.T. aus nicht öffentlich zugänglichen Korpora stammen, lediglich zur Illustration eingesetzt, um die Wirkungsweise von Diskursmarkern zu erläutern. Im Kern werden jedoch, wie bereits erwähnt, bereits durchgeführte Analysen präsentiert. In einem zweiten Schritt wird eine Ausweitung auf bislang vernachlässigte Domänen des Diskursmarkergebrauchs skizziert, nämlich der Einsatz in nicht interaktionalen, sondern monologischen gesprochenen oder geschriebenen ‚Texten’ sowie in schriftlichen Interaktionen, beispielsweise in Chats. Hier wäre eigentlich das oben skizzierte Vorgehen einer Kollektionserstellung notwendig, da zum Diskursmarkergebrauch in diesen kommunikativen Konstellationen bislang noch kaum Forschungsergebnisse vorliegen. Aus Platzgründen – aber auch aus Zeitgründen, da es mir nicht möglich ist, die entsprechenden Analysen selbst durchzuführen – werden jedoch nur exemplarische Belege ohne eine systematische Sichtung der Daten präsentiert. Diese Belege sollen als ‚Forschungsvorschläge’ dienen, d. h. als Aufdeckung von bislang unerforschten Bereichen des Diskursmarkergebrauchs, die dann in Zukunft durch entsprechend systematische Untersuchungen bearbeitet werden müssen. Hierzu wären beispielsweise Detailuntersuchungen anhand von Kollektionen von E-Mail-Interaktionen, 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Diskursmarker“ Interaktionen auf Social Network Platforms, Chat-Interaktionen, Zeitungstexten, literarischen Texten, Fachtexten, Vorträgen, Predigten etc. notwendig, d. h. einerseits auf jeweilige kommunikative Gattungen und Textsorten fokussierte Analysen und andererseits dann gattungs- und textsortenkomparative Untersuchungen. Im dritten Teil wird der Blick auf historische Sprachstufen ausgeweitet. Dabei bietet es sich an, von den für das heutige Deutsch sehr gut beschriebenen Diskursmarkern in der gesprochenen interaktionalen Sprache auszugehen und entsprechend zunächst Auszüge aus Redeszenen in historischen Romanen, historische Protokolle von Interaktionen oder Dramentexte zu verwenden, die dem am nächsten kommen. Da für die historischen Sprachstufen des Deutschen praktisch keine systematischen Beschreibungen von Diskursmarkern vorliegen, muss auch hier exemplarisch vorgegangen werden, es werden Einzelbelege aus historischen Texten sozusagen als Hinweise auf mögliche Forschungsthemen genannt. Eine Ausnahme bildet der Gebrauch von Diskursmarkern bei Gryphius: Zum Zeitpunkt des Verfassens des Artikels befand sich ein von der DFG gefördertes Forschungsprojekt zur Interaktionalen Sprache bei Gryphius (Wolfgang Imo & Jörg Wesche; IM 122 7-1; http://gryphius.sprache-interaktion.de) ganz am Anfang, daher wurde in dem vorliegenden Artikel erst eine exemplarische Vorstudie präsentiert. Inzwischen, bei der Überarbeitung des Artikels, ist das Projekt weiter fortgeschritten und es wurde das methodische Vorgehen der interaktionalen Linguistik vollständig umgesetzt: Eine der Fragestellungen war, ob und welche Diskursmarker (und zu welchen interaktionalen Zwecken, in welcher Verteilung auf Tragödien und Komödien, von welchem Dramenpersonal verwendet etc.) in den Dramen von Gryphius vorkommen. Zu diesem Zweck wurde das gesamte Dramenwerk von Gryphius (das somit die Kollektion, d. h. die Auswahl aus all den verfügbaren historischen Dramen oder auch nur Barockdramen überhaupt, bildet) digitalisiert 2 109 und nach ‚Diskursmarkerkandidaten’ annotiert. Die Analyse läuft noch, es wird eine Dissertation u. a. zu diesen Fragen entstehen, weshalb in diesem Beitrag ‚nur’ die exemplarische Vorstudie präsentiert wird. 4. Untersuchung von Diskursmarkern: Fragestellungen, Ergebnisse und Diskussion Im Folgenden gilt es zunächst zu klären, was die spezifische Leistung von Diskursmarkern ist. Anschließend wird die die Abgrenzung von Diskursmarkern zu benachbarten Phänomenen angesprochen, gefolgt von der Ausweitung der Untersuchung von gesprochener Sprache auf geschriebene. Den Abschluss bildet schließlich ein Blick in die Sprachgeschichte mit der Frage nach der diachronen (Dis-)Kontinuität von Diskursmarkern. Der Begriff Diskursmarker ist bislang noch nicht sehr weit verbreitet, was daran liegt, dass diese Kategorie erst während der 1990er-Jahre durch interaktionslinguistische Untersuchungen systematisch beschrieben wurde. Auffällig war dabei zunächst vor allem der Gebrauch der Konjunktion weil ohne Verbendstellung, die von Günthner (1993) als Diskursmarker bezeichnet wurde. Der Grund, weshalb dieses Phänomen zuvor in seiner Tragweite nicht erkannt wurde, lag darin, dass dieser Gebrauch schlichtweg als fehlerhaft abgetan wurde, dass also SprecherInnen ‚eigentlich’ eine Verbendstellung verwenden wollten, aber beispielsweise aus Gründen der ad hoc-Planung von gesprochensprachlichen Äußerungen ‚fälschlicherweise’ z. B. eine Hauptsatzstruktur im Anschluss produzierten. Der folgende Transkriptauszug aus Imo (2012b: 49) illustriert ein solches weil. Der Auszug stammt aus einer Radio-Talksendung, in der eine Anruferin (N) mit dem Moderator Domian (D) darüber spricht, dass sie sich nicht traut, ihrem Bekannten ihre Liebe zu gestehen. An der Stelle, an der das Gespräch einsetzt, nennt sie zwei Gründe, weshalb sie nicht mehr länger warten will:2 Dieses und die nachfolgenden Beispiele wurden nach dem Transkriptionssystem GAT 2.0 verschriftlicht (→ Kapitel 23 [Gesprächsanalytische Transkription] in diesem Band). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 109 24.03.22 11:06 110 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Beispiel 1: weil als Diskursmarker 192 D er hatte auch eine KREBSerkrankung; JA; 193 N mhm welcher ART? 194 D 195 N (.) NA: das möchte ich jetzt sO nicht sagen, [weil-] 196 197 D [oKAY ] okay; das [NE? ] 198 N 199 D [MUSS] ja auch nicht das ist in [ordnung ja;] 200 N [geNAU; ] und (.) ähm201 202 aber auf jEden fall ist das so dass mich das natürlich ziemlich geSCHOCKT hat; 203 → wei[l (.)] ähm204 D [ja, ] hAb auch mal einen FREUND 205 N gehabt, 206 .h äh: der dann im STREIT mit mIr auseinandergegangen ist, und dAnn (.) tödlich 207 verUNglückt ist; [mhm;] 208 D 209 N [und ] SEITdEm hab ich halt dann verstÄrkt, was man glaub ich auch wohl 210 NACHvollziehen kann, auch so das gefühl .h manche 211 dinge kAnn mAn nicht ehm immer so weit RAUSschieben nE? Es erscheint auf den ersten Blick durchaus plausibel, das weil in Z. 203 als eine fehlerhafte Realisierung der subordinierenden Konjunktion einzustufen, denn man könnte hier die Äußerung umformulieren in: „Aber auf jeden Fall ist das so, dass mich das natürlich ziemlich geschockt hat, weil ich auch mal einen Freund gehabt habe, der dann im Streit mit mir auseinandergegangen ist.“ Hier stehen nun das finite und infinite Verb am Satzende, ohne dass sich die Bedeutung des Satzes irgendwie verändert hätte. Günthner (1993; 2008) stellt aber fest, dass sich auf der pragmatischen Ebene doch eine leichte Bedeutungsveränderung ergibt. Während die Konjunktion weil eine eindeutige inhaltliche Kausalrelation aufstellt, leitet weil als Dis- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 110 kursmarker eine Begründung auf der Handlungsebene ein. Dabei ist es dann nicht mehr erforderlich, dass dem weil eine eindeutig bestimmbare syntaktische Einheit folgt, der es zugerechnet werden kann. Es steht vielmehr außerhalb der Folgestruktur, und diese Folgestruktur muss auch nicht nur aus einer Äußerung bestehen, sondern kann auch ganze Erzählsequenzen umfassen. „Weil [Hervorhebung im Original] verknüpft hierbei nicht mehr zwei Teilsätze, die in einer direkten Begründungsrelation zueinander stehen, und kann folglich auch nicht länger als kausale Subjunktion (bzw. Konjunktion) betrachtet werden“ (Günthner 2008: 112). Man könnte sich diese Funktion so vorstellen, als würde eine kleine handlungsbezogene metakommentative Äußerung dazwischengeschoben: Vorgängeräußerung: „Aber auf jeden Fall ist das so, dass mich das natürlich ziemlich geschockt hat.“ Diskursmarker: „Weil“ (mitgedachte metakommentative Äußerung „Ich wähle die Formulierung, dass es mich „natürlich geschockt“ hat, nicht deshalb, weil mein Bekannter Krebs hatte, sondern weil mir folgende Geschichte widerfahren ist:“) Folgeäußerungen: „Ich habe auch mal einen Freund gehabt, der dann im Streit mit mir auseinandergegangen ist und dann tödlich verunglückt ist. Seitdem habe ich verstärkt das Gefühl… etc. (Diese folgende Geschichte liefert nun die Begründung, weshalb sie gegenüber Domian erwähnte, dass sie „natürlich geschockt“ sei). Die handlungsstrukturierende Funktion des Diskursmarkers weil wird in diesem Beispiel nicht zuletzt auch dadurch deutlich, dass dieser mit einer Pause und einem Zögerungssignal von den Folgeäußerungen prosodisch abgesetzt wird. Weil wird somit nicht mehr als eine subordinierende kausale Konjunktion eingesetzt, sondern als Diskursmarker mit entsprechenden diskursorganisierenden Funktionen wie beispielsweise der Einleitung einer Handlungsbegründung (aber auch für die Einleitung thematischer Wechsel, Zusatzinformationen oder Erzählsequenzen; vgl. Günthner 2008 111). Die Unterscheidung zwischen inhaltlicher Begründungsrelation auf der einen 24.03.22 11:06 Fallstudie „Diskursmarker“ Seite und pragmatischer Begründungsrelation auf der anderen ist bei weil allerdings in vielen Fällen zugegebenermaßen sehr subtil. Unmittelbar einleuchtend wird die Unterscheidung dagegen bei dem Diskursmarker obwohl (vgl. Günthner 1999a). Im folgenden Transkriptauszug aus der ersten Staffel von Big Brother (entnommen aus Imo 2012a) unterhalten sich A und V über den Bruder von V. Nachdem A fragt, ob dieser solo und hübsch sei, antwortet V, dass er eine Freundin hat: Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Beispiel 2: obwohl als Diskursmarker 977 A ISser sch’ isser ähm; 978 SOlo? isser HÜBSCH, 979 980 V er hat grAd ne neue FREUNdin glaub ich seit paar mOnaten, 981 wie lange sind die jetzt zuSAMmen; 982 → obwOhl das_s AUCH schon n jAhr; zeit vergeht so SCHNELL; 983 984 also ich glaub (.) seit m JAHR, U:ND sonst, 985 986 ja der sieht IRgendwie, (0.5) 987 988 mir ÄHNlich; Hier wäre eine Realisierung von obwohl als subordinierender Konjunktion mit Verbendstellung schlichtweg sinnentstellend (*Er hat grad ne neue Freundin glaub ich seit paar Monaten (…) obwohl das auch schon n Jahr ist). Obwohl verbindet nicht zwei Sätze miteinander und setzt diese in eine konzessive Relation, sondern operiert auf der Handlungsebene und fügt sozusagen einen nicht ausgesprochenen Metakommentar ein: Vorgängeräußerungen: „Er hat grad ne neue Freundin glaub ich seit paar Monaten. Wie lange sind die jetzt zusammen?“ Diskursmarker: „Obwohl“ (mitgedachte metakommentative Äußerung „Mein lautes Nachdenken in der Frage „Wie lange sind die jetzt zusammen?“ hat zum Resultat, dass ich mich korrigieren muss und meine Handlung zurücknehme und eine Reparatur durchführe“). Folgeäußerung: „das is auch schon ein Jahr“ (Die Äußerung „seit paar Monaten“ wird ersetzt durch „ein Jahr“). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 111 111 Gerade mit dem Diskursmarker obwohl finden sich zahlreiche Beispiele, die sehr gut zeigen, dass dieser auf der Handlungs- und nicht auf der Inhaltsebene operiert (man vergleiche den für die schlanke Linie nicht unerheblichen Unterschied zwischen „Ich nehme noch ein Stück Kuchen, obwohl ich schon zwei gegessen habe.“ und „Ich nehme noch ein Stück Kuchen. Obwohl: Ich habe schon zwei gegessen.“; Günthner 2008: 114). Wie sind Diskursmarker nun genau zu definieren? Die gängige Definition für Diskursmarker im Deutschen geht auf Günthner (1999a, b, 2000b, 2001, 2002, 2008) und Gohl/ Günthner (1999) zurück, die sich wiederum an Arbeiten zu discourse markers im Englischen (Fraser 1990, Schiffrin 1987 und Lenk 1998) orientierten. Ausgangspunkt war, wie bereits erwähnt, die Forschung zu weil, das eben nicht nur – wie normgrammatisch zu erwarten – als subordinierende Konjunktion eingesetzt wird, sondern als Diskursmarker mit folgenden Merkmalen (vgl. Gohl/Günthner 1999: 59f.): • Diskursmarker stehen „in Initialposition, oft außerhalb der syntaktischen Struktur eines Satzes bzw. nur lose damit verbunden“, es handelt sich um • „optionale, d. h. grammatisch und semantisch nicht-obligatorische Elemente, die Sprecher benutzen können, um ihren Diskurs zu organisieren“, damit zusammenhängend findet eine • „Skopusausweitung“ statt, d. h., „die Funktion bezieht sich auf eine größere Einheit als den Satz“. Mit der Funktionsveränderung geht eine semantische Veränderung einher, sodass ein • „reduzierter semantischer Gehalt“ für Diskursmarker im Vergleich zu den Wörtern festzustellen ist, aus denen sie rekrutiert wurden. Zudem sind Diskursmarker typischerweise • „kurze, meist einsilbige Einheiten“ und schließlich handelt es sich um Phänomene, die • „eher gesprochen- als geschriebensprachlich“ auftreten. Der letzte Punkt ist allerdings mit Vorsicht zu genießen: Diskursmarker wurden im Kon- 24.03.22 11:06 II Fallstudien text von Analysen zu gesprochener Sprache ‚entdeckt’, und es lag daher zunächst nahe, anzunehmen, dass es sich um typisch gesprochensprachliche Phänomene handelt. Ob das tatsächlich so ist, oder ob es sich nicht im weiteren Sinne um interaktionale Phänomene handelt, die in interaktionaler Schriftlichkeit wie der Chatkommunikation ebenso wie interaktionaler Mündlichkeit vorkommen, daran wird momentan noch geforscht (→ Kapitel 3 [Fallstudie „OKAY“] in diesem Band). Zu gesprochensprachlichen Diskursmarkern liegen dagegen inzwischen zahlreiche Forschungsarbeiten vor. So weiß man, dass es Diskursmarker gibt, Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 112 • die aus koordinierenden oder subordinierenden Konjunktionen entstanden sind, wie z. B. weil (vgl. Gohl/Günthner 1999; Günthner 1993, 2008), wobei (vgl. Günthner 2001, 2002; Auer/Günthner 2004), obwohl (vgl. Günthner 1999b, 2008), aber (für das Holländische vgl. Mazeland/Huiskes 2001), und (vgl. Hartung 2012; Hartung-Schaidhammer 2012) und sogar dass, während und wogegen (vgl. Freywald 2008, 2018), • solche, die aus ehemaligen Adverbien oder Partikeln, wie beispielsweise deswegen (vgl. König 2012), bloß (vgl. Auer/Günthner 2004), also (vgl. Dittmar 2002; Deppermann/Helmer 2013), nur (vgl. Imo 2012b; Günthner 2015), ja (vgl. Imo 2013), jedenfalls (vgl. Auer/Günthner 2004; Bührig 2009) oder allerdings (vgl. Bührig 2009) ‚rekrutiert’ wurden, und schließlich • diejenigen, die aus mehr oder weniger festen, formelhaften Phrasen bestehen, wie ich sag mal so (vgl. Auer/Günthner 2004; Imo 2007), weiß ich nicht (vgl. Auer/Günthner 2004), ich mein (vgl. Günthner/Imo 2003; Imo 2007), ich glaub (vgl. Imo 2007), (ach) komm (vgl. Proske 2014), guck mal (vgl. Günthner 2015) oder uallah / ich schwör (vgl. Bahlo 2010). Im Folgenden soll nun exemplarisch anhand der Diskussion des Wortes nur gezeigt werden, wie man interaktionslinguistisch die Kategorie der Diskursmarker bestimmen und von anderen Kategorien abgrenzen kann. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 112 Man vergleiche die folgenden fünf Belege mit dem Wort nur (vgl. Imo 2012b und 2016a) in den folgenden Transkriptauszügen. Beispiel 3 stammt aus einer Radio-Talksendung, der Moderator D unterhält sich mit der Anruferin N, deren Freund an Krebs erkrankt war. Beispiel 4 ist einer Folge von Big Brother (erste Staffel) entnommen, die BewohnerInnen unterhalten sich über die Auswahlkriterien des Senders mit der Bevorzugung von Blonden. In den Beispielen 5 und 6 aus einer Lebenshilfe-Radiosendung spricht eine Psychologin (B) mit einer Anruferin (A), die den Tod ihrer Mutter nicht verwinden kann, und Beispiel 7 präsentiert einen Auszug aus einer Rede des Grünen-Politikers Joschka Fischer auf einem Sonderparteitag der Grünen zum KosovoKonflikt im Jahr 1999: Beispiel 3: nur als Adverb 214 D da hast du was SEHR rIchtiges gesagt, ich mein, 215 216 D ihr habt bEIde dann ja schon einen einen einen schOck erLEBT; 217 N JA:;= =und auch die beGRENZTheit des 218 D lEbens (-) schon erAhnt; 219 [was man vielleicht in;] 220 N → [nUr sind (--) ] BEIde reaktionen so; also äh mal kommt das von IHM 221 aus, also (wenn er) (-) wenn er GUT 222 drauf ist oder so; dann SAGT er natÜrlich so223 224 Ach quatsch da steht nix im wEge sonst sO mal jemanden KENnenzulernen, Beispiel 4: nur als Gradpartikel 1245 Jhn is ja o:ch ähem; (1.0) die zwe:te DUNkelhaarige erst 1246 hier drin oder? 1247((Parallelgespräch mit Jürgen)) 1248 Ver→ nur BLON[de ka]men hier rein; [oder?] 1249 Jhn 1250 Jhn ja NU::R, der hat schon ne BLONdenphobie. 1251 24.03.22 11:06 Fallstudie „Diskursmarker“ 137 A die sagte ich sollte EInfach die trAUer ZUlassen. .h damit ich nicht jAhrelang 138 mich damit beLASte. 139 B ja, 140 (0.5) 141 A und ich SEH des auch so. 142 → nur ich [hAb] des gefühl meine DANte die; 143 B [mhm] 144 A .hh (.) ich WEIß net; CHECKTS sies nicht? 145 Beispiel 6: nur im Vor-Vorfeld, prosodisch abgesetzt Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Beispiel 5: nur im Vor-Vorfeld, prosodisch angebunden 204 B es ist so: OFT so dass äh (.) hhhh so:: s- .h schwIErigkeiten zwischen menschen (.) geblIEben sind. 205 und dann STIRBT einer; 206 und dann wirds fUrchtbar SCHWER. 207 (1.0) [mhm,] 208 A 209 B [.hhh] weil des nich (.) .h AUFgeräumt worden is sozusagen. 210 → .hh nu:r- (.) zu DER zeit; 211 212 wo die mutter noch geLEBT hat; 213 (1.0) 214 B da war das für sIE vielleicht gAr nich so: drIngend DRAN, (.) das AUFzuräumen. 215 Beispiel 7: nur im Vor-Vorfeld 323 F und ich kann euch an dIEsem punkt nur SAgen. (--) schon DAmals. (.) 324 325 als wir die koalitiOn (-) besSCHLOSsen haben. 326 WAR uns klAr- (.) dass wir in einer schwierigen 327 situation ANtreten. (.) ICH hätte mir nicht trÄUmen 328 lassen. (-) ICH hätte mir nicht trÄUmen 329 lassen; 330dass wir im ERSten halben jahr. (-) UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 113 113 331 NICHT nur die agenda zweitAUsend; 332 NICHT nur die frAge; (-) 333 de:rder kommisSION; 334 335 der krIse der kommisSION, (-) auch die frage 336 sondern RAMbouillet und schließlich das schEItern von rambouillet und den krIEg dort haben. (-) 337 → nUr ich kann euch NOCHmals sAgen. (-) 338 wAs ich NICHT bereit bin zu akzepTIEren. (-) FRIEden. (-) 339 FRIEden setzt vorAUs, 340 341 dass menschen nicht erMORdet, (--) 342dass menschen nicht verTRIEben, 343dass frauen nicht vergeWALtigt werden. Wie man sehen kann, erfüllen alle fünf Instanziierungen von nur das Kriterium, dass sie am Anfang einer Folgeäußerung stehen. Doch die übrigen Kriterien für Diskursmarker werden lediglich von den nur-Belegen in den Beispielen 5 bis 7 erfüllt, nicht aber in 3 und 4: In Beispiel 3 aus einer Radio-Talksendung ist nur ein integraler Bestandteil des Satzes, es besetzt die Vorfeldposition und ist somit als Adverb zu klassifizieren, genauer gesagt als Konjunktionaladverb, das dazu verwendet wird, eine einschränkende Aussage zu markieren. Hier verweist die Einschränkung der Anruferin (N) auf die Vorgängeräußerungen des Moderators (D), im Sinne von „Ich habe zwar einen Schock erlebt und die Begrenztheit des Lebens erahnt, nur sind seine Reaktionen so, dass…“. Noch eindeutiger ist der Fall in Beispiel 4 aus der ersten Staffel von Big Brother. Die SprecherInnen unterhalten sich darüber, dass vor allem blonde Frauen von RTL als Kandidatinnen für die Teilnahme ausgewählt wurden. Nur wird in Z. 1248 als Gradpartikel verwendet – es ist mit seinem Bezugswort „BLONde“ eng verbunden und bildet somit eine Konstituente des Satzes „Nur Blonde kamen hier rein“. Anders sieht es in Beispiel 5 aus einem psychologischen Radioratgebergespräch aus: 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 114 II Fallstudien Das nur steht dort außerhalb des Satzes, es könnte auch weggelassen werden, ohne dass der Satz ungrammatisch würde und es operiert auf der gesprächsstrukturierenden Ebene, ist also ein Diskursmarker. Dies lässt sich gut im Vergleich zu Beispiel 3 erfassen. In beiden Fällen geschieht etwas Ähnliches, es wird ein Kontrast zu Vorgängeräußerungen aufgebaut. In Beispiel 3 wird durch das Adverb nur aber eine enge, satzbezogene kontrastierende Verknüpfung hergestellt (X – nur Y). In Beispiel 5 dagegen ist die kontrastierende Verknüpfung eher gesprächsstrukturierend: Die Anruferin (A) bei der Lebensberatungssendung berichtet von einem früheren Anruf bei einer anderen Radiopsychologin und stimmt deren Rat in Z. 141 zu („und ich SEH des auch so“). Das nur baut dabei keinen Kontrast zu der Vorgängeräußerung auf, sondern wechselt das Thema, kündigt also eine neue Handlung an. Während die Anruferin zuvor davon geredet hat, dass sie selbst Trauerarbeit leisten muss, um den Tod ihrer Mutter zu überwinden, refokussiert sie nun auf ihre Tante (die Schwester ihrer Mutter), die deren Tod verleugnet, und rückt die Frage in den Mittelpunkt, wie sie ihrer Tante den Tod von deren Schwester erklären kann. Dies ist mit der Skopusausweitung gemeint: Das nur eröffnet einen neuen Gesprächsabschnitt und hilft den Interaktionspartnern dabei, diesem zu folgen. Die Weglassbarkeit wäre hier zwar syntaktisch betrachtet problemlos möglich, weil das nur aber wichtige gesprächsorganistorische Funktionen erfüllt, würde auf pragmatischer Ebene ein Bruch in der Handlungskohärenz entstehen. Diskursmarker sind somit also nur aus einer normgrammatischen, syntaxorientierten Perspektive weglassbar, aus einer pragmatischen dagegen durchaus notwendig. In Beispiel 6 erfüllt das nur die gleiche Funktion wie in Beispiel 5. Der Auszug stammt aus dem gleichen Gespräch, nur dass dieses Mal die Psychologin (B) es zur Themenrefokussierung einsetzt. Nachdem sie zunächst allgemein davon gesprochen hat, dass ein plötzlicher Tod eines Angehörigen für viele Menschen schwer ist, wechselt sie mit dem „nu:r“ in Z. 210 zu dem konkreten UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 114 Fall der Anruferin. Die Themenrefokussierung wird dabei zusätzlich durch die prosodische Markierung (Einatmen, Dehnung des nur, Pause, Realisierung in einer eigenen Intonationsphrase) hervorgehoben, und mit der Themenrefokussierung geht auch eine Handlungsveränderung einher: Die Psychologin wechselt von einer allgemeinen Darstellung nun auf die konkrete Analyse der Patientin, das nur kündigt dieser an, dass es nun für sie ‚ans Eingemachte’ geht. In Bezug auf die Prosodie von Diskursmarkern ist zu sagen, dass sie prosodisch hervorgehoben werden können, aber nicht müssen. Wie Barden/Elstermann/Fiehler (2001) zeigen, werden vor allem Diskursmarker, die mit anderen Wortarten verwechselt werden können, prosodisch markiert – vgl. „Aber ich habe morgen keine Zeit.“ (aber = koordinierende Konjunktion) vs. „A:ber. (--) Ich habe morgen keine Zeit.“ (aber = Diskursmarker). Bei den übrigen hat die Prosodie eine unterstützende, die Diskursreorganisation zusätzlich hervorhebende Funktion. Kommen wir schließlich zu Beispiel 7. Dieses zeigt, dass Diskursmarker auch in eher monologischen Passagen vorkommen, wie in diesem Fall einer Rede von Joschka Fischer vor dem Parteitag der Grünen. Für das Englische liegen bereits einige Arbeiten z. B. von Biber (2006) und Aijmer (2002) zum Diskursmarkergebrauch in Monologen vor. Beide stellten fest, dass Diskursmarker in monologischen und interaktionalen Kontexten gleich häufig vorkommen, dass aber andere Diskursmarker eingesetzt werden (z. B. ist der Diskursmarker now in englischen Monologen doppelt so häufig wie in Interaktionen, während in Interaktionen well dreimal so häufig ist wie in Monologen; vgl. Aijmer 2002). Vergleichbare Untersuchungen für das Deutsche stehen noch aus. Betrachtet man die Verwendung von „nUr“ von Joschka Fischer in Z. 337, so zeigt sich, dass dieses die gleiche gesprächsorganisierende Funktion hat wie das der Psychologin in Beispiel 6. Der Hintergrund der Rede von Fischer war die Kritik der Partei an der Kriegsbeteiligung im Bosnienkrieg. In einem längeren Absatz geht er auf die Entwicklung der politischen Lage ein, die seit der Koalitionsbildung mit 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Diskursmarker“ der SPD entstanden ist. Mit dem akzentuierten „nUr“ wechselt er dann von der Darstellung der allgemeinen politischen Situationsbeschreibung zu dem Zweck seiner Rede, der darin bestand, für eine Zustimmung des Parteitags zum Kriegseinsatz zu werben, wobei Fischer diese Frage zugleich auch zu einer Schicksalsfrage für ihn selbst gemacht hatte, indem er zu Beginn klarmachte, dass er bei einer Ablehnung seines Vorschlags entweder den Vorschlag ignorieren oder aus der Regierung austreten würde. Mit dem „nUr“ refokussiert er die Hörer von der Problemdarstellung auf sein Hauptanliegen der Rede, seine kompromisslose Unterstützung des Kriegseinsatzes. Die Notwendigkeit, neue sprachliche Handlungen anzuzeigen, ist also nicht auf interaktionale Kontexte beschränkt, sondern kommt auch in monologischer Sprache vor – im Übrigen auch, wie Imo (2016a) zeigt, in monologisch schriftlichen Texten – hierzu liegen allerdings noch kaum Forschungsergebnisse vor. Dass Diskursmarker auch in monologischen mündlichen und schriftlichen Kommunikaten vorkommen, ist aus interaktionslinguistischer Sicht nicht verwunderlich: Die oben genannten Kernanforderungen an Interaktion – Prozessorientierung, Situationsorientierung, Kooperationsorientierung und Handlungsorientierung – sind dabei zwar in unterschiedlich starkem Maße ‚zurückgefahren’, aber nicht völlig verschwunden. So verschwindet die Prozessorientierung in Bezug auf die ‚on line’-Produktion und Prozessierung (Auer 2002; 2007) von Sprache bei einem schriftlichen Text zwar fast völlig, aber die Sequenzialität – nun unter dem Stichwort Textkohärenz – bleibt weiterhin bestehen. Die Situationsorientierung geht ebenfalls zurück, Texte lösen sich von konkreten Kontexten und werden so entzeitlicht und entsituiert. Umgekehrt aber kommen in Romanen, in denen Rede wiedergegeben wird, oder in Dramen inszenierte Kontexte ins Spiel, die die Darstellung von Interaktion ermöglichen. Auch die Kooperations- und Handlungsorientierung nimmt ab, wobei beide allerdings in Bezug auf die intendierten Leser eine wichtige Rolle spielen: Texte sind zwar nicht im UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 115 115 engeren Sinne interaktional, aber immerhin dialogisch (zu einer ausführlichen Diskussion der Grenzen von Dialog und Interaktion vgl. das von Imo (2016b) herausgegebene ZGL-Themenheft „Dialogizität“), indem sie Verstehen und Leserreaktion steuern wollen und müssen. Diese Grauzone zwischen ‚echter’ Interaktion und reduzierter Interaktion bzw. Dialogizität und deren Grenzen ist bislang noch wenig erforscht. Die Erweiterung der Untersuchungsgegenstände der Interaktionalen Linguistik um schriftliche Daten – und die damit einhergehende Entwicklung einer Interaktionalen Schriftlinguistik (vgl. Imo/Lanwer 2019: Kap. 11) bzw. der Modellierung als „textformen-basierte Interaktion“ (Beißwenger 2020) – ist, wie oben erwähnt, eine aktuelle Tendenz. Zum Abschluss dieses Kapitels soll daher auf schriftlich realisierte Diskursmarker in heutigen und historischen Texten eingegangen werden. Nicht unerwartet ist, dass sich Diskursmarker in stark interaktional ausgerichteter Schriftlichkeit finden lassen, wie beispielsweise der Messengerkommunikation. Das obwohl in folgendem aus einer WhatsApp-Interaktion zwischen zwei befreundeten Studierenden entnommenen Beispiel funktioniert auf gleiche Weise wie das obwohl aus dem Gespräch zwischen dem Radiomoderator und der Anruferin aus Beispiel 2: Beispiel 8: obwohl als Diskursmarker Marie Mach Uni aber will nicht mehr dachte du hast vielleicht Lust auf einen Spaziergang 15:56 (Nachricht #1) Anna Fahre jetzt nach Hause , muss auch noch für ne Zwischenprüfung morgen lernen und was essen , aber können gern später was spazieren gehen :) 15:59 (Nachricht #2) Marie Ok kannst ja schreiben babe richt #3) 16:00 (Nach- (…) 24.03.22 11:06 116 II Fallstudien Anna Von mir aus können wir jetzt für ne halbe Stunde oder nach dem Lernen dann 16:59 (Nachricht #4) Marie Wie es dir besser passt Engel :) 16:59 (Nachricht #5) Marie Okee :) wie lange ca 17:00 (Nachricht #7) Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Anna Hmmmm dann lade ich jetzt mein Handy auf und lerne erst einmal ein bisschen ! 17:00 (Nachricht #6) Anna Obwohl lass uns doch lieber jetzt gehen , kann mich gerade eh nicht konzentrieren 17:01 (Nachricht #8) Marie Okeee 17:09 (Nachricht #9) Marie Soll ich jetzt zur Ecke laufen ? 17:09 (Nachricht #10) Nach dem Vorschlag von Marie, gemeinsam einen Spaziergang zu machen, sagt Anna in Nachricht 2 zu, führt aber an, dass sie erst noch etwas essen und lernen muss. Nach einer Stunde (dazwischen sind einige weitere Nachrichten zu anderen Themen gewechselt worden) signalisiert Anna, dass sie bereit für einen Spaziergang ist, allerdings offenbar noch nicht gelernt hat, weshalb sie zwei Alternativen anbietet (jetzt oder nach dem Lernen) (Nachricht 4). Marie gibt die Entscheidung an Anna zurück, die sich in Nachricht 6 für das Lernen entscheidet, was von Marie akzeptiert wird („Okee“; Nachricht 7). Direkt im Anschluss (Nachricht 8) revidiert Anna ihre Handlung allerdings wieder und wählt die erste Option aus. Diese Handlungsrevision wird von ihr mit dem Diskursmarker „Obwohl“ eingeleitet. Erweitert man erst einmal den Blick auf Diskursmarker im Geschriebenen, so öffnet sich damit auch das Feld in die historische Sprach- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 116 wissenschaft. Unter der Perspektive interaktionaler Linguistik kann man nun fragen, welche Aufgaben der Lesersteuerung typisch schriftliche Diskursmarker wie d. h., m.a.W., erstens etc. haben, welche Diskursmarker im Laufe der Jahrhunderte konventionalisiert wurden und welche in bestimmten Epochen in der gesprochenen Sprache weitverbreitet waren. Die interaktionslinguistische Perspektive kann dabei ein ‚Fenster’ in historische Mündlichkeit bereitstellen. Ein schönes Beispiel für einen historischen Diskursmarker, der bei Theodor Fontane sehr häufig in wiedergegebenen Interaktionen auftaucht, ist das heute eher selten in dieser Funktion zu findende Wort freilich. Der folgende Auszug stammt aus dem zweiten Kapitel von Effie Briest (zitiert nach der Gutenberg-Ausgabe https:// www.projekt-gutenberg.org/fontane/effi/ effi.html): Beispiel 9: freilich als Diskursmarker „Aber du sagtest doch, er sei Landrat.“ „Allerdings, Landrat. Und er heißt Geert von Innstetten, Baron von Innstetten.“ Alle drei lachten. „Warum lacht ihr?“ sagte Effi pikiert. „Was soll das heißen?“ „Ach, Effi, wir wollen dich ja nicht beleidigen und auch den Baron nicht. Innstetten, sagtest du? Und Geert? So heißt doch hier kein Mensch. Freilich, die adeligen Namen haben oft so was Komisches.“ „Ja, meine Liebe, das haben sie. Dafür sind es eben Adelige. Die dürfen sich das gönnen, und je weiter zurück, ich meine der Zeit nach, desto mehr dürfen sie sich’s gönnen. Aber davon versteht ihr nichts, was ihr mir nicht übelnehmen dürft. Wir bleiben doch gute Freunde. Geert von Innstetten also und Baron. Er ist geradeso alt wie Mama, auf den Tag.“ „Und wie alt ist denn eigentlich deine Mama?“ Die handlungsreorganisierende Funktion ist hier gut zu erkennen. Heute würde man an dieser Stelle in den meisten Regionen Deutschlands den Diskursmarker klar oder auch gut oder okay erwarten – doch die Funktionen sind die gleichen geblieben, da natürlich auch die Anforderungen an Interaktion 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Diskursmarker“ die gleichen geblieben sind: Als Effi den Namen des Landrats Baron von Innstetten erwähnt, der sich für sie interessiert, lacht Hertha, woraufhin Effi empört ist. Hertha verteidigt sich mit der Aussage „So heißt doch hier kein Mensch.“, um dann eine Korrektur einzuleiten: Adlige können durchaus auch hier komische Namen haben. Gehen wir noch weiter in die Geschichte zurück, so finden wir selbst bei einem eigentlich für artifizielle Barocksprache bekannten Autor wie Andreas Gryphius jede Menge Diskursmarker. Dass diese mit Interaktions- und Handlungsmanagement zusammenhängen, zeigt sich dabei schon in der Verteilung von Diskursmarkern in seinen Dramen. Diskursmarker kommen weitaus häufiger in den Komödien vor, in denen ‚einfache Leute’ sich miteinander unterhalten und viel ‚Alltägliches’ wie beispielsweise Streiten stattfindet. In den Tragödien dagegen, in denen in gesetzter Sprache von Adligen sozusagen kleine Monologe ausgetauscht werden, sind Diskursmarker entsprechend seltener – aber sie kommen dennoch vor. In einer kleinen Fallstudie (vgl. Imo 2016b) habe ich exemplarisch einmal aus interaktionslinguistischer Perspektive den Diskursmarkergebrauch in der Tragödie Leo Armenius, oder Fürsten=Mord von 1650 und der Komödie Absurda Comica. Oder Herr Peter Squentz von 1658 (hier zitiert nach Gryphius 2010) – auf das Vorkommen von Diskursmarkern untersucht. In Leo Armenius fanden sich die sechs Diskursmarker noch mehr, doch (2 x), glaubt diß, mit kurtzem und noch eins, in Peter Squentz mit elf Diskursmarkern doppelt so viele (nur (2 x), mich düncket, das ist, ich sag euch das, nun (3 x), schau und doch schau (2 x)). Wenn man den Gebrauch von nur in Beispiel 10 unten betrachtet, so fällt auf, dass dieser sich kaum vom heutigen gesprochenen Deutsch unterscheidet. Der folgende Auszug aus Peter Squentz (in dieser Komödie geht es darum, dass eine Reihe von einfachen Bürgern versuchen, für den Fürsten das Schauspiel Pyramus und Thisbe aufzuführen und in diesem Rahmen unzählige Fehler begehen und sich unbeholfen verhalten) ist einer Episode entnommen, in der Peter Squentz mit dem Mitspieler Kricks, der in der Aufführung von Pyramus und Thisbe den Mond spielt, dass dieser UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 117 117 den Mond mit einer Laterne darstellen soll. Zunächst verlangt Squentz von Kricks, dass dieser an einem Strick hängen müsse, da der Mond sich ja ebenfalls oben befindet. Kricks lehnt diesen Vorschlag ab, weil er Angst hat, zu fallen, und macht einen Gegenvorschlag: Beispiel 10: nur als Diskursmarker Kricks: Ja! wenn der Strick zuriesse / so fille ich herunter und bräche Hals und Bein. Besser ist es / ich stecke die Laterne auff eine halbe Picken / daß das Licht vmb etwas in die Höhe kommet. Peter Squentz: Nec ita malè. Nur das Licht in der Laterne muß nicht zu lang seyn / denn wenn sich Thisbe ersticht / muß der Mond seinen Schein verlieren / das ist / verfinstert werden / vnd das muß man abbilden mit Verleschung des Lichtes. Aber ad rem. Wie werden wir es mit der Wand machen? Der Vorschlag, den Mond mit einer an einem Stock befestigten Laterne darzustellen, wird von Squentz mit der lateinischen Phrase „Nec ita malè“ akzeptiert. Mit dem folgenden nur wird dann von ihm aber eine Handlungsrefokussierung eingeleitet, in diesem Fall ein Gegeneinwand: Der Stock darf nicht zu lang sein, da sonst die Verfinsterung des Mondes nicht möglich sei. Man kann hier gut sehen, dass der Diskursmarker außerhalb des Syntagmas steht (die Verwechslungsgefahr mit der Gradpartikel nur ist hier semantisch ausgeschlossen) und entsprechend eine Verstehensanweisung für die Interaktionspartner (und das zuhörende Publikum) liefert im Sinne von „Achtung, jetzt kommt ein Einwand!“ 5. Forschungsfragen und methodische Reflexion Die Interaktionale Linguistik hat – vor allem, wenn man die Konversationsanalyse als verwandten Ansatz hinzuzieht – bereits viele wertvolle Erkenntnisse über die interaktionale Struktur menschlicher Kommunikation erbracht. Doch wie dieser Überblick immer wieder angedeutet hat, gibt es noch zahlreiche offene Forschungsfragen (vgl. Imo 2016b): 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 118 II Fallstudien • Es ist immer noch unklar, wie viele und welche Diskursmarker es mit welcher Häufigkeit und mit welchen Funktionen in der mündlichen interaktionalen Sprache gibt. Dabei ist vor allem noch kaum erforscht, wie sich unterschiedliche Situationen (z. B. ein Bewerbungsgespräch gegenüber einer Lehrer-Schüler-Interaktion gegenüber einem Klatschgespräch etc.) unterscheiden und welche Parameter (Alter, formeller oder informeller Rahmen, Zahl der Gesprächsteilnehmer, Art der durchgeführten Aktivitäten, institutionelle Einbettung etc.) in welchem Ausmaß Einfluss auf Art, Zahl und Funktion von Diskursmarkern haben. Methodisch müssten für alle diese Interaktionskonstellationen jeweils wissenschaftlich begründete Datenkollektionen gebildet (z. B. ausgewogen verteilt nach Regionen, soziale Schicht, Geschlecht etc.) und diese analysiert und im Anschluss verglichen werden. Bei manchen Fragestellungen gelangt man entsprechend an die Grenzen dessen, was die Interaktionale Linguistik mit ihrer qualitativen Methode erreichen kann und es ist über Verbindungen mit quantitativen Ansätzen nachzudenken, um zu weiteren Erkenntnissen beispielsweise zu Auftretenshäufigkeiten und typischen Distributionen beispielsweise in bestimmten Gesprächstypen zu gelangen. • Der hier vorgestellte Ansatz der Interaktionalen Linguistik beschäftigt sich vorrangig mit gesprochener interaktionaler Sprache als dem verbreitetsten Ort von Interaktion. Noch in den Anfängen (auch was die Reflexion des dafür notwendigen methodischen Inventars angeht) steckt Forschung zu interaktionaler geschriebener Sprache, die durch das Aufkommen computervermittelter bzw. internetbasierter Kommunikation populär wurde. Zudem ist zu fragen, wo die Grenzen des Aufgabengebiets der Interaktionalen Linguistik liegen: Wie erwähnt wurde, tauchen Diskursmarker auch in monologischen gesprochenen und geschriebenen Kommunikaten auf. Zu fragen ist dabei: Welche interaktionalen Funktionen erfüllen diese Diskursmarker dort? Dienen sie dazu, mündlich-interaktionale Strukturen nachzubilden (wie z. B. im Drama oder in Redesze- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 118 nen in Romanen)? Oder dienen sie der Lesersteuerung, ‚interagiert’ also ein Autor mit einem ihm nicht bekannten und sichtbaren Leser? Worin unterscheiden sich Diskursmarker, die in monologischen Situationen gebraucht werden, von denen, die in interaktionalen Situationen vorkommen? An dieser Stelle könnten zur Erweiterung des methodischen und theoretischen Inventars der Interaktionalen Linguistik z. B. Bezugnahmen auf die Textlinguistik sinnvoll sein. • Der Blick in die Sprachgeschichte wurde bislang von der Interaktionalen Linguistik noch nicht gewagt – doch auch hier bietet sich der Ansatz an. Mit Hilfe der anhand von Analysen der Verwendungsweisen von Diskursmarkern im heutigen gesprochenen Deutsch gewonnenen Erkenntnisse über deren interaktionale Funktionsweisen kann man versuchen, Einblicke in die sprachliche Ausgestaltung von Interaktion in früheren Sprachstadien zu gewinnen. Zudem wird deutlich, dass das vermeintlich ‚neue’ Phänomen keines ist. Zu fragen ist, in welchen Texten erstmalig Strukturen auftauchen, die man aus heutiger Sicht als Diskursmarker bezeichnen würde, welche ‚Mode-Diskursmarker’ es gab, die nach einer Periode der Nutzung ausstarben und welche im Laufe der Zeit dagegen schriftsprachlich grammatikalisiert wurden (wie der textstrukturierende Diskursmarker m.a.W., der in dieser abgekürzten Form typisch für wissenschaftliche Texte ist, wobei er ausgesprochen als mit anderen Worten weiterhin auch in der Mündlichkeit verwendet wird – und das in beiden Fällen zur Handlungsrefokussierung, zur Einleitung einer Reformulierung. Bei der Analyse historischer interaktionaler Texte ist man gezwungen, sich zu einem großen Teil auf literarische Werke zu fokussieren. Auch dadurch entsteht der Bedarf der Ausweitung des theoretischen und methodischen Inventars der Interaktionalen Linguistik, um die besondere Eigenschaft literarischer Texte (Epochenstile, Genrestile, Autorenstile) zu erfassen und der Tatsache Rechnung zu tragen, dass literarische Interaktionen keine Transkripte authentischer gesprochener Sprache, sondern bewusst geformte und inszenierte Interaktionen sind. 24.03.22 11:06 Fallstudie „Diskursmarker“ 119 Zum Weiterlesen Empfehlenswerte Einführungen in die Konversationsanalyse stammen von ten Have (2007) (auf Englisch) und von Auer/Bauer/Birkner/Kotthoff (2020) (auf Deutsch). Ein umfassendes ‚Textbook’ zur Interaktionalen Linguistik mit Analysebeispielen aus zahlreichen Sprachen liegt mit „Interactional Linguistics“ von Couper-Kuhlen/Selting (2018) vor. Für das Deutsche ist zu dem Thema eine Monographie von Imo (2013) und ein Einführungsbuch von Imo/Lanwer (2019) erschienen, und einen Überblick über unterschiedliche Forschungsperspektiven auf Diskursmarker gibt der im Online-Verlag Gesprächsforschung als Open-AccessPublikation herausgegebene Sammelband „Diskursmarker im Deutschen: Reflexionen und Analysen“ von Blühdorn/Deppermann/Helmer/Spranz-Fogasy (2017). Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Literatur Aijmer, Karin (2002): English discourse particles, Amsterdam: Benjamins. Auer, Peter (1999): Sprachliche Interaktion, Tübingen: Niemeyer. Auer, Peter (2002): On line-Syntax – Oder: was es bedeuten könnte, die Zeitlichkeit der mündlichen Sprache ernst zu nehmen, in: Sprache und Literatur, Jg. 85, H. 31, S. 43–56. Auer, Peter (2007): Syntax als Prozess, in: Hausendorf, Heiko (Hrsg.), Gespräch als Prozess: Linguistische Aspekte der Zeitlichkeit verbaler Interaktion, Tübingen: Narr, S. 95–124. Auer, Peter/Susanne Günthner (2004): Die Entstehung von Diskursmarkern im Deutschen – ein Fall von Grammatikalisierung?, in: Leuschner, Torsten/Tanja Mortelsmans (Hrsg.), Grammatikalisierung im Deutschen, Berlin: de Gruyter, S. 335–362. Auer, Peter/Angelika Bauer/Karin Birkner/Helga Kotthoff (2020): Einführung in die Konversationsanalyse, Berlin: de Gruyter. Bahlo, Nils (2010): uallah und/oder ich schwöre. Jugendsprachliche expressive Marker auf dem Prüfstand, in: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion, Bd. 11, S. 101–122. Barden, Birgit/Mechthild Elstermann/Reinhard Fiehler (2001): Operator-Skopus-Strukturen in gesprochener Sprache, in: Lidtke, Frank/Franz Hundsnurscher (Hrsg.), Pragmatische Syntax, Tübingen: Niemeyer, S. 197–232. Becker-Mrotzek, Michael/Gisela Brünner (2006): Gesprächsanalyse und Gesprächsführung: Eine Unterrichtsreihe für die Sekundarstufe II, Radolfzell: Verlag für Gesprächsforschung. Beißwenger, Michael (2007): Sprachhandlungskoordination in der Chat-Kommunikation. Berlin/New York: de Gruyter. Beißwenger, Michael (2016): Praktiken in der internetbasierten Kommunikation, in: Deppermann, Arnulf/Helmuth Feilke/Angelika Linke (Hrsg.), Sprachliche und kommunikative Praktiken (= Jahrbuch 2015 des Instituts für Deutsche Sprache), Berlin/ New York: de Gruyter, S. 279–310. Beißwenger, Michael (2020): Internetbasierte Kommunikation als Textformen-basierte Interaktion: ein neuer Vorschlag zu einem alten Problem, in: Henning Lobin/Konstanze Marx/Axel Schmidt (Hrsg.), UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 119 Deutsch in sozialen Medien: interaktiv, multimodal, vielfältig (= Jahrbuch 2019 des Leibniz-Instituts für Deutsche Sprache), Berlin/Boston: de Gruyter, S. 291–318. Beißwenger, Michael/Wolfgang Imo/Marcel Fladrich/Evelyn Ziegler (2019): https://www.mocoda2.de: a database and web-based editing environment for collecting and refining a corpus of mobile messaging interactions, in: European Journal of Applied Linguistics, Jg. 7, H. 2, S. 333–344. Bergmann, Jörg (2010): Ethnomethodologische Konversationsanalyse, in: Hoffmann, Ludger (Hrsg.), Sprachwissenschaft. Ein Reader, Berlin/New York: de Gruyter, S. 258–274. Biber, Douglas (2006): University Language: A corpusbased study of spoken and written registers, Amsterdam: Benjamins. Blühdorn, Hardarik/Arnulf Deppermann/Henrike Helmer/Thomas Spranz-Fogasy (Hrsg.) (2017): Diskursmarker im Deutschen: Reflexionen und Analysen, Göttingen: Verlag für Gesprächsforschung. Bührig, Kristin (2009): Konnektivpartikel, in: Hoffmann, Ludger (Hrsg.), Handbuch der deutschen Wortarten, Berlin: de Gruyter, S. 525–544. Couper-Kuhlen, Elizabeth/Margret Selting (2000): Argumente für die Entwicklung einer ‚interaktionalen Linguistik’, in: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion, Bd. 1, S. 76-95. Couper-Kuhlen, Elizabeth/Margret Selting (2001a): Forschungsprogramm ‚Interaktionale Linguistik’, in: Linguistische Berichte, Bd. 187, S. 257–287. Couper-Kuhlen, Elizabeth/Margret Selting (eds.) (2001b): Studies in Interactional Linguistics, Amsterdam: John Benjamins Publishing Company. Couper-Kuhlen, Elizabeth/Margret Selting (2018): Interactional Linguistics, Cambridge: Cambridge University Press. Deppermann, Arnulf (2001): Gespräche analysieren, Opladen: Leske + Budrich. Deppermann, Arnulf (2015): Pragmatik revisited. In: Ludwig M. Eichinger (Hg.): Sprachwissenschaft im Fokus. Berlin, S. 323-352. Deppermann, Arnulf/Reinhold Schmitt (2008): Verstehensdokumentation: Zur Phänomenologie von Verstehen in der Interaktion, in: Deutsche Sprache, Bd. 3, S. 220–245. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 120 II Fallstudien Deppermann, Arnulf, Helmuth Feilke und Angelika Linke (Hg.) (2016): Sprachliche und kommunikative Praktiken. Berlin. Deppermann, Arnulf/Henrike Helmer (2013): Inferenzen anzeigen und Handlungskonsequenzen ziehen mit also und dann, in: Zeitschrift für Sprachwissenschaft, Bd. 32, S. 1–40. Dittmar, Norbert (2002): Lakmustest für funktionale Beschreibungen am Beispiel von auch (Fokuspartikel, FP), eigentlich (Modalpartikel, MP) und also (Diskursmarker, DM), in: Fabricius-Hansen, Cathrine/Odleif Leirbukt/Ole Letnes (Hrsg.), Modus, Modalverben, Modalpartikel, Trier: Wissenschaftlicher Verlag, S. 142–177. Dürscheid, Christa (2005): Medien, Kommunikationsformen, kommunikative Gattungen, in: Linguistik online, Bd. 22, S. 1–14. Dürscheid, Christa (2015): Neue Dialoge – alte Konzepte? Die schriftliche Kommunikation via Smartphone, in: Zeitschrift für germanistische Linguistik, Bd. 44, S. 437–468. Dürscheid, Christa (2016): Nähe, Distanz und neue Medien, in: Feilke, Helmut/Mathilde Hennig (Hrsg.), Zur Karriere von ‚Nähe und Distanz’, Berlin/ Boston: de Gruyter, S. 357–385. Esser, Hartmut (2002): Soziologie: Spezielle Grundlagen. Band 6: Sinn und Kultur, Frank-furt/Main: Campus. Fiehler, Reinhard (2015): Die Vielfalt der Besonderheiten gesprochener Sprache – und zwei Beispiele, wie sie für den DaF-Unterricht geordnet werden kann: Gesprächspartikeln und Formulierungsverfahren, in: Imo, Wolfgang/Sandro M. Moraldo (Hrsg.), Interaktionale Sprache und ihre Didaktisierung im DaF-Unterricht, Tübingen: Stauffenburg, S. 23– 44. Fraser, Bruce (1990): An Approach to Discourse Markers, in: Journal of Pragmatics, Bd. 14, S. 383–395. Freywald, Ulrike (2008): Zur Syntax und Funktion von dass-Sätzen mit Verbzweitstellung, in: Deutsche Sprache, Bd. 36, S. 246–285. Freywald, Ulrike (2018): Parataktische Konjunktionen. Zur Syntax und Pragmatik der Satzverknüpfung im Deutschen – am Beispiel von obwohl, wobei, während, wogegen und dass, Tübingen: Stauffenburg. Gohl, Christine/Susanne Günthner (1999): Grammatikalisierung von weil als Diskursmarker in der gesprochenen Sprache, in: Zeitschrift für Sprachwissenschaft, Jg. 18, H. 1, S. 39–75. Gryphius, Andreas (2010): Gesammelte Werke. Frankfurt/Main: Fischer. Günthner, Susanne (1993): ‚. . . weil - man kann es ja wissenschaftlich untersuchen’ - Diskurspragmatische Aspekte der Wortstellung in WEIL-Sätzen, in: Linguistische Berichte, Bd. 143, S. 37–59. Günthner, Susanne (1999a): Wenn-Sätze im Vor-Vorfeld: Ihre Formen und Funktionen in der gesprochenen Sprache, in: Deutsche Sprache, Bd. 3, S. 209–235. Günthner, Susanne (1999b): Entwickelt sich der Konzessivkonnektor obwohl zum Diskursmarker?, in: Linguistische Berichte, Bd. 180, S. 409–446. Günthner, Susanne (2000a): Vorwurfsaktivitäten in der Alltagsinteraktion. Tübingen: Niemeyer. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 120 Günthner, Susanne (2000b): Grammatik im Gespräch: Zur Verwendung von ‚wobei’ im gesprochenen Deutsch, in: Sprache und Literatur, Jg. 85, H. 31, S. 57-74. Günthner, Susanne (2001): ‚wobei (.) es hat alles immer zwei seiten.’ Zur Verwendung von wobei im gesprochenen Deutsch, in: Deutsche Sprache, Bd. 4, S. 313– 341. Günthner, Susanne (2002): Konnektoren im gesprochenen Deutsch – Normverstoß oder funktionale Differenzierung?, in: Deutsch als Fremdsprache, Jg. 39, H. 2, S. 67–74. Günthner, Susanne (2008): ‚weil – es ist zu spät’. Geht die Nebensatzstellung im Deutschen verloren?, in: Denkler, Markus et al. (Hrsg.), Frischwärts und Unkaputtbar. Sprachverfall oder Sprachwandel im Deutschen?, Münster: Aschendorff, S. 103–128. Günthner, Susanne (2011): Zur Dialogizität von SMSNachrichten – eine interaktionale Perspektive auf die SMS-Kommunikation, in: Networx, Bd. 60, S. 1–40. Günthner, Susanne (2012): ‚Lupf meinen Slumpf’ – die interaktive Organisation von SMS-Dialogen, in: Meier, Christian/Ruth Ayaß (Hrsg.), Sozialität in Slow Motion, Wiesbaden: VS Verlag für Sozialwissenschaften, S. 353–374. Günthner, Susanne (2014): Die interaktive Gestaltung von SMS-Mitteilungen – Aspekte der interaktionalen Matrix chinesischer und deutscher SMS-Dialoge, in: Networx, Bd. 64, S. 129–148. Günthner, Susanne (2015): Diskursmarker in der Interaktion – zum Einbezug alltagssprachlicher Phänomene in den DaF-Unterricht, in: Imo, Wolfgang/ Sandro M. Moraldo (Hrsg.), Interaktionale Sprache und ihre Didaktisierung im DaF-Unterricht, Tübingen: Stauffenburg, S. 135-164. Günthner, Susanne (2017): Die kommunikative Konstruktion von Kultur: Chinesische und deutsche Anredepraktiken im Gebrauch, in: Zeitschrift für Angewandte Linguistik, Bd. 66, S. 1–29. Günthner, Susanne/Wolfgang Imo (2003): Die Reanalyse von Matrixsätzen als Diskursmarker. ich meinKonstruktionen im gesprochenen Deutsch, in: Orosz, Magdolna/Andreas Herzog (Hrsg.), Jahrbuch der Ungarischen Germanistik 2003, Budapest/ Bonn: DAAD, S. 181–216. Günthner, Susanne und Gurly Schmidt (2001): Stilistische Verfahren in der Welt der Chat Groups. In: Inken Keim und Wilfried Schütte (Hg): Soziale Welten und kommunikative Stile. Tübingen, S. 315-338. Hartung, Nele (2012): Und-Koordination in der frühen Kindersprache, Dissertation an der Philosophischen Fakultät, Eberhard Karls Universität Tübingen. Hartung-Schaidhammer, Nele (2012): The role of the Discourse Marker UND in German L1-acquisition, in: Macaulay, Marcia/Pilar Blitvich (eds.), Pragmatics & Context, Toronto: Antares, S. 43-72. Heritage, John/Marja-Leena Sorjonen (1994): Constituting and maintaining activities across sequences: And-prefacing as a feature of question design, in: Language in Society, Bd. 23, H. 1, S. 1–29. Imo, Wolfgang (2007): Construction Grammar und Gesprochene-Sprache-Forschung: Konstruktionen mit 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Diskursmarker“ zehn matrixsatzfähigen Verben im gesprochenen Deutsch, Tübingen: Niemeyer. Imo, Wolfgang (2012a): „Fischzüge der Liebe“: Liebeskommunikation in deutschen und chinesischen SMS-Dialogen, in: Linguistik Online, Bd. 56, S. 19–36. Imo, Wolfgang (2012b): Wortart Diskursmarker?, in: Rothstein, Björn (Hrsg.), Nicht-flektierende Wortarten, Berlin: de Gruyter, S. 48-88. Imo, Wolfgang (2013): Sprache in Interaktion: Analysemethoden und Untersuchungsfelder, Berlin/Boston: de Gruyter. Imo, Wolfgang (2015a): Vom Happen zum Häppchen... Die Präferenz für inkrementelle Äußerungsproduktion in internetbasierten Messengerdiensten, in: Networx, Bd. 69, S. 1–35. Imo, Wolfgang (2015b): Vom ikonischen über einen indexikalischen zu einem symbolischen Ausdruck? Eine konstruktionsgrammatische Analyse des Emoticons :-), in: Bücker, Jörg/Susanne Günthner/ Wolfgang Imo (Hrsg.), Konstruktionsgrammatik V, Tübingen: Stauffenburg, S. 133–162. Imo, Wolfgang (2016a): Diskursmarker: grammatischer Status – Funktionen in monologischen und dialogischen Kontexten – historische Kontinuität, in: Arbeitspapierreihe Sprache und Interaktion SpIn, Bd. 65, S. 1–35, [online] https://arbeitspapiere. sprache-interaktion.de/. Imo, Wolfgang (Hrsg.) (2016b): Dialogizität, Sonderheft der Zeitschrift für germanistische Linguistik, Bd. 44. Imo, Wolfgang (2017): Interaktionale Linguistik und die qualitative Erforschung computervermittelter Kommunikation, in: Beißwenger, Michael (Hrsg.), Empirische Erforschung internetbasierter Kommunikation, Berlin/New York: de Gruyter, S. 81–108. Imo, Wolfgang (2019): Das Medium ist die Massage: Interaktion und ihre situativen und technischen Rahmenbedingungen. In: Konstanze Marx und Axel Schmidt (Hg.): Interaktion und Medien. Heidelberg: Winter, S. 35-58. Imo, Wolfgang/Jens Philip Lanwer (2019): Interaktionale Linguistik: eine Einführung, Stuttgart: Metzler. König, Katharina (2012): Formen und Funktionen von syntaktisch desintegriertem deswegen im gesprochenen Deutsch, in: Gesprächsforschung – OnlineZeitschrift zur verbalen Interaktion, Bd. 13, S. 45–71. König, Katharina (2015a): ‚Muss leider absagen. Muss noch nen referat fertig machen.’ – Zur Dialogizität von Absagen und Verabredungsablehnungen in der SMS-Kommunikation, in: Linguistik Online, Bd. 70, S. 143–166. König, Katharina (2015b): Dialogkonstitution und Sequenzmuster in der SMS- und WhatsApp-Kommunikation, in: Travaux neuchâtelois de linguistique, Bd. 63, S. 87–107. König, Katharina/Tim Moritz Hector (2017): Zur Theatralität von WhatsApp-Sprachnachrichten, in: Networx, Bd. 79, S. 1–41. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 121 121 Lanwer, Jens Philip (2018): Grammatikalität und Rekurrenz. Zur Rolle statistischer Verfahren im Rahmen einer ‚rekonstruktiven’ Linguistik, in: Albert, Georg/ Sabien Diao-Klaeger (Hrsg.), Mündlicher Sprachgebrauch zwischen Normorientierung und pragmatischen Spielräumen, Tübingen: Satuffenburg, S. 232–253. Lenk, Uta (1998): Discourse markers and global coherence in conversation, in: Journal of Pragmatics, Bd. 30, S. 245–257. Mazeland, Harrie/Mike Huiskes (2001): Dutch ‚but’ as a sequential conjunction, in: Selting Margret/Elizabeth Couper-Kuhlen (eds.), Studies in Interactional Linguistics, Amsterdam: Benjamins, S. 141–169. Ono, Tsuyoshi/Sandra A. Thompson (1995): What can conversation tell us about syntax?, in: Dawis, Philip W. (ed..), Descriptive and theoretical modes in the alternative linguistics, Amsterdam: John Benjamins, S. 213–271. Proske, Nadine (2014): Die Partikel komm zwischen Interjektion und Diskursmarker, in: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion, Bd. 15, S. 121–160. Schegloff, Emanuel A. (2007): Sequence organization in interaction. Cambridge: Cambridge University Press. Schegloff, Emanuel A./Elinor Ochs/Sandra A. Thompson (1996): Introduction, in: Schegloff, Emanuel A./Elinor Ochs/Sandra A. Thompson (eds.), Interaction and Grammar, Cambridge: Cambridge University Press, S. 1–51. Schiffrin, Deborah (1987): Discourse Markers, Cambridge: Cambridge University Press. Schönfeldt, Juliane (2002): Die Gesprächsorganisation in der Chat-Kommunikation, in: Beißwenger, Michael (Hrsg.), Chat-Kommunikation, Stuttgart: Ibidem, S. 25–53. Schönfeldt, Juliane/Andrea Golato (2003): Repair in chats: A conversation analytic approach, in: Research on Language and Social Interaction, Bd. 36, S. 241–284. Stukenbrock, Anja (2013): Sprachliche Interaktion, in: Auer, Peter (Hrsg.), Sprachwissenschaft: Grammatik – Interaktion – Kognition, Stuttgart: J.B. Metzler, S. 217–259. ten Have, Paul (2007): Doing Conversation Analysis, London: Sage. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 26. März 2021. Eine Open-Access-Version dieses Kapitels mit farbiger Wiedergabe der in den Beispielen enthaltenen Emoji-Grafiken kann online abgerufen werden: https://www.utb.de/doi/book/10.36198/ 9783838557113 24.03.22 11:06 122 7. Emotion und Sprachgebrauch: Ein linguistischer Beitrag zur Entstehungsgeschichte des Nationalsozialismus Der Beitrag lässt sich hinsichtlich seines Gegenstands dem Bereich ‚Sprache und Emotion’ zuordnen. Seine Fragestellung bezieht sich auf die Kodierung von Gefühlen und auf deontisch markierte Ausdrücke. Datengrundlage sind Texte, die bisher von der Linguistik noch nicht erschlossen wurden. Es sind Berichte von Nationalsozialist*innen, die ihren Weg zur NSDAP schildern, in die sie in der späten Weimarer Republik eintraten. Der Beitrag analysiert diese Texte mit einem quantitativ-qualitativen Ansatz, indem er danach fragt, welche Gefühlsbezeichnungen in den untersuchten Texten verwendet werden und worauf sie referieren. Die Beantwortung dieser Fragen besteht in der Darstellung der lexikalisch-semantischen Kodierung von Gefühlen seitens der positiv und negativ emotionalisierten NS-affinen Mitglieder der Gesellschaft. Er leistet damit einen linguistischen Beitrag zur Entstehungsgeschichte des Nationalsozialismus. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Heidrun Kämper 1. Einleitung Über den Nationalsozialismus (NS), seine Entstehung und Geschichte, seine Akteur *innen und deren Verbrechen sowie über den Sprachgebrauch 1933 bis 1945 wurde umfassend und detailliert geforscht. Wir wissen viel über den NS, auch in sprachlicher Hinsicht (vgl. dazu Kämper 2019). Die sprachwissenschaftlichen Ansätze fragen vor allem nach dem Wortschatz, auch nach der Metaphorik und nach Euphemismen (vgl. Forster 2009; Musolff 2011). Klassische Gegenstände der Sprachwissenschaft und Sprachgeschichte sind Reden (vgl. Kegel 2006; Kopperschmidt 2003). Ebenso der sprachliche Einfluss des NS-Regimes in Wörterbüchern und Schulbüchern wurde erforscht (vgl. Haß-Zumkehr 2001; Mückel 2005; Kunc 2015; Vorein 2008). Darüber hinaus wurden typische sprachliche Handlungen, wie z. B. der Befehl, untersucht (vgl. Düring 2013). Der umfassende Beitrag von Christian Braun (2007) präsentiert den Gegenstand im Sinn eines stilistischen Zugangs. 1 Dennoch weist die Forschung Lücken auf. Zwar ist der Hinweis Peter von Polenz’, dass notwendig zwischen Sprache des und Sprache im Nationalsozialismus zu unterscheiden ist (vgl. von Polenz 1999, 547), zustimmend aufgenommen worden, jedoch wurde er bisher nicht konsequent umgesetzt. So ist die Unterscheidung nach Akteuren, im Sinne von Polenz’, ein Desideratum, das erst in der jüngsten Gegenwart berücksichtigt wird (vgl. Kämper 2018).1 Mit dieser Erweiterung des linguistischen Horizonts entsteht ein realistischeres und detaillierteres Bild der sprachlichen Wirklichkeit dieser Zeit. Sprachgebrauch 1933 bis 1945 fand nicht zuletzt in dem kommunikativen Raum von Verheißen und Versprechen seitens des NS-Apparats statt, mit emotionalen Effekten wie Liebe, Hass, Erwartung, Hoffnung, Enttäuschung, Sorge, Angst. Diese emotionalen Paradigmen haben jeweils einen mehr oder weniger festen Platz auf einer Zeitschiene von 1933 bis 1945 und lassen sich kontextualisieren mit spezifischen Ereignissen. Der nachfolgende Beitrag rekonstruiert diese Relation in Bezug auf die Jahre Eine Unterscheidung von Akteur*innen nach den Kategorien NS-Apparat, Integrierte Gesellschaft, Ausgeschlossene, Widerstand und die Differenzierung der Akteursgruppe Integrierte Gesellschaft weiterhin nach NS-affin, indifferent und dissident, erschließt ein präziseres Bild der sprachlichen Wirklichkeit, als die bisherige Beschränkung auf Hauptakteure wie Hitler und Goebbels (vgl. Kämper 2018). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 122 24.03.22 11:06 der „Erwartung“, als noch kein Krieg, keine Luftangriffe und keine Notwirtschaft die Haltung zum NS mit Enttäuschung, Sorge und Angst geprägt haben. Anzunehmen ist, dass gerade in der sog. „Bewegungsphase“ der Nationalsozialistischen Deutschen Arbeiterpartei (NSDAP), der Phase des Aufstiegs zwischen Mitte der 1920er Jahre bis zur Machtübergabe 1933, Emotion und Affekt von großer, den NS stabilisierender Bedeutung waren. Im Folgenden interessiert jedoch nicht diese Phase selbst, sondern ihre retrospektive sprachliche Konstituierung seitens der NSDAP-Mitglieder nach 1933, also nach dem aus Sicht dieser Akteure erfolgreichen Ende des „Kampfes“. 2. Fragestellung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emotion“ Die Geschichts- und Sozialforschung macht deutlich, dass ein emotionsgeschichtlicher Ansatz hohes Erklärungspotenzial hat. Er kann dazu beitragen zu erklären, worauf sich die Zustimmung zum NS im gesellschaftlichen Sozialgefüge gründet. Ein kultur- und diskurslinguistischer Ansatz hat hier die Aufgabe, die sprachliche Umsetzung bzw. Repräsentation dieser Zustimmungsbereitschaft nachzuvollziehen, die in beträchtlichen Teilen der deutschen Zwischenkriegsgesellschaft vorhanden war und die sich in den untersuchten Texten als emotionalisierter sprachlicher Ausdruck dokumentiert. In Bezug auf unseren Gegenstand ‚Sprache und Emotion im NS’ ist daher zu fragen: Welche Gefühlsbezeichnungen werden in den untersuchten Texten verwendet? Worauf referieren sie? Die Beantwortung dieser Fragen besteht in der Darstellung und Beschreibung der kommunikativen Praktik und der lexikalisch-semantischen Kodierung von Gefühlen seitens der positiv und negativ emotionalisierten NS-affinen Mitglieder der integrierten Gesellschaft. Zu diesen Kodierungen zählen einerseits Gefühlsbezeichnungen im eigentli2 3 123 chen Sinn (wie Hass, Liebe, Begeisterung etc.), andererseits Bezeichnungen mit deontischem Potenzial (zur Erklärung des Begriffs siehe unten Abschnitt 3.2.2). Aus dieser konstitutiven Funktion von Gefühl als Macht verschaffender und stabilisierender Resonanzeffekt leitet sich die sprachgeschichtliche und kulturlinguistische Bedeutung von Gefühlskodierungen und -kommunikation in der „Bewegungsphase“ der NSDAP ab. 3. Material – Methode – Analyse 3.1 Material Der amerikanische Soziologe Theodore Fred Abel hatte im Jahr 1934 ein Preisausschreiben ausgelobt. Nationalsozialist*innen sollten darlegen, wie sie zum NS und zu Hitler kamen. Akteurssoziologisch sind es also die zum Zeitpunkt der Texterstellung NS-affinen Mitglieder der integrierten Gesellschaft, die sich hier äußern. In den Anweisungen an die Teilnehmenden bzgl. der Ausgestaltung ihrer Texte formulierte Abel einige Erwartungen: „Die Kandidaten sollen genaue und detaillierte Beschreibungen ihres persönlichen Lebens geben, speziell nach dem Weltkrieg. Besondere Aufmerksamkeit sollte den Darstellungen des Familienlebens, der Erziehung, der wirtschaftlichen Bedingungen, der Mitgliedschaft in Vereinigungen, der Teilnahme an der Hitler-Bewegung und den wichtigen Erfahrungen, Gedanken und Gefühlen über Ereignisse und Ideen der Nachkriegszeit gewidmet werden.“ (zit. nach Giebel 2018, 17)2 683 Berichte hat Abel bekommen, 581 davon sind erhalten. Für die Analyse wurden 45 der 82 in der 2018 erschienenen Printversion abgedruckten Texte digitalisiert und ausgewertet.3Als Material zur sprachgeschichtlichen Rekonstruktion haben diese Texte deshalb einen nicht zu überschätzenden Wert, Es ist bedauerlich, dass Abel relativ genaue Vorgaben gemacht hat. Linguistisch interessant wäre es gewesen, zu sehen, welche Episoden die Berichterstatter selbst für berichtenswert hielten. Es handelt sich um die ersten 45 Biogramme in Giebel 2018, 205-590. Diese waren zu dem Zeitpunkt, als die vorliegende Analyse verfasst wurde, digital zugänglich. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 123 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 124 II Fallstudien weil mit ihnen eine geschichtliche Grundannahme verifizierbar ist, die da lautet: Der Nationalsozialismus ist nicht zuletzt durch vorhandene oder hervorgerufene intensive Gefühle entstanden und hat seine Macht darauf aufgebaut und gesichert (vgl. u. a. Reichel 1996; Kershaw 1999). In sprachlicher Hinsicht lässt sich aus dieser Annahme ableiten, dass die Bezeichnung und der Ausdruck von Gefühlen zentrale Kennzeichen einer sprachlichen Sozialgeschichte der Jahre 1933 bis 1945 sind. Textlinguistisch zugeordnet besteht das Material aus Texten, die dem Vertextungsmuster Erzählung/Narration (im nichtliterarischen Sinn4) zugehören, mit – wie Bericht und Beschreibung – informativem, zugleich erlebnisbetont subjektivem Charakter.5 Als Strukturelemente einer Erzählung nennt die Narrationsforschung Thematisieren (im Sinn einer Eröffnung), Elaborieren (in Form des zurückblickenden Berichts) und Dramatisieren (mit pointierter Darstellung des Erlebnisses) sowie Abschließen. Sie werden generell mehr oder weniger musterhaft in Erzählungen realisiert, so auch in den hier untersuchten Texten: Die vorliegenden Texte thematisieren den Gegenstand ‚Mein Weg zur NSDAP’. Sie elaborieren dieses Thema als das erzählte Ereignis in „einer oder mehreren Ereignisphasen“ (Brinker/ Cölfen/Pappert 2014, 66). Jede dieser Phasen „enthält als Kern eine Ereignis- bzw. Handlungssequenz, die sich aus einer Komplikation und einer (Auf-)Lösung zusammensetzt“, einschließlich „situierende[r] Elemente und auf die erzählten Ereignisse selbst bezogene[r] Bewertungen (Evaluationen)“ (ebd.). Die „Komplikation“ besteht in den hier untersuchten Berichten in der Darstellung des Widerstands gegen den NS und seine Repräsentant*innen, der etwa durch Kommunist*innen geleistet wurde und über den schematisch erzählt wurde. Die Funktion einer 4 5 6 Abschließung hat der Bericht von der Ernennung Hitlers zum Reichskanzler6 und die „zusammenfassende Einschätzung“ (ebd.) im Sinn eines Resümees. In den analysierten Texten wird in diesem Sinn am Schluss musterhaft ein Bekenntnis zu Hitler formuliert und das Versprechen, sich weiterhin für die Partei einzusetzen. Zentral sind die in allen Texten formulierten emotionalen Einstellungen und die entsprechenden Referenzbereiche, mit denen die Autor*innen die erzählten Sachverhalte bewerten, einerseits emotionsbezeichnend, andererseits durch deontisch geprägtes sprachliches Potenzial (s.u.). Emotionalität ist generell ein Kennzeichen von Erzählungen bzw. narrativen Texten: „Relevanzsetzungen des Erzählers ergeben sich weniger aus den Ereignissen selbst als aus den damit verbundenen Emotionen und Bewertungen. [...] Das Vorhandensein oder Fehlen von Emotionalität wird im allgemeinen als Kriterium für die Unterscheidung zwischen Erzählung und Bericht angenommen.“ (Gülich/Hausendorf 2008, 374) Ichbeteiligung ist hier das ausschlaggebende Kriterium der Erzählung, hinzu kommen „Wichtigkeit der thematisierten Sachverhalte für die Menschheit bzw. die Gesellschaft“, „Wichtigkeit für die eigene Person“, „Grad der Überzeugtheit von der eigenen Position“, „gesteigerte Betroffenheit“ (vgl. Jahr 2000, 33-35). 3.2 Methode Die 45 ausgewerteten Texte liegen in digitalisierter Form als elektronisches Korpus vor. Die Auswertung erfolgt nach der Unterscheidung Tognini-Bonellis zwischen eher korpusgestützt (corpus-based) und als aus dem Korpus abgeleitet (corpus-driven) (vgl. Tognini-Bonelli Zur Unterscheidung zwischen literarischem und nicht-literarischem Erzählen vgl. Ehlich 2007, 374-377. „Eine ‚Erzählung’ ist die in Form einer Diskurseinheit realisierte verbale Rekonstruktion eines Ablaufs realer oder fiktiver Handlungen oder Ereignisse, die im Verhältnis zum Zeitpunkt des Erzählens zurückliegen oder zumindest (wie z. B. in Zukunftsromanen) als zurückliegend dargestellt werden“ (Gülich/Hausendorf 2008, 373). Dieser Ausgang wirft die nicht beantwortbare Frage auf, mit welchem Gefühlslexikon die Berichte ausgestattet wären, wenn die NSDAP bedeutungslos geblieben wäre. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 124 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emotion“ 2001; vgl. Virtanen 2009, 1047). Dieser Unterscheidung folgt mit methodischer Fragestellung der zwischen quantitativ und qualitativ, wobei inzwischen als geklärt betrachtet werden kann, dass erst beide Analyseansätze zusammengenommen und kombiniert ein vollständiges Bild ergeben: Die qualitativ orientierte Analyse eines einen Diskurs symptomatisch repräsentierenden Textes erbringt erst auf der Grundlage quantitativ ermittelter Erkenntnisse valide Befunde und umgekehrt (vgl. Bubenhofer 2013, 109). Eine Leitfrage korpuslinguistischer Verfahren ist die nach sprachlichen Mustern (vgl. Bubenhofer 2009, 2015) im Sinn einer „korpusorientierte[n] Diskurslinguistik“ (Spitzmüller/Warnke 2011, insbes. S. 36).7 Abgesehen davon, dass der Diskurs ein nach bestimmten forschungsspezifischen Strukturkriterien organisiertes Archiv von Sprachdaten darstellt, geht es in dieser Perspektive nicht notwendigerweise, wie bei der Korpuslinguistik, um die Verarbeitung großer Datenmengen, es ist u.U. sogar nur ein einzelner Text, der den Diskurs auf spezifische, musterhafte Weise repräsentiert (vgl. Fix 2015; Kämper 2007). Hier sind es hermeneutische Fragestellungen, die es erlauben, einzelne Texte als Diskursrepräsentationen zu bewerten, Diskurslinguist*innen werten ihre Analysen der Sprachdaten mit Vorwissen aus. Dazu gehört Kontextwissen, historisches Wissen, Autorwissen etc. Die Methode der Analyse ist also ein Zusammenschluss eines quantitativen und eines qualitativ-hermeneutischen Verfahrens. Frequenzanalysen werden dabei mit 7 8 9 125 klassischen Fragen eines Textverstehens (durchaus auch im Sinn von close reading) kombiniert.8 Dieses Textverstehen lässt sich in der Formel „Erkennen von etwas1 als etwas2“ (Hermanns 2003, 133) ausdrücken und ist ein komplexer Prozess, der auf unterschiedlichen Ebenen Verstehensvoraussetzungen herstellt. Im Sinn einer linguistischen Hermeneutik (vgl. Hermanns 2003) gehört dazu insbesondere die Frage nach dem Autor bzw. der Autorin, nach der Situation, in der der Text produziert wurde, nach der Funktion des Textes. 3.2.1 Emotionen – Expression im politischen Kontext Emotionen sind kultur-, gruppen-, klassen-, generations- und geschlechtsspezifisch (vgl. Francois/Siegrist/Vogel 1995, 19), haben also eine historische und eine akteursabhängige Prägung.9 Während Geschichte, Soziologie und Anthropologie der Emotionen untersuchen, wie und warum Emotionen im Rahmen der jeweiligen Kultur (Kultur als System kollektiver Sinnkonstruktion und Symbole verstanden) ihre Bedeutung bekommen (vgl. Francois/Siegrist/Vogel 1995, 21), fragt die Kulturlinguistik danach, wie diese Emotionen, verstanden „als Teil des Schemas der Weltinterpretation [...], mit dem die Menschen Wirklichkeit definieren und wahrnehmen“ (ebd. 21), kodiert werden und auf welche Sachverhalte Gefühlsäußerungen referieren. Diese Frage wurde bisher nicht auf den Gegenstand ‚Nationalsozialismus’ (als eine Version von Weltinterpretation) bezogen. Plam- Zwar handelt es sich bei 45 Texten um ein kleines Korpus. Dennoch sind im Sinn einer quantitativ-qualitativen Auswertung sprachliche Muster erkennbar und Frequenzen von Vorkommen einzelner Wörter oder Kollokationen feststellbar. Das close reading wird im Kontext der Digital Humanities seit Moretti (2013, deutsch 2016) dem sog. distant reading gegenübergestellt. Jänicke et al. (2015) stellen in ihrem State-of-the-art-Bericht die diversen manuellen und maschinellen Techniken von close und distant reading vor. Norbert Elias beschreibt diesen Sachverhalt als Zivilisationseffekt: „Sicher ist die Möglichkeit, Angst zu empfinden, genau wie die Möglichkeit, Lust zu empfinden, eine unwandelbare Mitgift der Menschennatur. Aber die Stärke, die Art und Struktur der Ängste, die in dem Einzelnen schwellen oder aufflammen, die hängen niemals allein von seiner Natur ab, und, zumindest in differenzierteren Gesellschaften, auch niemals von der Natur, in deren Mitte er lebt; sie werden letzten Endes immer durch die Geschichte und den aktuellen Aufbau seiner Beziehungen zu anderen Menschen, durch die Struktur seiner Gesellschaft bestimmt; und sie wandeln sich mit dieser“ (Elias 1939, 111). An diese Beobachtung schließt die vorliegende Studie insofern an, als sie zu den genannten Einflussfaktoren auch das politische System des auf Emotionen setzenden Nationalsozialismus/Totalitarismus/Diktatur zählt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 125 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 126 II Fallstudien per (2012) stellt fest, dass „es bisher nur erste Versuche [gibt], die Nationalismusforschung mit der Emotionsgeschichte zu verbinden“ (345). Die Forschung zum Nationalsozialismus hat mit der Arbeit von Kobusek (2017), der eine Auswahl von Frauen verfasster Biogramme aus der Abel-Sammlung zugrunde liegt, sowie mit der von Siemens (2017), die vor allem Texte aus dem Kontext der SA10 untersucht, zwei wichtige Beiträge vorgelegt. Die emotionale Dimension politischen Sprachgebrauchs ist ein generelles Phänomen, das in der Politolinguistik, in der Forschung zu politischer Kommunikation, zwar häufig ein erwähnter Aspekt ist,11 der gelegentlich auch beschrieben wird (vgl. Holly 1991; Niehr 1993; Diekmannshenke 2012). Ein eigens konzipierter Gegenstand ist das Thema aber nicht,12 insgesamt hat die Forschung in dieser Hinsicht gerade erst begonnen. Die Fragestellung bzgl. der sprachlichen Repräsentation von Emotionen führt zu einem Gegenstand, der zu den Grunderkenntnissen der Sprachwissenschaft zählt. In seinem die Darstellungs-, Ausdrucks- und Appellfunktion, resp. Symbol-, Symptom- und Signalfunktion des sprachlichen Zeichens systematisierenden Organonmodell berücksichtigt Karl Bühler (1931) mit den Kategorien der Ausdrucks- bzw. Symptomfunktion den emotionalen Aspekt von Sprachgebrauch: Die Ausdrucksfunktion des sprachlichen Zeichens ist es, „persönliche Gedanken und Empfindungen“ des Sprechers bzw. der Sprecherin zum Ausdruck zu bringen, in dieser Funktion ist das sprachliche Zeichen „Symptom (Anzeichen, Indicium) kraft seiner Abhängigkeit vom Sender“ (28).13 Diese, sich auf Gefühle beziehende funktionale Zuordnung stellt die Basis jeglichen Zugangs zu dem Gegenstand ‚Sprache und Emotion’ dar. Sie gibt auch die Kriterien für die Unterscheidung zwischen Emotionsbezeichnung (darstellende Funktion) und Emotionsausdruck (Ausdrucksfunktion) an (s.u.). In diesem Kontext steht ein früher lexikografischer Aufschlag der linguistischen Emotionsforschung. Mit ihrem Projekt eines Wörterbuchs des Gefühlswortschatzes der deutschen Sprache fokussieren Jäger/Plum (1988) den lexikalisch-semantischen Bestand des entsprechenden Wortschatzbereichs. Die pragmalinguistische Forschung zum Thema Gefühlsausdruck stellt darüber hinaus das kommunikative Moment als einen zentralen Aspekt dar, das insbesondere dann von hoher Relevanz ist, wenn es um Bezeichnung und Ausdruck von Kollektivgefühlen geht. Damit wird deutlich, dass Emotionen eine soziale, auch interaktive Dimension (vgl. Fiehler 2008) haben und Effekte von kommunikativen Ereignissen sein können. Im Fall der Kommunikation unter den Bedingungen des NS können wir wohl sogar sagen: Emotionen können machbar und steuerbar sein, wie ja die Psychologie der Massen ebenfalls annimmt (vgl. Diekmannshenke 2012, 319-323) – unter der Voraussetzung einer vorhandenen Disposition, die den Resonanzkörper von emotional markierten Steuerungsstrategien bildet. Eine weitere Perspektive der Emotionsforschung hat der kognitionstheoretische Ansatz erschlossen (vgl. Schwarz-Friesel 22013). Die einen Gegensatz herstellende Unterschei- 10 Die Sturmabteilung (SA) war die paramilitärische Kampforganisation der NSDAP. 11 Vgl. Hermanns 1996. 12 „Politische Kommunikation als Versuch einer rationalen Regelung der Aufgaben und Probleme sozialer Gemeinschaften scheint ohne Emotionen als soziale Phänomene interaktionalen Handelns nicht auszukommen. Speziell die Politolinguistik hat diese Tatsache zwar nie ignoriert, sie bislang aber noch nicht systematisch untersucht. Emotionen und Emotionalisierung erscheinen bislang eher als Teilaspekte denn als konstituierende Größen im Prozess politisch-kommunikativen Handelns“ (Diekmannshenke 2012, 332). Timo Bonengel (2012) untersucht „Manifestationen von Emotionen in ideologischer Sprache“ (S. 287) am Beispiel der Propagandaschrift „Maske und Gesicht“ (1935) von Hanns Johst. 13 Hermanns konkretisiert dieses Modell als einen Zusammenhang von Kognition, Emotion und Intention: Der Hörer „erkennt anhand der Zeigehandlung simultan ein Dargestelltes (Kognition des Sprechers) und ein Ausgedrücktes (Ausdruck des Sprechers) und auch ein Gewolltes (Intention des Sprechers). Und nur, wenn er alles dies erkennt, hat er verstanden, was der Sprecher meinte“ (Hermanns 1995, 133). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 126 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emotion“ dung zwischen Kognition und Emotion wird bei diesem Zugang aufgehoben. SchwarzFriesel unterscheidet, wie es in der Forschung weitgehend Konsens ist, zwischen Emotionsbezeichnung und Emotionsausdruck (vgl. Schwarz-Friesel 22013, 144-151).14 Unabhängig davon, dass eine Unterscheidung jedoch nicht immer eindeutig und gelegentlich problematisch ist (vgl. Ortner 2014, 205f. mit Angabe entsprechender Forschung), haben wir es bei dem hier untersuchten Material per se mit Texten zu tun, in denen Emotionen bezeichnet werden, in denen über Gefühle, also über denjenigen „Erlebensteil von Emotion [...], der bewusst und als subjektiver Zustand erfahrbar und sprachlich mitteilbar ist“ (Schwarz-Friesel 22013, 48) in Bezug auf konkrete Ereignisse oder Personen berichtet wird. Diese Ereignis- oder Personerfahrungen liegen in der erzählten Zeit, in einer mehrere Jahre zurückliegenden Vergangenheit. Es wird mithin retrospektiv von zum Zeitpunkt des Berichtens in der Vergangenheit existenten Gefühlslagen und emotionalen Zuständen in darstellender Weise berichtet. Daher wird im Folgenden Emotionsbezeichnung als übergeordneter Terminus verwendet, der unterschieden wird in Ausdrücke mit expressivem Potenzial und solche mit deontischem Potenzial (s.u.).15 Die Emotionskultur ist in langen Prozessen der Kommunikationsgeschichte historisch und sozial geprägt. Diese Prägung wird in den vorliegenden unter- 127 suchten Texten sichtbar. Da es sich aber in diesen Texten um mitgeteilte Emotionen handelt, deren Mitteilung eine bestimmte Funktion hat – nämlich die Begründung der Antwort, warum die berichtenden Personen Nazis wurden – liegt der emotionsgeschichtliche Wert in diesem Aspekt ihrer begründenden Funktion.16 3.2.2 Gefühlsausdruck als Bewertungseffekt Emotionen sind Ergebnisse von positiven bzw. negativen Bewertungshandlungen, Emotionsbezeichnungen kodieren diese Bewertungshandlungen. In der Emotionsforschung wird der Zusammenhang als Intensivierung beschrieben: „Was bei geringerer Intensität als Bewertung erscheint […], wird bei größerer Dynamik als emotionale Stellungnahme gedeutet“ (Fiehler 1990: 49). Daran anschließend bezieht Fiehler den Aspekt der Bewertung als Konstituente ein und definiert Emotionen als „punktuell ausgelöstes, intensives Erleben mit dynamischer Verlaufscharakteristik“ mit der „Funktion der bewertenden Stellungnahme“ (Fiehler 1990, 57; vgl. außerdem Sandig 2006: 249; Schwarz-Friesel 2013, 72f.17; Hülshoff 2012, 14). Insofern lässt sich mit Hermanns auch von „Attitude, Einstellung, Haltung“ (Titel von 2002) sprechen. Diese Kategorien bezeichnen Werthaltungen mit kognitivem (Überzeugungen in Bezug auf den Gegenstand), volitivem (Wollen in Bezug auf einen Soll-Zustand oder ein Soll-Gesche- 14 Vgl. hierzu die Unterscheidung von Römer/Kalwa (2016), die sie in Bezug auf Hermanns zwischen Emotionsdarstellung (explizite Gefühlswörter) und Emotionsausdruck (emotionsindikative Ausdrücke, implizit, indirekt) treffen. 15 Dieses Spezifikum hat eine weitere Auswirkung in Bezug auf die Fragestellung. Daran, dass Emotionen soziale Effekte sind, dass Kommunikation und Interaktion Entstehensbedingungen sind, lässt die Emotionsforschung keinen Zweifel. Das ausgewertete Material allerdings gibt schwerlich eine empirisch fundierte Antwort auf die Frage etwa kommunikativ-interaktiv initiierter Entstehungs- oder Intensivierungsprozesse in Bezug auf die dargestellten Emotionsszenarien. 16 Einen anderen Zusammenhang von Emotion und Argumentation stellt Fiehler 1992 im Sinn emotionaler Argumentation her. 17 „Als primäre Eigenschaft (insbesondere in Abgrenzung zur Kognition) ist zu betrachten, dass Emotionen Werte und Werteerfahrungen konstituieren. Emotionen sind intern repräsentierte und subjektiv erfahrbare Evaluationskategorien, die sich vom Individuum ich-bezogen introspektiv-geistig (als Gefühle) sowie körperlich registrieren lassen, deren Erfahrungswerte an eine positive oder negative Bewertung gekoppelt sind. Die Prozesse der Bewertung betreffen Einschätzungen, mit denen ein Individuum entweder sein eigenes Körperbefinden, seine Handlungsimpulse, seine kognitiven Denkinhalte oder allgemein Umweltsituationen (im weitesten Sinn) beurteilt“ (Schwarz-Friesel 2013, 73). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 127 24.03.22 11:06 II Fallstudien hen) und eben auch emotivem (Gefühl/Emotion in Bezug auf einen Gegenstand) Gehalt, auf den es hier ankommt und den Hermanns als „die wichtigste, die zentrale der drei Komponenten der Einstellung“ bewertet (vgl. Hermanns 2002, 219-224).18 Mit diesem Verständnis lässt sich erklären, warum auch solche Bezeichnungen in eine emotionsbezogene Analyse integriert werden können, die ein Sollen oder Wollen ausdrücken. Dieses Sollen und Wollen (bzw. die Negation) ist das deontische Potenzial dieser Ausdrücke. Fritz Hermanns (u. a. 1986) hat den Zusammenhang zwischen Deontik und der Semantik sprachlicher Ausdrücke hergestellt. Er beschreibt deontisches Bedeutungspotenzial bzw. deontische Bedeutungskomponenten als in Wörtern enthaltene Handlungsanweisungen. Hermanns setzt voraus, dass Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 128 „Wörter neben einer Darstellungsfunktion, vermöge derer sie uns zeigen, welche Eigenschaften ein Gegenstand hat, auch eine Appellfunktion aufweisen können, indem sie uns nämlich sagen, wie unser Verhalten in Bezug auf diesen Gegenstand zu sein hat.“ (Hermanns 1986, 185) Zu diesen Wörtern mit Appellfunktion zählt Hermanns auch deontische Wörter, die ein Sollen bezeichnen. Sie können explizit deontisch sein (Pflicht, Sünde, können, böse etc.) oder implizit deontisch (Unkraut hat z. B. das appellative Sollenspotenzial ‚soll vernichtet werden’), sie können positiv deontisch (wie die Wertausdrücke Freiheit, Gerechtigkeit etc. ) und negativ deontisch besetzt sein (wie Um- weltverschmutzung, Krieg etc.). Im Kontext einer politischen Weltanschauung, die wie der Nationalsozialismus in hohem Maß auf (die Erzeugung von) Emotionen als politisches Handlungsprinzip setzt, ist die Einbeziehung deontisch markierter Kodierungen in einen emotionssprachlichen Zusammenhang naheliegend. Die Radikalität des NS, als eine Ideologie der Extreme, drückt sich mit ihn kennzeichnender Programmatik darin aus, dass bestimmte deontisch markierte Elemente bzw. Konzepte seiner Weltanschauung im Diskurs nationalistisch bzw. rassistisch emotionalisiert werden. Wir können also sagen, dass spezifische Ausdrücke der NS-Ideologie deontisch derart aufgeladen sind, dass sie einen expressiven semantischen Wert erhalten. Schmitz-Berning (1998) kennzeichnet den entsprechenden Wortschatz mit Formulierungen wie „mythisch überhöht“, „Grundwert“ oder „emphatisch“ bzw. mit „abwertend“, Brackmann/Birkenhauer (1988) z. B. mit „überhöhendes Synonym für“ bzw. „kollektives Feindsymbol“ oder „Schimpfwort“. Im positiv-deontischen Sinn zählen dazu z. B. Blut, Führer, deutsch(-), Glaube, Opfer, Treue, Ehre, Dienst. Im negativ-deontischen Sinn zählen dazu z. B. Jude, Intellektueller, international etc.19 3.3 Analyse Zwischen der Erstellung der untersuchten Texte und dem Zeitpunkt der Ereignisse, über die in ihnen berichtet wird, liegen ungefähr 15 Jahre, denn die meisten Berichte beziehen sich hinsichtlich der erbetenen Begründung 18 Hermanns bezieht sich auf die Attidudinal-Forschungen Gordon Allports. Dessen Beispiele für Einstellungen, die Hermanns zitiert, machen eine Dominanz des emotionalen Gehalts von Einstellungen ausdrückenden Lexemen deutlich: Geldgier, Ruhmsucht, Hass auf Fremde, Toleranz, Wahrheitsliebe, Rassismus/Antirassismus, Narzissmus etc. (vgl. Hermanns 2002, 213). 19 Insofern ist es übrigens emotionsgeschichtlich auch irreführend, wenn das Werk der Täter als emotionslos beschrieben wird. Die „entgegengesetzten Bewertungssysteme hinsichtlich der unterschiedlichen Referenzbereiche im Konzeptualisierungsrahmen der NS-Ideologie [waren] als absolut und verbindlich internalisiert […] Das Töten von Juden oder anderen als nicht lebenswert erachteten Menschen war in diesem Rahmen für die wirklichen (ideologieverblendeten) Überzeugungstäter kein Verbrechen und daher ohne jedwede moralische Skrupel vollziehbar, sondern vielmehr eine notwendige, für das eigene Wohl wichtige Angelegenheit“ (Schwarz-Friesel 2013, 82). Das systematische Töten konnte nur deshalb mit größter Bereitschaft vollzogen werden, weil die hierzu zu verwendenden sprachlichen Kategorien in höchstem Maß deontisch-negativ bzw. deontisch-positiv emotional besetzt waren. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 128 24.03.22 11:06 („wie ich Nazi wurde“) auf den Ausgang des Ersten Weltkriegs und die Revolution von 1918/19. Die Analyse muss daher den potenziellen Filtereffekt der Retrospektive und der Schriftlichkeit in Rechnung stellen und in die Bewertung und Einordnung insofern einbeziehen, als Gegenstand der nicht-unmittelbare, zeitlich versetzte und in Schriftform konzipierte Gefühlsausdruck im Sinn eines Gefühlsberichts ist (vgl. Jahr 2000, 14). Gleichzeitig aber soll diese Antizipation keine weitere Einschränkung der Fragestellung und damit des Erkenntniswerts der linguistischen Auswertung haben. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emotion“ 3.3.1 Frequenzen von expressiven und deontischen Emotionsbezeichnungen Anschließend an den eben diskutierten Zusammenhang zwischen Emotionsausdruck und Deontik unterscheidet die nachfolgende Darstellung der Befunde nach expressivem Wortschatz und nach emotional-deontisch aufgeladener Lexik. Beide Varianten werden als Erscheinungsformen von Gefühlswortschatz verstanden. Die 45 Berichte, die dieser Studie zugrunde liegen, wurden auf qualitativem Weg und auf der Grundlage des Sprach- und Sachwissens der Autorin nach expressivem Wortschatz und emotional-deontisch aufgeladener Lexik analysiert. Auf diese Weise entstanden zwei Listen mit insgesamt 50 Worttypen (also Wortformen ohne Ableitungen), von denen 21 expressive und 29 deontisch markierte Bezeichnungen sind. Die so eruierten Gefühlsausdrücke wurden sodann hinsichtlich ihrer Frequenz in dem 45 Texte umfassenden Korpus erfasst. Dieses Korpus repräsentiert damit den Gegenstand der Untersuchung in quantitativer Hinsicht, d. h. die Aussagen bzgl. Frequenz und die gerankte Liste beruhen darauf. In diesem Rahmen haben die Positionen in der Liste einen Aussagewert. Eine durchaus wünschenswerte breitere Absicherung dieser Befunde, etwa durch Heranziehen eines Vergleichskorpus, kann im Rahmen dieser Fallstudie aber nicht geleistet werden. Diese breitere Absicherung bzw. Ergänzung der Befunde ist sicher eine lohnende Aufgabe weiterer Forschung in diesem theoretischen Rahmen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 129 129 Die ersten 20 der mehr als drei Mal vorkommenden expressiven Emotionsbezeichnungen sind: Begeistert/Begeisterung Herz Freude/freuen Inner(lich) Liebe/lieben Stolz Gefühl/fühlen Glück sehnen/Sehnsucht Jubel/jubeln Hass/hassen Fanatisch/Fanatiker Heiss/heiß Hingabe Herrlich Schmach Ekel enttäuscht/Enttäuschung verzweifelt/Verzweiflung Verehren/Verehrung 36 35 33 29 24 23 21 12 11 10 10 9 9 7 6 6 5 5 4 4 Diese 20 Types kommen in den untersuchten Texten insgesamt 299 Mal vor. Die durchschnittliche Frequenz beträgt hier 14,9. Was die Verteilung von positive und negative Gefühle bezeichnenden Ausdrücken betrifft, ist erkennbar, dass die positiv konnotierten Gefühlsausdrücke mit großem Abstand dominieren. Erst an elfter Stelle steht mit Hass ein negativ konnotierter Gefühlsausdruck, der, wie Jubel/jubeln, zehn Mal belegt ist. Der Werte bzw. ein Wollen und Sollen bezeichnender positiv bzw. negativ emotionaldeontisch geprägter und mehr als drei Mal vorkommender Gefühlswortschatz der ersten 20 Ausdrücke hat folgende Beschaffenheit. Führer 87 / Hitler 87, ges. Deutsch/Deutschland Volk/völkisch Kampf / kämpfen Glaube/glauben Opfer/opfern Kamerad/Kameradschaft Bewegung Treue/treu Heilig 174 133 116 73 49 29 28 27 22 15 24.03.22 11:06 130 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Ehre/ehren Wille Mut Dienst Schicksal Ewig Mission Bekennen/Bekenntnis Pflicht Disziplin 18 10 9 9 8 7 7 6 5 4 Diese 20 Typen kommen in den untersuchten Texten insgesamt 767 Mal vor. Die durchschnittliche Frequenz beträgt hier 38,3, ist also weit mehr als doppelt so hoch als bei den Expressiva. Während sich für den emotionsbezeichnenden expressiven Wortschatz feststellen lässt, dass er hinsichtlich der entsprechenden Ausdrücke keine Besonderheiten aufweist, aber sehr häufig zu sein scheint (erhärten könnte man diesen Befund im Vergleich mit anderen Texten), findet dagegen das Spezifische des deontisch geprägten Emotionswortschatzes auf der inhaltlichen Ebene statt. Da eine Deontik durch kulturelle, soziale oder weltsichtabhängige Prägungen entsteht, können wir in Bezug auf den vorliegenden Gegenstand sagen: Die emotional-deontisch geprägten Ausdrücke, die die Autor*innen in ihren Berichten zur Beschreibung ihrer entstehenden Bindung an den NS verwenden, bestehen aus dem höchste nationalsozialistische Werte ausdrückenden lexikalischen Potenzial, dessen Funktion sich nicht nur auf den Ausdruck von deontischen Dimensionen beschränkt, sondern mit der Kombination emotionaler Aufladung ihre lexikalisch-semantische Schlüsselposition im Sprachgebrauch repräsentiert. Die Referenzen auf Hitler/Führer dokumentieren dieses Phänomen in höchster Evidenz (s.u.). Die in diesem Abschnitt gelisteten Wörter bilden als Schlüsselwörter den Ausgangspunkt für die folgende, qualitative Auswertung. 3.3.2 Qualitative Auswertung: Emotionsfolge Auf der Basis quantitativer Befunde der Frequenzverteilung lassen sich durch qualitative Ansätze erschließbare Fragestellungen formulieren, etwa die der emotiv markierten Selbstkonstituierung der Autor*innen (unermüdlich, meine deutsche Seele), oder die der Emotionen bezeichnenden Metaphorik (fieberhaft, Spannung, heiß). Genderdifferenzierende Auswertungen können einen Beitrag zu dem Thema ‚sprachgeprägte Frauenbilder im NS’ leisten (vgl. u. a. Kösters 2018). Eine weitere mögliche Fragestellung lautet (und dieser gehen wir im Folgenden nach): Auf welche Referenzbereiche werden expressive und deontisch markierte Emotionsausdrücke bezogen? Die Antworten auf diese Fragestellung geben Aufschluss über das Emotionsmanagement, hier im Sinn einer Emotionschronologie.20 Deutlich wird in der folgenden qualitativen Analyse auch die gegenseitige Bezogenheit von emotionalen und deontischen Ausdrücken (s. besonders den Abschnitt „Konsequenzphase“). Zur Rekonstruktion einer Emotionsfolge, also sozusagen einer emotionalen Chronik von NS-Anhängern in den Jahren vor der Machtübergabe, lassen sich drei Phasen der Emotionsgeschichte unterscheiden: die Motivphase, die Konsequenzphase und die Evaluierungsphase. Motivphase: In Bezug auf die Motivphase benennen die Autor*innen äußere, politische und gesellschaftliche Gründe, die Voraussetzungen für ihren Eintritt in die NSDAP waren. Es handelt sich dabei um Anlässe, die im Kontext stehen mit dem politischen Gegner, mit dem Ausgang des Krieges und mit der Revolution und der daraus hervorgegangenen parlamentarischen Demokratie der Weimarer Republik. Diese Phase kennzeichnen ausschließlich (und wenig überraschend) Bezeichnungen negativer Gefühle. Hass ist die Emotionsvokabel, mit der die Nationalsozialisten zuallererst ihre Haltung zum politischen Gegner ausdrücken. Mit Hass markierte Referenzobjekte sind Sozialdemokraten, marxistische Regierung: 20 Alle Belege stammen aus Giebel (2018). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 130 24.03.22 11:06 Fallstudie „Emotion“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. „Der Zusammenbruch 1918 traf mich besonders schwer und hinterliess einen tiefen Eindruck bei mir insofern, als ich von früher her auf die Sozialdemokraten nicht gut zu sprechen war und jetzt zu einem offenen Hasse gegen diese Leute wurde; da waren es die Sozialdemokraten, die ich zuerst hassen lernte; die für einen wahrhaften Deutschen verhasste marxistische Regierung mit ihrer uns versklavenden Erfüllungspolitik.“ Es wird ein Zusammenhang hergestellt zwischen dem politischen Gegner und der Gründung der Republik, der allgemeinen Notlage, der „Erfüllung“ der Auflagen, die der Versailler Vertrag vorsah. Zur Kennzeichnung der Haltung, die die Autor*innen in Bezug auf das Kriegsende bzw. seine Folgen, insbesondere in Bezug auf den Versailler Vertrag, haben, dient der den zeitgenössischen Diskurs in hohem Maß repräsentierende Gefühlsausdruck Schmach: „Vertrag von Versailles [...] eine noch tiefere Schmach [...] schmachvolle Frieden; Immer quälte mich Deutschlands Schmach; Schmach des Jahres 1918.“ Damit ist auch diskurslinguistisch dokumentiert, dass der verlorene Krieg und der Versailler Vertrag eine ganz wesentliche Rolle bei der Etablierung des NS in der Weimarer Zeit spielten. In der emotional negativen Aufladung drückt sich das Vorhandensein des positivdeontischen Konzepts der Ehre aus, auf der der NS zu großen Teilen seine Herrschaft gründete: Das Gefühl der Schmach artikuliert, wessen Ehrgefühl verletzt ist. Auch Ekel ist ein Ausdruck, der im Kontext mit der Revolution steht, Referenzbereiche sind menschliche Gemeinheit, Bonzentum, Maulheldentum (mit Bezug auf die Versammlungen von Zentrum und SPD): „Revolution ließ soviel menschliche Gemeinheit, Feigheit und Erbärmlichkeit in Erscheinung treten, dass mir noch heute der Ekel hochsteigt; Revolution! [...] Volk ohne Führer! Uns ekelte alles an; des widerlichen, ekelerregenden Bonzentums; [Zentrum, SPD] Versammlungen ekelerregendes Maulheldentum, widerliches Bonzentum, minderwertige Kreaturen.“ UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 131 131 Halten wir fest: In der Logik der Geschichte (Motiv: Kriegsende/Versailler Vertrag/demokratische Republik – Konsequenz: Eintritt in die NSDAP und Mitarbeit zur Erlangung des Ziels – Evaluierung: Erreichung des Ziels) liegt, dass die Emotionsfolge mit intensiven negativen Gefühlen beginnt. Mit diesen wird die eigene Haltung ausgedrückt, die das Motiv für den weiteren Verlauf bildet. Konsequenzphase: Die anschließende Phase der Konsequenz, die mit Annäherungen an die Partei bzw. dem Eintritt in diese beginnt und die in hohem persönlichen Einsatz besteht, ist die Phase der intensiven positiven Emotionalisierung. begeistert/Begeisterung ist der meistverwendete expressive Emotionsausdruck, der die Gefühlsausstattung der Beteiligten in dieser Phase kodiert. Referenzbereiche sind in den allermeisten Fällen NS-bezogen, wie Reden Hitlers oder anderer Funktionäre, Hitler selbst, der NS bzw. die „Bewegung“ und ihre „Ideen“ an sich sowie die Zunahme von Wählerstimmen und die Machtübergabe am 30. Januar 1933, außerdem Veranstaltungen oder Versammlungen: „Rede mit Begeisterung aufgenommen; als er geendet, nahm Jubel und Begeisterung kein Ende; der uns alle begeisternde Mann; ich war begeistert für die Bewegung; voll Kampfesmut und Begeisterung habe ich die Versammlung verlassen.“ Begeisterung/begeistert drückt in der Reihe der Kodierungen positiver Gefühle eine intensivierte Version derselben aus, die insofern mit Hass als das das Motiv kodierende Antonym korrespondiert. Während Begeisterung die zentrale expressive Emotionsbezeichnung zum Ausdruck der Konsequenzphase ist, ist die Referenz auf Hitler/Führer der dominante deontisch-emotionale Ausdruck dieser Phase. Hitler wird damit als Auslöser und Empfänger dieser in der Konsequenzphase entstehenden Gefühle konzipiert. Die entscheidende Rolle der Person Hitler, der insbesondere in der Frühphase der NSDAP und in den ersten Jahren nach der Machtübernahme Wirkmacht hat, ist seitens der Geschichtswissenschaft ausführlich dar- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 132 II Fallstudien gelegt (vgl. u. a. Kershaw 1999). Dabei wird auch das Erklärungsmuster der charismatischen Herrschaft geltend gemacht, das Max Weber entwickelt. Zu betonen ist die kommunikativ-interaktive Dimension dieses Phänomens: Die charismatische Herrschaftsform ist Herrschaft „kraft affektueller Hingabe an die Person des Herrn“ (Weber 1922, 481). Die Unterwerfungsbereitschaft der „Gefolgschaft“ (ebd. 482) ist dasjenige Kennzeichen, das die Disposition der sich Unterwerfenden mitbenennt, das wir auch in den Biogrammen finden und das in der Hitler-/Führer-Konzeption gerinnt.21 Die Fragestellung hier ist nicht, wie sich insgesamt in der Bevölkerung die Haltung zu Hitler ausdrückt (danach fragt Kershaw 1999), sondern wie die emotionalaffine Haltung früher Parteimitglieder retrospektiv kodiert wird. Mit der Antwort auf diese Fragestellung trägt die emotionssprachliche Analyse dazu bei, die in der Geschichtswissenschaft hinlänglich beschriebene Enthusiasmierung der Sympathisanten auf der Ebene der sprachlichen Wirklichkeit darzustellen. Zu dem emotional-deontisch markierten Hitler-Konzept zählen zuallererst Zuschreibungen, mit denen die Person konstituiert wird. Dass Hitler, allem Widerstand zum Trotz, unbeirrbar und unerschrocken sein Vorhaben fokussierte, ist herausragender Attraktor (Unerschrocken ging er mit seinen Getreuen seinen Weg), vertraueneinflößende Stärke und Kompromisslosigkeit werden außerdem als attrahierende Eigenschaften genannt (In seine starke Hand dürfen und wollen wir das Geschick der Nation legen). Hinzuweisen ist darüber hinaus auf die hochemotionalisierten Bezeichnungsalternativen. In diesen Zusammenhang ist die deontisch-emotional aufgeladene Sakralisierung des Referenzobjekts zu stellen, die mit religionssprachlichen Kodierungen realisiert wird (dass unser Führer Adolf Hitler dem deutschen Volke vom Schicksal geschenkt wurde als der Heilsbringer des Lichts über die Finsternis). Auch die kontextherstellende Superlativierung bzw. generell die Überhöhung (und damit gleichzeitig einhergehende Selbsterniedrigung) dient zum Ausdruck deontisch-emotional geprägter Haltung (mit unserem kleinen Können am großen Werk des größten Deutschen mitgeholfen zu haben). Die Widersprüchlichkeit der emotional-deontisch markierten Hitlerkonzeption drückt sich darin aus, dass er nicht nur überhöht, sondern auch mit der Zuschreibung ‚unbekannt’, ‚einfacher Mann aus dem Volk’ versehen wird (Diesen Opfergeist, diesen Frontgeist [...] maßgebend dafür, daß ich den Weg zu dem unbekannten Gefreiten des Weltkrieges, zum Schöpfer des deutschen Nationalsozialismus fand). Hitler/Führer wird außerdem häufig mit der Redesituation kontextualisiert (mit den Kookkurrenzpartnern Rede, hören, Ausführungen, sprechen, Satz). Ihn gesehen, bei Reden und in Versammlungen in übervollen Sälen gehört zu haben, sind gehäuft auftretende Motive der Emotionalisierung: „Die klaren Beispiele, die Hitler in seiner Rede brachte, flößten mir Bewunderung ein; Hitlers Ausführungen machten auf mich einen derartigen tiefen Eindruck .., dass ich wieder neuen Glauben an die Auferstehung des Deutschen Volkes bekam; Wer den Führer einmal zu hören und zu sehen Gelegenheit hatte, der ließ sich für ihn in Stücke reißen.“ Auf Begegnungen mit Hitler wird in den untersuchten Biogrammen als biografische Höhepunkte des emotionalen Erlebens referiert, zum ersten Mal ist hier eine Leitformel, der deontisch-emotionsgeladenes Potenzial eingeschrieben ist (Das Erlebnis, den Führer zum ersten Mal zu sehen und zu hören, kann man nicht in Worte kleiden). Eine jüngst vorgelegte Studie, die die Frage prüfte, welchen Einfluss Reden Hitlers auf das Wahlverhalten der Bevölkerung hatten, 21 Ian Kershaw bestätigt, dass wir es zwar auch mit Propagandaeffekten zu tun haben, diese aber auf vorhandene korrespondierende Überzeugungen traf: „Die Propaganda war insbesondere dort wirkungsvoll, wo sie sich auf bestehende Werte und Einstellungen stützte, anstatt ihnen entgegenzuarbeiten“. Kershaw verweist auf das „bestehende Feld vorhandener Überzeugungen, Vorurteile und Phobien, das einen wichtigen Platz in der deutschen politischen Kultur einnahm und in das der ‚Hitler-Mythos’ leicht eingepflanzt werden konnte“ (Kershaw 1999, 17). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 132 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emotion“ verdichtet sich in dem Befund: Es gibt keine „consistent evidence of campaign effects on voting behavior“ (Selb/Munzert 2018, 23). Basierend auf ihren Auswertungen diverser lokaler Wahlergebnisse, in Korrespondenz mit lokalen Wahlreden Hitlers, haben die Autoren Zweifel „on the omnipotence of Nazi propaganda and Hitler’s oratory in particular“ (ebd.). Vielmehr seien ökonomische und politische Gründe ausschlaggebend gewesen: „mass unemployment and economic despair [...], lack of support for democracy among elites and the public [...], popular detachment from established parties and their representatives“ (ebd.). Dieser Befund bestätigt die Sinnhaftigkeit der hier vorgenommenen Phasierung emotionaler/emotionalisierter Zustände. Die von Selb/Munzert (2018) angeführte Erklärung bezieht sich nach der hier vorgenommenen Einordnung, im Sinn einer Emotionsfolge, auf die Motivphase der Emotionsgeschichte: die äußeren Verhältnisse des verlorenen Kriegs, der wirtschaftlichen Not, der Revolution. Sie hat insofern keinen Bezug zu Hitler und zur NS-Propaganda. Diese tut ihre Wirkung erst in der zweiten, der Phase der Konsequenz: als die mit Begeisterung etc. kodierte Haltung zu Hitler und zur NSDAP. In dieser Phase allerdings ist, wie wir aus den Zeugnissen der NS-Affinen (die also bereits eine Disposition zum NS haben) ersehen, die Wirkmacht Hitlers unübersehbar – auf diejenigen also, die dem NS ohnehin nahestanden. In dieser Hinsicht müsste das Ergebnis von Selb/Munzer (2018) womöglich präzisiert werden. Wie wird das eigene, persönliche Verhältnis zu Hitler ausgedrückt? Die größte emotionale Nähe bezeichnet wohl die Formel unser/mein Führer, mit der Zugehörigkeit, Besitzanspruch und Bindung formuliert werden:22 133 „dass es sich lohnt, für die Idee unseres großen Führers sein Leben herzugeben; Die herrliche Idee unseres Führers; Alles geschah aus Liebe zu unserem Führer und für das Deutsche Volk und Vaterland.“ Es sind Identifikationsakte, mit denen die Autor*innen hier ihr Hitler-Konzept sprachlich realisieren. Das Formulierungsmuster Liebe zum Führer/zu Hitler bzw. geliebter Führer korrespondiert insofern mit dieser ausgedrückten emotionalisierten Relation unser/ mein Führer, als Liebe zum Führer gleichsam das Motiv für die enge Bindung bezeichnet. Große mit Liebe ausgedrückte emotionale Nähe stellt gleichsam die Voraussetzung dar für große mit mein/unser ausgedrückte emotionale Bindung (Die Sehnsucht nach einem freien, starken Deutschland und die Liebe zu meinem Führer). Erwecken von Glauben gehört zu den Grundprinzipien des von den NS-Akteur*innen als Religion inszenierten NS, der eine ebensolche religiöse Hingabe verlangte und, wie in den Aussagen der hier untersuchten Autor*innen ersichtlich, auch erhielt. Glauben ist daher ein weiteres wesentliches Element der NS-Deontik zur Bezeichnung eines pseudoreligiösen Gefühls, das auf Hitler als Emotionsempfänger referiert. Es wurde von Hitler eingefordert, seiner Überzeugung entsprechend, dass nicht Wissende, sondern Gläubige für eine Idee in den Tod zu gehen bereit sind. Dominant ist die präpositionale Akkusativ-Konstruktion Glaube/n an, dem religiösen Ursprung der Wendung entsprechend. Der Glaubensinhalt, auf den am häufigsten referiert wird, ist, der personenorientierten Ideologie entsprechend, Hitler, der in den entsprechenden Kontexten, dem Seelenzustand des Glaubens entsprechend, emotional-deontisch sakralisiert 22 „Das Possessivum leistet eine Gegenstandsbestimmung dadurch, daß eine spezifische Relation zwischen Sprecher bzw. Sprechergruppen (meiner, unserer), Adressaten bzw. Adressatengruppen (deiner/Ihrer, eurer/ Ihrer) und einem vorgängig verbalisierten oder sonst präsent gemachten Gegenstand (seiner, ihrer, seiner) hergestellt wird“ (Zifonun et al. 1997, S. 40). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 133 24.03.22 11:06 134 II Fallstudien „in unverbrüchlicher Treue und in unerschütterlichem Glauben; So will auch ich streiten für meinen großen Führer in unverbrüchlicher Treue und in unerschütterlichem Glauben; Der Glaube an Hitler und seine Mission ist es gewesen, was mich in allen schweren Zeiten, die ich durchgemacht habe, nicht hat verzweifeln lassen; Immer hat uns eins geleitet, der Glaube an Deutschland, der Glaube an die Reinheit unseres Volkes und der Glaube an unseren Führer Adolf Hitler.“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. wird.23 Glaube an den/unseren Führer/(Adolf) Hitler kommt wiederholt in den bedeutungsverstärkenden Konstruktionen fanatischer/ unerschütterlicher Glaube vor sowie in ebensolchen und-Reihen: Die Erreichung des politischen Ziels bezeichnet damit einen Sachverhalt, der auch auf die Erzählenden selbst verweist. Der von Hitlers Ernennung zum Reichskanzler ausgelöste enthusiasmierte Zustand (Reichskanzler Adolf Hitler! [...] Stunden höchsten inneren Glücks [...] dieses freudige Glück) hat einen weiteren Referenzbereich, nämlich den der erzählenden Person selbst. Damit ist der Übergang zur Evaluierungsphase geschaffen, die durch die gefühlsbetonte Darstellung von Akten der Selbstreferenz gekennzeichnet ist. Evaluierungsphase: Positiv emotionalisierte Selbstentmündigung kongruiert mit unerschütterlicher Glaube und unbedingte Treue. Ausdrücke wie Hingabe, Bann, mitgerissen etc. bezeichnen insofern die Folge und bilden quasi eine Ursache-Wirkung-Hierarchie von Gefühlen und diese bezeichnenden Ausdrücken: „Das grenzenlose Vertrauen zu unserm Führer wuchs zu einer Begeisterung, die zur letzten Hingabe fähig machte; Ich las das Buch des Führers und jeder Gedanke in dem Buch zog mich mehr und mehr in den Bann der Persönlichkeit des Verfassers; Diese Begegnung war uns mehr als der heiligste Eid, ich war derart mitgerissen.“ In der Logik dieses konsekutiven Gefühlsmanagements liegt dann auch der gehäufte Gebrauch des selbstreferentiellen stolz/Stolz. Musterhaft ist die Verwendung in der Hinsicht, dass der Ausdruck stets eine persönliche positiv bewertete Beziehung zur NSDAP, ihrer Entwicklung, der Erreichung bestimmter Ziele ausdrückt, in deren Kontext sich der Autor/ die Autorin mit der Herausstellung einer persönlichen Leistung stellt (mit Referenz auf die erste Person Singular oder Plural): „stolz, dass ich dabei sein durfte/mithelfen konnte/kein Opfer umsonst war; stolz mitgekämpft / mitgeholfen zu haben/das Unsrige beizutragen/das Abzeichen zu tragen/das Parteiabzeichen tragen zu dürfen/zur Gefolgschaft zählen zu dürfen/den Grundstein mitgelegt zu haben.“ 4. Ergebnisse und Diskussion Wenn generell „politikgeschichtliche Rahmungen […] den Wandel des Emotionsverständnisses [...] erhellen“ (Gammerl 2011, 200) können und damit ein Stück – sprachlich manifeste – Emotionsgeschichte repräsentieren, dann gilt dies insbesondere für ein Regime, das wie der NS programmatisch auf 23 „Die sprachliche Überhöhung des Politischen durch eine sakral geprägte Ausdrucksweise kann dem Prinzip ‚Glauben statt Wissen’ dienen und damit letztlich einem Appell, der durch transzendentale Kategorien legitimiert bzw. begründet wird. Dies schlägt sich lexikalisch in einem inflationären Gebrauch religiöser Vokabeln und Ausdrücke nieder“ (Braun 2007, 256). Wir sprechen davon, dass sich die „Konstruierung des Nazismus als Religionsersatz […] in dem Konzept Glaube, im nazistischen Selbstverständnis vom Nationalsozialismus als Glaubensbewegung, der quasi-religiöse (blinde) Hingabe und (fanatische) Leidenschaft erfordert“ (Kämper 2009, 343f.) verdichtet. Auf die hier wiederholt formulierte These, dass NS-Propaganda erfolgreich war, weil sie auf bereits Disponierte traf, sei an dieser Stelle nochmals verwiesen: Die Autor*innen beschreiben emotionale Zustände der Jahre ab ca. 1920 und zumindest in der Retrospektive war die Universalie der nationalsozialistischen Deontologie bereits präsent, lange bevor die NS-Propaganda ihre Wirkung entfaltet hat. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 134 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emotion“ Gefühl(serzeugung) beruht.24 Emotionsgeschichtlich entspricht dies der Phase, die von einer Trennung zwischen individuellen und kollektiven Gefühlen gekennzeichnet wird.25 Wir können auf der Basis der vorgestellten Auswertung folgenden Befund formulieren: 1. Das Amalgam eines kollektiven emotional bzw. emotional-deontisch aufgeladenen Zustands ist ein historisches soziales Phänomen, dessen linguistischer Ausdruck ein sprachgeschichtlicher Gegenstand ist. Sie stehen in dem zeitgeschichtlichen Kontext des verlorenen Krieges und des Versailler Vertrags, auf die sich die entsprechenden Kodierungen negativer Gefühle beziehen, sowie der Entstehung der NSDAP und dem Aufkommen Hitlers, die mit positiven Gefühlslagen kontextualisiert werden. Die emotionalisierten Zustände bestehen also aus einem ereignisbezogenen Komplex negativer und positiver Gefühle. Sie stellen eine Emotionsfolge dar, denn sie stehen in einem, nicht zuletzt die Intensität beeinflussenden, Ursache-Wirkung-Verhältnis zueinander: Ohne die extrem negativen Emotionen bzgl. des Ausgangs des Kriegs, der Revolution und des Verlaufs der Weimarer Republik ist das Ausmaß positiver Gefühle im Sinn von Begeisterung bzgl. NSDAP und Hitler sowie die emotionale Selbstzuschreibung stolz/Stolz nicht zu denken. Vorgestellt als Verlauf einer Emotionsgeschichte muss daher an den thematischen 135 Beginn der Analyse das Kriegsende und seine Folgen mit Revolution und Versailler Vertrag gestellt werden. 2. Insofern Gefühle und ihre Kodierungen Erscheinungsformen von Mentalität, also von langfristigen kultur- und sozialgeschichtlichen Prägungen und Prozessen sind,26 haben wir es mit konventionellen Ausdrucksformen bzw. Manifestationen zu tun, mit „Standardfällen des Erlebens“.27 Die spezifischen Kontexte aber bewirken spezifische Frequenzphänomene und rufen spezifische sprachliche Muster hervor, die es zu beschreiben und darzustellen gilt. Insofern lässt sich an dieser Stelle einerseits dieses exemplarisch dargestellte Phänomen verallgemeinern und es lassen sich Anschlüsse herstellen: Da die analysierten Berichte krisenhafte Situationen betreffen, lässt sich z. B. nach dem Zusammenhang von Emotion und Sprache in anderen Krisensituationen fragen. Was außerdem einen Vergleich ermöglicht, ist die Emotionalisierung der Sprache der heutigen politischen Rechten in ihren diversen Ausprägungen (von populistisch bis rechtsradikal). Datengrundlage wären hier Chats in den sozialen Medien, die zum großen Teil den gleichen Status von Egodokumenten haben. Auffallend ist das geringe Spektrum an Ausdrucksvarianten und ihre entsprechend hohe Frequenz (s.o. den Gebrauch des Leitworts Be- 24 Allerdings: Den Gedanken, dass z. B. auch liberale Demokratien, besonders hinsichtlich ihres Gerechtigkeitsanspruchs, Emotionen, insbesondere der Liebe, bedürfen, entwickelt Martha Nussbaum in ihrer Studie (2013). 25 „Die Verschiedenheit zwischenmenschlicher Kontakte wurde […] immer wichtiger und zugleich immer mehr zum Problem. Diese Entwicklung schlug sich in der ersten Hälfte des 20. Jahrhunderts in zwei Tendenzen nieder. Zum einen gewann die interpersonale Kommunikation noch weiter an Bedeutung und zum anderen wurde der Begriff des Sozialen relevant. .. man trennte zwischen den ‚auf das persönliche Leben’ bezogenen Gefühlen, nämlich den ‚Ich-Gefühlen, z. B. das Minderwertigkeitsgefühl’ und den ‚sozialen, d. h. die Gemeinschaft mit anderen tragendenden’ Gefühlen“ (Gammerl 2011, 195). 26 „Kulturelles Wissen und Regeln lassen sich über die Analyse emotionaler Kodierungen erschließen: Semiotisch betrachtet, stellen Emotionen einen eigenständigen Kode dar und sind zugleich kulturell kodiert. Diese Kodierungen repräsentieren das gemeinsame kulturelle Wissen über Emotionen, sie formen und kontrollieren Wahrnehmung und Ausdruck von Emotionen und prägen das Wissen über die emotionsauslösenden Situationen. Ein Medium der Kodierung ist die Sprache. Ein Sprecher kann seine Emotionen und die Emotionen anderer sprachlich sowohl bezeichnen als auch ausdrücken bzw. präsentieren. Für beide Arten der Bezugnahme auf Emotionen stehen verschiedene konventionalisierte sprachliche Mittel zur Verfügung“ (Winko 2003, 109). 27 „Sind schon Emotionen selbst weitgehend sozial geprägt, so steht der soziale Charakter der Kommunikation von Emotionen ganz außer Frage, wenn zur Manifestation konventionalisierte, sprachlich-kommunikative Mittel der verschiedensten Art benutzt werden und wenn die Prozessierung von Emotionen mit Hilfe regelhafter Muster und Verfahren geschieht, die zur Behandlung sozialer Standardfälle des Erlebens ausgebildet wurden“ (Fiehler 1990, 4). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 135 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 136 II Fallstudien geisterung). Auch hier besteht eine Anschlussmöglichkeit zu heutigen politischen Diskursen. Interessant wäre auch, solche Textsammlungen mit anderen Egodokumenten zu vergleichen, die nicht im politischen Kontext stehen. So könnte kontrastierend noch deutlicher geprüft werden, ob beispielsweise die Frequenz des expressiven und des emotional-deontischen Wortschatzes eine Besonderheit der hier untersuchten Texte ist. Unabhängig vom thematischen Kontext, in dem Gefühlsausdrücke stehen, können wir sagen, dass die lexikalischen Ausdrücke positive und negative Gefühle und solche der Sympathie und der Antipathie repräsentieren. In der hier betrachteten Textsammlung kommen solche Ausdrücke häufig vor, vor allem jedoch ist die Intensität, die jeweils in der Semantik der Ausdrücke bezeichnet ist, sowie das bezeichnete Emotionsspektrum (von Begeisterung bis Hass) auffällig. Die Musterhaftigkeit entsprechend erwartbarer gefühlsbezeichnender Ausdrücke (Begeisterung, Herz, Freude) zeigt, dass ein Gefühlsausdruck darüber hinaus ein kommunikativ konstitutives Moment hat: Wenn viele ihre Seelenlage mit Begeisterung bezeichnen, dann nicht zuletzt deshalb, weil dieser Ausdruck kommunikativ erlebt wurde. 3. Die NS-Propaganda hat Emotionsregeln geschaffen. Am Beispiel der hochfrequenten emotional bzw. deontisch-emotional markierten Ausdrücke lässt sich nachweisen, dass der Ausdruck von Haltung propagandistisch bzw. programmatisch vermittelter Norm entsprach. Die Abel-Berichte machen deutlich, dass der NS sich nicht zuletzt aufgrund einer durch hochemotionale Zustände generierten Zustimmung bzw. Ablehnung etabliert hat. Die vorgestellte Untersuchung kann als Pilotstudie gelten, die exemplarisch zeigt, dass der Ausdruck von Gefühlen ein zentraler Faktor der Etablierung der NSDAP ist, der sprachlich in spezifischen Mustern repräsentiert ist. Mit diesem Ansatz wird linguistisch nachgewiesen, dass die Jahre der „Bewegungsphase“ in höchstem Maß von sprachlich ausgedrückter und kommunizierter Emotionalisierung geprägt sind. Aus dieser konstitutiven Funktion von Gefühl als Macht verschaffendem und stabilisierendem Faktor leitet sich die sprachgeschichtliche und kulturlinguistische Bedeutung von Gefühlskodierungen und -kommunikation in der „Bewegungsphase“ der NSDAP sowie in den Jahren 1933 bis 1945 ab. Auf größerer Datenbasis zu untersuchen ist: • die Position der Intentionalität, der kalkulierten emotionsevozierenden Strategie seitens des NS-Apparats, die Emotion und Deontik in ein politisches Regelwerk einfügt; • Emotion und Deontik als ein gesellschaftlicher Kommunikationsgegenstand, der auf spezifische Weise interaktiv geprägt wird; • die Macht destabilisierende Wirkung von Emotionswandel im Kriegsverlauf; • dies im Vergleich mit anderen Texten, um empirisch das Besondere an der vorliegenden Textsammlung auch in quantitativer Hinsicht zu dokumentieren. Zum Weiterlesen Die Studie von Düring (2013) erschließt die Möglichkeit, den Zusammenhang zwischen Emotionalität und Deontik (hier insbesondere bzgl. Pflicht und Gehorsam) exemplarisch am Beispiel desjenigen Handlungsmusters der NS-Zeit zu überprüfen, das als das zentrale Element nazistischer Ideologie zu bezeichnen ist. Sprachliche Emotionalität ist im Beitrag von Fiehler (1992) Gegenstand im Kontext interaktiver Argumentationshandlungen. Emotionalität wird in diesem Zusammenhang als Argumentationsstil beschrieben und verweist insofern auf den vorliegenden Beitrag, als auch hier Emotionalität in Begründungszusammenhängen beschrieben wird. Im Beitrag von Kämper (2017) wird dargestellt, dass die Unterscheidung nach Akteuren eine Voraussetzung ist, um qualitative Aussagen im Zusammenhang mit diskursanalytischen Fragestellungen treffen zu können. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 136 24.03.22 11:06 Fallstudie „Emotion“ 137 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Literatur Bonengel, Timo (2012): Ideologie und Emotion. Zur Propagierung nationalsozialistischer Ideen Hanns Johsts „Maske und Gesicht“ (1935), in: Pohl, Inge/ Horst Ehrhardt (Hrsg.), Sprache und Emotion in öffentlicher Kommunikation, Frankfurt/M. [u. a.]: Peter Lang, S. 287–314. Brackmann, Karl-Heinz/Renate Birkenhauer (1988): NS-Deutsch. „Selbstverständliche“ Begriffe und Schlagwörter aus der Zeit des Nationalsozialismus, Straelen: Europäisches Übersetzer-Kollegium. Braun, Christian A. (2007): Nationalsozialistischer Sprachstil. Theoretischer Zugang und praktische Analysen auf der Grundlage einer pragmatisch-textlinguistisch orientierten Stilistik, Heidelberg: Winter. Brinker, Klaus/Hermann Cölfen/Steffen Pappert (2014): Linguistische Textanalyse. Eine Einführung in Grundbegriffe und Methoden, 8. neu bearbeitete und erweiterte Aufl., Berlin: Erich Schmidt. Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse (=Sprache und Wissen, Band 4), Berlin/Boston: de Gruyter. Bubenhofer, Noah (2013): Quantitativ informierte qualitative Diskursanalyse. Korpuslinguistische Zugänge zu Einzeltexten und Serien, in: Roth, Kersten Sven/Carmen Spiegel (Hrsg.), Angewandte Diskurslinguistik. Felder, Perspektiven, Probleme, Berlin: Akademie, S. 109–134. Bubenhofer, Noah (2015): Muster aus korpuslinguistischer Sicht, in: Dürscheid, Christa/Jan Georg Schneider (Hrsg.), Satz – Äußerung – Schema, Berlin/ Boston: de Gruyter, S. 485–502. Bühler, Karl (1931/1982): Sprachtheorie. Die Darstellungsfunktion der Sprache. Mit einem Geleitwort von Friedrich Kainz, Stuttgart/New York: Gustav Fischer 1982. Diekmannshenke, Hajo (2012): Emotion und politische Kommunikation, in: Pohl, Inge/Horst Ehrhardt (Hrsg.), Sprache und Emotion in öffentlicher Kommunikation, Frankfurt/M. [u. a.]: Peter Lang, S. 315– 334. Düring, Daniel (2013): Das Handlungsmuster des Befehls in der NS-Zeit (=Sprache – Politik – Gesellschaft, Band 11), Bremen: Hempen. Ehlich, Konrad (2007): Sprache und sprachliches Handeln. Band 3: Diskurs – Narration – Text – Schrift. Berlin/ New York: de Gruyter, S. 371–377. Elias, Norbert (1939/2005): Über den Prozess der Zivilisation. Soziogenetische und psychogenetische Untersuchungen. Band 1 und 2, Frankfurt/M.: Suhrkamp. Fiehler, Reinhard (1990): Kommunikation und Emotion. Theoretische und empirische Untersuchungen zur Rolle von Emotionen in der verbalen Interaktion, Berlin/ New York: de Gruyter. Fiehler, Reinhard (1992): Grenzfälle des Argumentierens. ‚Emotionalität statt Argumentation’ oder ‚emotionales Argumentieren’?, in: Germanistische Linguistik, Bd. 112-113, S. 149–174. Fiehler, Reinhard (2008): Emotionale Kommunikation. In: Ulla Fix, Andreas Gardt und Joachim Knape UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 137 (Hgg.): Rhetorik und Stilistik. (Handbücher zur Sprach- und Kommunikationswissenschaft Bd. 31.1). Berlin, New York: de Gruyter, S. 757-772. Fix, Ulla (2015): Die EIN-Text-Diskursanalyse. Unter welchen Umständen kann ein einzelner Text Gegenstand einer diskurslinguistischen Untersuchung sein?, in: Kämper, Heidrun/Ingo H. Warnke (Hrsg.), Diskurs – interdisziplinär. Zugänge, Gegenstände, Perspektiven (=Diskursmuster Discourse Patterns, Band 6), Berlin/Boston: de Gruyter, S. 317– 334. Forster, Iris (2009): Euphemistische Sprache im Nationalsozialismus. Schichten, Funktionen, Intensität (=Sprache – Politik – Gesellschaft, Band 3), Bremen: Hempen. Francois, Etienne/Hannes Siegrist/Jakob Vogel (Hrsg.) (1995): Nation und Emotion. Deutschland und Frankreich im Vergleich. 19. und 20. Jahrhundert, Göttingen: Vandenhoeck und Ruprecht. Gammerl, Benno (2011): Gefühlte Entfernungen, in: Frevert, Ute [u. a.] (Hrsg.), Gefühlswissen. Eine lexikalische Spurensuche in der Moderne, Frankfurt/New York: Campus, S. 179–200. Giebel, Wieland (2018): „Warum ich Nazi wurde“. Biogramme früher Nationalsozialisten. Die einzigartige Sammlung des Theodore Abel, 4. Aufl., Berlin: Berlin Story Verlag. Gülich, Elisabeth/Heiko Hausendorf (2008): Vertextungsmuster Narration, in: Brinker, Klaus (Hrsg.), Text- und Gesprächslinguistik. (=Handbücher zur Sprach- und Kommunikationswissenschaft, Band 16.1), Berlin/New York: de Gruyter, S. 369–385. Haß-Zumkehr, Ulrike (2001): Deutsche Wörterbücher – Brennpunkt von Sprach- und Kulturgeschichte, Berlin/ New York: de Gruyter. Hermanns, Fritz (1986): Appellfunktion und Wörterbuch. Ein lexikographischer Versuch, in: Kämper, Heidrun/Angelika Linke/Martin Wengeler (Hrsg.), Fritz Hermanns. Der Sitz der Sprache im Leben. Beiträge zu einer kulturanalytischen Linguistik, Berlin/Boston: de Gruyter 2012, S. 181–206. Hermanns, Fritz (1995): Kognition, Emotion, Intention. Dimensionen lexikalischer Semantik, in: Kämper, Heidrun/Angelika Linke/Martin Wengeler (Hrsg.), Fritz Hermanns. Der Sitz der Sprache im Leben. Beiträge zu einer kulturanalytischen Linguistik, Berlin/Boston: de Gruyter 2012, S. 129–162. Hermanns, Fritz (1996): „Bombt die Mörder nieder!“ Überlegungen zu linguistischen Aspekten der Erzeugung von Gewaltbereitschaft, in: Diekmannshenke, Hajo/Josef Klein (Hrsg.), Wörter in der Politik. Analysen zur Lexemverwendung in der politischen Kommunikation, Opladen: Westdeutscher Verlag, S. 133–161. Hermanns, Fritz (2002): Attitude, Einstellung, Haltung. Empfehlung eines psychologischen Begriffs zur linguistischen Verwendung, in: Kämper, Heidrun/Angelika Linke/Martin Wengeler (Hrsg.), Fritz Hermanns. Der Sitz der Sprache im Leben. Beiträge zu einer kulturanalytischen Linguistik, Berlin/Boston: de Gruyter 2012, S. 209–234. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 138 II Fallstudien Hermanns, Fritz (2003): Linguistische Hermeneutik. Überlegungen zur überfälligen Einrichtung eines in der Linguistik bislang fehlenden Teilfaches, in: Linke, Angelika et al. (Hrsg.), Sprache und mehr. Ansichten einer Linguistik der sprachlichen Praxis, Tübingen: Niemeyer, S. 125–163 Holly, Werner (1991): „Wir sind Europa“. Die Fernsehwerbespots der SPD zur Europawahl 1989, in: Liedtke, Frank/Martin Wengeler/Karin Böke (Hrsg.), Begriffe besetzen. Strategien des Sprachgebrauchs in der Politik, Opladen: Westdeutscher Verlag, S. 258–275. Hülshoff, Thomas (2012): Emotionen. Eine Einführung für beratende, therapeutische, pädagogische und soziale Berufe, 4. Aufl., München [u. a.]: Reinhardt. Jäger, Ludwig/Sabine Plum (1988): Historisches Wörterbuch des deutschen Gefühlswortschatzes. Theoretische und methodische Probleme, in: Jäger, Ludwig (Hrsg.), Zur historischen Semantik des deutschen Gefühlswortschatzes. Aspekte, Probleme und Beispiele seiner lexikographischen Erfassung, Aachen: Alano Verlag, S. 5–51. Jahr, Silke (2000): Emotionen und Emotionsstrukturen in Sachtexten. Ein interdisziplinärer Ansatz zur qualitativen und quantitativen Beschreibung von Emotionalität von Texten, Berlin/New York: de Gruyter. Jänicke, Stefan/Greta Franzini/Muhammad F. Cheema/Gerik Scheuermann (2015): On Close and Distant Reading in Digital Humanities: A Survey and Future Challenges, in: Borgo, Rita/Fabio Ganovelli/Ivan Viola (eds.), Eurographics Conference on Visualization (EuroVis) STAR – State of the Art Report, [online] http://www.etrap.eu/wp-content/uploads/2015/07/paper.pdf. Kämper, Heidrun (2007): „Die Schuldfrage“ von Karl Jaspers (1946). Ein zentraler Text des deutschen Nachkriegsdiskurses, in: Hermanns, Fritz/Werner Holly (Hrsg.), Linguistische Hermeneutik. Theorie und Praxis des Verstehens und Interpretierens (=Germanistische Linguistik, Band 272), Tübingen: Niemeyer, S. 301–322. Kämper, Heidrun (2009): Quasi-religiöse Sprache am Beispiel des Nationalsozialismus, in: Gerber, Uwe/ Rudolf Hoberg (Hrsg.), Sprache und Religion, Darmstadt: Wissenschaftliche Buchgesellschaft, S. 339–357. Kämper, Heidrun (2017): Personen als Akteure, in: Roth, Kersten Sven/Martin Wengeler/Alexander Ziem (Hrsg.), Handbuch Sprache in Politik und Gesellschaft (=Handbücher Sprachwissen, Band 19), Berlin/Boston: de Gruyter, S. 259–279. Kämper, Heidrun (2018): Sprachliche Sozialgeschichte 1933 bis 1945 – ein Projektkonzept, in: Kämper, Heidrun/Britt-Marie Schuster (Hrsg.), Sprachliche Sozialgeschichte des Nationalsozialismus (=Sprache – Politik – Gesellschaft, Band 24), Bremen: Hempen, S. 9–25. Kämper, Heidrun (2019): Sprachgebrauch im Nationalsozialismus. Unter Mitarbeit von Adelheid Wibel (=Literaturhinweise zur Linguistik (LIZULI), Band 9), Heidelberg: Winter. Kegel, Jens (2006): „Wollt ihr den totalen Krieg?“ Eine semiotische und linguistische Gesamtanalyse der Rede Goebbels’ im Berliner Sportpalast am 18. Februar 1943 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 138 (=Germanistische Linguistik), Tübingen: Niemeyer. Kershaw, Ian (1999): Der Hitler-Mythos. Führerkult und Volksmeinung, Stuttgart: DVA. Kobusek, Katja (2017): „genauso konsequent sozialistisch wie national.“ Alte Kämpferinnen der NSDAP vor 1933. Eine Quellenedition 36 autobiographischer Essays der Theodore-Abel-Collection, Göttingen: Wallstein. Kopperschmidt, Josef (Hrsg.) (2003): Hitler der Redner, München: Fink. Kösters, Sabine (2018): Kommunikationsstrategien zur Vermittlung beruflicher Identitäten in der Zeitschrift NS Frauen-Warte, in: Kämper, Heidrun/Britt-Marie Schuster (Hrsg.), Sprachliche Sozialgeschichte des Nationalsozialismus (=Sprache - Politik – Gesellschaft, Band 24), Bremen: Hempen, S. 107–126. Kreuz, Christian Daniel (2018): Das Konzept ‚Schuld’ im Ersten Weltkrieg und in der Weimarer Republik. Linguistische Untersuchungen zu einem brisanten Thema. Bremen: Hempen. Kunc, Michal (2015): Ideologischer Wortschatz in den deutschen Lehrbüchern im Protektorat Böhmen und Mähren, in: Brünner Beiträge zur Germanistik und Nordistik, Jg. 29, H. 1, S. 107–126. Moretti, Franco (2013): Distant Reading, London: Verso. (dt.: Distant Reading. Aus dem Englischen übersetzt von Christine Pries, Konstanz 2016). Mückel, Wenke (2005): „Trübners Deutsches Wörterbuch“ (Band 1-4) – ein Wörterbuch aus der Zeit des Nationalsozialismus. Eine lexikografische Analyse der ersten vier Bände (erschienen 1939-1943) (=Lexicographica Series Maior, Band 125), Tübingen: Niemeyer. Musolff, Andreas (2011): Politische Sprachkritik und kognitive Metapherntheorie. Neuere Analysen nationalsozialistischer Rhetorik, in: Schiewe, Jürgen (Hrsg.), Sprachkritik und Sprachkultur. Konzepte und Impulse für Wissenschaft und Öffentlichkeit, Bremen: Hempen, S. 125–138. Niehr, Thomas (1993): Schlagwörter im politisch-kulturellen Kontext. Zum öffentlichen Diskurs in der BRD von 1966 bis 1974, Wiesbaden: Deutscher UniversitätsVerlag. Nussbaum, Martha (2013): Political Emotions. Why Love Matters for Justice, Cambridge/London: Harvard University Press. Ortner, Heike (2014): Text und Emotion. Theorie, Methode und Anwendungsbeispiele emotionslinguistischer Textanalyse, Tübingen: Narr. Plamper, Jan (2012): Geschichte und Gefühl. Grundlagen der Emotionsgeschichte, München: Siedler. Polenz, Peter von (1999): Deutsche Sprachgeschichte vom Spätmittelalter bis zur Gegenwart. Band III: 19. und 20. Jahrhundert, Berlin/New York: de Gruyter. Reichel, Peter (1996): Der schöne Schein des Dritten Reiches. Faszination und Gewalt des Faschismus, München/Wien: Hanser. Römer, David/Nina Kalwa (2016): Emotion, sprachliches Handeln und Mentalität, in: Kreuz, Christtian Daniel/Robert Mroczynski (Hrsg.), Sprache, Kultur, Mentalität. Sprach- und kulturwissenschaftliche Beiträge zur Analyse von Mentalitäten (=Kriterium, Band 5), Berlin/Münster: Lit, S. 67–83. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emotion“ Sandig, Barbara (2006): Textstilistik des Deutschen, 2. völlig neu bearb. u. erw. Aufl., Berlin: de Gruyter. Schmitz-Berning, Cornelia (1998): Vokabular des Nationalsozialismus, Berlin/New York: de Gruyter. Schwarz-Friesel, Monika (2013): Sprache und Emotion, 2. aktualisierte und erweiterte Aufl., Tübingen/ Basel: A. Francke. Selb, Peter/Simon Munzert (2018): Examining a Most Likely Case für Strong Campaign Effects: Hitler’s Speeches and the Rise of the Nazi Party, 1927-1933, in: American Political Science Review, Jg. 112 , H. 4 , S. 1050–1066. Siemens, Daniel (2017): Gegen den „gesinnungsschwachen Stimmzettelträger“. Emotion und Praxis im Wahlkampf der späten Weimarer Republik, in: Richter, Hedwig/Hubertus Buchstein (Hrsg.), Kultur und Praxis der Wahlen, Wiesbaden: Springer, S. 215–236. Spitzmüller, Jürgen/Ingo H. Warnke (2011): Diskurslinguistik. Eine Einführung in Theorien und Methoden der transtextuellen Sprachanalyse, Berlin/Boston: de Gruyter. Tognini-Bonelli, Elena (2001): Corpus Linguistics at Work, Amsterdam: Benjamins. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 139 139 Virtanen, Tuija (2009): Corpora and discourse analysis, in: Handbücher zur Sprach- und Kommunikationswissenschaft Band 29.1., Berlin/Boston: de Gruyter. S. 1043–1070. Vorein, Christian (2008): Nationalsozialistische Schulbücher des Gaues Mecklenburg. Eine lexikologische Untersuchung zur sprachlichen Vermittlung der NS-Ideologie (=Europäische Hochschulschriften, Reihe 1/1965), Frankfurt/M. [u. a.]: Peter Lang. Weber, Max (1922): Die drei reinen Typen der legitimen Herrschaft, in: Weber, Max, Gesammelte Aufsätze zur Wissenschaftslehre, Mohr: Tübingen 1988, S. 475–488. Winko, Simone (2003): Kodierte Gefühle. Zu einer Poetik der Emotionen in lyrischen und poetologischen Texten um 1900, Berlin: Schmidt. Zifonun, Gisela/Ludger Hoffmann/Bruno Strecker et al. (1997): Grammatik der deutschen Sprache. Band 1, Berlin/New York: de Gruyter. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 9. April 2021. 24.03.22 11:06 140 8. Wirksamkeit sprachlicher Förderung überprüfen: Erfassen schriftsprachlicher Fähigkeiten von Schülerinnen und Schülern auf Satzebene Das Kapitel stellt eine Fallstudie aus dem Bereich der Sprachdidaktik dar. Diese germanistische Teildisziplin beschäftigt sich mit Fragen des Erwerbs und der Vermittlung sprachlicher Fähigkeiten. Am Beispiel einer Studie zu Satzbildungsfähigkeiten von Schüler*innen werden Aufbau und Probleme von Interventionsstudien erläutert, mit denen die Wirksamkeit bestimmter didaktischer Zugänge überprüft wird. Das Kapitel skizziert zunächst die Entwicklung des Untersuchungsdesigns, erläutert den Entwurf und die Überprüfung eines Messinstruments (Test) und zeigt anhand einer Beispielhypothese, wie Forschungshypothesen formuliert und statistisch überprüft werden. Abschließend wird der Umgang mit dem für die Untersuchung erhobenen Schülertextkorpus reflektiert und werden methodische Schwierigkeiten, z. B. beim Umgang mit Lernertexten, diskutiert. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Sandra Schwinning, Miriam Morek 1. Empirische Schreibdidaktik oder Wie Schüler*innen in ihren Texten formulieren Ein Großteil der linguistischen Forschung zielt darauf, sprachliche Ist-Zustände unter systematischen Gesichtspunkten zu beschreiben (z. B. ‚Welche Satzstellung ist im Deutschen typisch?’, ‚Wie häufig werden in Whats-App-Chats Interjektionen verwendet?’). Die germanistische Sprachdidaktik als eine wichtige Bezugsdisziplin der Linguistik interessiert sich dagegen immer auch für Veränderungs- und Optimierungsprozesse im Bereich von Sprache und Sprachgebrauch von Individuen: Über welche sprachlichkommunikativen Fähigkeiten verfügen Schüler*innen (z. B. einer bestimmten Jahrgangsstufe) schon, über welche noch nicht? Und wie können sie dabei unterstützt werden, ihr Repertoire an Ausdrucksressourcen zu erweitern? Diese Fragen zur Diagnostik und Förderung sprachlicher Fähigkeiten spielen zum Beispiel im Lehramtsstudium für das Fach Deutsch eine zentrale Rolle. 1 Aber woher weiß man, wie bestimmte sprachliche Fähigkeiten von Schüler*innen am besten gefördert werden können? Um Antworten auf diese Frage zu finden, benötigt man empirische, sprachdidaktische Studien. Diese Studien untersuchen zum Beispiel, unter welchen Bedingungen sich sprachliche Leistungen von Schüler*innen über die Zeit verändern, sodass man erfolgreiches Lernen annehmen kann. Dazu muss man zum einen genau wissen, welchen Teilbereich sprachlicher Fähigkeiten man überhaupt in den Blick nehmen möchte (z. B. Rechtschreibfähigkeiten? Syntaktische Fähigkeiten? Wortschatz? Textkompetenz?). Zum anderen gilt es, ein forschungsmethodisches Design zu wählen, mit dem Veränderungsprozesse in den entsprechenden Leistungen bei Schüler*innen beobachtet werden können. Wenn es darum geht, die Wirksamkeit eines bestimmten didaktischen Ansatzes zu überprüfen, bieten sich klassischerweise sog. Interventionsstudien1 an: Dabei erhält eine Untersuchungsgruppe eine bestimmte „Intervention“ (z. B. bestimmte Übungsaufgaben und/oder eine bestimmte Art von Unterricht), während eine Einen guten Einstieg in die Interventionsforschung bietet zum Überblick Leutner (2013) oder in Bezug auf empirische sprachdidaktische Fragestellungen Benz (2018). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 140 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Förderung“ 141 Abb. 1: Schülertext der sechsten Jahrgangsstufe eines Gymnasiums im Ruhrgebiet Kontrollgruppe keine besondere oder eine andere Art der Förderung erhält. Mit Hilfe eines Prätests (= vor der Intervention) und eines Posttests (= nach der Intervention) schaut man, welche Gruppe einen höheren Leistungszuwachs zu verzeichnen hat – oder ob sich zum Beispiel gar keine signifikanten Unterschiede zwischen den verschiedenen Bedingungen (mit/ohne Intervention) zeigen. Der vorliegende Beitrag erläutert am Beispiel einer Fallstudie, wie solche Interventionsstudien von der Entwicklung der Fragestellung bis zur Berechnung statistischer Werte und deren Interpretation aussehen können. Dazu greifen wir den Bereich der Förderung syntaktischer Fähigkeiten bei der schriftlichen Textproduktion von Fünftklässlern am Gymnasium heraus, der in Schwinning (2018) im Rahmen einer Interventionsstudie untersucht wurde. Betrachten wir dazu zunächst das Ergebnis einer Klassenarbeit, die im Rahmen des Deutschunterrichts einer sechsten Jahrgangsstufe eines Gymnasiums im Ruhrgebiet entstand (Abbildung 1). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 141 Der Schülertext entstand im Zuge einer Schreibaufgabe, in der die Aussage eines Zeugen zu einem Banküberfall präsentiert wurde. Verfasst werden sollte ein Polizeibericht. Die Aussage eines Zeugen war als umfangreiches Zitat schriftlich, jedoch konzeptionell mündlich (Koch und Oesterreicher 1985) dargeboten und umfasste 171 Wörter. Der Impuls – die Schreibaufgabe – begann wie folgt: „Ja, das war’n Ding! Zwei maskierte Gangster waren das! 2,5 Millionen im Rucksack. Das ist für unsereins ´ne Menge Geld. Geiseln? Ja, die gab’s auch. Der Bankier Schneider aus der Liliengasse und die Kassiererin Renate, die ist mit meiner Frau Ursula befreundet, die trinken immer Kaffee zusammen […].“ Unter Gesichtspunkten der Textproduktion lassen sich zunächst und sehr allgemein drei Ebenen von Herausforderungen für Schüler*innen ausmachen (vgl. Quasthoff und Domenech 2016): • Es müssen aus der Zeugenaussage die für einen Polizeibericht relevanten Informationen extrahiert und in eine schlüssige (z. B. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 142 II Fallstudien chronologische) Reihenfolge gebracht werden (Kompetenzdimension ‚Vertextung’). • Das zu Berichtende muss für den spezifischen Adressaten (hier z. B. das Kommissariat) kommunikativ eingebettet und auf dessen Wissensvoraussetzungen und -bedarfe zugeschnitten werden (Kompetenzdimension ‚Kontextualisierung’), z. B. am Anfang und Ende des Textes. • Es müssen sprachliche Formen gewählt werden, um den Bericht für die*den antizipierte*n Leser*in nachvollziehbar zu machen und ihn deutlich als Exemplar der Textsorte ‚Polizeibericht’ kenntlich zu machen; dazu gehören zum Beispiel temporale Konnektoren, die die Reihenfolge des Geschehens wiedergeben, sowie der Gebrauch komplexer Nominalphrasen, die präzise Referenzen bei größtmöglicher Kürze ermöglichen (denkbar wäre z. B.: ‚Beim Öffnen des grünen, stählernen Schrankes….’) (Kompetenzdimension ‚Markierung’). Auf Ebene grundsätzlicherer Voraussetzungen für das Verfassen von Texten muss flüssig, mit lesbarem Schriftbild sowie orthographisch und grammatisch möglichst korrekt geschrieben werden. Betrachtet man den exemplarischen Schülertext nun mit diagnostischer Brille, so zeigt sich z. B., dass • die Handschrift lesbar ist und der Text vermutlich flüssig geschrieben wurde, • der Text eine geringe Anzahl von Rechtschreibfehlern enthält, die sich im Bereich der Eigennamen- und Fremdwortschreibung konzentrieren (*Ulmenalle, *Gängster, *maskirte), • der Text zwar durch eine Überschrift kontextualisiert wird, aber ansonsten ‚mit der Tür ins Haus fällt’ (Beim Überfall gab es Geiseln.), weil zeitliche und räumliche Verortung des Überfalls erst anschließend erfolgen (z. B. Es geschah am 26.05.2011.), • der Verfasser (in diesem Fall ein männlicher Schüler) eine Vertextung wählt, die vom Resultat ausgeht (‚Opfer’, ‚Täter’, ‚Beute’), bevor der Ablauf der Tat geschildert wird, • der Verfasser mehrmals Überarbeitungen (sog. Revisionen) an seinem Text vornimmt, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 142 die wir an entsprechenden Spuren (Durchstreichungen, Einfügungen) erkennen können (z. B. lexikalische Ersetzungen wie Männer zu Gängster). Daneben lassen sich auch im Bereich der Syntax einige Beobachtungen machen; sie sollen für den vorliegenden Beitrag im Vordergrund stehen. Man erkennt, dass • der Schüler in seinem Text ausschließlich einfache Sätze (d. h. keine Satzreihen oder Satzgefüge) verwendet, • er an einer Stelle – in Abweichung von schriftsprachlichen Normen – eine Koordinationsellipse nutzt, die sich über eine per Satzschlusspunkt gekennzeichnete Satzgrenze hinweg erstreckt (Und sind abgehauen.), • an einer Textstelle eine temporale Textprozedur im Vorfeld (Am Abend zuvor…) zu finden ist, mit der der Schreiber die Chronologie der Ereignisse in den Vordergrund rückt. Wie die temporale Textprozedur (Am Abend zuvor) grammatisch gestaltet wurde, ist, wenn man sich speziell für die syntaktischen Fähigkeiten von Schüler*innen beim Texteschreiben interessiert, besonders bemerkenswert: Sie lässt erkennen, dass der Textverfasser Topikalisierung als Mittel der Akzentuierung einsetzt. Anstatt der Grundwortstellung im Deutschen (SVO) gemäß zu formulieren (vgl. Beispiel 1), lenkt der Verfasser die Aufmerksamkeit der Leser*innen auf das Temporaladverbial, indem er es in das Vorfeld des Satzes, also vor das finite Verb, rückt. Beispiel 1 Sie haben sich am Abend zuvor einschließen lassen. Was unserem Schreiber an dieser Stelle zumindest punktuell schon gelingt, ist für viele schreibschwache Schüler*innen zu Beginn der Sekundarstufe noch eine große Schwierigkeit. Aus Studien zu syntaktischen Fähigkeiten von Schüler*innen ist bekannt, dass Schüler*innen zur sprachlichen Markierung auf der Textoberfläche in frühen Phasen 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Förderung“ der Textproduktionsentwicklung häufig auf Verknüpfungen verzichten oder auf gleichförmige Anschlüsse (und, dann, und dann) zurückgreifen und sich erst zum Beginn der Sekundarstufe eine Varianz hinsichtlich der syntaktischen Gestaltung und Konnektorenverwendung einstellt (vgl. u. a. Augst und Faigel 1986; Augst et al. 2007; Bachmann 2002). Solche Konnektoren sind unter Gesichtspunkten der Schreibentwicklung von Schüler*innen besonders relevant, weil sie gewissermaßen ‚Scharniere’ zwischen den beiden Dimensionen „Vertextung“ und „Markierung“ ausmachen: Solche sprachlichen Formen markieren inhaltliche Abfolge- und Aufbaustrukturen innerhalb eines Textes. Daher ist danach zu fragen, wie Schüler*innen beim Erwerb spezieller syntaktischer Strukturen unterstützt werden können. Im Folgenden wird ein Forschungsprojekt und sein Untersuchungsdesign vorgestellt, in dessen Rahmen der Effekt einer adaptierten Fördermethode aus dem angloamerikanischen Sprachraum in Form einer Interventionsstudie untersucht wurde. Schüler*innen der fünften Jahrgangsstufe des Gymnasiums sollten systematisch üben, variabel syntaktisch-semantische Verknüpfungen zwischen Propositionen am Beispiel von Einzelsatzpaaren herzustellen. Ein besonderes Augenmerk lag dabei auf der Förderung schreibschwacher Schüler*innen. Dabei musste die Veränderung der Leistungen der Schüler*innen durch die sprachliche Förderung abgebildet werden können. Um den Erfolg der Intervention zu überprüfen, wurden zu diesem Zweck Schülerfähigkeiten mit einem Test erhoben und es wurden Schülertexte computergestützt analysiert. Für die Messung der Leistungsveränderung wurden aus der linguistischen Diskussion um die Messung syntaktischer Komplexität bekannte Maße, wie z. B. T-Unit („minimal terminable unit“, Hunt 1965, S. 37; Feilke 1996a), aufgearbeitet und auf die Möglichkeit geprüft, eine Leistungsveränderung sichtbar zu machen. Im Folgenden wird nun zunächst das Konstrukt erläutert und die Frage geklärt, wie der Gegenstand der Untersuchung operationalisiert werden kann. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 143 143 2. Wirksame Schreibförderung auf Satzebene – Adaption eines angloamerikanischen Förderkonzeptes Wie können Schüler*innen lernen, Sätze in einem Text so zu verbinden, dass deren inhaltlicher Zusammenhang für Leser*innen leicht nachvollziehbar ist? Wie können sie bei der Textproduktion syntaktische Muster funktional nutzen, sodass sie bestimmten Anforderungen, beispielsweise in Berichten an Kürze und Präzision, Rechnung tragen? Im anglophonen Sprachraum blickt das Konzept Sentence Combining auf eine etwa 40-jährige Forschungstradition zurück. Im Rahmen von Sentence-Combining Instruction werden leistungsschwache Schüler*innen angeleitet, Einzelsätze zu komplexeren Gebilden zu kombinieren (vgl. Strong 1986; aktuell Saddler 2012). In solchen Satzkombinationsprogrammen absolvieren die Schüler*innen eine nach aufsteigender Schwierigkeit und Komplexität aufgebaute Reihe von Übungen wie etwa des Aufgabentyps Key Words placed in Parantheses (vgl. Saddler 2012, S. 28). Dabei müssen zwei oder mehrere unverbundene Sätze, wie z. B. Beispiel 2, unter Angabe eines ‚Schlüsselworts’ (nämlich: eines Konnektors) verbunden werden (z. B. zu Beispiel 3), sodass zwei Propositionen, die zuvor in zwei Einzelsätzen repräsentiert waren, in einem Satz verarbeitet werden. Beispiel 2 Ich bleibe drinnen. Es ist kalt und windig draußen. (weil) (Saddler 2012, S. 30; Übersetzung S. Sch.) Beispiel 3 Ich bleibe drinnen, weil es draußen kalt und windig ist. Warum könnten solche Satzkombinationsübungen Schüler*innen beim Verfassen von Texten helfen? Einen Erklärungsansatz, warum ein solcher Zusammenhang plausibel erscheint, und damit auch einen Theorierahmen bietet die Theory of Cognitive Load Reduction (vgl. Chandler und Sweller 1991). Dieser 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 144 II Fallstudien Theorie zufolge wird angenommen, dass Routinen und Automatisierung das Arbeitsgedächtnis zugunsten anderer Verarbeitungsprozesse entlasten: Wenn sich Routinen ausbilden, können freiwerdende Kapazitäten des Arbeitsgedächtnisses für andere Verarbeitungsprozesse eingesetzt werden. Übertragen auf das Formulieren von Sätzen bedeutet dies, dass der Schreibprozess entlastet wird, wenn das Formulieren von Sätzen in zunehmendem Maße automatisiert vonstattengeht. Die durch ausgebildete Routinen frei gewordenen Kapazitäten können dann wiederum z. B. für die inhaltliche Ausgestaltung des Textes genutzt werden, was zur Verbesserung seiner Qualität beitragen kann. Flüssiges, variables Formulieren auf Satzebene ist daher auch in Ergänzung zur Schreibflüssigkeit auf Wortebene zu sehen, wie sie u. a. Sturm (2014) insbesondere hinsichtlich der Silben, Wörter und Worteinheiten in den Fokus gerückt hat. Bisher wurden im angloamerikanischen Raum mehrere Studien durchgeführt, die die Wirksamkeit eines solchen Programms zu überprüfen versuchen. Insgesamt erscheinen die bisherigen Befunde ermutigend: So wurde in Einzelstudien (in Form von Interventionsstudien, s. Abschnitt 1) festgestellt, dass sich die Texte der in Satzkombinationsprogrammen trainierten Schüler*innen insgesamt verbessern (vgl. z. B. Saddler und Graham 2005; Kanellas, Carifio und Dagostino 1998), und zwar in unterschiedlichen Klassenstufen (Klassen 4-7) und in unterschiedlichen Gruppengrößen (Kleingruppentrainings, vgl. z. B. Saddler, Behforooz und Asaro 2008 u. a.; Trainings im Klassenverband, Kanellas, Carifio und Dagostino 1998). Neben diesen Einzelstudien existieren auch sogenannte Metastudien, in denen die Ergebnisse aus mehreren publizierten Einzelstudien in eine Zusammenschau gebracht werden, die eine Wirksamkeit von Satzkombinationstrainings bestätigen (vgl. z. B. Graham und Perin 2007). Welches Forschungsdesiderat ergibt sich nun? Zum einen gibt es für den deutschen Sprachraum zwar den Satzkombinationsprogrammen – im weitesten Sinne – ähnliche Übungsvorschläge und Fördermaterialien UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 144 (vgl. Menzel 1998; Tophinke 2013; Topalovic und Jost 2014), die stärker auf die Satzverbindungen (Konnektoren) abzielen, jedoch wurden diese bislang nicht systematisch empirisch zu ihrer Wirksamkeit überprüft. Zum anderen lassen die oben zitierten Studien aus dem angloamerikanischen Raum vor dem Hintergrund der anhaltenden sprachdidaktischen Diskussion (vgl. z. B. Langlotz 2020) bisher ein wichtiges Lernpotenzial von Satzkombinationsaufgaben außen vor, nämlich eben diese logisch-semantische Beziehung zwischen den Propositionen, die durch den Konnektor, das angegebene „Schlüsselwort“, deutlich wird, genauer zu betrachten. Zur Veranschaulichung: Es kann, wie in Beispiel 2 – ohne Nennung des Schlüsselworts –, dem Lesenden eines Textes überlassen bleiben, wie der Zusammenhang der Sätze zu verstehen ist. Die kausale Lesart wäre hier die Standardlesart für den Rezipienten. Alternativ wird der Konnektor explizit gesetzt wie in Beispiel 3. Der Konnektor übernimmt dann die Markierung auf der sprachlichen Oberfläche und enthält den entscheidenden Verbindungshinweis (Markierung, s. Abschnitt 1). Studien zum Erwerb der syntaktischen Fähigkeiten haben schon vor geraumer Zeit gezeigt, dass Lernende, bevor sie bei der Gestaltung eines Textes gezielt auf die Inferenz des Rezipienten setzen können, also den Konnektor weglassen, eine Phase des gesteigerten Konnektorengebrauchs durchlaufen (vgl. Augst und Faigel 1986; Feilke 1996b). Man könnte auch sagen: Schreibende müssen zunächst lernen, auf welche primären Standardlesarten Rezipienten zurückgreifen, damit sie dieses Wissen bei der Textgestaltung präsupponieren und den Text auf dieser Basis gestalten können. Vor dem Hintergrund der Erkenntnisse, die die hiesige schreibdidaktische Forschung mittlerweile zur Bedeutung der mentalen Kohärenzbildung im Schreibprozess erlangt hat, ist außerdem die logisch-semantische Seite des Konnektors in den Übungsformen hochinteressant: Aktuelle Befunde zeigen anschaulich, wie wichtig es für Schüler*innen ist, den inhaltlichen Aufbau ihres Textes kognitiv zu durchdringen und auch mit Hilfe sprachlicher Hinweise deutlich machen zu können (vgl. Becker-Mrotzek et al. 2014; Be- 24.03.22 11:06 Fallstudie „Sprachliche Förderung“ Semantisches Feld Junktionstechnik Koordination (durch Adverb oder koordinierende Konjunktion) Subordination (durch subordinierende Konjunktion) Integration (durch Präposition) kausal denn weil wegen Lisa schläft schon, denn sie war müde. Lisa schläft schon, weil sie müde war. Wegen ihrer (akuten) Müdigkeit schläft Lisa schon. daher2 da Lisa war müde. Daher schläft sie schon. Lisa schläft schon, da sie müde war. vorher bevor vor Lisa ging ins Bett. Vorher putzte sie sich die Zähne. Bevor Lisa ins Bett ging, putzte sie sich die Zähne. Vor dem Zubettgehen putzte sich Lisa die Zähne. danach nachdem nach Lisa putzte sich die Zähne. Danach ging sie ins Bett. Lisa ging ins Bett, nachdem sie sich die Zähne geputzt hatte. Nach dem Zähneputzen ging Lisa ins Bett. trotzdem obwohl trotz Lisa hatte sich gut vorbereitet. Trotzdem bestand sie die Prüfung nicht. Lisa bestand die Prüfung nicht, obwohl sie sich gut vorbereitet hatte. Trotz ihrer guten Vorbereitung bestand Lisa die Prüfung nicht. konzessiv Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 temporal wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 145 Abb. 2: Gegenüberstellung der Junktionstechniken Koordination, Subordination und Integration in den semantischen Feldern kausal, temporal und konzessiv cker-Mrotzek et al. 2015) (vgl. den Anforderungsbereich „Markierung“, Abschnitt 1). Darüber hinaus wurde in den bisherigen Satzkombinationsstudien vor allem mit isolierten Einzelsätzen als Ausgangspunkt der Übungen gearbeitet. Sprache in Funktion, also z. B. von Textbeispielen ausgehend, stand weniger im Fokus der Übungen. Über Sprache zu reflektieren und Ähnlich- und Gemeinsamkeiten verschiedener sprachlicher Strukturen zu systematisieren und ihre Leistungen kontrastiv zu betrachten, steht ebenso nicht explizit im Zentrum dieser Trainings. 2 Ausgehend von den vorgenannten Überlegungen zu den Kompetenzen, die im Rahmen einer an Satzkombinationstrainings angelehnten Intervention erworben werden können, wurde ein didaktischer Ansatz entworfen, bei dem Satzverknüpfungen in Kombination mit Konnektoren zum Gegen2 stand von Übungsaufgaben für Schüler*innen gemacht werden. Als Ausgangspunkt dienten die semantischen Felder, in denen Konnektoren für Satzreihen (Koordination), Satzgefüge (Subordination) und Nominalphrasen (Integration) parallel existieren: kausale, temporale und konzessive Sprachmittel (siehe auch Langlotz 2014). Diese können wiederum in den drei unterschiedlichen Satzverknüpfungstechniken Koordination, Subordination und Integration vorkommen (vgl. Abbildung 2), wenn entsprechende syntaktische Transformationen vorgenommen werden, z. B. von denn sie war müde zu wegen ihrer Müdigkeit. Abbildung 2 stellt diese Sprachmittel einander systematisch mit Beispielsätzen gegenüber. Ausgehend von diesen Überlegungen wurde folgende dreistufige Intervention entwickelt: Genau genommen ist der Adverbkonnektor daher dem konsekutiven und nicht dem kausalen Feld zuzuordnen. Beide haben allerdings gemein, einen Grund zu verknüpfen oder auf ihn zu verweisen. Zu didaktischen Zwecken wird er daher hier dem kausalen Feld zugeordnet. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 145 24.03.22 11:06 146 II Fallstudien 3/13 Messzeitpunkte (MZP) Interventionsgruppe 7/13 1/14 Regulärer Deutschunterricht + Intervention Kontrollgruppe Regulärer Deutschunterricht Satzkombinationstest Schülertexterhebung T1 t1 t2 T2 t3 ↑ t4 T3 t5 t6 t7 ↑ t8 t9 ↑ Abb. 3: Schematische Übersicht des quasi-experimentellen Zweigruppenplans mit Prä-, Post- und FollowUp-Testung und begleitender Schülertextanalyse (in Anlehnung an Schwinning 2018, S. 161 und Pissarek und Wild 2018, S. 216) Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Testinstrument: Fähigkeit zur syntaktischen und semantischen Verknüpfung von Sätzen 1. In einem ersten Schritt wurde den Schüler*innen ein präparierter Erzähltext präsentiert, der die Konnektoren und grammatischen Strukturen der Lerneinheit beinhaltete. Die Lernenden sollten thematisch spezifische, durch Konnektoren ausgelöste syntaktische Muster finden und sammeln. Zum Beispiel sollten alle Wörter oder Wendungen gefunden werden, die eine zeitliche Sukzession oder Gründe oder Einräumungen deutlich machten (Sammeln/ Rezeption). 2. Die gefundenen Sätze wurden dann in einem Schema, einem ‚Wortspeicher’, systematisiert und die Wirkungen der Formulierungen reflektiert (Systematisierung).3 3. In einem dritten Schritt wurden den Lernenden Einzelsatzpaare präsentiert, die sie jeweils kontrastiv mit allen zuvor systema3 4 5 tisierten Verknüpfungstechniken verbinden sollten (Produktion).4 Nachdem nun die Inhalte der Interventionen näher erläutert wurden, wird im folgenden Kapitel skizziert, in welches Untersuchungsdesign die Intervention eingebettet wurde, und erläutert, welche methodischen Überlegungen angestellt wurden. Weiterführende inhaltliche Überlegungen sind bei Schwinning (2018, S. 128-152 und S. 176-184) dargestellt. 3. Entwurf eines Untersuchungsdesigns In Interventionsstudien ist die Wirksamkeit das zentrale Kriterium (vgl. auch Benz 2018).5 Man folgt der Grundannahme, dass sich die Zu den Problemen dieser Systematisierung siehe Schwinning (2018, S. 181 ff). Der Dreischritt Rezeption – Systematisierung – Produktion folgt dem wortschatzdidaktischen Dreischritt, der durch Kühn (2007) und Steinhoff (2009) diskutiert wurde. Nach Kirkpatrick, D. und Kirkpatrick, J. (2012) können Maßnahmen, wie Interventionen, auf vier Ebenen wirksam werden: Level 1 Reaction, Level 2 Learning, Level 3 Behavior und Level 4 Results. Level 1 bezieht sich auf die Reaktion der Teilnehmenden auf die Maßnahme, auf Level 2 wird geklärt, inwiefern das Programm dazu führt, dass sich Kenntnisse oder Fähigkeiten der Probanden verändern. Level 3 zielt auf das Verhalten der Probanden ab und inwiefern eine Maßnahme Veränderungen des Verhaltens der Probanden auch in anderen Zusammenhängen auslöst. Level 4 bezieht sich auf beobachtbare Veränderungen in den Leistungen (vgl. Kirkpatrick, D. und Kirkpatrick, J. 2012, S. 21 f.; für einen exemplarischen Transfer auf die Evaluation von Lehrerfortbildungen siehe auch Benz 2018, S. 70), ganz konkret in Bezug auf das Konstrukt. Diese wird als Wirkungsebene in der vorliegenden Intervention fokussiert. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 146 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Förderung“ abhängige Variable, im vorliegenden Fall die Schülerleistungen, ausgelöst durch die unabhängige Variable, die Intervention, verändern wird. Mit anderen Worten: Unter dem Einfluss der unabhängigen Variablen (UV) wird sich die abhängige Variable (AV) so verändern, dass ein Unterschied sichtbar wird. Dies wird mit Hilfe von Unterschieds- (vgl. Beller 2008, S. 100) oder Veränderungshypothesen überprüft (vgl. Bortz und Döring 2006, S. 451 ff.). Solche Hypothesen werden im Rahmen von Interventionsstudien üblicherweise mit Hilfe von Zwei-Gruppen-Plänen untersucht, das heißt, es werden eine Experimental- und eine Kontrollgruppe eingerichtet, wobei die Veränderung der Leistung in der Experimentalgruppe erwartet wird und die Leistung der Kontrollgruppe die Basis für den Vergleich stellt (vgl. Bortz und Döring 2006, S. 451 ff.). Abbildung 3 veranschaulicht vorgreifend das Untersuchungsdesign und den zeitlichen Ablauf der hier als Fallstudie präsentierten Untersuchung, bevor einzelne Komponenten und methodische Grundlegungen erläutert werden. Die Einrichtung einer Kontrollgruppe dient dazu, ein höheres Maß an (interner) Validität6 zu erreichen, also zu gewährleisten, dass möglichst wenige Störquellen die Untersuchung beeinflussen. Wird nur eine Gruppe untersucht, ist nicht auszuschließen, dass man zwar Veränderungen in den sprachlichen Fähigkeiten der Schüler*innen vorfindet, aber nicht weiß, ob diese durch die Intervention oder z. B. durch Reifungs- und Entwicklungsprozesse zustande kamen. Zudem 6 7 147 ist gerade im Untersuchungsfeld Schule davon auszugehen, dass sich in einem Untersuchungszeitraum grundsätzlich irgendeine Form von ‚Lernzuwachs’ abspielt. Durch die Einrichtung einer Kontrollgruppe als Basis des Vergleichs wird wahrscheinlicher, in einer Untersuchung tatsächlich den Einfluss einer Intervention beobachten zu können. Dabei ist natürlich besonders nachzuhalten oder vorzugeben, wie die Kontrollgruppe die Zeit verbringt, in der die Interventionsgruppe die Lerninhalte bearbeitet.7 Wichtig ist dafür auch, dass zu Beginn der Studie zwischen den zu vergleichenden Gruppen keine systematischen Unterschiede bestehen, die einen Vergleich unmöglich machen (vgl. Bortz und Döring, 2006, S. 560), z. B. Selektionseffekte zum Tragen kommen. Diese belasten die Aussagekraft bzw. Gültigkeit (Validität) einer Untersuchung, zum Beispiel, wenn das Geschlechterverhältnis unausgewogen ist und einer Gruppe nur weibliche, der anderen nur männliche Proband*innen zugeordnet sind oder wenn sich die Sprachkenntnisse bzw. Fachleistungen sowie die Motivation und das Verständnis der eigenen Leistungsfähigkeit (das fachliche Selbstkonzept) in einem Schulfach zu sehr unterscheiden. Es muss also zunächst kontrolliert werden, ob sich die zu untersuchenden Gruppen überhaupt hinsichtlich zu bestimmender Leistungsmerkmale vergleichen lassen. In der vorliegenden Studie wurden beispielsweise Lesefähigkeiten (Lesegeschwindigkeit und -verständnis) mit Hilfe des Lesegeschwindigkeits- und -verständnistests für die Klassen 6-12 (vgl. Schneider, Schlag- Zur Unterscheidung von interner und externer Validität siehe Bortz und Döring (2006, S. 32 f.). In Frage kommen hier nur Inhalte, die sich nicht mit den Untersuchungsinhalten überschneiden. Es empfiehlt sich, die Aktivitäten der Kontrollgruppe zu dokumentieren oder dokumentieren zu lassen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 147 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 148 II Fallstudien müller und Ennemoser 2007) und das fachliche Selbstkonzept8 kontrolliert.9 Anschließend werden die Proband*innen im Idealfall zufällig einer Bedingung (Bedingung: Interventionsgruppe, Bedingung: Kontrollgruppe) zugewiesen. Nicht immer lässt sich im Untersuchungsfeld eine solche Randomisierung allerdings umsetzen. So werden in Untersuchungen u. a. auch natürliche Gruppen verglichen, wie auch in der hier vorliegenden Studie: Hier wurden unterschiedliche Klassen den unterschiedlichen Bedingungen zugeordnet.10 Die Untersuchungsbedingungen sind somit nicht von äußeren Einflüssen getrennt, wie z. B. im Labor; sie werden daher als quasi-experimentell bezeichnet. Steht die zu untersuchende Population fest und sind die Untersuchungsbedingungen zugewiesen, stellt sich die Frage, welche Untersuchungen zu welchen Zeitpunkten durchgeführt werden sollten. Zu Beginn der Untersuchung muss – neben der generellen Vergleichbarkeit – geklärt werden, über welche Fähigkeiten die beiden natürlichen Gruppen im Hinblick auf das zu untersuchende Konstrukt verfügen. Hierfür muss in beiden Gruppen ein Messzeitpunkt vorgesehen werden, der vor der Intervention liegt (Prätest, siehe Abbildung 3). Die Prätest-Ergebnisse dürfen zwischen den Gruppen nicht zu stark differieren, da sonst mit Blick auf den Gegenstand schon vor der Intervention so große Unterschiede bestehen, dass ggf. mit untersuchungsverzerrenden Effekten gerechnet werden muss (vgl. Bortz und Döring 2006, S. 560).11 Eine rechnerische Korrektur von solchen Unterschieden ist möglich, im vorliegenden Fall war sie jedoch nicht nötig. Direkt nach der Intervention liegt der zweite Messzeitpunkt (Posttest), anhand dessen die unmittelbare Wirkung der Maßnahme abgeschätzt werden soll. Um Aufschluss über die langfristige Wirkung der Intervention und damit das Behalten zu erlangen, wird bei größeren Studien ein weiterer, dritter Messzeitpunkt eingeplant (Follow-Up-Test).12 Damit ergibt sich ein Zweigruppen-Querschnittsdesign mit drei Messzeitpunkten (s. Abbildung 3). Was an den geplanten Messzeitpunkten erhoben wird, richtet sich nach dem Studiengegenstand und seiner Operationalisierung, Das Selbstkonzept wurde durch drei Einschätzungen auf einer vierstufigen Skala (trifft zu – trifft eher zu – trifft eher nicht zu – trifft nicht zu) operationalisiert: Item 1: Im Fach Deutsch bekomme ich gute Noten. Item 2: Im Fach Deutsch lerne ich schnell. Item 3: Im Fach Deutsch bin ich ein hoffnungsloser Fall. Das negativ gepolte Item (Item 3) ermöglicht die Überprüfung der Antworttendenzen: Antworten die Proband*innen in Item 1 und 2 positiv, müssten sie in Item 3 negativ antworten, damit die Antworten als konsistent gelten können. 9 In der vorliegenden Studie lagen die angesprochenen Daten zur Stichprobe im Rahmen der Erhebungen im Projekt Ganz In. Mit Ganztag mehr Zukunft. bereits vor. Ganz In war ein gemeinsames Projekt der Universitäten der Ruhrallianz, der Stiftung Mercator und des Ministeriums für Schule und Weiterbildung des Landes Nordrhein-Westfalen, in dem 30 ausgewählte Gymnasien auf ihrem Weg zur gebundenen Ganztagsschule begleitet wurden. Das Projekt begann im Jahr 2009 und endete zum Ende des Jahres 2018. Eine Zusammenfassung der ersten Ergebnisse findet sich bei Wendt und Bos (2015). 10 Vor der Durchführung von Interventionen an Schulen ist die Zustimmung der Einrichtung (Schulleitung bzw. Schulkonferenz) und der Beteiligten bzw. Erziehungsberechtigten (im Fall Minderjähriger) einzuholen. Einzelheiten zur Durchführung von wissenschaftlichen Studien an Schulen regelt § 120 Abs. 4 SchulG und BASS 10-45 Nr. 2. Zum Zwecke des Datenschutzes sind die erhobenen Daten zu pseudonymisieren. 11 Z. B. können Regressionseffekte auftreten. Unter Regressionseffekten versteht man, dass bei großen Unterschieden „extreme Pretestwerte die Tendenz [haben], sich bei einer wiederholten Messung zur Mitte der Merkmalsverteilung hin zu verändern (Regression zur Mitte) bzw. – genauer – zur größten Dichte der Verteilung“ (Bortz und Döring 2006, S. 554). 12 Das Einplanen eines dritten Messzeitpunkts hat zudem positive Auswirkungen auf die Reliabilität (vgl. Bortz und Döring 2006, S. 554). 8 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 148 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Förderung“ das heißt, es muss geklärt werden, welche Daten erhoben werden sollen und wie sie erhoben werden sollen. Im vorliegenden Fall sollten die syntaktischen Fähigkeiten einerseits, und die logisch-semantischen Fähigkeiten andererseits erhoben werden. Dazu wurden zwei unterschiedliche Zugänge gewählt: In einem Test sollte der Umgang der Schüler*innen mit den trainierten Konstruktionen gezielt abgefragt werden. Der Fokus sollte auf speziell logisch-semantischen Aspekten des Konnektorengebrauchs liegen. Der Test sollte zu drei Zeitpunkten eingesetzt werden: vor der Intervention (Prätest), am Ende der Intervention (Posttest) und nach einigen Monaten (Follow-Up-Test), um die Ausgangsleistung, die Veränderung und langfristige Effekte sichtbar zu machen. Zusätzlich zu den drei oben angesprochenen Messzeitpunkten (T1-T3, s. Abbildung 3) wurden Schülertexte als sogenannte anfallende Stichprobe (convenience sample), in Form von Klassenarbeiten, erhoben (t1-t9, s. Abbildung 3), um Aufschluss über die von den Proband*innen in freier Textproduktion verwendeten syntaktischen Konstruktionen und Konnektoren zu erhalten. Die geschriebenen Texte der Proband*innen zu erfassen, ergänzt die Ergebnisse des Tests: In freien Texten verwenden die Schülerinnen und Schüler nicht zwangsläufig alle Satzverknüpfungstechniken, die Teil der Intervention waren. Wie zuvor deutlich wurde, ist das je nach Text und auch je nach Entwicklungsstand des Individuums nicht immer notwendig. Im Folgenden wird zunächst das Messinstrument, der Test, näher vorgestellt, bevor im Anschluss auf die Schülertexterhebung und ihre Auswertung eingegangen wird. 149 3.1 Wirksamkeit sprachlicher Förderung mit einem Test messen Um zu prüfen, ob und inwiefern die Schüler*innen durch die Intervention hinzulernen, was das Kombinieren von Sätzen durch Konnektoren und syntaktische Mittel der Verknüpfung betrifft, wird ein ‚Messinstrument’ benötigt. Im Bereich sprachlicher Fähigkeiten sind i. d. R. standardisierte Tests13 zu bestimmten sprachlichen Bereichen solche Instrumente. Liegt ein geeignetes Instrument für den interessierenden Fähigkeits- und Altersbereich bereits vor, so lässt sich dies übernehmen. Oft müssen jedoch vorhandene Tests modifiziert oder neue Tests entwickelt werden. So auch in der hier exemplarisch besprochenen Studie: Es existiert mit dem Sprachstandstest TOWL 4 (Test of Written Language, 4th ed., Hammill und Larsen 2009) im angloamerikanischen Sprachraum ein langjährig erprobtes und empirisch evaluiertes Instrument14 zur Überprüfung der schriftsprachlichen Fähigkeiten. In einem Subtest des TOWL 4 werden auch explizit die Fähigkeiten zur Verknüpfung von Sätzen getestet, allerdings existiert keine deutschsprachige Fassung bzw. Entsprechung. Für den Test wurden zwei Aufgabenformate neu konstruiert: eine geschlossene Aufgabe im Multiple-Choice-Format und eine Fließtextaufgabe. Für den Multiple-ChoiceTeil wurden 15 Items entworfen, die jeweils aus zwei Einzelsätzen bestanden, die an einer vorgegebenen, durch ein Sternchen () gekennzeichneten Stelle miteinander verbunden werden sollten (vgl. Schwinning 2018, S. 169). Sie hatte sich erst gründlich die Zähne geputzt. Sie ging ins Bett. nachdem obwohl bevor während Es wurden vier Alternativlösungen angeboten. Gängig ist, mindestens drei anzugeben. 13 Standardisierte Tests sind Instrumente, die nach einem festgelegten Ablauf- und Auswertungsschema eingesetzt werden und deren Güte (z. B. Reliabilität, s. u.) in Studien eingehend überprüft wurde. 14 Es liegen beispielsweise Normwerte vor, mit Hilfe derer die individuellen Leistungen eingeordnet und der Lernstand im Vergleich zur Leistung anderer Gleichaltriger genauer bestimmt werden kann. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 149 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 150 II Fallstudien Mit vieren wird die Ratewahrscheinlichkeit weiter gesenkt (vgl. Bortz und Döring 2006, S. 215).15 In einer weiteren Aufgabe wurde ein narrativer Text präsentiert, in dem die Konnektoren an 15 Stellen im Text manipuliert worden waren. In einem Wortspeicher am Ende des Textes wurden Wörter zur Korrektur der fehlerhaften Stellen dargeboten. Schülerinnen und Schüler waren gefordert, diese Stellen aufzufinden und sie unter Bezugnahme auf den Wortspeicher zu korrigieren. Als Bedingung wurde formuliert, dass alle Wörter aus dem Wortspeicher zur Korrektur im Text verwendet werden sollten. In dieser Aufgabe wurden 30 Items erfasst: pro fehlerhafte Textstelle je einmal das Auffinden (Rezeption) und einmal die Korrektur (Produktion). War ein*e Schüler*in nicht in der Lage, die fehlerhafte Stelle zu identifizieren, war es ihm oder ihr nicht möglich, das zweite Item erfolgreich zu lösen, nämlich die Korrektur vorzunehmen. Der Test (Konnektoren ankreuzen, Fehler finden) wurde zu allen drei Messzeitpunkten auf Papier mit Stiften durchgeführt. Für die Messzeitpunkte wurden verschiedene Testversionen erstellt, die sich in Reihenfolge der Items unterscheiden, um verzerrende Effekte (Urteilsfehler) zu vermeiden. Beispielsweise erinnern sich Proband*innen besonders gut an die ersten und letzten Items eines Tests (Primacy-Recency-Effekt; vgl. Bortz und Döring 2006, S. 184). Da eine Testwiederholung geplant war, der Test also zu allen drei Messzeitpunkten eingesetzt werden sollte16, konnte auf die Erstellung verschiedener Testversionen nicht verzichtet werden.17 Die Durchführung in den Klassen folgte einer standardisierten Anleitung, um zu gewährleisten, dass alle Schüler*innen die gleiche Instruktion erhielten und keine Auswirkungen auf die Testleistung zu erwarten waren, die in der Art und Durchführung der Testeinweisung liegen. So werden Testfairness und Objektivität der wissenschaftlichen Untersuchung gewährleistet. Auch die Auswertung der Lösungen folgte einer Anleitung, in der alle Lösungen und ihre jeweilige Bewertung verzeichnet wurden. Die Ergebnisse der Aufgaben wurden im Anschluss mit einem Statistikprogramm (hier: SPSS, ein weiteres Programm ist z. B. R, → Kapitel 28 [Werkzeuge statistische Analyse] in diesem Band) erfasst und mit verschiedenen statistischen Methoden ausgewertet. Bei der Dateneingabe wurden die Lösungen der Aufgaben als Rohwerte erfasst, also die jeweils erreichten Punkte in den Aufgabenteilen und die Gesamtpunktzahl. Zusätzlich werden SchülerID, Geschlecht, Alter, Schule, Klasse und Untersuchungsbedingung als (unabhängige) Variablen erfasst, die als Grundlage für die Unterscheidung bei den statistischen Berechnungen dienen. Stehen standardisierte Messinstrumente zur Verfügung, kann der oder die Forschende i. d. R. davon ausgehen, dass diese auch funktionieren und den wissenschaftlichen Standards entsprechen. Bei eigens konstruierten Tests kann dies nicht vorausgesetzt werden. Wie kann man sicher sein, dass der entwickelte Test auch ‚funktioniert’, sich also eignet, um die unterschiedliche Ausprägung der syntaktischen Fähigkeiten von Schüler*innen im Schriftlichen zu erheben? Um dies sicherzustellen, werden üblicherweise eine sogenannte Itemanalyse und eine Überprüfung der Reliabilität, also der Zuverlässigkeit des Testinstruments, durchgeführt. 3.1.1 Itemanalyse und Reliabilitätsbestimmung Die Itemanalyse ist „zentrales Instrument der Testkonstruktion und Testbewertung“ (Bortz und Döring 2006, S. 217). Sie gibt Aufschluss darüber, ob und wie gut die Testauf- 15 Zum Zusammenhang von Distraktorenanzahl (d. h. Anzahl angebotener Alternativlösungen) und Ratewahrscheinlichkeit siehe u. a. Büchter (2008). 16 Mit Übungseffekten ist bei einer Testwiederholung immer zu rechnen. Daher sind die Zeiträume zwischen den Messzeitpunkten sorgfältig zu wählen. Im vorliegenden Fall lagen zwischen dem Prä- und Posttest etwa 12 Wochen, zwischen Post- und Follow-Up-Test sechs Monate. 17 In großen Studien werden Tests zuvor so pilotiert, dass verschiedene gleichwertige Testversionen parallel nebeneinander existieren, die das gleiche Konstrukt messen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 150 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Förderung“ gaben (Items) und auch der Test im Ganzen geeignet sind, die Fähigkeiten der Probanden zu erfassen. Elemente der Itemanalyse sind z. B.: 1. Prüfung der Normalverteilung, 2. Schwierigkeitsbestimmung, 3. Trennschärfe. Zu einer Itemanalyse gehört zum Beispiel die Betrachtung der Rohwerte der ermittelten Testergebnisse. Alle Verteilungen streben mit zunehmendem Stichprobenumfang zu ei-ner Normalverteilung (zentrales Grenzwerttheorem; vgl. z. B. Beller 2008, S. 93; Bortz und Döring 2006, S. 411). Das heißt, je größer die untersuchte Population ist, desto höher ist auch die Wahrscheinlichkeit, dass die Daten einer Normalverteilung (der sog. Gauß’schen Glockenkurve) folgen. In einer Normalverteilung befinden sich die meisten Daten symmetrisch angeordnet um den Mittelwert herum. Neben dem Mittelwert (M) ist die Standardabweichung von Bedeutung. Sie ist ein Maß für die Streuung (Varianz) der Daten und beschreibt die „mittlere Abweichung vom Mittelwert“ (Oestreich und Romberg 2009, S. 99). Im Wesentlichen lässt sich mit Hilfe der Standardabweichung (auch mit SD abgekürzt für standard deviation) erkennen, wie breit die Daten streuen. 65 Prozent der Daten liegen in einer Normalverteilung um den Mittelwert plus bzw. minus eine Standardabweichung (M ± 1 SD) (vgl. ebd.). Mit einem geringen Stichprobenumfang, vielen Ausreißern vom Mittelwert oder einer zunehmenden Schiefe und Stauchung bzw. Streckung (Kurtosis) der Verteilung wird die Wahrscheinlichkeit für eine Normalverteilung geringer. Hinsichtlich der Notwendigkeit auf Prüfung auf Normalverteilung besteht die verbreitete Annahme, dass eine zunehmend große Stichprobe automatisch zu einer Normalverteilung strebt und ab einer Stichprobengröße von 30 (vgl. Meindl 2011, S. 137; Bortz und Döring 2006, 151 S. 218) oder 50 (vgl. Beller 2008, S. 131) von einer Normalverteilung ausgegangen werden kann. Sind viele Ausreißer vorhanden oder ist die Verteilung auffällig schief, steil oder flach, sollte die Normalität der Verteilung auf Ebene der unabhängigen Variable trotzdem überprüft werden,18 da einige statistische Verfahren, z. B. der T-Test, nur auf Basis einer Normalverteilung ge-naue Ergebnisse liefern (vgl. Field 2009, S. 169). Ein weiterer Bestandteil der Itemanalyse ist die Bestimmung der Schwierigkeit der einzelnen Items. Sie wird für jedes Item, also für jede Teilaufgabe, einzeln berechnet. Kann das Item von allen Proband*innen erfolgreich gelöst werden, ist es zu leicht. Kann das Item von nur sehr wenigen oder keinen Probanden gelöst werden, wäre das Item zu schwierig. Wenn ein Test einige schwierige oder einige leicht zu lösende Items beinhaltet, ist dies i. d. R. kein Problem. Ein Problem entsteht erst dann, wenn ein Test ausschließlich (zu) leichte oder (zu) schwierige Aufgaben enthält, dann entstehen sogenannte Decken- bzw. Bodeneffekte. Leistungsveränderungen sind mit Hilfe eines so strukturierten Messinstruments nicht oder kaum noch messbar. Der Satzverknüpfungstest, wie er für die vorliegende Studie konstruiert wurde, war für Interventions- und Kontrollgruppe (N = 51) vergleichsweise leicht zu lösen. Die Lösungswahrscheinlichkeit betrug 73 Prozent, sodass mit Deckeneffekten gerechnet werden musste, die die Leistungsstreuung im oberen Testbereich blockieren. Da allerdings besonders leistungsschwache Schüler*innen im Fokus der Untersuchung standen, wurde in einem separaten Schritt die Lösungswahrscheinlichkeit speziell für diese Zielgruppe (1. Quartil,19 d. h. die untersten 25 %) bestimmt. Auch hier lag die Lösungswahrscheinlichkeit immer noch bei 60 Prozent und 18 Eine statistische Prüfung auf Normalverteilung erfolgt je nach Größe der Stichprobe z. B. entweder durch den Kolmogorov-Smirnov-Test oder den Shapiro-Wilk-Test (vgl. Field 2009, S. 184-185). 19 Bei der Bestimmung von Quartilen wird der Datensatz in vier gleiche Teile zerlegt: Das erste Quartil umfasst die unteren 25 %, das zweite Quartil die unteren 50 %, aber ohne die untersten 25 % aus dem ersten Quartil. Zum dritten Quartil gehören die oberen 50 %, aber ohne Berücksichtigung der oberen 25 % Prozent, die wiederum das vierte Quartil bilden. Zur anschaulichen Einführung siehe auch Oestreich und Romberg (2009, S. 75-77). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 151 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 152 II Fallstudien damit vergleichsweise hoch, jedoch für explorative Zwecke in einem akzeptablen Rahmen. Insgesamt – unter Bezugnahme weiterer zwei Vergleichsklassen einer weiteren Schule und damit auf Basis einer größeren Stichprobe (N = 97) – konnte festgestellt werden, dass die Aufgabenschwierigkeit in einem guten Rahmen lag. Über die Gesamtstichprobe (inkl. Vergleichsklassen) lag die Lösungswahrscheinlichkeit bei 47 Prozent. Die Aufgabenschwierigkeiten pro Item rangierten zwischen 0,28 bei der schwierigsten Aufgabe und 1,0 bei einem Item, das alle Schüler*innen lösen konnten.20 Ein weiterer wichtiger Kennwert bei der Testkonstruktion ist die Trennschärfe, die Korrelation zwischen Itemwert und Gesamttestergebnis. In anderen Worten: Ein Trennschärfekoeffizient gibt an, „wie gut ein einzelnes Ergebnis das Gesamtergebnis des Tests repräsentiert“ (Bortz und Döring 2006, S. 219). Ein Item ist trennscharf, wenn leistungsstarke Probanden ein Item mit hoher Wahrscheinlichkeit richtig lösen und leistungsschwächere Probanden ein Item mit weniger hoher Wahrscheinlichkeit erfolgreich bearbeiten. Besonders anschaulich wird dies, wenn man sich die umgekehrte Situation, also eine negative Trennschärfe, vorstellt. Ein solches Item würde von leistungsschwächeren Probanden mit höherer Wahrscheinlichkeit korrekt gelöst als von leistungsstarken (vgl. Beller 2008, S. 53-54), und das ist nicht im Sinne eines Messinstruments, da das einzelne Testitem dann keine gute Aussagekraft über die Fähigkeiten des Probanden hat (Validität).21 Aufgabenschwierigkeit und Trennschärfe hängen eng miteinander zusammen: „Hohe Trennschärfen sind […] nur bei mittelschweren Aufgaben möglich“ (Beller 2008, S. 54; zum genauen Zusammenhang vgl. Bortz und Döring 2006, S. 220). Wenn man Trennschärfe also als alleiniges Kriterium ansetzt, erhält man einen Test mit ausschließlich mittelschweren Items, mit denen die Fähigkeiten nicht differenziert genug erfasst werden können. Es ist daher ratsam, mit Hilfe beider Kennzahlen, Aufgabenschwierigkeit und Trennschärfe, zu entscheiden, welche Items in einer Testversion verbleiben. Im vorliegenden Test waren drei Items in der MultipleChoice-Aufgabe nicht ausreichend trennscharf, in der Textaufgabe waren 15 Items mit einem Trennschärfeindex von über 0,5 sehr trennscharf (vgl. Schwinning 2018, S. 199). Aufgabenschwierigkeit und Trennschärfeanalyse geben ein klareres Bild, wie schwer oder leicht der Test und seine einzelnen Items in etwa sind und mit welcher Vorhersagekraft einzelne Items hinsichtlich des Gesamttestergebnisses ausgestattet sind. Aber mit welcher Genauigkeit misst das Testinstrument? Die Antwort auf diese Frage ergibt sich durch eine Überprüfung der Reliabilität.22 Die Reliabilität umschreibt den „Grad der Messgenauigkeit (Präzision) eines Instrumentes“ (Bortz und Döring 2006, S. 196). Im Wesentlichen beruhen die Kennwerte zur Bestimmung der Reliabilität auf Korrelationen. Durch Korrelationen wird geklärt, wie eng zwei Werte miteinander zusammenhängen (vgl. Beller 2008, S. 53). Ein verbreitetes Maß im Zusammenhang mit der Reliabilität ist die interne Konsistenz in Form von Cronbachs Alpha. Dieser Kennwert beruht auf Testhalbierungen (vgl. Bortz und Döring 2006, S. 198; Beller 2008, S. 56). Zur Berechnung wird der Test in zwei Testteile zerlegt, die – sozusagen als zwei hypothetische Testversionen – miteinander korreliert werden. Dann in zwei ent- 20 Alle Schüler*innen finden im Erzähltext beispielsweise die fehlerhafte Stelle in folgender Passage: Lisa hat einen kleinen Goldhamster namens Freddy. Freddy ist eigentlich ein liebes Tier, *sondern er zwickt Lisa manchmal in die Finger. Nicht alle Proband*innen, aber immerhin 78 Prozent waren auch in der Lage, diese Stelle korrekt zu verbessern. Dahingegen sehr schwierig zu identifizieren, ist die fehlerhafte Verknüpfung in folgendem Satz: *Wenn Freddy zu viel Dreck gemacht hat, muss Lisa den Käfig heute reinigen. 21 In anderen Zusammenhängen, z. B. bei der Entwicklung von Fragebögen, kann eine negative Trennschärfe auch ein Indikator für ein absichtlich oder unabsichtlich negativ gepoltes, d. h. umgekehrt formuliertes, Item sein. Weitere Informationen finden sich z. B. bei Field (2018, S. 823 f.). 22 Ein weiterer Aspekt der Testanalyse ist die Homogenität, also ob die einzelnen Items das gleiche Testkonstrukt messen, die hier nicht weiter ausgeführt wird. Es sei auf Beller (2008) und Lienert und Raatz (1998) verwiesen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 152 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Förderung“ sprechend anders zusammengesetzten Testteile und so fort, bis alle denkbaren Testhalbierungen überprüft wurden. Je höher die Korrelation der ‚Testversionen’, desto höher die Reliabilität und damit die Zuverlässigkeit des Messinstruments.23 Als Orientierungswert kann gelten, dass eine Reliabilität in Form von Cronbachs Alpha höher als 0,9 eine sehr gute Reliabilität darstellt. Werte zwischen 0,8 und 0,9 gelten als gut (vgl. Bortz und Döring 2008, S. 725). Field (2009) gibt für Fähigkeitstests eine Grenze von 0,7 an, ab der von einer guten Reliabilität des Messinstruments gesprochen werden kann (vgl. ebd., S. 709 f.). Für das vorliegende Messinstrument betrug die Reliabilität der Multiple-Choice-Aufgabe 0,7 und die für die Textaufgabe 0,9. Das Messinstrument ist also gut genug, davon auszugehen, dass seine (Un-)Genauigkeit nicht zu einer eingeschränkten Aussagekraft führt. Zusammenfassend sei festgehalten: Ziel der Itemanalyse und Reliabilitätsbestimmung ist es, die Qualität des Messinstruments zu überprüfen und gegebenenfalls auch zu verbessern. Zu diesem Zweck ist abzuwägen, gering trennscharfe, zu leichte und zu schwere Items aus dem Test herauszunehmen. Dies gilt auch für Items, die die Reliabilität des Tests herabsetzen.24 3.1.2 Statistische Hypothesenprüfung Interventionsstudien gehen i. d. R. von einer oder mehreren Hypothesen aus. Beispielsweise davon, dass die eingesetzte Intervention im Vergleich zur Kontrollgruppe zu signifikant höheren Lernzuwächsen in einem bestimmten Bereich (hier: sprachlicher Fähigkeiten) führt. Dazu muss eine entsprechende Hypothese nicht nur formuliert, sondern ihre Geltung muss auch statistisch überprüft werden. Man muss also ein bestimmtes Berechnungsverfahren nutzen, um die Testwerte der Interventionsgruppe mit denen der Kontrollgruppe zu vergleichen. Dabei ist vor allem auszuschließen, dass ein etwaiger Vorsprung einer Inter- 153 ventionsgruppe nur zufällig oder unsystematisch ausfällt (also nicht ‚statistisch signifikant’ ist) oder nur auf Basis besserer oder schlechterer durchschnittlicher Ausgangsleistungen einer der Gruppen zustande kam. Wissenschaftliche Hypothesen müssen zunächst einmal so formuliert sein, dass sie empirisch anhand der vorliegenden Daten überprüfbar sind (→ Kapitel 2 [Grundlagen] in diesem Band). Man stellt eine Behauptung auf, die überprüft werden soll. Ein übliches Format ist ein Konditionalsatz in WennDann-Form aber auch indirekte Formate sind möglich (vgl. Bortz und Döring 2006, S. 4), z. B. Schüler*innen der Interventionsgruppe schreiben in ihren Texten syntaktisch komplexere Sätze als Schüler*innen der Kontrollgruppe (Wenn Schüler*innen an der Intervention teilgenommen haben, dann schreiben sie syntaktisch komplexere Sätze in ihren Texten). Für die Überprüfung von Hypothesen gibt es etablierte Verfahren (sog. inferenzstatistische Verfahren). Inferenzstatistik bezieht sich, anders als die sogenannte deskriptive Statistik, nicht bloß auf Beschreibungen von Verteilungen von Werten – wie z. B. in Abschnitt 3.1.1 zu den Rohwerten skizziert –, sondern auf Zusammenhänge und Verhältnisse mit dem Ziel, Aussagen zu formulieren (vgl. Bortz und Döring 2006, S. 32; Meindl 2011, S. 132). Welches inferenzstatistische Verfahren unter mathematischen Gesichtspunkten angewandt werden kann, hängt von der formulierten Hypothese und den vorliegenden Daten ab. Darüber hinaus spielt es eine Rolle, ob in den erhobenen Testwerten eine Normalverteilung vorliegt (siehe Abschnitt 3.1.1) oder nicht, und davon, wie viele Messzeitpunkte vorliegen. Abbildung 4 stellt die jeweils zu treffenden Entscheidungen in Form eines Flussdiagramms dar und differenziert zwischen parametrischen Verfahren, die bei normalverteilten Daten zum Einsatz kommen, und nicht-parametrischen Verfahren, die auch bei nicht normalverteilten Daten angewandt werden können. Zur groben Erläuterung der beiden Verfahren: Parametri- 23 Zu weiteren Möglichkeiten der Reliabilitätsprüfung siehe z. B. Kelle, Reith und Metje (2008). 24 Eine Statistik dieser Items gibt SPSS bei der Berechnung von Cronbachs Alpha für die Itemanalyse automatisch mit aus (siehe Field 2009, S. 712 ff.). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 153 24.03.22 11:06 154 II Fallstudien Normalverteilungstest (Kolmogorov-Smirnov- oder Shapiro-Wilk-Test) bei normalverteilten Daten bei nicht normalverteilten Daten Parametrische Verfahren Nicht-parametrische Verfahren → beruhen auf einem Vergleich der Mittelwerte → beruhen auf Rangfolgen Daten von unterschiedlichen Populationen liegen zu einem Zeitpunkt vor T-Test bei unabhängigen Stichproben Mann-Whitney-U-Test MZP 1 Interventionsgruppe Interventionsgruppe Kontrollgruppe Kontrollgruppe Daten von einer Population liegen zu zwei Zeitpunkten (MZP 1, MZP 2) vor T-Test bei abhängigen Stichproben Wilcoxon signed rank-Test MZP 1 MZP 1 MZP 2 Interventionsgruppe Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. MZP 1 MZP 2 Interventionsgruppe Abb. 4: Schematische Übersicht zu im Rahmen des Forschungsprojekts u. a. angewendeten statistischen Tests (eigene Darstellung basierend auf Field 2009) sche Verfahren legen für die Berechnung Mittelwerte zugrunde, die verglichen werden, bei nicht-parametrischen Verfahren hingegen werden die Daten in eine Rangfolge gebracht und verglichen, ob die Rangfolgen in den zu vergleichenden Stichproben sich ähneln oder stark variieren. Der T-Test ist ein typisches, häufig verwendetes statistisches Verfahren für den Mittelwertvergleich, wenn normalverteilte Daten vorliegen. Der Mann-Whitney-Test könnte für die Hypothesenprüfung angewendet werden, wenn keine Normalverteilung besteht. Nun soll exemplarisch eine Forschungshypothese vorgestellt und in ihrer statistischen Prüfung erläutert werden, nämlich folgende: Die Schüler*innen der Interventionsgruppe schneiden im Satzverknüpfungstest besser ab als die Schüler*innen der Kontrollgruppe. Hierbei handelt es sich um einen querschnittlichen Vergleich der Gruppen: Die Leistungen zu den jeweiligen Messzeitpunkten werden zwischen den Gruppen vergli- chen. Da eine Normalverteilung vorlag, wurde der T-Test für unabhängige Stichproben für diesen Vergleich herangezogen. Im T-Test für unabhängige Stichproben werden die Mittelwerte und Standardabweichungen der Stichproben verglichen. Mit der oben formulierten Hypothese wurde die sogenannte Alternativhypothese (H1) formuliert. Sie ist die Hypothese, die im Rahmen einer Studie untersucht bzw. erhärtet werden soll, nämlich, dass es eine Wirkung gibt, die sich in einem Unterschied niederschlägt (vgl. Beller 2008, S. 101). Getestet wird statistisch gesehen gegen eine Nullhypothese (H0), die besagt, dass die Untersuchungsbedingung (als unabhängige Variable) keinen Einfluss auf die Teilnehmer*innen hat. Nach dieser Nullhypothese würden die Mittelwerte in beiden Gruppen ähnlich sein (vgl. Field 2009, S. 365; zusammenfassend auch Meindl 2011, S. 47 ff.). Gibt es einen überzufälligen Unterschied, indiziert der T-Test für die Nullhypothese einen signifikanten Unterschied25 25 Ist der Unterschied signifikant, wird im Anschluss die Effektgröße (Cohens d) berechnet und geklärt, wie groß der Unterschied ausfällt (vgl. Field 2009. S. 376). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 154 24.03.22 11:06 Fallstudie „Sprachliche Förderung“ 155 Tab. 1: Mittelwerte (M) und Standardabweichungen (SD) für den absoluten Punktezuwachs vom Prä- zu Posttest in Interventionsgruppe (IG) und Kontrollgruppe (KG) (vgl. Schwinning 2018, S. 204) Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Bedingung N Prätest IG 26 KG 25 (24) 26 Posttest Diff_pre_post M SD M SD M SD 36,00 6,16 39,65 4,07 3,65 3,71 35,64 5,00 39,04 3,02 (3,92) (5,26) zwischen den beiden Gruppen. Die Nullhypothese wird abgelehnt und die Alternativhypothese bestätigt. In Interventionsstudien wird i. d. R. die Differenz in der Veränderung der Leistungen zu Prä- und Posttest zugrunde gelegt („Netto- bzw. Treatmenteffekt“, vgl. Bortz und Döring 2006, S. 559-560), die im Beispiel die Basis für den Hypothesentest bilden.26 Wie den Werten in Tabelle 1 zu entnehmen ist, ist der Lernzuwachs (d. h. die Differenz zwischen Prä- und Posttest) gemessen am Mittelwert in beiden Gruppen ähnlich groß (IG: 3,65; KG 3,92). An der Standardabweichung kann abgelesen werden, dass die Streuung in der Kontrollgruppe höher ausfällt als in der Interventionsgruppe (IG: 3,71, KG: 5,26). Um zu überprüfen, ob dies etwas mit der eingesetzten Intervention, also dem syntaktischen Training zu tun hat, muss gefragt werden: Ist diese Differenz zwischen den Gruppen statistisch bedeutsam oder zufällig? Um dies zu überprüfen, muss zunächst festgelegt werden, wie streng, also mit welcher „Irrtumswahrscheinlichkeit“ (Bortz und Döring 2006, S. 26), gerechnet werden soll bzw. wo der „kritische Wert“ (Oestreich und Romberg 2009, S. 260) liegt, an dem die Signifikanz festgemacht werden soll. Diese Grenze kann theoretisch willkürlich festgelegt werden, gängig ist in der sprachwissenschaftlichen Forschung ein Wert von 5 %. In einigen Disziplinen wird strenger getestet, indem das Signifikanzniveau 1 % oder 0,1 % beträgt. Das Signifikanzniveau definiert, wie groß der Be- reich sein soll, in dem die Nullhypothese abgelehnt wird (Oestreich und Romberg 2009, S. 260). Die Berechnung ergibt einen Wert p, der, wenn er das Signifikanzniveau unterschreitet (p < 0,05), anzeigt, dass die Nullhypothese abgelehnt wird. Bei Werten, die höher liegen (p > 0,05), wird H0 beibehalten.27 Für die Beispielhypothese ergibt der T-Test p = 0,838 (vgl. Schwinning 2018, S. 205). Das bedeutet, dass die Interventionsgruppe gegenüber der Kontrollgruppe im Satzverknüpfungstest nicht besser abschneidet und die Forschungshypothese nicht bestätigt werden kann (H1 wird abgelehnt, H0 wird bestätigt). 3.2 Wirksamkeit sprachlicher Förderung in freien Schülertexten untersuchen Wie in der Einleitung veranschaulicht, müssen auch einzelne sprachliche Teilfähigkeiten (z. B. Satzkombination, Konnektorengebrauch) immer vor dem Hintergrund sprachlich-kommunikativen Handelns betrachtet werden: Ein*e Schüler*in hat dann erfolgreich satzkombinatorische Verfahren erworben, wenn er*sie in der Lage ist, diese in mündlichen Diskursen oder schriftlichen Texten funktional zu nutzen. Für die Messung von Lernzuwächsen ergaben sich damit besondere Anforderungen: Neben dem Satzverknüpfungstest wurden die Schülertexte analysiert, um das etwaige Können oder Nicht-Können nicht nur isoliert in einem standardisierten Test, sondern auch im sprachli- 26 Aufgrund von Abwesenheiten von Probanden zu einigen Messzeitpunkten kann der Nettoeffekt nur auf Basis des Stichprobenumfangs N = 24 berechnet werden. Daher stimmen die rein rechnerischen Differenzen der angegebenen Werte in der Tabelle auch nicht mit dem Nettoeffekt überein. 27 Der Wert p richtet sich nach dem Signifikanzniveau. Wird beispielsweise auf einem Signifikanzniveau von 1 % getestet, muss p < 0,01 sein, um einen statistisch signifikanten Unterschied anzuzeigen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 155 24.03.22 11:06 156 II Fallstudien • durchschnittliche Satzlänge, • Anzahl und Art der Sätze, • Komplexität der Sätze. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. chen Handlungszusammenhang transparent zu machen. Verschiedene entstandene Texte miteinander zu vergleichen, ist dabei unter Auswertungsgesichtspunkten aufwändiger als die Auswertung eines standardisierten Tests. So mussten Kriterien für die Auswertung des ‚Vorher’ und ‚Nachher’ der Texte entwickelt werden. Seit geraumer Zeit werden verschiedene Möglichkeiten diskutiert, Lernentwicklungen von Schüler*innen im Bereich Syntax nachzuzeichnen, u. a.: Die durchschnittliche Satzlänge (als mean length of utterance (MLU), vgl. Szagun 2011, S. 80) und die Anzahl und Art der Sätze sind in vergangenen Untersuchungen als entwicklungssensitiv gekennzeichnet worden (vgl. z. B. bei Hug 2001; Ott 2000 oder Klotz 1996). Sie wurden durch ein Maß für syntaktische Komplexität ergänzt, da dieses hinsichtlich des Aspekts der syntaktischen Verknüpfungstechniken besonders geeignet war, um sprachliche Veränderung abzubilden. Die durchschnittliche Satzlänge war Ausgangspunkt der Textbetrachtung. Sie ist jedoch nur mit geringer diagnostischer Aussagekraft ausgestattet: Die durchschnittliche Satzlänge für die Subordination mit Konzessivsatz (Beispiel 4) beträgt 11 Wörter, die für die Integration der konzessiven Nominalphrase (Beispiel 5) hingegen nur 9 Wörter, obwohl im Satzrahmen mehr Informationen (Propositionen) verarbeitet wurden. Beispiel 4 Lisa bestand die Prüfung nicht, obwohl sie sich gut vorbereitet hatte. Beispiel 5 Trotz ihrer guten Vorbereitung bestand Lisa die Prüfung nicht. Verlässt man sich allein auf die durchschnittliche Satzlänge, können sehr kurze, einfache Sätze in syntaktischer Hinsicht nicht von komplexeren Konstruktionen (wie hier der Integration einer Phrase durch Nominalisierung) unterschieden werden. Um die Wirkung der Intervention zu überprüfen, reicht dieses Maß also nicht aus, da nicht klar wird, wie die Sätze verbunden wurden, also welche Konstruktionen verwendet wurden. Daher wurde in den Schülertexten die syntaktische Komplexität bestimmt. Die syntaktische Komplexität kann sehr unterschiedlich operationalisiert werden. Ein Vorschlag stammt unter dem Label ‚propositionale Komplexität’ von Augst et al. (2007).28 Zentral für die Bestimmung in dieser Operationalisierung ist die Anzahl der finiten Verben, da diese als Kern der Proposition angesehen werden. Nun gibt es jedoch grammatische Strukturen, die keine Flexion des Verbs erfordern, aber trotzdem eine Proposition repräsentieren, z. B. satzwertige Infinitivund Partizipialkonstruktionen (wie bei Augst et al. 2007 berücksichtigt) und Nominalisierungen, Inkorporationen, Linkserweiterungen und satzwertige Ellipsen. Diese müssen für die quantitative Auswertung zusätzlich erfasst werden. Die genannten Auswertungskategorien, wie durchschnittliche Satzlänge, Art und Anzahl der Sätze sowie syntaktische Komplexität, erscheinen auf den ersten Blick sehr gut handhabbar; jedoch ist bei der Arbeit mit realen Schülertexten mit methodischen Schwierigkeiten zu rechnen. Zur Ermittlung der durchschnittlichen Satzlänge müssen die Anzahl der Wörter und die Anzahl der Sätze bestimmt werden. So simpel diese Aufgabe klingen mag – gibt es doch Möglichkeiten der automatischen Wortzählung – ergeben sich in Lernertexten erwartungsgemäß häufiger Abweichungen von der Normschreibweise als in anderen Texten, z. B. Zeitungsnachrichten. Das heißt, Schülertexte müssen umfassend angepasst bzw. korrigiert werden, z. B. hinsichtlich normabweichender Getrennt- und Zusammenschrei- 28 Der Junktionswert bei Langlotz (2014) verfolgt auf einem ganz anderen Wege ein ähnliches Ziel (siehe Schwinning 2018, S. 97-99). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 156 24.03.22 11:06 Fallstudie „Sprachliche Förderung“ bung, nicht-markierten Satzgrenzen, unvollständigen Sätzen, Orthographie usw., bevor automatisierte Zählungen oder Taggings29 vorgenommen werden können. Die Reichweite der Anpassungen sei an den Beispielen 6 und 7 illustriert: Beispiel 7 „Toll, wir [fahren] nach Tenneriffer.“, meine Marco. (NARR_02_A09) Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Beispiel 6 Außerdem kann man das im Unterricht erarbeitete gut anwenden[.] dadurch lässt sich auch zeigen[,] ob die Schüler in der Schule gut aufgepasst haben. (ARG_01_A14) Damit die Bestimmung der Anzahl der Sätze, die der Berechnung von durchschnittlicher Satzlänge und syntaktischer Komplexität zugrunde liegt, die richtigen Werte liefert, müssen ‚Bandwurmsätze’ in normgemäße Satzeinheiten zerlegt werden, fehlende Elemente ergänzt und ggf. Falschschreibungen (meinte statt meine) korrigiert werden.30 Nicht immer ist nur eine (Re-)Konstruktion denkbar oder zulässig. Häufig gibt es mehrere mögliche alternative Formulierungen. Welche Variante in die Analyse eingeht, verlangt eine Entscheidung des bzw. der Forschenden. Damit diese Entscheidungen im Sinne der Auswertungsobjektivität transparent, also sicht- und nachvollziehbar, bleiben, sind die Eingriffe in die Textdaten zu markieren (hier: eckige Klammern). Den logisch-semantischen Aspekt der Intervention in Schreibprodukten zu erfassen, ist durch die vorgenannten Indizes nicht möglich. Hierfür müssen ergänzend zu den vorgenannten Werten die einzelnen Konnektoren erfasst und ausgewertet werden. Der Fokus lag in der Analyse bei Konstruktionen, die explizit trainiert wurden, und anderen syntaktischen Konstruktionen aus den trainierten Themenfeldern. Schließlich wurden 157 die eingeübten Konstruktionen noch nach Sprachrichtigkeit analysiert, um zu prüfen, ob sie in der Interventionsgruppe häufiger normgemäß verwendet wurden. 4. Ergebnisse und Diskussion Interventionsstudien im Bereich empirischer Sprachdidaktik gehen i. d. R. davon aus, dass eine bestimmte Form der Intervention sich als wirksam(er) für die Förderung schülerseitiger Sprachfähigkeiten erweist als andere. Nicht alles, was zunächst theoretisch plausibel erscheint, lässt sich jedoch auch empirisch nachweisen. Das hat u. a. mit den hohen Standards der statistischen Überprüfung zu tun, die eine Übertragbarkeit der Ergebnisse auf andere Lerngruppen abzusichern anzielen. Auch wenn die bisherige Forschung es nahelegt, dass sich Satzverknüpfungsübungen und die sprachreflexive Arbeit an Konnektoren positiv auf schülerseitige Satzverknüpfungsfähigkeiten auswirkt, konnte für das entwickelte Förderprogramm ein entsprechender Effekt nicht belegt werden. Der Satzverknüpfungstest zeigte zwar, dass zu Beginn der Sekundarstufe des Gymnasiums bereits viele Inhaltsrelationen durch die Schüler*innen beherrscht werden und sich im Untersuchungszeitraum die Einsichten in die logisch-semantischen Beziehungen in beiden Gruppen weiter vertieft haben, die erwartete Überlegenheit der Interventionsgruppe konnte sich jedoch im Rahmen der Hypothesenprüfung statistisch nicht bestätigen. So zeigten sich keine statistisch signifikanten Effekte zugunsten der Interventionsgruppe oder zugunsten der leistungsschwächeren Proband*innen der Stichprobe (1. Quartil). Die Schüler*innen nutzen die im Training erlernten Techniken nicht häufiger als die Kontrollgruppe, ihre Formulierungen in den Schreibprodukten unterschieden sich auch angesichts der syntaktischen Komplexität, 29 In der Korpuslinguistik wird eine maschinelle Annotation als Tagging bezeichnet. Für die vorliegende Studie wurde die Software MAXQDA mit seinen Möglichkeiten zur automatischen Wort-/ Satzzählung und zum automatischen Tagging suchbarer Wörter zur Analyse der Schülertexte verwendet. 30 Letzteres war für vorliegende Studie nicht notwendig, da Fehlschreibungen innerhalb von Wörtern für die Bestimmung der Satzlänge unschädlich waren. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 157 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 158 II Fallstudien das heißt, der sprachlichen Verdichtung, nicht von denen der Kontrollgruppe. Nichtsdestotrotz können auch – oder gerade – erwartungswidrige Ergebnisse der Forschung neue Anhaltspunkte zum Weiterdenken liefern. In der vorliegenden Studie beispielsweise stellte sich entgegen der Erwartung heraus, dass zwar leistungsschwächere Schüler*innen nicht in besonderem Maße vom Training profitierten, sich aber Effekte bei der syntaktischen Komplexität in der Gruppe des oberen durchschnittlichen Bereichs zeigten (3. Quartil). Diese beschränkten sich nach einer genaueren Analyse jedoch im Wesentlichen auf einen Messzeitpunkt, zu dem Schreibproben genommen wurden. Der Effekt war zwar recht hoch, jedoch auch nur sehr kurzfristig. Daher kann allein auf dieser Basis nicht auf einen grundsätzlichen Effekt der Intervention geschlossen werden. Es könnte aber ein Hinweis darauf sein, dass im Bereich syntaktischer und textueller Fähigkeiten zunächst ein gewisses Schwellenniveau erreicht sein muss, bevor bestimmte Arten der Intervention bei Schüler*innen fruchten können. 5. Methodische Reflexion Können die erwartungswidrigen Ergebnisse auch mit der eingesetzten Methodik zusammenhängen? Grundsätzlich kommen – neben theoretischen Überlegungen (z. B. ‚Schwellenwert-Hypothese’) – für die Erklärung erwartungswidriger Ergebnisse auch Aspekte in Frage, die die Methodik, also die Datenerhebung und -auswertung betreffen. Im vorliegenden Fall lassen sich in der Rückschau beispielsweise folgende Problematiken identifizieren, die unter methodischen Gesichtspunkten in Folgestudien besonders in den Blick zu nehmen wären: 1. die Randomisierung, 2. Störvariablen und 3. Ergänzung einer qualitativen Perspektive auf einzelne Lerner. Die Arbeit im Forschungsfeld, das heißt dem regulären Schul- und Unterrichtsbetrieb, ist für Forschende in verschiedenerlei Hinsicht eine Herausforderung. Diverse Faktoren des Feldes können Einfluss auf die Zu- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 158 sammensetzung der Stichprobe nehmen, beispielsweise durch (Nicht-)Versetzungen oder Schulwechsel. Dies wird insbesondere dann wirksam, wenn längerfristige oder gar längsschnittliche Erhebungen oder Beobachtungen geplant sind. Die einzelnen Interventionssitzungen können beeinflusst werden durch das Stattfinden schulischer Veranstaltungen, z. B. Arbeit an Projekten, der Besuch des Schulfotografen etc. Ebenso können Absprachen mit Akteuren, Schüler*innen oder Lehrpersonen zu Problemen führen, wenn diese nicht verbindlich eingehalten werden. Günstiger als die Arbeit mit natürlichen Gruppen ist aus experimenteller Sicht immer die Randomisierung. Eine Randomisierung lässt sich beispielsweise im Ganztagsschulbetrieb besonders in den Förderbändern des Nachmittagsbereichs realisieren, da alle Schüler*innen einer Jahrgangsstufe zur gleichen Zeit verfügbar sind. So können einige Störvariablen kontrolliert werden, die in natürlichen Gruppen nicht zu beeinflussen sind. Auch eine Arbeit mit Kleingruppen aus dem Klassenverband nach dem Vorbild US-amerikanischer Satzverbindungsprogramme ist möglich (z. B. wie bei Saddler, Behforooz, Asaro 2008). In diesen muss jedoch aufgrund eines zu geringen Stichprobenumfangs auf inferenzstatistische Untersuchungen, wie hier beschrieben, verzichtet werden. Es handelt sich mehr um Einzelfallbetrachtungen. Berechnungen könnten dann anhand des Prozentsatzes überlappender Datenpunkte (PND) oder Prozentsatzes aller überlappender Datenpunkte (PAND) erfolgen (nähere Ausführungen zu diesem Index bieten im Rahmen ihrer Studie beispielsweise Glaser, Meyer und Brunstein 2014). Obwohl in den Leistungen und den anderen überprüften Variablen (Lesefähigkeiten, Selbstkonzept) zu Beginn der Untersuchung keine systematischen Unterschiede ausgemacht werden konnten, stellen sich auch Lerneffekte in der Kontrollgruppe ein, die die Untersuchung beeinflusst haben. Um diesen Unterschieden auf den Grund zu gehen, sind ex post – anhand weiterer, aus Ganz In zur Verfügung stehenden Daten – die kognitiven 24.03.22 11:06 Fähigkeiten31 und das kulturelle Kapital32 betrachtet worden. Im Bereich kognitiver Fähigkeiten konnte auch in einer rückblickenden Überprüfung kein statistisch signifikanter Unterschied zwischen den Experimentalgruppen ausgemacht werden: Die Gruppen unterschieden sich nicht in ihren getesteten kognitiven Fähigkeiten. Im Bereich des kulturellen Kapitals hingegen konnte ein signifikanter Unterschied (p = 0,014; vgl. Schwinning 2018, S. 261) aufgedeckt werden, der als ein Aspekt einer Störvariablen33 im Verlauf der Studie womöglich wirksam wurde: Die Schüler*innen der Interventionsgruppe, so deutet sich an, könnten im Vergleich mit der Kontrollgruppe einen durchschnittlich niedrigeren sozioökonomischen Status aufweisen. Dieses Bild müsste aber zur sicheren Interpretation durch die Heranziehung ergänzender Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Förderung“ 159 Variablen zu diesem Aspekt weiter abgesichert werden, z. B. Haushaltseinkommen, Bildungshintergrund der Eltern etc. Diese Differenz hätte, wäre sie eingangs bemerkt worden, beispielsweise durch ein randomisiertes Untersuchungsdesign neutralisiert werden können. Der quantitativen Perspektive hätte – im Sinne einer Methodentriangulation34 – im vorliegenden Fall auch noch eine qualitative Perspektive hinzugefügt werden können, z. B. in Form einer Einzelfallanalyse. So könnte in künftigen Untersuchungen dieser Art der Lernfortschritt einzelner Proband*innen, die beispielsweise von Messzeitpunkt 1 zu 2 einen besonders hohen oder geringen Lernzuwachs gezeigt haben, im Detail anhand der Texte nachvollzogen und analysiert werden. Zum Weiterlesen Eine gute Einführung in die Entwicklung von Fragebögen und die Einschätzung der Qualität von Messinstrumenten bietet zum Einstieg Beller (2008) und zu weiterführenden Fragen Bortz und Döring (2006). Detaillierte Hinweise zur Erstellung von Tests liefern Lienert und Raatz (1998), zu Grundlagen der Statistik Bühner und Ziegler (2009). Zur anschaulichen Hilfe bei der statistischen Arbeit mit SPSS empfehlen wir die englischsprachige Einführung in die Statistik von Field (2009). Die in diesem Beitrag präsentierten Ergebnisse der Interventionsstudie können ausführlich in Schwinning (2018) nachgelesen werden. 31 Die kognitiven Fähigkeiten wurden in der Erhebung mit Hilfe eines Ausschnitts aus dem Kognitiver Fähigkeitstest (KFT, vgl. Heller und Perleth 2000) operationalisiert. 32 Es wurde von Schüler*innen und ggf. Eltern erfragt, wie viele Bücher in den jeweiligen Haushalten vorhanden sind. Dies stellt zusammen mit anderen Variablen zurzeit noch eine gängige Operationalisierung kulturellen Kapitals dar, die angesichts fortschreitender Digitalisierung prospektiv durch andere Operationalisierungsansätze abgelöst werden muss. 33 Eine Störvariable ist eine Variable, die auf die Untersuchungsergebnisse Einfluss nimmt, aber deren Wirkung nicht auf die Manipulation der unabhängigen Variablen in der Untersuchung zurückgeführt werden kann (vgl. z. B. auch Meindl 2011, S. 35). Zur Problematik der isolierten Interpretation dieser Differenz siehe Schwinning (2018, S. 261). 34 Als Triangulation bezeichnet man in der empirischen Sozialforschung, wenn zur Klärung der Fragestellung mehrere Methoden angewendet (Methodentriangulation) oder unterschiedliche Daten zum gleichen Gegenstand erhoben werden (Datentriangulation). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 159 24.03.22 11:06 160 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Literatur Augst, Gerhard, Katrin Disselhoff, Alexandra Henrich und Thorsten Pohl (Hrsg.) (2007): Text – Sorten – Kompetenz. Eine echte Longitudinalstudie zur Entwicklung der Textkompetenz im Grundschulalter (= Theorie und Vermittlung der Sprache, Band 48), Frankfurt am Main: Lang. Augst, Gerhard und Peter Faigel (1986): Von der Reihung zur Gestaltung. Untersuchungen zur Ontogenese der schriftsprachlichen Fähigkeiten von 13-23 Jahren. Frankfurt am Main [u. a.]: Lang. Bachmann, Thomas (2002): Kohäsion und Kohärenz: Indikatoren für Schreibentwicklung. Zum Aufbau kohärenzstiftender Strukturen in instruktiven Texten von Kindern und Jugendlichen. Innsbruck: Studien-Verlag. Becker-Mrotzek, Michael, Joachim Grabowski, Jörg Jost, Matthias Knopp und Markus Linnemann (2014): Adressatenorientierung und Kohärenzherstellung im Text. Zum Zusammenhang kognitiver und sprachlich realisierter Teilkomponenten von Schreibkompetenz, in: Didaktik Deutsch, Bd. 19, H. 37, S. 21–43. Becker-Mrotzek, Michael, Moti Brinkhaus, Joachim Grabowski, Vera Hennecke, Jörg Jost und Matthias Knopp (2015): Kohärenzherstellung und Perspektivenübernahme als Teilkomponenten der Schreibkompetenz: Von der diagnostischen Absicherung zur didaktischen Implementierung, in: Redder, Angelika, Johannes Naumann, Rosemarie Tracy und Sabine Lambert (Hrsg.): Forschungsinitiative Sprachdiagnostik und Sprachförderung. Ergebnisse. Münster/New York: Waxmann, S. 177–205. Beller, Sieghard (2008): Empirisch forschen lernen. Konzepte, Methoden, Fallbeispiele, Tipps, 2. Aufl., Bern: Huber. Benz, Jasmin (2018): Evaluationsforschung, in: Boelmann, Jan (Hrsg.), Empirische Forschung in der Deutschdidaktik. Band 1: Grundlagen, Baltmannsweiler: Schneider Verlag Hohengehren GmbH, S. 67–75. Bortz, Jürgen und Nicola Döring (2006): Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler, 4. Aufl., Heidelberg: Springer. Büchter, Andreas (2008): Multiple-Choice im Schulalltag, in: Eikenbusch, Gerhard und Timo Leuders (Hrsg.), Lehrer-Kursbuch Statistik. Alles über Daten und Zahlen im Schulalltag, 5. Aufl., Berlin: Cornelsen Scriptor, S. 135–152. Bühner, Markus und Matthias Ziegler (2009): Statistik für Psychologen und Sozialwissenschaftler, München: Pearson Studium. Chandler, Paul und John Sweller (1991): ‚Cognitive Load Theory and the Format of Instruction’, in: Cognition and Instruction, Jg. 8, H. 4, S. 293–332. Feilke, Helmuth (1996a): Die Entwicklung der Schreibfähigkeiten, in: Günther, Hartmut (Ed.), Schrift und Schriftlichkeit, Band 2: Ein interdisziplinäres Handbuch internationaler Forschung = writing and its use: An interdisciplinary handbook of international research. de Gruyter, S. 1178–1191. Feilke, Helmuth (1996b): „Weil“-Verknüpfungen in der Schreibentwicklung, in: Feilke, Helmuth und Paul UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 160 R. Portmann (Hrsg.), Schreiben im Umbruch. Schreibforschung und schulisches Schreiben (= Deutsch im Gespräch), Stuttgart [u. a.]: Ernst Klett Verlag, S. 40–54. Field, Andy P. (2009): Discovering statistics using SPSS, 3. Aufl., Los Angeles/London [u. a.]: SAGE. Field, Andy P. (2018): Discovering statistics using IBM SPSS statistics, 5. Aufl., Los Angeles/London [u. a.]: SAGE. Glaser, Cornelia, Debora Meyer und Joachim D. Brunstein (2014): Förderung der Schreibleistung und des Arbeitsverhaltens bei aufmerksamkeitsgestörten Grundschülern: Eine multiple Grundratenstudie über neun Viertklässler, in: Empirische Sonderpädagogik, Bd. 2, S. 79–98. Graham, Steve und Dolores Perin (2007): A Meta-Analysis of Writing Instruction for Adolescent Students, in: Journal of Educational Psychology, Jg. 99, H. 3, S. 445– 476. Hammill, Donald und Stephen Larsen (2009): Test of Written Language Fourth Edition. TOWL-4, Austin/ TX: Pro-Ed. Heller, Kurt A. und Christoph Perleth (2000): Kognitiver Fähigkeitstest für 4. bis 12. Klassen, Revision (KFT 4-12 R), Göttingen: Beltz Test. Hug, Michael (2001): Aspekte zeitsprachlicher Entwicklung in Schülertexten. Eine Untersuchung im 3., 5. und 7. Schuljahr, Frankfurt am Main/New York: Peter Lang. Hunt, K. W. (1965): Grammatical Structures Written at Three Grade Levels. NCTE Research Report No. 3. https://eric.ed.gov/?id=ED113735. Kanellas, Robert J., James Carifio und Lorraine Dagostino (1998): Improving the expository writing skills of adolescents. Lanham: University Press of America. Kelle, Udo, Florian Reith und Brigitte Metje (2008): Empirische Forschungsmethoden, in: Martin K. W. Schweer (Hrsg.), Lehrer-Schüler-Interaktion. Inhaltsfelder, Forschungsperspektiven und methodische Zugänge, 2. Aufl., Wiesbaden: VS Verlag für Sozialwissenschaften, S. 39–75. Kirkpatrick, Donald L. und James D. Kirkpatrick (2012): Evaluating training programs. The four levels, 3. Aufl. [veränd. Nachdr.], San Francisco: Berrett-Koehler. Klotz, Peter (1996): Grammatische Wege zur Textgestaltungskompetenz. Theorie und Empirie (= Germanistische Linguistik, Band 171), Tübingen: Niemeyer. Koch, Peter und Wulf Oesterreicher (1985): Sprache der Nähe - Sprache der Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte, in: Romanistisches Jahrbuch, Bd. 36, S. 15–43. Kühn, Peter (2007): Rezeptive und produktive Wortschatzkompetenzen, in: Willenberg, Heiner (Hrsg.), Kompetenzhandbuch für den Deutschunterricht. Auf der empirischen Basis des DESI-Projekts, Baltmannsweiler: Schneider Verlag Hohengehren, S. 159–167. Langlotz, Miriam (2014): Junktion und Schreibentwicklung. Eine empirische Untersuchung narrativer und argumentativer Schülertexte, Berlin: de Gruyter. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Sprachliche Förderung“ Langlotz, Miriam (2020): Auf welcher Grundlage und warum sollte explizites grammatisches Wissen vermittelt werden?, in: Der Deutschunterricht, Bd. 2, S. 5–13. Leutner, Detlev (2013): Perspektiven pädagogischer Interventionsforschung, in: Severing, Eckart und Reinhold Weiß (Hrsg.), Qualitätsentwicklung in der Berufsbildungsforschung (= Schriftenreihe des Bundesinstituts für Berufsbildung, Bonn, Band 12), Bielefeld: Bertelsmann, S. 17–28. Lienert, Gustav Adolf und Ulrich Raatz (1998): Testaufbau und Testanalyse, 6. Aufl., Weinheim: Beltz. Meindl, Claudia (2011): Methodik für Linguisten. Eine Einführung in Statistik und Versuchsplanung, Tübingen: Narr Francke Attempto. Menzel, Wolfgang (1998): Beziehungswörter – Sätze verbinden, in: Praxis Deutsch, Jg. 25, H. 151, S. 12–22. Oestreich, Markus und Oliver Romberg (2009): Keine Panik vor Statistik! Erfolg und Spass im Horrorfach nichttechnischer Studiengänge (= Vieweg Studium), 2., überarbeitete Aufl., Wiesbaden: Vieweg + Teubner. Ott, Margarete (2000): Schreiben in der Sekundarstufe I. Differenzierte Wahrnehmung und gezielte Förderung von Schreibkompetenzen, Baltmannsweiler: Schneider Verl. Hohengehren. Pissarek, Markus und Johannes Wild (2018): Prä-/ Post-/Follow-Up-Kontrollgruppendesign. Zur Überprüfung der Wirksamkeit von Interventionen, in: Boelmann, Jan (Hrsg.), Empirische Forschung in der Deutschdidaktik. Band 1: Grundlagen, Baltmannsweiler: Schneider Verlag Hohengehren GmbH, S. 215–236. Quasthoff, Uta und Madeleine Domenech (2016): Theoriegeleitete Entwicklung und Überprüfung eines Verfahrens zur Erfassung von Textqualität (TexQu) am Beispiel argumentativer Briefe in der Sekundarstufe I, in: Didaktik Deutsch, Bd. 41, S. 21–43. Saddler, Bruce (2012): Teacher’s guide to effective sentence writing (= What works for special-needs learners), New York: Guilford Press. Saddler, Bruce, Bita Behforooz und Kristie Asaro (2008): The Effects of Sentence-Combining Instruction on the Writing of Fourth-Grade Students With Writing Difficulties, in: The Journal of Special Education, Jg. 42, H. 2, S. 79–90, [online] DOI: 10.1177/ 0022466907310371. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 161 161 Saddler, Bruce und Steve Graham (2005): The Effects of Peer-Assisted Sentence-Combining Instruction on the Writing Performance of More and Less Skilled Young Writers, in: Journal of Educational Psychology, Bd. 97, H. 1, S. 43–54. Schneider, Wolfgang, Matthias Schlagmüller und Marco Ennemoser (2007): LGVT 6-12. Lesegeschwindigkeits- und -verständnistest für die Klassen 6-12, Göttingen: Hogrefe. Schwinning, Sandra (2018): Sätze verbinden. Eine Interventionsstudie zur Förderung syntaktisch-semantischer Schreibfähigkeiten in der gymnasialen Erprobungsstufe (= Thema Sprache - Wissenschaft für den Unterricht, Band 28), Baltmannsweiler: Schneider Hohengehren. Steinhoff, Torsten (2009): Wortschatz - eine Schaltstelle für den schulischen Spracherwerb?, in: Siegener Papiere zur Aneignung Sprachlicher Strukturformen (SPASS), Bd. 17, S. 1–65, [online] http://www.studiger.tu-dortmund.de/images/Steinhoff_Wortschatz_SPAsS._2009.pdf. Strong, William (1986): Creative approaches to sentence combining (= Theory & research into practice), Urbana: ERIC Clearinghouse on Reading and Communication Skills, National Council of Teachers of English. Sturm, Afra (2014): Basale Lese- und Schreibfertigkeiten bei BerufsschülerInnen und die Notwendigkeit kompensatorischer Fördermassnahmen, in: leseforum.ch, Bd. 1, S. 1–17. Szagun, Gisela (2011): Sprachentwicklung beim Kind. Ein Lehrbuch, 4. Aufl., Weinheim [u. a.]: Beltz. Topalovic, Elvira und Jörg Jost (2014): Wie sprachliche Verdichtung entsteht, in: Deutschunterricht, Bd. 5, S. 38–44. Tophinke, Doris (2013): Kleine Wörter, in: Praxis Deutsch, Jg. 40, H. 238, S. 4–14. Wendt, Heike und Wilfried Bos (Hrsg.) (2015): Auf dem Weg zum Ganztagsgymnasium. Erste Ergebnisse der wissenschaftlichen Begleitforschung zum Projekt „Ganz In - Mit Ganztag mehr Zukunft. Das neue Ganztagsgymnasium NRW“, Münster: Waxmann. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 23. April 2021. 24.03.22 11:06 162 9. Sind Wörterbücher wirklich nützliche Werkzeuge beim Überarbeiten von Texten? Ein experimenteller Zugang Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Sascha Wolfer, Carolin Müller-Spitzer Wir stellen eine empirische Studie vor, die der Frage nachgeht, ob und in welchem Ausmaß Wörterbücher und andere lexikographische Ressourcen die Ergebnisse von Textüberarbeitungen verbessern. Studierende wurden in unserer Studie gebeten, zwei Texte zu optimieren und waren dabei zufällig in drei unterschiedliche Versuchsbedingungen eingeteilt: 1. ein Ausgangstext ohne Hinweise auf potenzielle Fehler im Text, 2. ein Ausgangstext, bei dem problematische Stellen im Text hervorgehoben waren und 3. ein Ausgangstext mit hervorgehobenen Problemstellen zusammen mit lexikographischen Ressourcen, die zur Lösung der spezifischen Probleme verwendet werden konnten. Wir fanden heraus, dass die Teilnehmer*innen der dritten Gruppe die meisten Probleme korrigierten und die wenigsten semantischen Verzerrungen während der Überarbeitung einführten. Außerdem waren sie am effizientesten (gemessen in verbesserten Textabschnitten pro Zeit). Wir berichten in dieser Fallstudie ausführlich vom Versuchsaufbau, der methodischen Durchführung der Studie und eventuellen Limitationen unserer Ergebnisse. 1. Einleitung Es ist ein alltäglicher Bestandteil des Schreibprozesses, Texte zu überarbeiten und zu verbessern. Man schreibt einen Text meist zunächst als Rohtext und im Anschluss daran versucht man ihn zu glätten, Fehler auszubessern, Wiederholungen zu streichen, Formulierungen abwechslungsreich zu gestalten etc. Schreibassistenzsysteme können diesen Prozess unterstützen, indem sie zum einen die potenziell fehlerhaften Stellen im Text markieren und zum anderen möglichst auch Verbesserungsvorschläge aufzeigen. Textverarbeitungsprogramme leisten bislang meist nur Unterstützung bei fehlerhafter Rechtschreibung und bei Kongruenzfehlern (z. B. „einen blinde Fisch“). Denkbar sind aber weiterreichende Unterstützungen, z. B. Ersetzungsvorschläge für unpassende Kollokationen (z. B. „Hund an der Schnur führen“ statt „Leine“) oder Hinweise zu potenziellen Registerproblemen (z. B. „Klamotten“ statt „Kleidung“). Solche Informationen, aus denen diese Hinweise extrahiert werden können, finden sich in Wörterbüchern. Aus ihnen können gezielt bestimmte Angaben herausgegriffen werden, die für die Verbesserung von einzelnen Text- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 162 stellen hilfreich sind. Eine solche Schreibumgebung zu entwickeln ist aber natürlich eine große Herausforderung. Auch das gezielte Extrahieren von Informationen aus Wörterbüchern ist keine triviale Aufgabe. Deshalb ist es wichtig zu wissen, ob sich dieser Aufwand lohnt. Denn die Aussage, dass Informationen aus Wörterbüchern oder anderen Nachschlagewerken in diesem Kontext hilfreich sind, ist natürlich erst einmal nur das: eine Aussage, die es zu überprüfen gilt – und diese Überprüfung können wir wissenschaftlich mit einer empirischen Untersuchung angehen, wie wir sie Ihnen hier vorstellen möchten. Diese Studie war ein Kooperationsprojekt zwischen den Universitäten Mannheim und Darmstadt, der Eurac Research in Bozen und dem Leibniz-Institut für Deutsche Sprache in Mannheim. Eine ausführliche Beschreibung der Studie findet sich in Wolfer et al. (2018). 2. Fragestellung Die übergeordnete Forschungsfrage, die wir aus den obigen Ausführungen ableiten, lautet: Helfen lexikographische Ressourcen bei der Überarbeitung von Texten? Zur Untersu- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Wörterbücher“ chung dieser Frage entschieden wir uns, Menschen vor sprachliche Probleme zu stellen, die sie dann mithilfe von lexikalischen Ressourcen, die wir Ihnen ebenfalls bereitstellten, bearbeiten sollten, genauso wie es in einer Schreibassistenzumgebung der Fall sein könnte. Doch das alleine würde noch nicht ausreichen, um die Frage zu beantworten, ob Wörterbücher wirklich hilfreich sind, denn es fehlt hier ein Vergleich mit anderen Gruppen, die keine lexikographischen Ressourcen verwenden können. Wir können nur dann schließen, dass lexikographische Ressourcen helfen, wenn wir Hinweise darauf finden können, dass Menschen mit Informationen aus Wörterbüchern Texte besser überarbeiten, als wenn sie diese nicht bekommen. Deshalb haben wir die Aufgabe in drei Gruppen variiert: Zusätzlich zu der WörterbuchGruppe gab es eine Gruppe, die nur die fehlerhaften Texte bekam ohne irgendwelche Hinweise darauf, wo problematische Stellen liegen könnten. Diese Gruppe musste also Texte ohne die Unterstützung von irgendetwas verbessern, was einer oben skizzierten Schreibumgebung ähnlich ist. In einer zweiten Vergleichsgruppe haben wir die Situation simuliert, dass eine Schreibumgebung auf die problematischen Stellen im Text hinweist, sie also markiert, aber keine zusätzlichen Informationen zur Verbesserung geboten werden. Unsere Fokusgruppe war damit die Gruppe, die mithilfe lexikographischer Ressourcen die Texte verbessern konnten, unsere Kontroll- und Vergleichsgruppen waren die beiden anderen Gruppen, die dieses Hilfsmittel nicht bekamen. Wir können die Fragestellungen in zwei Hypothesen präzisieren: H1: Markierungen der problematischen Textstellen sind für die Textüberarbeitung hilfreich, d. h. die Revisionsergebnisse der beiden Textversionen mit hervorgehobenen Sprachproblemen liefern eine höhere Qualität der Überarbeitungen als die Ergebnisse der Version, in der die Proband*innen keine Hinweise auf problematische Textstellen erhalten. H2: Lexikographische Ressourcen haben zusätzlich positive Auswirkungen auf die Überarbeitungs-Qualität, d. h. Proband*innen, die zusätzlich zu den Hinweisen auf problemati- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 163 163 sche Textstellen auch noch Auszüge aus lexikographischen Ressourcen erhalten, übertreffen die Teilnehmer*innen mit der Version der hervorgehobenen Probleme und der NurText-Version. Diese Variation in der Aufgabenumgebung und weitere Details zum genauen Aufbau der Studie werden wir Ihnen in Abschnitt 3 darlegen. Danach gehen wir in Abschnitt 4 auf die Ergebnisse der Untersuchung ein. In Abschnitt 5 diskutieren wir die Ergebnisse im Rückbezug auf die Forschungsfrage. 3. Material, Methode und Analyse Unsere Forschungsfrage allein legt noch kein eindeutiges Vorgehen während der Studie fest. Es gilt an mehreren Stellen Entscheidungen zu treffen, wie genau vorgegangen wird. Die Gliederung dieses Abschnitts deckt all diese Bereiche ab, damit Sie sich ein genaues Bild davon machen können, wie die Studie ablief. Wir beginnen damit, Ihnen den logischen Aufbau der Untersuchung, das sog. Studiendesign, nahezubringen. 3.1 Studiendesign Bei der vorgestellten Studie handelt es sich um eine reaktive Querschnittsstudie (vgl. → Kapitel 2 [Grundlagen] in diesem Band). Das heißt, dass es einen Messzeitpunkt gibt (also keine Entwicklung über die Zeit hinweg gemessen wird) und dass die Teilnehmer*innen über die Studie Bescheid wussten und sich somit bewusst waren, dass sie Teil einer Datenerhebung sind. Es handelt sich darüber hinaus um ein faktorielles Versuchsdesign, denn zwei Faktoren wurden gezielt gekreuzt, um die Auswirkung der Manipulation dieser Faktoren (oder unabhängiger Variablen) auf die Ergebnisse (die abhängigen Variablen) zu testen. Diese beiden Faktoren waren 1. der Text, den die Teilnehmer*innen bearbeiteten und 2. die Art der Hilfestellung, die den Teilnehmer*innen bei der Überarbeitung der Texte gegeben wurde. Der Faktor 1 (Text) umfasste zwei Ausprägungen, nämlich einen 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 164 II Fallstudien Schülertext über das Thema „Jugend“ und einen Text über Phraseologismen, der von einer/-m Studierenden geschrieben wurde. Alle Teilnehmer*innen bearbeiteten beide Texte nacheinander, die Abfolge der Texte war immer zufällig. Faktor 2 (Hilfestellung) umfasste drei Ausprägungen: „Nur Text“, „Markierung“ und „Markierung+Wörterbuch“. Das bedeutet, dass die Teilnehmer*innen entweder nur die Texte vorgelegt bekamen (also keine Hilfestellungen bei der Überarbeitung bekamen) oder Texte bearbeiten sollten, in denen kritische Stellen (dazu mehr in Abschnitt 3.3.) hervorgehoben waren. Die dritte Ausprägung des Faktors umfasste ebenfalls diese Markierungen, doch zusätzlich wurden unterschiedliche lexikographische Ressourcen eingeblendet, die bei der Lösung der Probleme helfen konnten. Jede Person wurde zufällig einer dieser Faktorausprägungen zugelost, d. h., eine Person sah immer nur eine Version der Texte. Da diese beiden Faktoren gekreuzt wurden, spricht man in diesem Fall von einem 2x3 mixeddesign1. Tabelle 1 gibt einen Überblick über das Versuchsdesign (s. auch Abbildung 1 zur Illustration der Versuchsbedingung „Markierung+Wörterbuch“). Bei experimentellen Studien bietet sich eine solche Darstellung aus mehreren Gründen an: Erstens bekommen die Leser*innen einen schnellen Überblick über den Studienentwurf, zweitens kann im weiteren Verlauf des Artikels auf die entsprechenden Bezeichnungen und Kombinationen verwiesen werden. 3.2 Teilnehmerinnen und Teilnehmer Alle Teilnehmer*innen waren Studierende im Grundstudium der Germanistischen Linguistik an der Universität Mannheim. Die Teilnahme an der Studie war Bestandteil einer einführenden Vorlesung in die Linguistik. Das bedeutet, dass die Gruppe der Teilnehmenden relativ homogen hinsichtlich ihrer fachlichen Ausrichtung war, was wir in dieser Studie zunächst als Vorteil ansehen, da dadurch inter-individuelle Variation zumindest teilweise eingeschränkt wird. Insgesamt sammelten wir Daten von 105 Teilnehmer*innen, davon gaben 26 an, dass Deutsch nicht ihre Muttersprache sei. Die Daten dieser Teilnehmer*innen wurden aus den Analysen ausgeschlossen, um die Ergebnisse nicht zu verzerren. Ein weiterer Fall wurde von der Analyse ausgeschlossen, da sie/er weniger als fünf Minuten mit der Bearbeitung der Aufgabe zugebracht hat (dies war eine arbiträre Grenze, die wir zuvor festgelegt hatten). Der Datensatz, der in die Analysen einging, umfasst somit Daten von 78 Teilnehmer*innen. 71 (91 %) dieser Personen gaben an, dass sie im ersten Semester Linguistik studierten, sechs Personen befanden sich im dritten Semester und eine Person im achten Semester. Die 78 Personen verteilten sich wie folgt auf die Versuchsbedingungen A/B, C/D und E/F (für die Bezeichnungen siehe Tabelle. 1). Nur Text: 26 Teilnehmer*innen; Markierung: 25 Teilnehmer*innen; Markierung+Wörterbuch: 27 Teilnehmer*innen. Wir fragten von Tab. 1: Designtabelle für den Aufbau der Untersuchung. Die Buchstaben A bis F bezeichnen die unterschiedlichen Versuchsbedingungen, d. h. Kombinationen von Faktoren Faktor 2: Hilfestellung (between-participants) Faktor 1: Text (within-participants) 1 Nur Text Markierung Markierung+Wörterbuch Jugend A C E Phraseologismen B D F „2x3“ deshalb, weil der erste Faktor „Text“ zwei Ausprägungen und der zweite Faktor „Hilfestellung“ drei Ausprägungen hat. „Mixed“ deshalb, weil der erste Faktor „within-participants“ variiert wird, d. h. jede*r Teilnehmer*in beide Texte sieht und der zweite Faktor „between-participants“, d. h. dass jede*r Teilnehmer*in nur eine Hilfestellungsvariante bekommt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 164 24.03.22 11:06 den Teilnehmer*innen außerdem ab, wie oft sie einsprachige Wörterbücher verwenden. 17 (21,8 %) gaben an, „mindestens einmal pro Woche“ einsprachige Wörterbücher zu verwenden. 23 (29,5 %) verwenden diese „mindestens einmal pro Monat“, 24 (30,8 %) „mindestens einmal im halben Jahr“ und 14 (17,9 %) „seltener oder nie“. In den experimentellen Bedingungen „Nur Text“, „Markierung“ und „Markierung+Wörterbuch“ zeigt sich eine gleichmäßige Verteilung dieser Antwortkategorien. Somit lässt sich kein Effekt der experimentellen Bedingung, der unten berichtet wird, auf die individuelle Erfahrung mit einsprachigen Wörterbüchern zurückführen. 3.3 Text- und Hilfsmittel-Material Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Wörterbücher“ Der Text zum Thema „Jugend“ ist dem KoKoKorpus (vgl. Abel et al. 2014) entnommen. Er wurde von einer Person in der zwölften Klasse am Gymnasium verfasst und umfasst 260 Wörter. In dem Text wurden im Vorfeld der Studie 20 problematische Stellen identifiziert, die wir im Folgenden als „Stolpersteine“ bezeichnen. Diesen Terminus wählten wir, weil es sich nicht im strengen Sinne um eindeutige Fehler handelt, sondern eben um Textstellen, die verbesserungswürdig sind. Die Stolpersteine umfassten alle sprachlichen Ebenen und enthielten Probleme wie die Wahl eines unangemessenen sprachlichen Registers („bis der Arzt kommt“ im Schulaufsatz), regionale Ausdrücke („Buben“ statt „Jungen“), den fehlenden Einsatz des Konjunktivs, unpassende Kollokationen („die Fragestellung beläuft sich auf“), den Einsatz des unbestimmten Artikels, wo ein bestimmter Artikel angebracht wäre (und umgekehrt), die Wahl einer unpassenden Abstraktionsebene, den problematischen Einsatz von anaphorischen Personalpronomen, Probleme bei der Argumentstruktur von Verben („sich sein eigenes ‚Ich’ besser kennen lernen“), der Wiederholung von Wörtern in kurzem Abstand usw. Der Text zum Thema „Phraseologismen“ 2 165 wurde der Einleitung einer studentischen Hausarbeit von der Uni Dortmund entnommen und umfasst 204 Wörter. Dort wurden 15 Stolpersteine identifiziert. Beide Texte wurden auf zwei Bildschirmseiten aufgeteilt, um sowohl den Ausgangstext als auch ein Textfeld zur Bearbeitung im Browser auf der Seite unterzubringen. Mit Abbildung 1 können Sie sich ein Bild davon machen, wie das für die Versuchsteilnehmer*innen mit vollen Hilfestellungen aussah. Für die Gruppe, die nur die hervorgehobenen Stolpersteine sah, fielen die rechte Spalte mit den lexikographischen Ressourcen sowie die Verweise im Text (fettgedruckte Zahlen) weg, die gelben Markierungen blieben. In der „Nur-Text“-Bedingung fielen auch diese Markierungen weg. Die Aufgabe der Versuchsteilnehmer*innen war es, in dem Textbearbeitungsfeld (in Abbildung 1 unten links) eine überarbeitete bzw. verbesserte Version des Textes einzutragen. Zu Beginn des Versuchs war dort lediglich der Text von oben identisch enthalten. Die Hilfsmittel wurden – in den Bedingungen E und F – immer auf der rechten Seite des Bildschirms dargeboten. Wir haben diese Hilfsmittel in ihrem generellen Erscheinungsbild aneinander angeglichen, den Inhalt, der auf der jeweiligen Ressource präsentiert wurde, jedoch nicht verändert. Die Hilfsmittel wurden anhand der folgenden Ressourcen erstellt: • canoonet: Eine Online-Ressource zu Wörterbüchern, Wortbildung und Grammatik (http://www.canoonet.eu/).2 • E-Valbu: Ein elektronischen Valenzwörterbuch deutscher Verben (https://grammis. ids-mannheim.de/verbvalenz). • DWDS-Wortprofile: statistische Auswertungen des Digitalen Wörterbuchs der Deutschen Sprache zu typischen Wortverbindungen (Kollokationen) (https://www. dwds.de/wp). • GermaNet: Ein lexikalisch-semantisches Netz zur deutschen Sprache (http://www. sfs.uni-tuebingen.de/GermaNet/). Diese Ressource ist inzwischen nicht mehr in der Form vorhanden, wie wir sie zum Zeitpunkt der Studienerstellung genutzt haben. Unter der angegebenen URL findet sich ein entsprechender Informationstext. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 165 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 166 II Fallstudien Abb. 1: Beispiel-Stimulus aus der Bedingung F (volle Hilfestellung, Schüler-Text). Die Annotationen sind nur zu Illustrationszwecken enthalten • Duden online: Onlinewörterbuch des Bibliographischen Instituts3. • Grammis: Informationssystem zur deutschen Grammatik des IDS4. Wie Sie an dieser Aufzählung schon sehen können, ist die Bandbreite an Ressourcen recht hoch. Nicht nur klassische Wörterbuchressourcen gingen in die Studie ein, sondern auch lexikologische Nachschlageressourcen im weiteren Sinne. 3.4 Datenerhebung Alle Daten wurden während der Zeit einer Vorlesungseinheit (1,5 Stunden) gesammelt. Die Teilnehmer*innen wurden zunächst zufällig auf zwei Vorlesungssäle an der Universität Mannheim aufgeteilt. Beim Eintritt in den jeweiligen Saal mussten die Teilnehmer*innen einen Zettel mit einer von drei URLs ziehen. 3 4 Unter den abgedruckten URLs war jeweils eine Version des Experiments zu erreichen – eine der drei Hilfsmittelbedingungen „Nur Text“, „Markierung“ oder „Markierung+Wörterbuch“. Die Teilnehmer*innen wurden mit mindestens zwei Plätzen Abstand in den Sälen platziert. Nachdem alle Teilnehmer*innen ihren Platz gefunden hatten, sollten sie mit ihren eigenen Geräten die URL aufrufen, die sie zuvor gezogen hatten. Die Studierenden wurden gebeten, ruhig an der Aufgabe zu arbeiten und während des Experiments nicht miteinander zu interagieren. In jedem der beiden Hörsäle waren mindestens drei Aufsichtspersonen anwesend. Es war den Teilnehmer*innen nicht erlaubt, andere Fenster außer des Browserfensters zu öffnen, andere Internetressourcen zu verwenden oder andere Geräte zu nutzen. Dies wurde von den herumgehenden Aufsichtspersonen überprüft. https://www.duden.de/. https://grammis.ids-mannheim.de/. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 166 24.03.22 11:06 Fallstudie „Wörterbücher“ 167 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Tab. 2: Beispiele für die angewendeten Annotationskategorien anhand überarbeiteter Textausschnitte aus der Studie Ausgangstext mit Markierung des Stolpersteins (Ausschnitt) Überarbeitete Texte, die als „verbessert“ annotiert wurden (bzgl. Stolperstein 14) Überarbeitete Texte, die als „semantisch verzerrt“ annotiert wurden (bzgl. Stolperstein 14) Die Buben (13) wiederum wollen in den Diskotheken feiern bis der Arzt kommt (14) Die Jungen wiederum wollen ohne Einschränkung in den Diskotheken feiern. Die Buben sind häufiger in den Diskotheken anzutreffen und stellen gesetzliche Grenzen in Frage, was beispielsweise den Alkohol angeht. Die Jungen wiederum wollen in den Diskotheken feiern ohne Grenzen. Die männliche Jugendliche wiederum wollen in den Diskotheken feiern, oftmals mit fatalem Ende im Krankenhaus. Jungen wiederum wollen in den Diskotheken ungehalten feiern. Den Jungs wiederum ist das Feiern in Diskotheken wichtiger. Das Experiment, das in der Online-Software QuestBack Unipark5 implementiert war, begann mit einer detaillierten Instruktion zum Ablauf des Experiments. Diese Instruktion war selbstverständlich auf die jeweilige Version zugeschnitten. Alle Studierenden – egal in welcher Versuchsbedingung – wurden instruiert, sich eine Situation vorzustellen, in der sie den Text eines Kommilitonen bzw. einer Kommilitonin überarbeiten sollten. Sie sollten dabei nicht den Inhalt des Textes verändern, sondern lediglich auf Formulierungen achten. In den Hilfestellungsbedingungen „Markierung“ und „Markierung+Wörterbuch“ haben wir die Teilnehmer*innen außerdem in der Instruktion darauf hingewiesen, dass sie nicht für jede hervorgehobene Stelle unter allen Umständen eine alternative Formulierung finden müssen. Das Ziel war, die sprachlich beste Version des Textes zu finden. Wir baten die Teilnehmer*innen, nach der Bearbeitung der Studie ruhig an ihrem Platz sitzen zu bleiben, um die anderen nicht zu stören. Damit es nicht zu attraktiv war, schnell mit der Studie fertig zu werden, kündigten wir anfangs an, dass in der verbleibenden Zeit noch Grammatikübungen zu lösen wären. texte. Im nächsten Schritt mussten diese Texte nach der Studie annotiert werden, um zu sehen, welche Stolpersteine überhaupt bearbeitet worden waren (die möglichen Werte pro Stolperstein waren hier „ja“ oder „nein“), welche davon tatsächlich verbessert worden waren und ob sich die Bedeutung des Texts durch die Überarbeitungen verändert hat (die möglichen Werte waren somit pro Stolperstein „verbessert“, „unverändert“, „verschlechtert“ und „semantisch verzerrt“, Letzteres ist eine Unterkategorie von „verschlechtert“, s. illustrierende Beispiele in Tabelle 2). Zwei Personen annotierten diese Informationen unabhängig voneinander und wir prüften, wie gut die Annotationen übereinstimmten. Detailliertere Informationen über den Annotationsprozess bieten Wolfer et al. (2018). Wie Sie aus den obigen Ausführungen entnehmen können, haben wir nur jene Überarbeitungen berücksichtigt, die sich auf die vorher von uns identifizierten Stolpersteine bezogen, d. h., wir haben nicht alle Veränderungen gegenüber dem Ausgangstext analysiert. Dies gilt auch für alle weiteren Analysen. 3.5 Aufbereitung der Überarbeitungen Wir werden in den nächsten drei Abschnitten 4.1. bis 4.3. die annotierten Variablen „Veränderung“, „Verbesserung“ und „semantische Verzerrung“ auf Basis der Stolpersteine ana- Als Studienresultat erhielten wir die überarbeiteten Texte der Teilnehmer*innen als Fließ5 4. Ergebnisse und Diskussion https://www.unipark.com/. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 167 24.03.22 11:06 168 II Fallstudien Tab. 3: Ergebnistabelle für die abhängige Variable Überarbeitungen. Die Werte in den Zellen geben an, wie viel Prozent der Stolpersteine in den jeweiligen Bedingungen verändert wurden. Die Randmittelwerte erlauben einen Vergleich von Zeilen bzw. Spalten. Ein Randmittelwert wird immer für eine komplette Spalte oder Zeile berechnet. Für die erste Zeile gehen die Werte 48,5 %, 83,6 % und 89,8 % ein. Der Randmittelwert beträgt so 74,0 %. Der Wert ganz unten rechts ist der Gesamtmittelwert, d. h. dass über alle Bedingungen hinweg zwei Drittel aller Stolpersteine überarbeitet wurden. Die Werte sind jeweils auf eine Nachkommastelle gerundet Faktor 2: Hilfestellung (between-participants) Nur Text Rand-mittelwerte Jugend 48,5 % 83,6 % 89,8 % 74,0 % 21,5 % 64,5 % 88,1 % 58,4 % 36,9 % 75,4 % 89,1 % 67,3 % lysieren. In den Abschnitten 4.4 und 4.5. werden wir ein Punkte-basiertes Maß einführen und auf dieser Grundlage die Performanz und Effizienz der Versuchsteilnehmer*innen in den verschiedenen Experimentalbedingungen vergleichen. Die Rohdaten können wir aufgrund der Einverständniserklärung, die die Teilnehmer*innen unterschrieben haben, nicht offen zur Verfügung stellen6. 4.1 Überarbeitungen Tabelle 3 zeigt den Anteil der veränderten Stolpersteine in den verschiedenen Versuchsbedingungen. Diese Tabelle ist der DesignTabelle (Tabelle 1) sehr ähnlich, denn wir schreiben die Ergebnisse einfach in die entsprechenden Zellen. Die Ergebnisse dieser Tabelle sind in Abbildung 2 visualisiert. Dort sehen Sie außerdem, wie viele Stolpersteine maximal in der jeweiligen Versuchsbedingung überarbeitet werden konnten (angegeben mit n unten in den Balken). Hierzu eine kurze Erläuterung: Im ersten Balken ist „n = 520“ vermerkt. Diese Zahl ergibt sich aus 20 (Anzahl der von uns identifizierten Stolpersteine im Text „Jugend“) multipliziert mit 26 (Anzahl der Versuchsteilnehmer*innen, die der Gruppe „Nur Text“ zugelost wurden). Es konnten so6 Markierung+Wörterbuch Phraseologismen Randmittelwerte Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Faktor 1: Text (within-participants) Markierung mit maximal 520 Stolpersteine überarbeitet werden. 252 davon wurden tatsächlich überarbeitet, wodurch sich der Prozentsatz der überarbeiteten Stolpersteine für diesen Balken (252/520*100 = 48,5) ergibt. Für die anderen Balken gelten diese Berechnungen entsprechend. Es ist zu sehen, dass die Anzahl der überarbeiteten Stolpersteine von der „Nur Text“ bis hin zu Bedingung „Markierung+Wörterbuch“ hinweg kontinuierlich steigt. Außerdem wurden im „Jugend“-Text konsequent mehr Stolpersteine überarbeitet. Allerdings schrumpft dieser Unterschied zwischen den beiden Texten merklich in der Hilfestellungsbedingung „Markierung+Wörterbuch“. Mit einem Regressionsmodell konnten wir diese Ergebnisse statistisch absichern. Dabei wird der Einfluss von unabhängigen Variablen (hier die Faktoren „Hilfestellung“ und „Text“) auf abhängige Variablen (an dieser Stelle die Überarbeitung von Stolpersteinen) geprüft. Wir berechneten ein gemischtes logistisches Regressionsmodell in R (R Core Team 2019) mit dem Paket lme4 (Bates et al. 2015). In solch einem Modell können sogenannte Zufallseffekte beachtet werden, um inter-individuelle Unterschiede zwischen Teilnehmer*innen und innerhalb des Stimulusmaterials (hier den Texten) zu kontrollieren. Dieses Modell zeigt uns die Unterschiede Sie können aber Sascha Wolfer unter wolfer@ids-mannheim.de oder die Herausgeber*innen dieses Bandes kontaktieren, wenn Sie einen anonymisierten Auszug der Daten einsehen möchten. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 168 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Wörterbücher“ 169 Abb. 2: Ergebnisdarstellung für den Anteil überarbeiteter Stolpersteine. N (im Untertitel des Diagramms) gibt die Gesamtanzahl der Stolpersteine an. Die unten in den Balken abgetragenen Stichprobengrößen (n) geben an, wie viele Stolpersteine in der jeweiligen Bedingung maximal überarbeitet werden konnten zwischen den beiden Texten (β = -1,72, SE = 0,38, z = -4,49, p < 0,0001)7 sowie zwischen allen Ausprägungen des Hilfestellungsfaktors an (Markierung vs. Nur Text: β = 2,50; SE = 0,47; z = 5,35; p < 0,0001; Markierung+Wörterbuch vs. nur Text: β = 3,48; SE = 0,48; z = 7,21; p < 0,0001; Markierung+ Wörterbuch vs. Markierung: β = 0,98; SE = 0,49; z = 1,99; p = 0,047). Auch die Interaktion, also die Beobachtung, dass der Unterschied der beiden Texte über die Hilfestellungsbedingungen hinweg schrumpft, ist statistisch bedeutsam (β = 1,43; SE = 0,33; z = 4,40; p < 0,0001). 7 4.2 Verbesserungen Im nächsten Schritt widmen wir uns der Frage, wie viele Stolpersteine in den verschiedenen Versuchsbedingungen nicht nur verändert, sondern tatsächlich verbessert wurden. Selbstverständlich konnten die Teilnehmer*innen nur dann eine problematische Textstelle verbessern, wenn sie diese auch verändert haben. Daher gehen in diese Analyse nur jene Stolpersteine ein, die verändert wurden. Die Gesamtzahl der analysierten Stolpersteine sinkt daher von 2730 auf 1838 Beobachtungen. Wir verzichten hier auf die tabellarische Darstellung, da alle relevanten Informatio- β ist der Effektschätzer, der im Regressionsmodell angibt, wie groß der Effekt ist. SE ist der Standardfehler dieses Effektschätzers. z ist die sog. Prüfgröße und zeigt an, wie viel größer der Effekt gegenüber dem Standardfehler ist (β / SE = z). Der p-Wert gibt das Signifikanzniveau an. Allgemein wird ein Effekt als signifikant angenommen, wenn p < 0,05 ist. Bitte beachten Sie aber auch, dass die Berechnung von Signifikanzniveaus in der neueren statistischen Literatur durchaus umstritten ist. Man sollte bei der Interpretation von statistischen Ergebnissen nicht „blind“ einem Signifikanzniveau folgen. Siehe hierzu u. a. ein Beitrag von der Online-Seite des Magazins „Spektrum der Wissenschaft“: https://www.spektrum.de/news/statistik-wenn-forscherdurch-den-signifikanztest-fallen/1224727. Aus diesem Grund geben wir in diesem Beitrag alle relevanten Größen der statistischen Tests an und betonen die p-Werte nicht übermäßig. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 169 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 170 II Fallstudien Abb. 3: Ergebnisdarstellung für den Anteil verbesserter Stolpersteine. N gibt die Gesamtanzahl der veränderten Stolpersteine an. Die unten in den Balken abgetragenen Stichprobengrößen (n) geben an, wie viele Stolpersteine in der jeweiligen Bedingung maximal verbessert werden konnten nen auch im Diagramm abzulesen sind (siehe Abbildung 3). Die Unterschiede zwischen den Hilfestellungsbedingungen sind ähnlich, aber deutlich kleiner als bei den Veränderungen. Es fällt außerdem auf, dass sich die beiden Texte nun kaum noch unterscheiden, obwohl bei den Veränderungen der Text „Jugend“ noch deutlich höhere Werte aufwies (zumindest für die Gruppen „Nur Text“ und „Markierung“). Der statistische Test, der der gleiche war wie für die Analyse der Veränderungen, zeigt ein leicht unterschiedliches Effektmuster. Die Interaktion, also das Zusammenwirken der beiden Faktoren (hier würde sich eine Interaktion bspw. dadurch abbilden, dass sich der Faktor Hilfestellung in den beiden Texten unterschiedlich auswirkt), bringt keine zusätzliche Information, daher haben wir sie nicht mehr berechnet. Ein deutlicher Unterschied zwischen den Texten kann auch inferenzstatistisch nicht mehr nachgewiesen werden. Einzig die Unterschiede zwischen den verschiedenen Versuchsbedingungen zeigen sich noch immer. Wir können davon ausgehen, dass der Prozentsatz an verbesserten Stolpersteinen in der Bedingung UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 170 „Markierung+Wörterbuch“ höher ist als in der Bedingung „Nur Text“ (β = 1,06; SE = 0,17; z = 6,11; p < 0,0001) und in der Bedingung „Markierung“ (β = 0,74; SE = 0,15; z = 5,01; p < 0,0001). Der Unterschied zwischen „Markierung“ und „Nur Text“ bleibt über der gemeinhin angenommenen Signifikanz-Schwelle von p = 0,05 (β = 0,32; SE = 0,17; z = 1,87; p = 0,061) und sollte daher nur mit äußerster Vorsicht bzw. gar nicht interpretiert werden. Statistisch gesehen gibt es also keinen Unterschied hinsichtlich der Verbesserung von Stolpersteinen zwischen dem Schülerund dem Studierenden-Text. Gleichzeitig können wir schließen, dass nur in der Versuchsbedingung mit Hilfsmitteln (Markierung+Wörterbuch) der Prozentsatz verbesserter Stolpersteine höher ist als in beiden anderen Bedingungen. 4.3 Semantische Verzerrungen Wie wir in Abschnitt 3.5. schon erwähnten, haben wir die überarbeiteten Stolpersteine auch daraufhin überprüft, ob die Versuchs- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Wörterbücher“ 171 Abb. 4: Ergebnisdarstellung für den Anteil sinnentstellter Stolpersteine. Die Bedeutung von N und n ist analog zu den vorherigen Abbildungen teilnehmer*innen während der Verarbeitung den Sinn der entsprechenden Textstelle veränderten oder verzerrten, d. h. den Text im Grunde ‚verschlimmbesserten’ und damit verschlechterten. Tatsächlich haben die Versuchsteilnehmer*innen bei 329 von 1838 Überarbeitungen an Stolpersteinen solche semantischen Verzerrungen vorgenommen, also in 17,9 % aller Fälle. Wenn lexikographische Ressourcen wirklich bei der Textüberarbeitung helfen sollen, dann sollten die Teilnehmer*innen in der Gruppe mit voller Hilfestellung nicht nur mehr Stolpersteine verbessern, sondern auch weniger semantische Verzerrungen durch die Überarbeitungen hervorrufen. Auch hier haben wir nur jene Stolpersteine beachtet, die tatsächlich verändert wurden. Abbildung 4 gibt einen Überblick über die Ergebnisse. Die statistischen Tests legen keine Interaktion zwischen Text und Hilfestellung nahe. Und obwohl die Teilnehmer*innen im Phraseologismen-Text durchweg weniger semantische Verzerrungen während der Überarbeitung eingebaut haben, ist auch dieser Effekt statistisch nicht signifikant. Allerdings sind alle Unterschiede zwischen Hilfestellungsbe- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 171 dingungen statistisch bedeutsam. Die Mittelwerte für die verschiedenen Bedingungen (über beide Texte hinweg) sind wie folgt. In der „Nur Text“-Bedingung sind 28 % aller Überarbeitungen semantische Verzerrungen des Inhalts. In der Bedingung „Markierung“ sind es noch 20 %, während in der Bedingung mit Markierungen und lexikographischen Hilfsmitteln („Markierung+Wörterbuch“) nur noch rund 13 % aller Überarbeitungen semantische Verzerrungen hervorrufen. Alle Unterschiede zwischen den Hilfestellungsbedingungen sind statistisch signifikant (Markierung vs. Nur Text: β = -0,57; SE = 0,21; z = -2,76; p = 0,006; Markierung+Wörterbuch vs. Nur Text: β = -1.30; SE = 0,21; z = -6,22; p < 0,0001; Markierung+Wörterbuch vs. Markierung: β = -0,73; SE = 0,18; z = 4,04, p < 0,0001). Das überrascht kaum, halbiert sich doch der Anteil an semantischen Verzerrungen von „Nur Text“- zu „Markierung+Wörterbuch“Bedingung. 24.03.22 11:06 172 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 4.4 Punkte-basierte Auswertung In allen zuvor vorgestellten Analysen haben wir einen bearbeiteten Stolperstein als einen Fall, also als eine Zeile in unserem Datensatz, behandelt. Wir wollen die Perspektive nun etwas verändern und die Teilnehmer*innen der Untersuchung noch direkter in den Blick nehmen. Die Teilnehmer*innen waren natürlich bisher auch bereits in der Untersuchung enthalten, weil sie diejenigen waren, die die Stolpersteine überarbeitet haben. Die im Folgenden vorgestellten Analysen rücken die Teilnehmer*innen direkter in den Fokus. Wir werden hierzu eine Analyse durchführen, die sozusagen ein Scoring-System für die einzelnen Teilnehmer*innen bildet, d. h. auf Punkten basiert. Für jeden Stolperstein, den eine Person verbesserte, wurde ein Punkt vergeben. Für jeden Stolperstein, der verschlechtert oder semantisch verzerrt wurde, wurde hingegen ein Punkt abgezogen. Die Einzelpersonen in den Fokus zu rücken ist auch deshalb sinnvoll, weil natürlich auch immer einzelne Personen einen Text schreiben. Insofern rückt es die Analysen näher an eine alltägliche Schreibsituation, wenn die einzelnen Textüberarbeitungen nicht nur als Einzelfälle betrachtet werden, sondern nach teilnehmenden Personen gruppiert werden. Jede*r Teilnehmer*in konnte maximal 35 Stolpersteine überarbeiten (20 aus dem „Jugend“-Text und 15 aus dem „Phraseologismen“-Text). Die Maximalpunktzahl von 35 Punkten bekam ein*e Teilnehmer*in somit, wenn sie*er alle Stolpersteine verbessert hat. Die Minimalpunktzahl beträgt -35, die dadurch zustande käme, wenn ein*e Teilnehmer*in alle Stolpersteine verändert, aber alle dabei verschlechtert hätte. Soviel vorweg: Diese Extremwerte kamen nicht vor. Eine Punktzahl von 0 kann mehrere Dinge bedeuten: Eine Person, die keinen Stolperstein bearbeitet, kann auch nichts falsch machen – die Folge wäre eine Punktzahl von 0. Das gleiche gilt für Teilnehmer*innen, die bspw. zwölf Stolpersteine bearbeitet haben und fünf davon verbesserten, fünf davon verschlechterten sowie zwei nicht in der Qualität veränderten. Wir haben dieses Maß entwickelt, um (Gruppen von) Teilnehmer*innen unterein- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 172 ander vergleichbar zu machen und gleichzeitig alle Überarbeitungen, die sie vorgenommen haben, zu beachten. Die Punkte der einzelnen Versuchsteilnehmer*innen haben wir in Abbildung 5 in Form eines „Bienenschwarm-Diagramms“ (beeswarm plot) dargestellt. Mit einem Bienenschwarm-Diagramm wird die tatsächliche Verteilung der Datenpunkte in den verschiedenen Versuchsbedingungen sichtbar. Zusätzlich können die Mittelwerte abgelesen werden (hier durch große graue Punkte symbolisiert). Man sieht zwar einerseits, dass es große Überlappungsbereiche der Gruppen gibt. Andererseits können Sie aber auch erkennen, dass die zentrale Tendenz der Gruppen deutlich unterschiedlich ist. Am besten schneiden im Durchschnitt die Teilnehmer*innen aus der Gruppe „Markierung+Wörterbuch“ ab (18,6 Punkte). Die Gruppe, die zwar hervorgehobene Stolpersteine aber keine lexikographischen Ressourcen als Hilfestellung bekam liegt mit einem Mittelwert von 10,4 Punkten in der Mitte. Am schlechtesten schneidet die „Nur Text“-Gruppe ab (Mittelwert von 3,6 Punkten). In dieser Gruppe waren auch die einzigen Teilnehmer*innen, die im negativen Bereich abschnitten (zweimal -3 Punkte und einmal -4 Punkte). Eine Nebenbemerkung zu den Arten der Visualisierung, die wir in Abbildung 5 gewählt haben: Die Höhe der Säule im rechten Diagramm steht für den Mittelwert und die Fehlerbalken für Standardfehler oder Konfidenzintervalle (hier 1 Standardfehler). An dieser Visualisierung ist aus rechnerischer Sicht auch nichts auszusetzen. Allerdings haben Sie zwei konzeptionelle Eigenschaften, die in wissenschaftlicher Hinsicht bedenkenswert sind: 1. Oft werden die Unterschiede zwischen Gruppen in solchen Diagrammen visuell überbewertet. Die Überlappungsbereiche zwischen experimentellen Gruppen, die praktisch immer vorhanden sind, treten ziemlich in den Hintergrund. 2. Die Rezipient*innen dieser Diagramme können nicht einschätzen, wie ein bestimmter Mittelwert zustande kommt. Handelt es sich um breit gestreute Messwerte oder variieren die einzelnen Messwerte sehr dicht um den Mittelwert? Trennt sich die Gruppe evtl. gar in zwei Un- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Wörterbücher“ 173 Abb. 5: „Bienenschwarm-Diagramm“ (links) und Säulendiagramm mit Fehlerbalken (rechts) der Punkteverteilungen der Teilnehmer*innen für die drei Hilfestellungsbedingungen. Jedes schwarze Quadrat im linken Diagramm steht für eine*n Teilnehmer*in, die großen grauen Punkte symbolisieren die Mittelwerte der drei Gruppen. Die Fehlerbalken im rechten Diagramm symbolisieren 1 Standardfehler. Wenn sich hier zwei Fehlerbalken nicht überlappen, deutet das auf einen signifikanten Unterschied zwischen den Gruppen hin tergruppen, wo weitere Untersuchungen interessant wären, woher diese Spaltung kommt? Das Bienenschwarm-Diagramm mag in der Forschungscommunity zwar noch nicht sehr verbreitet sein, aber es löst diese beiden Probleme, indem jeder einzelne Messwert sichtbar wird (siehe hierzu das „erste Gesetz“ der Visualisierung von Daten von Tufte (2001: 92): „Above all else show the data“). Zurück zur aktuellen Fragestellung: Die Teilnehmer*innen aus der Experimentalgruppe mit vollen Hilfestellungen zeigten signifikant bessere Leistungen als die Personen aus den anderen Gruppen. Jedoch: Ihnen mag der Ausreißer bzw. die Ausreißerin aufgefallen sein, die/der in der Gruppe „Markierung+Wörterbuch“ 0 Punkte „erreicht“ hat. Diese Person hat keinerlei Stolpersteine überarbeitet und war eine der schnellsten Personen bei der Bearbeitung des Experiments. Dies legt nahe, dass sie*er nicht versucht hat, die Texte zu überarbeiten, sondern nur darauf wartete, dass die Experimen- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 173 talsitzung zu Ende geht. Trotzdem hat sie*er insgesamt länger als fünf Minuten die Texte betrachtet und wurde daher nicht aus der Stichprobe ausgeschlossen. Doch auch mit diesem Ausreißer war die Gruppe, die lexikographische Hilfsmittel zur Lösung der Aufgabe bekam, am besten. 4.5 Effizienz Es wurde aus den vorgehenden Analysen bereits klar, dass die Gruppe mit lexikographischen Hilfsmitteln einen Vorteil beim Bearbeiten der Aufgabe hatte: In dieser Gruppe wurden die meisten Stolpersteine bearbeitet und verbessert. Außerdem wurden in dieser Gruppe die wenigsten semantischen Verzerrungen eingebaut. Berechnet man daraus einen personenbezogenen Punktestand, liegen die Mitglieder dieser Gruppe ebenfalls vor den beiden anderen Gruppen. Wir wollen nun aber ein noch strengeres Kriterium anset- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 174 II Fallstudien Abb. 6: Kombination aus Boxplot und Bienenschwarm-Diagramm für den Vergleich der Effizienz (Punkte pro Minute) über die verschiedenen Hilfestellungsbedingungen hinweg. Jedes Quadrat steht für eine/n Teilnehmer*in. In jeder Box befinden sich die mittleren 50 % der Datenpunkte in der jeweiligen Bedingung. Die Grenzen der Boxen stehen jeweils für das 25 % und 75 % Perzentil (d. h. bspw. für das 75. Perzentil, dass 75 % Prozent aller Datenpunkte niedriger sind als diese Grenze). Die Mittellinien der Boxen geben den jeweiligen Median an. Das ist der Wert, der die Datenmenge in zwei Hälften teilt. Der Median ist, ebenso wie der Mittelwert, ein Wert, der die zentrale Tendenz einer Verteilung beschreibt8 zen, um die Gruppen zu vergleichen, nämlich die Effizienz bei der Bearbeitung der Aufgabe. Mit Effizienz meinen wir in diesem Zusammenhang den Erfolg in Zusammenschau mit der benötigten Zeit – oder quantitativ gefasst: Punkte pro Minute. Das ist deshalb besonders interessant, weil es nicht ganz abwegig erscheint, dass die Teilnehmer*innen in der Bedingung „Markierung+Wörterbuch“ tatsächlich mehr Zeit bei der Bearbeitung der Aufgabe benötigen, denn sie müssen nicht nur die Hervorhebungen in den Texten verarbeiten, sondern zusätzlich mit den lexikographischen Hilfsmitteln umgehen. Es könn8 te ja tatsächlich sein, dass der Vorteil, den die lexikographischen Ressourcen bieten, dadurch „aufgefressen“ wird, dass die Befragten in dieser Versuchsbedingung viel länger bei der Bearbeitung der Texte brauchen. Wenn man zeitlicher Effizienz einen Stellenwert einräumt, wäre das ein Problem in unserer Argumentation. Als kurze Randbemerkung: Unser Untersuchungsgegenstand ist die Effizienz des Einsatzes von Hilfsmitteln bei der Textüberarbeitung. In der „wahren Welt“, d. h. im Schreiballtag, ist Zeit normalerweise knapp. Deshalb wäre es zwar ein interessantes Resul- Eine Anmerkung noch zu den in diesem Beitrag verwendeten Abbildungen: Normalerweise entscheidet man sich in einem wissenschaftlichen Artikel für eine Diagrammform, wenn gleiche Arten von Daten visualisiert werden. Bspw. würde man sich bei Abbildung 5 und Abbildung 6 für eine Darstellungsart entscheiden, da in beiden Diagrammen eine kategoriale unabhängige Variable (die Gruppeneinteilung) mit einer kontinuierlichen abhängigen Variable (Punkte und Punkte pro Zeit) kombiniert wird. Wir haben in diesem Beitrag aus didaktischen Gründen verschiedene Arten von Diagrammen eingeführt, damit Sie möglichst viele unterschiedliche Arten von Diagrammen kennenlernen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 174 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Wörterbücher“ tat, wenn wir messen können, dass Hilfsmittel die Textüberarbeitung verbessern. Wenn wir jedoch gleichzeitig feststellen würden, dass Hilfsmittel zwar insgesamt gut sind, bei einer Messung pro Bearbeitungsminute jedoch die Markierungs-Bedingung besser abschneidet, könnte das für den Schreiballtag auch bedeuten, dass man eine Schreibumgebung nur mit Markierungen einer mit Hilfsmittel-Unterstützung – zumindest im normalen Alltag – vorziehen würde, weil man zwar nicht ganz so gut, aber auf jeden Fall schneller ist. Tatsächlich können wir zeigen, dass Teilnehmer*innen in der vollen Hilfestellungsbedingung am längsten an den Texten arbeiteten (Mittelwert: 31,6 Minuten), gefolgt von der Gruppe, die nur hervorgehobene Textstellen zur Hilfe nehmen konnten (26,9 Minuten). Die „Nur Text“-Gruppe war durchschnittlich am schnellsten (24,8 Minuten). Wie oben beschrieben, müssen diese Werte aber – um die tatsächliche Effizienz zu messen – mit der erreichten Punktzahl in Beziehung gesetzt werden. Wir messen damit Punkte pro Minute. Abbildung 6 gibt einen weiteren Einblick in die Ergebnisse. Wieder sind deutliche Überschneidungsbereiche der verschiedenen Datenmengen erkennbar, aber man erkennt eben auch, dass sich die zentralen Tendenzen (in Abbildung 6 gefasst über die Boxplots, die uns den Median9 und die mittleren 50 % der Datenpunkte in der jeweiligen Bedingung zeigen) deutlich voneinander unterscheiden. In der Hilfsmittelbedingung liegen die Punkte pro Minute deutlich über denen der Markierungsbedingung, die wiederum deutlich höher liegen als in der Nur-Text-Bedingung. Dieser visuelle Eindruck kann auch über einen statistischen Vergleich der Mittelwerte (nur Text: 0,19 Punkte pro Minute; Markierung: 0,46; Markierung+Wörterbuch: 0,62) abgesichert werden. In diesem Fall können wir bspw. einen t-Test für multiple Vergleiche 175 mit der Holm-Korrektur10 berechnen, der in allen Fällen signifikante Unterschiede zwischen den Gruppen anzeigt (Nur Text vs. Markierung: p = 0,0007; Nur Text vs. Markierung+Wörterbuch: p < 0,0001; Markierung vs. Markierung+Wörterbuch: p = 0,028). 5. Methodische Reflexion Bevor wir auf unsere Forschungsfrage zurückkommen, möchten wir noch auf zwei Dinge hinweisen, nämlich die Untersuchungssituation und die beobachteten Unterschiede zwischen den beiden bearbeiteten Texten. In Abschnitt 3.4 haben wir beschrieben, dass alle Teilnehmer*innen gleichzeitig in zwei großen Hörsälen der Universität Mannheim das Experiment bearbeiteten. Dies ist im Vergleich zu „klassischen“ experimentellen Studien eine außergewöhnliche Situation, denn das prototypische Experiment findet meist in einem Labor statt, in das die Studienteilnehmer*innen einzeln eingeladen werden, um eine bestimmte Aufgabe zu bearbeiten. Das erleichtert es den Forschenden, Störvariablen, die der Umgebung entstammen, gezielt zu kontrollieren bzw. auszuschalten. Dazu gehören bspw. Lärm, Temperaturunterschiede, Lichtverhältnisse, technische Voraussetzungen des Geräts, mit dem das Experiment durchgeführt wird usw. Insofern war die Studie in den Hörsälen ein gewisses Wagnis. Gerade der Fakt, dass die Teilnehmer*innen die Studie auf ihren eigenen mitgebrachten Geräten bearbeiten sollten, stellte ein Risiko dar: Es hätte bspw. sein können, dass technische Probleme zu einem Zusammenbruch der drahtlosen Netzwerkverbindung führen, dass das Experiment auf einzelnen Rechnern nicht dargestellt werden kann oder dass ganz andere, unvorhersehbare Ereignisse die Durchführung erschweren. Diese Faktoren konnten wir nur durch zeitin- 9 Der Median teilt die vorhandenen Datenpunkte in zwei Hälften. Über und unter dem Medien befinden sich also jeweils 50% aller Messwerte. 10 Mit einem t-Test werden immer zwei Gruppen miteinander verglichen. Da jeder Einzeltest mit einer bestimmten Irrtumswahrscheinlichkeit belegt ist, muss man bei multiplen Vergleichen (bei drei Gruppen finden drei Vergleiche statt) eine Korrektur vornehmen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 175 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 176 II Fallstudien tensive Vorbereitungen zumindest teilweise kontrollieren. So haben wir bspw. das Experiment auf einer Vielzahl unterschiedlicher Geräte (Betriebssysteme, Browser und Gerätetypen wie Smartphones, Tablets und Laptops) getestet und das Rechenzentrum darum gebeten, für einen reibungslosen Ablauf zu sorgen. Umgebungsvariablen wie Ablenkung durch Lärm oder andere Teilnehmer*innen konnten wir nur durch viel Personal versuchen aufzufangen. Es kam tatsächlich zu keinem Datenverlust durch technische Schwierigkeiten oder zu größeren Ablenkungen, die wir nicht kontrollieren konnten. Der Aufwand hat sich insofern gelohnt und das Wagnis der Untersuchungssituation stellt sich im Rückblick als nicht zu riskant dar. Die zweite Anmerkung betrifft die Unterschiede zwischen den beiden Texten, die zwar nicht unmittelbar relevant für unsere ursprüngliche Forschungsfrage sind, aber trotzdem interessante Einsichten gewährt. Nehmen wir einmal an, dass der Schüler*innentext zum Thema „Jugend“ sprachlich und inhaltlich weniger komplex ist als der studentische Text zum Thema „Phraseologismen“ – eine Annahme, die u.E. durchaus gerechtfertigt ist. Wie können wir dann die Unterschiede zwischen den Texten bezüglich unserer abhängigen Variablen interpretieren? Die Stolpersteine im „Jugend“-Text wurden von der Teilnehmer*innen-Gruppe, die nur den Text ohne jegliche Hilfsmittel dargeboten bekam, häufiger bearbeitet als die Stolpersteine im „Phraseologismen“-Text. Dieser Unterschied bestand auch in der Gruppe, für die die Stolpersteine hervorgehoben waren, nicht jedoch in der Gruppe, die zusätzlich die lexikographischen Ressourcen als Hilfestellung bekamen. Interessanterweise schrumpfen bzw. verschwinden diese Unterschiede zwischen den Texten, wenn man die Verbesserungen und Sinnentstellungen betrachtet. Dieses Muster lässt sich so interpretieren, dass die Teilnehmer*innen ohne lexikographische Hilfsmittel eher zögerlich waren, den sprachlich und inhaltlich komplexeren Text zu überarbeiten. Erst, wenn man sprachliche Hilfsmittel hinzuziehen kann, sinkt die Hemmschwelle so weit, dass man sich auch traut, komplexere Texte „anzugehen“. Auch UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 176 zur Förderung von Textüberarbeitungskompetenzen scheinen Hilfsmittel also gut eingesetzt werden zu können. Inwieweit diese Interpretation trägt, lässt sich noch nicht abschließend beantworten – es sind hier zusätzliche Studien notwendig, die direkt auf diese Frage ausgerichtet sein müssten. Nun zu einer Frage, die wir mit der vorliegenden Studie ziemlich deutlich beantworten können – nämlich die Forschungsfrage, von der wir zu Beginn dieses Beitrags ausgingen: Helfen lexikographische Ressourcen bei der Überarbeitung von Texten? Betrachten wir alle abhängigen Variablen gemeinsam, können wir eine Hierarchie der verschiedenen Gruppen von Versuchsteilnehmer*innen annehmen. Die Performanz der „Nur Text“Gruppe bei der Überarbeitung der Texte war geringer als jene der Hervorhebungsgruppe. Das Hinzufügen von lexikographischen Ressourcen (Gruppe „Markierung+Wörterbuch“) sorgte dann nochmals für einen Anstieg bei der Überarbeitungsleistung. Dafür spricht die Auswertung jeder einzelnen abhängigen Variable: In der Gruppe mit beiden Hilfestellungen (also Hervorhebungen kombiniert mit lexikographischen Ressourcen) wurden mehr Stolpersteine überarbeitet. Von diesen bearbeiteten Stolpersteinen wurden mehr verbessert und es wurden weniger semantische Verzerrungen dabei eingefügt. Darüber hinaus erreichten die Versuchsteilnehmer*innen in dieser Gruppe mehr Punkte und waren auch effizienter als die Teilnehmer*innen in den anderen Gruppen. Wir können unsere Forschungsfrage also beantworten: Ja, lexikographische Ressourcen helfen tatsächlich bei der Überarbeitung von Texten. Im Folgenden möchten wir allerdings noch auf einen Umstand hinweisen, der wichtig ist, um die Relevanz dieser Antwort einzuschätzen. Der wohl wichtigste Punkt ist, dass wir unseren Teilnehmer*innen einen ganz entscheidenden Schritt abgenommen haben, nämlich das Auffinden der relevanten Information in den Ressourcen. Wir haben die Hilfsmittel, die bei der Lösung der Probleme helfen konnten, praktisch „auf dem Silbertablett serviert“, indem wir sie direkt neben den Text gestellt haben und mit den Stolpersteinen verknüpf- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Wörterbücher“ ten. Das haben wir bewusst getan, denn wir wollten ein Szenario schaffen, in dem wir uns ausschließlich auf den Effekt des Vorhandenseins von lexikographischer Information konzentrieren konnten. Wir wollten diesen Effekt nicht mit anderen Faktoren vermischen wie bspw. dem Suchen der relevanten Information in Nachschlagewerken und der nötigen Verbindung mit problematischen Stellen. Das ist ein ganz entscheidender Schritt: Denn selbstverständlich kann nur jene Information gewinnbringend eingesetzt werden, die auch gefunden wird. Daher sprechen die Ergebnisse unserer Studie u.E. dafür, dass sich nicht nur das Erstellen von lexikographischen Ressourcen lohnt, sondern auch, dass es sich lohnt, Menschen im Umgang mit diesen Ressourcen zu schulen. Denn auch die besten Wörterbücher, Übersetzungsprogramme oder Grammatiken helfen nicht bei der Lösung von sprachlichen Problemen, wenn man die darin enthaltene Information nicht findet und auf das konkrete sprachliche Problem in einer konkreten Situation übertragen kann. Eine logische Weiterentwicklung der Studie, die wir hier vorgestellt haben, besteht darin, Menschen vor ein konkretes sprachliches Problem zu stellen, ihnen dabei aber nicht die relevante Information praktisch „verzehrbereit“ vorzusetzen, sondern zu sehen, ob und wie die Teilnehmer*innen die Information selbst finden und verarbeiten können. Eine solche Studie haben wir in einem anderen Kontext, nämlich mit Deutschlernenden aus dem romanischen Sprachraum durchgeführt (Müller-Spitzer/Nied Curcio/ Domínguez Vázquez/Dias/Wolfer, 2018; 2019). Den Lernenden haben wir deutsche Sätze mit Interferenzfehlern11 aus romanischen Sprachen vorgegeben, die sie korrigieren sollten. Auch die Methode der wissenschaftlichen Herangehensweise haben wir in 177 dieser Studie variiert. Wir setzten dort keine experimentelle Variation ein, wie wir sie hier dargestellt haben, sondern konzipierten eine Beobachtungsstudie mit qualitativen Elementen in der Auswertung. Sie mögen sich fragen, wie relevant eine Studie noch ist, die sich hauptsächlich mit Wörterbüchern und der Art von Information beschäftigt, die sich darin finden, da Schreibprozesse in der Zukunft stärker automatisch unterstützt werden können. Allerdings darf dabei nicht vergessen werden, dass der Bedarf an sorgfältig erarbeiteten lexikographischen Ressourcen allgemein ungebrochen ist. Viele Systeme zur automatischen Verarbeitung von natürlicher Sprache verlassen sich auf lexikographisch aufbereitete Datenbanken, um diese Information bei der Verarbeitung von Sprache einzubeziehen. Auch computerbasierte Systeme, die Menschen bei der Lösung von sprachlichen Aufgaben helfen sollen, nutzen in großem Stil lexikographische Information. Den Benutzer*innen wird das aber häufig nicht bewusst, weil die Information eben nicht mehr in einem Format aufbereitet ist, das sie von Wörterbüchern kennen. Das offensichtlichste Beispiel ist vielleicht noch, dass Google auf der Ergebnisseite der Suchen in manchen Fällen Auszüge aus Online-Wörterbüchern präsentiert (zumindest zum Zeitpunkt, zu dem wir diesen Beitrag verfassten). Ein Ausgangspunkt der Studie war, wie anfangs skizziert, auch die Idee, eine Art computergestützte Schreibumgebung zu entwickeln, die den Schreiber*innen automatisch relevante Ressourcen zur Verfügung stellt, wenn ein NLP-Algorithmus12 Probleme im verfassten Text feststellt. So fern dieses Ziel einer automatischen Schreibumgebung auch noch sein mag: Unsere Studie hat gezeigt, dass Schreiber*innen wohl von einem solchem System profitieren würden. 11 Interferenzfehler bezeichnen sprachliche Fehler, die bei der unzulässigen Übertragung von sprachlichen Eigenschaften (Semantik/Morphologie/Syntax) aus einer Sprache in eine andere entstehen. Ein Beispiel ist der Satz „Obwohl er sich beeilt hat, hat er die U-Bahn verloren“, wo eine unzulässige Übertragung von bspw. ital. „perdere“ auf dt. „verpassen“ stattfindet. 12 NLP steht für natural language processing. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 177 24.03.22 11:06 178 II Fallstudien Zum Weiterlesen Wer sich über die Visualisierung von linguistischen Daten informieren möchte, kann dies im Sammelband (Open Access) von Bubenhofer & Kupietz (2018) tun. Wolfer & Hansen-Morath (2017) geben in einem OnlineTutorial einen Überblick über einige Visualisierungsmöglichkeiten innerhalb der Statistikumgebung R. Die inferenzstatistischen Modelle, die wir in diesem Beitrag verwendeten, werden von Baayen (2008, insb. Kapitel 7) und Winter (2020, insb. Kapitel 14) vorgestellt. Beide Bücher enthalten auch umfassende und verständliche Einführungen in R sowie deskriptive Verfahren der Statistik. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Literatur Abel, Andrea/Aivars Glaznieks/Lionel Nicolas/Egon Stemle (2014): KoKo: An L1 Learner Corpus for German, in: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC). Reykjavik, S. 2414–2421. Baayen, Harald R. (2008): Analyzing linguistic data. A practical introduction to statistics using R, Cambridge: Cambridge University Press. Bates, Douglas/Martin Maechler/Ben Bolker/Steve Walker (2015): Fitting Linear Mixed-Effects Models Using lme4, in: Journal of Statistical Software, Jg. 67(1), S. 1–48. Bubenhofer, Noah/Marc Kupietz (Hrsg.) (2018): Visualisierung sprachlicher Daten: Visual Linguistics – Praxis – Tools, Heidelberg: Heidelberg University Publishing, [online] https://heiup.uni-heidelberg.de/ heiup/catalog/book/345. Müller-Spitzer, Carolin/Martina Nied Curcio/María José Domínguez Vázquez/Idalete Maria Silva Dias/Sascha Wolfer (2018): Correct hypotheses and careful reading are essential: results of an observational study on learners using online language resources, in: Lexikos, Bd. 28, S. 287–315. Müller-Spitzer, Carolin/Martina Nied Curcio/María José Domínguez Vázquez/Idalete Maria Silva Dias/Sascha Wolfer (2019): Recherchepraxis bei der Verbesserung von Interferenzfehlern aus dem Itali- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 178 enischen, Portugiesischen und Spanischen: Eine explorative Beobachtungsstudie mit DaF-Lernenden, in: Lexicographica, Bd. 34, Berlin/Boston: de Gruyter, S. 157–182. R Core Team (2019): R: A language and environment for statistical computing, Vienna: R Foundation for Statistical Computing, [online] https://www. R-project.org/. Tufte, Edward (2001): The visual display of quantitative information, 2. Aufl., Cheshire: Graphics Press. Winter, Bodo (2020): Statistics for linguists: An introduction using R, New York/London: Routledge. Wolfer, Sascha/Sandra Hansen-Morath (2017): Visualisierung linguistischer Daten mit der freien Grafikund Statistikumgebung R, [online] http://kograno. ids-mannheim.de/VisR-OnlinePub. Wolfer, Sascha/Thomas Bartz/Tassja Weber/Andrea Abel/Christian M. Meyer/Carolin Müller-Spitzer/ Angelika Storrer (2018): The effectiveness of lexicographic tools for optimising written L1-texts, in: International Journal of Lexicography, Jg. 31 H. 1, S. 1–28. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 6. April 2021. 24.03.22 11:06 179 10. Höfliches Handeln mit Emojis: eine Fallstudie aus dem Bereich der Angewandten (Medien-)Linguistik Das Kapitel präsentiert eine Fallstudie zum höflichen kommunikativen Handeln in einem Lehr-Lern-Kontext. Vor dem Hintergrund einerseits der medienlinguistischen Erforschung internetbasierter Kommunikation und andererseits der linguistischen Höflichkeitsforschung werden Funktionen der Emoji-Verwendung bei der Bearbeitung einer Peer-Feedback-Aufgabe untersucht. Die Ergebnisse zeigen, dass Emojis keine reine Spielerei sind, sondern wichtige Aufgaben bei der Vermeidung von Kommunikationsstörungen auf der Beziehungsebene übernehmen. Die Studie ist angewandt-linguistisch in zweierlei Hinsicht: 1. Sie untersucht kommunikative Praktiken an Daten aus einer konkreten Handlungsdomäne und bereitet die Ergebnisse für die weitere linguistische Theoriebildung auf; 2. sie liefert Befunde, die für die Weiterentwicklung der kommunikativen Praxis in der untersuchten Domäne genutzt werden können. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Michael Beißwenger, Steffen Pappert 1. Einleitung In diesem Kapitel beschreiben wir eine Fallstudie aus dem Bereich der Angewandten Linguistik, die für eine konkrete semiotische Ressource (Emojis) untersucht, zu welchen Zwecken diese in einem gegebenen Praxisfeld (einem Lehr-Lern-Kontext) von einer bestimmten Nutzergruppe (Studierende) unter den Bedingungen einer konkreten kommunikativen Aufgabe (dem Verfassen von Peer-Feedback-Kommentaren) dazu genutzt wird, soziale Risiken in der Kommunikation abzufedern und ihre sprachlichen Äußerungen so zu gestalten, dass diese keine Störung der Beziehung zu den Adressat*innen nach sich ziehen. Hinsichtlich des fokussierten Phänomens, also Emojis und deren Beziehung zum sprachlichen Gehalt der untersuchten Äußerungen, fällt die Studie in das Gebiet der Medienlinguistik, genauer der empirischen Erforschung internetbasierter Kommunikation. Hinsichtlich des Erkenntnisinteresses in Bezug auf die untersuchten Daten ist die Perspektive der Linguistischen Pragmatik analyseleitend, und zwar mit der Frage: Warum/zu welchen Zwecken verwenden Individuen eine bestimmte semiotische Ressource unter gegebenen situativen Bedingungen so, wie sie es tun? UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 179 Die situativen Bedingungen, die für die analytische Rekonstruktion der Funktionen der untersuchten Emoji-Verwendungen zu berücksichtigen sind, ergeben sich aus einem Lehr-Lern-Kontext, in dem zentrale Lernendenaktivitäten in einer Wiki-Umgebung stattfanden. Entsprechend ist dessen (medien-) didaktische Konzeption als eine zentrale Rahmenbedingung einzubeziehen. Die Untersuchung liefert einerseits Erkenntnisse in Bezug auf das untersuchte Phänomen, und zwar unter der Fragestellung, wie Emojis in digitaler Kommunikation zur Bearbeitung bestimmter kommunikativer Aufgaben eingesetzt werden. Aufgrund der Herkunft der Daten aus einem didaktischen Kontext lassen sich die Ergebnisse andererseits für die Weiterentwicklung mediendidaktischer Konzepte nutzbar machen; unter dieser Perspektive ist von Interesse, welchen Beitrag Emojis zur Bearbeitung bestimmter Aufgabentypen in digitalen Lernumgebungen leisten können. In Abschnitt 2 skizzieren wir zunächst das Forschungsverständnis der Angewandten Linguistik und ordnen unsere Studie in diesen Kontext ein. In Abschnitt 3 beschreiben wir die im Rahmen der Studie untersuchten Daten vor dem Hintergrund des Lehr-Lern-Szenarios, unter dessen Bedingungen sie entstanden 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 180 II Fallstudien sind. Im Fall unserer Studie wurden Daten nicht zu Zwecken der Untersuchung – beispielsweise auf experimentellem Wege oder mittels einer Befragung – generiert, sondern sind in einem bestehenden Praxisfeld als Resultat kommunikativer Praxis angefallen, um anschließend von den Forschenden vorgefunden zu werden. In der Chronologie des Forschungsprozesses ging somit die Entstehung der Daten der Formulierung von Forschungsfragen und -hypothesen voraus; entsprechend beschreiben wir in diesem Kapitel zuerst die Daten und die Bedingungen, unter denen die Daten im Praxisfeld angefallen sind, und formulieren erst in einem zweiten Schritt die Forschungsfrage, unter der sie untersucht wurden. In Abschnitt 4 geben wir einen kurzen Überblick zu den theoretischen Ansätzen und linguistischen Forschungsfeldern, vor deren Hintergrund die der Studie zugrunde gelegte Fragestellung als linguistisch relevant motiviert werden kann. Vorgestellt werden zum einen medienlinguistische Befunde zur Funktion von Emojis in der internetbasierten Kommunikation, zum anderen mit dem sogenannten Face-work-Ansatz nach Brown/Levinson (1987) eine einschlägige Theorie des höflichen Handelns. Abschnitt 5 beschreibt das methodische Vorgehen und die für die Analyse des Datenmaterials zugrunde gelegten Kategorien. Abschnitt 6 präsentiert die Ergebnisse der Studie, ordnet diese in das Forschungsfeld der Medienlinguistik und der Höflichkeitsforschung ein und zeigt Möglichkeiten des Transfers der Ergebnisse in das Praxisfeld der Mediendidaktik auf. Der Beitrag schließt mit einer methodischen Reflexion der Untersuchung und des gewählten Vorgehens, auch mit Blick auf Anschlussforschungen. 2. Angewandte Linguistik Was das Programm der Angewandten Linguistik ist und wie sich die Angewandte Linguistik zu anderen linguistischen Teildisziplinen verhält – ob sie überhaupt eine Teildisziplin ist oder eher eine quer zu Teildisziplinen verortbare, bestimmte Auffassung von linguistischer Forschung beschreibt –, ist von angewandt forschenden Linguist*innen wiederholt UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 180 diskutiert worden. Diese Diskussion kann hier nicht im Detail nachvollzogen werden. Einige zentrale Aspekte der Diskussion wollen wir im Folgenden im Anschluss an Knapp (2011a) zusammenfassen. Eine grundsätzliche Überlegung betrifft das Konzept von ‚Angewandtheit’, das mit ‚angewandten’ Wissenschaften (in deren eigenem Selbstverständnis) verbunden wird, sowie die Frage des Verhältnisses von ‚angewandter’ zu ‚nicht angewandter’ (also auf reine Theoriebildung gerichteter) Wissenschaft. In Bezug auf die linguistische Forschung greifen zwei Annahmen über die Aufgabe angewandter Wissenschaft zu kurz (vgl. Knapp 2011a: 119): • Angewandte Linguistik ist mehr als bloße Anwendung linguistischer Theorie in Praxisfeldern. Stattdessen ist linguistische Theoriebildung, die dem Status ihres Untersuchungsgegenstands als Instrument sozialen Handelns gerecht werden und für diesen beschreibungsadäquat sein möchte, notwendigerweise darauf angewiesen, Sprache in konkreten Verwendungskontexten zu betrachten. Hier deckt sich das Programm der Angewandten Linguistik mit der Perspektive der Linguistischen Pragmatik: Sprache wird im Feld betrachtet, in dem sie natürlich vorkommt und ihren Platz als Handlungsmittel hat. • Angewandte Linguistik ist keine Form der Instrumentalisierung von Wissenschaft, die dazu dienen soll, den gesellschaftlichen und ökonomischen „Nutzwert“ linguistischer Theoriebildung unter Beweis zu stellen. Die Linguistik muss nicht erst nachweisen, dass ihre Beiträge zum Verständnis von Sprache gesellschaftliche Relevanz besitzen. Für eine Wissenschaft, die sich (s. Punkt 1) mit Konventionen und Praktiken des gesellschaftlichen Handelns befasst, ist es nur natürlich, dass sie aus entwickelten Modellen und Erkenntnissen Empfehlungen abzuleiten vermag, die geeignet sind, um die sprachliche und kommunikative Praxis in Domänen gesellschaftlichen Handelns zu begleiten und weiterzuentwickeln. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emojis“ Angewandte Linguistik ist vielmehr anwendungsorientierte Wissenschaft in dem Sinne, dass sie „in einer theoretisch reflektierten und methodisch gut fundierten Art und Weise“ (Knapp 2011a: 120) „zur Lösung praktischer Probleme mit Sprache und Kommunikation betrieben wird“ (ebd.: 123). Diese Konzeption ist nicht rein instrumentell zu denken; gerade im Prozess der theoretisch und methodisch fundierten Analyse der betrachteten Probleme liegt ein wichtiges Potenzial, aus angewandt-linguistischer Praxis neue Impulse für die Theoriebildung und für die Weiterentwicklung von Forschungsmethoden abzuleiten (vgl. Knapp 2011b: XXII). Entsprechend ist Angewandte Linguistik nicht nur als gerichtete Perspektive von der Grundlagenforschung zu Praxisfeldern, sondern zugleich auch als praxisfeldgerichtete, wissenschaftliche Betrachtungsweise zu verstehen, die zur Grundlagenforschung zurückführt; in diesem Sinne ist sie „angewandte Grundlagenforschung“ (Knapp 2011a: 120). Es gibt unterschiedliche Auffassungen davon, ob bei angewandt-linguistischen Untersuchungen die Überführbarkeit von Erkenntnissen in die Praxis eine Bedingung zu sein hat oder lediglich als ein Potenzial betrachtet werden kann (letztere Position z. B. bei Meer/Pick 2019: 8) bzw. ob alternativ zur Überführung von Forschungsergebnissen in die Praxis der Gewinn für die Grundlagenforschung auch allein zentral gesetzt werden kann. Nähert man sich der Bestimmung des Konzepts der Angewandten Linguistik extensional, d. h. über eine Analyse konkreter wissenschaftlicher Praxis, wie sie sich beispielsweise im Umfeld einschlägiger, als „angewandt“ ausgewiesener Fachgesellschaften – z. B. der Gesellschaft für Angewandte Linguistik (GAL)1 oder ihrer internationalen Partnergesellschaft Association Internationale de Linguistique Appliquée (AILA)2 – sowie der zugehörigen Fachtagungen und Publikationen – z. B. Zeitschrift für Angewandte Linguistik (ZfAL), European Journal of Applied Linguistics (EuJAL) – dokumentiert, so ist festzustellen, dass unter „angewandt“ beide der zuvor angesprochenen 1 2 181 Akzentuierungen anzutreffen sind. Ob bzw. wie stark der Transfer von Forschung in Praxisfelder oder der Ertrag für die Theorie- und Methodenbildung im Vordergrund steht, ist in einzelnen als angewandt-linguistisch ausgewiesenen Arbeiten unterschiedlich ausgeprägt. Als gemeinsamer Nenner ergibt sich der Bezug auf sprachlich-kommunikative Praxisfelder und Praktiken, die mit Theorien und Methoden der Linguistik untersucht werden, sowie die (pragmatische) Perspektive auf Sprache als „Sprache im Gebrauch“. Die hier vorgestellte Fallstudie ist ein Beispiel für eine Untersuchung, die aus mehr oder weniger zufälligen Beobachtungen zu interessanten Praktiken der Emoji-Verwendung in einer digitalen Lernumgebung hervorgegangen ist. Die Daten sind Resultat authentischen Sprachgebrauchs in einem Lehr-Lern-Setting. Sie wurden „im Feld“ vorgefunden und haben aufgrund ihrer Merkmalhaftigkeit das linguistische Interesse der beiden Verfasser dieses Kapitels geweckt. Die Fragestellung wurde somit aus der Begegnung mit dem empirischen Material entwickelt; die daraus resultierende Untersuchung war explorativ (bzw. hypothesengenerierend) angelegt, d. h. am Ende des Forschungsprozesses sollte die Formulierung einer Hypothese stehen, die sich hinreichend plausibel aus dem untersuchten Material begründen lässt. Da die Daten bereits vorlagen, war die empirische Basis der Untersuchung auf dasjenige Material begrenzt, das zur Verfügung stand; es bestand keine unmittelbare Möglichkeit, weitere Daten zu erheben. 3. Vorstellung der Daten und Fragestellung Das Feld authentischen Sprachhandelns, dem die untersuchten Daten entstammen, bildet eine Wiki-Plattform, die im Sommersemester 2017 an der Universität Duisburg-Essen für die Organisation eines Planspiels zu den schriftsystematischen Grundlagen der deutschen Rechtschreibung eingesetzt wurde. https://gal-ev.de/. https://aila.info/. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 181 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 182 II Fallstudien Das Planspiel war integriert in ein fachdidaktisches Seminar in den Lehramtsstudiengängen Deutsch, bei den Teilnehmer*innen handelte es sich um Lehramtsstudierende in der Bachelorphase. Da die Beteiligung am Planspiel eine zentrale Bedingung für den erfolgreichen Seminarabschluss bildete, war die Erbringung spielrelevanter Beiträge für die Studierenden obligatorisch; diese Tatsache ist wichtig, um zu verstehen, dass die Erbringung der im Zentrum unserer Untersuchung stehenden schriftlichen Diskussionsbeiträge für die Teilnehmenden alternativlos war. Das dem Seminar zugrunde liegende Planspielkonzept Ortho & Graf (vgl. Beißwenger/ Meyer 2018, 2020) adaptiert Ideen der ‚Gamification’ (Deterding et al. 2011) und des ‚Game-based Learning’ (Schwan 2006), um Studierende zu einer selbstgesteuerten und Peer-basierten Auseinandersetzung mit den orthographischen Schreibregularitäten des Deutschen anzuregen. Zentrales Ziel des Spiels ist die kognitive Aktivierung der Studierenden für eine problembezogene Erarbeitung schriftsystematischer Zusammenhänge. Anhand von Schreibungen, die sie ihrer eigenen Lebenswelt entnehmen und Anlass zu Korrektheitszweifeln bieten, klären die Studierenden in Teams, wann Schreibungen als korrekt gelten und warum. Die Auseinandersetzung mit echten oder vermeintlichen Fehlschreibungen erfolgt dabei ausgehend von den Regelformulierungen im amtlichen Regelwerk der deutschen Rechtschreibung. Durch die damit verbundene Notwendigkeit der Operationalisierung der Regeln gewinnen die Studierenden vertiefte Einsichten in die Struktur des Schriftsystems. Dabei müssen insbesondere grammatisches Strukturwissen und grammatische Analysekategorien aktiviert und zur Anwendung gebracht werden. Das Spiel verläuft über drei aufeinander aufbauende Spielphasen mit ansteigendem Anforderungsniveau: In Spielphase I sammeln und dokumentieren die Lernenden in der Rolle von Klient*innen eines Unternehmens, das professionelle Dienstleistungen bei 3 der Lösung von Rechtschreibzweifeln anbietet (Ortho & Graf), Schreibungen, die sie ihrer eigenen Lebenswelt entnehmen und an deren orthographischer Korrektheit sie zweifeln, und reichen diese über ein Online-Formular auf der Website des Unternehmens als Ermittlungsaufträge ein. In Spielphase II werden sie von eben diesem Unternehmen als „Rechtschreibermittler*innen“ angeheuert und erhalten eine Weiterbildung in der Klärung orthographischer Zweifelsfälle anhand des amtlichen Regelwerks. In der Rolle von Ermittler*innen, die in Teams operieren, klären sie die in Phase I eingereichten Ermittlungsaufträge und dokumentieren ihre Ermittlungsergebnisse nach einem vorgegebenen Schema in online ausgefüllten „Fallakten“. In Spielphase III werden die Ermittler*innen zu Mitgliedern der Abteilung „Innenrevision“ berufen, die für das Qualitätsmanagement im Unternehmen zuständig ist. Als „Qualitätsmanager*innen“ kommentieren sie Ermittlungen, die von anderen Ermittlerteams in Fallakten dokumentiert wurden, prüfen diese auf Plausibilität und geben über schriftliche Rückmeldungen Anregungen zur Überarbeitung. Sie formulieren somit evaluatives Feedback zu Arbeitsergebnissen von Personen, die in derselben Rolle sind wie sie selbst (im Rahmen des Seminars der Rolle von Studierenden und im Rahmen des Spiels der Rolle von Spielteilnehmer*innen bzw. Ermittler*innen). Diese Form evaluativer Rückmeldungen, die nicht von einer Lehrperson, sondern „von gleich zu gleich“ gegeben werden, bezeichnet man als Peer-Feedback. Zentrale Spielaktivitäten in den Spielphasen I bis III finden online in einer Wiki-Umgebung statt; Ergebnisse aus den Spielphasen werden in Präsenzphasen aufgegriffen und in „Ermittlerkonferenzen“ intensiv im Plenum diskutiert (Blended-Learning-Konzept). In der Wiki-Umgebung3 wird jede von den Spieler*innen angelegte Fallakte nach gleichem Schema als eigenständige Wiki-Seite präsentiert. Die schriftlichen Rückmeldungen in Spielphase III werden auf Diskussionsseiten hinterlegt, die mit den Fallakten ver- Eine Showroom-Version der Spielumgebung kann online unter https://udue.de/orthoundgraf begangen werden. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 182 24.03.22 11:06 knüpft sind. Für die Formulierung ihrer schriftlichen Rückmeldungen wurde den Spieler*innen eine Auswahl an 36 Emoji-Grafiken zur Verfügung gestellt, die den Studierenden aus Anwendungen wie WhatsApp vertraut waren und die sie – optional – in ihre schriftlichen Rückmeldungen integrieren konnten. Spezifische Vorgaben zur Verwendung der einzelnen Emojis wurden nicht gemacht; allerdings war jedem Emoji ein „sprechender“ Codebaustein (z. B. {{Daumen}}, {{Stark}}, {{Grübel}}, {{Vorsicht}}, s. Abbildung 1) zugeordnet, der für die Einbindung der entsprechenden Grafiken in eigene Diskussionsbeiträge benötigt wurde. Emoji Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emojis“ Codebaustein Emoji Codebaustein {{Daumen}} {{Grübel}} {{Stark}} {{Besserwisser}} {{Verwirrt}} {{Lächeln}} {{Klatsch}} {{Klasse}} {{Vorsicht}} {{Argh}} {{Schock}} {{Kürbis}} {{Lol}} {{Zwinker}} {{Lehrerin}} {{Lehrer}} {{Tipp}} {{Auweia}} Abb. 1: Auszug aus der Auswahl der in der Wiki-Umgebung zur Verfügung gestellten Emojis mit zugeordnetem Codebaustein UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 183 183 Die Aufgabenstellung für die Spielphase III lautete wie folgt: Starten Sie eine Karriere als Qualitätsmanager/in! Als Mitglied eines Ortho&Graf-Ermittlerteams sind Sie befugt, sich an Maßnahmen zum innerbetrieblichen Qualitätsmanagement zu beteiligen, die von der Abteilung Innenrevision organisiert werden – ganz nach dem Motto: Ermittlungsarbeit ist gut – aber sechs Augen sehen mehr als vier. Seit 1901 ist es die Philosophie unseres Unternehmens, die Güte von Ermittlungsergebnissen nicht „von oben“, sondern durch diejenigen feststellen zu lassen, die dazu die meiste Expertise mitbringen: die Ermittlerinnen und Ermittler selbst. Wir erwarten von Ihnen, dass Sie sich mindestens fünf Fallakten (Ihrer Wahl) ansehen, die von einem anderen Ermittlerteam aus der Ermittlungsperiode Sommer 2017 bearbeitet wurde. Ihre Aufgabe ist es, die ausgewählten Fallakten einer Plausibilitätsprüfung zu unterziehen: Leuchtet Ihnen das Ergebnis, zu dem die Ermittler/innen gekommen sind, ein? Ist die Zuordnung zu einem Regelwerksparagraphen bzw. -bereich einleuchtend? Ist die von den Ermittler/inne/n formulierte Begründung einleuchtend? Halten Sie die Handlungsempfehlung, die für den oder die Auftraggeber/in formuliert wurde, für hinreichend verständlich und überzeugend? Ist die Fallakte vollständig ausgefüllt? Ausgehend von Ihrer Prüfung formulieren Sie bitte eine knackige, schriftliche Rückmeldung an das Ermittlerteam, die Sie der Fallakte auf einem separaten Blatt („Diskussionsseite“) beifügen. Stellen Sie dabei festgestellte Stärken heraus, sprechen Sie aber auch Aspekte an, die Ihrer Ansicht nach noch optimiert werden könnten. Seien Sie in Ihren Anregungen und Vorschlägen konstruktiv und möglichst präzise. Denken Sie immer daran: Bei den Ermittler/inn/en, deren Fall Sie beurteilen, handelt es sich um Kolleg/ inn/en! 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 184 II Fallstudien Bei einer Sichtung der in Spielphase III auf den Diskussionsseiten hinterlegten PeerFeedback-Kommentare nach Abschluss des Planspiels fielen wiederholt Fälle auf, in denen lobende Teile eines Feedback-Postings durch Emojis visuell unterstützt wurden (z. B. Daumen-hoch-Emoji, Beispiele 1 und 2), während Posting-Teile, in denen Kritik formuliert wird, nicht in vergleichbarer Weise visuell hervorgehoben werden. In anderen Fällen wurden kritisch-rückmeldende Kommentare mit Emojis markiert, die als bildlicher Ausdruck für eine Unsicherheit des oder der Schreibenden in Bezug auf den ausgedrückten Sachverhalt gedeutet werden können (das nachdenkliche Gesicht in Beispiel 3) und somit die Möglichkeit andeuten, dass der oder die Schreibende mit der formulierten Kritik auch falsch liegen könnte. In weiteren Fällen wurden Anregungen zur Überarbeitung Emojis beigegeben, mit denen (offensichtlich ironisierend) eine extreme emotionale Involviertheit der oder des Schreibenden in Bezug auf die festgestellte Unzulänglichkeit dargestellt wurde (Beispiel 4) oder mit dem explizit auf die während der Spielphase III eingenommene (und institutionell lizenzierte) Rolle durch die Abbildung eines/r „Lehrmeister/in“ Bezug genommen wurde, um die Tatsache des Kritik-Übens auf diese Weise gegenüber den Adressat*innen zu legitimieren (Beispiel 5). Beispiele 1-5: Ich würde es aber 1. Der §57 ist richtig. genauer schreiben. Der Paragraph enthält einige Fallbeispiele. 2. Gute Ermittlung , nur scheint mir die Handlungsempfehlung nicht ausreichend. Hier sollten aus meiner Sicht Tipps stehen, wie man zum Beispiel Haupt- und Nebensätze voneinander unterscheiden kann […]. 3. Mhhh also bei Dusch- und Schaumbad handelt es sich nicht um einen Bindestrich, sondern um einen Ergänzungsstrich (§98). Im Bereich C solltet ihr noch den Ar4. beitsauftrag löschen. 5. Die Handlungsempfehlung könnte stärker herausstellen, wie der Auftraggeber diesen Sachverhalt prüft und so selbst zu einer Lösung gelangt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 184 Fälle wie diese, die sich in den Daten in variierender Form wiederholt feststellen ließen, legten nahe, dass die Studierenden die Emojis als praktische Ressource adaptiert hatten, um – auf jeweils unterschiedliche Art und Weise – die sozial riskante Aufgabe des PeerFeedbacks zu bewältigen: • Positiv-wertschätzende Äußerungsteile wurden durch Emojis besonders hervorgehoben, um sie gegenüber der vorgebrachten Kritik visuell salienter erscheinen zu lassen (Beispiele 1 und 2); • Emojis wurden eingesetzt, um Kritik in einer Weise zu modalisieren, mit der die potenzielle Fehlbarkeit des oder der Kritisierenden angedeutet und somit auf die Tatsache angespielt wurde, dass sich Kritikgebende und Kritiknehmende – als Peers – zueinander auf Augenhöhe befinden (Beispiel 3); • mit dem gewählten Emoji sollte das KritikÜben ironisch gerahmt und dadurch in seiner sozialen Konsequenz relativiert werden (Beispiel 4); • mit dem gewählten Emoji sollte die spielerische Rahmung des Kritik-Übens herausgestellt und damit als sprachlicher Akt in einem nicht-alltäglichen Kontext ausgewiesen werden, auch hier mit dem Ziel, dessen Wirkung hinsichtlich ihrer sozialen Konsequenzen zu relativieren (Beispiel 5). Die interessanten Funde bei der Sichtung der Daten bewegten uns dazu, das Datenmaterial genauer linguistisch zu untersuchen. Motiviert wurde die Durchführung einer entsprechenden Untersuchung einerseits durch die medienlinguistisch relevante Frage nach der Funktion von Emojis in schriftlicher digitaler Kommunikation und andererseits vor dem Hintergrund von Ansätzen zur Modellierung sprachlicher Höflichkeit aus dem Bereich der linguistischen Pragmatik (vgl. Abschnitt 4). Das Forschungsinteresse zielte auf die Gewinnung empirischer Evidenz dafür, ob Emojis in einem Lehr-Lern-Kontext wie dem untersuchten dazu eingesetzt werden, die sozial riskante Aufgabe der Formulierung von Peer-Feedback zu bewältigen. Sollte sich diese Intuition, die aus einer Sichtung erster Beispiele abgelei- 24.03.22 11:06 tet wurde, bestätigen, wäre der Befund geeignet, im Praxisfeld „Digital gestütztes Lehren und Lernen“ das Angebot von Emoji-Inventaren als hilfreiche Ressource für die Bearbeitung von Peer-Feedback-Aufgaben anzuregen. In Bezug auf die medienlinguistische Beschäftigung mit emergenten Praktiken in digitaler Kommunikation (vgl. Beißwenger 2016) könnten die Befunde aufzeigen, dass und wie Praktiken aus digitaler Alltagskommunikation (WhatsApp, Instagram u. a.) für neue, für die Interaktionsbeteiligten ungewohnte Kontexte sprachlichen Handelns adaptiert werden. Im vorliegenden Zusammenhang betrifft das die Nutzung von Emojis zur Beziehungspflege und zur sozialverträglichen Organisation von Kommunikation. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emojis“ 4. Theoretischer Hintergrund 4.1 Medienlinguistik: Der Beitrag von Emojis zur Organisation schriftlicher Alltagskommunikation Emojis haben in jüngster Zeit ein verstärktes Interesse der Medienlinguistik auf sich gezogen (vgl. Dürscheid/Siever 2017; Pappert 2017; Beißwenger/Pappert 2019a,b,c). Gemeinsam mit ihren Vorläufern, den tastaturschriftlich erzeugten Emoticons, bilden Emojis eines der Merkmale digitaler Kommunikation par excellence (vgl. Beißwenger 2015: 15). Ihre in bestimmten Nutzungskontexten internetbasierter Kommunikationsdienste hochfrequente Nutzung legt unter pragmatischer Perspektive die Annahme nahe, dass Emojis wichtige Funktionen bei der Organisation getippter Alltagskommunikation übernehmen. In Beißwenger/Pappert (2019c) haben wir einen pragmatischen Beschreibungsrahmen für die Analyse von Emojis vorgestellt und anhand diverser Analysen zur Emoji-Verwendung in der WhatsApp-Kommunikation gezeigt, dass Emojis von ihren Verwender*innen auf vielfältige Weise für die Bearbeitung der beiden grundlegenden Aufgaben in zwischenmenschlicher Kommunikation eingesetzt werden: Sie unterstützen die Verstehenssicherung (fungieren als Les- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 185 185 barmacher für sprachliche Äußerungen) und sie tragen zur Beziehungspflege und zur sozialverträglichen Gestaltung sprachlichen Handelns bei (machen als Bildzeichen sichtbar, dass man das Gegenüber wertschätzt und seine oder ihre Wünsche respektiert). Beim Lesbarmachen wird für die Adressat*innen durch Emojis der Kontext der Äußerung konstituiert, vor dessen Hintergrund und unter dessen Bedingungen der oder die Verwendende eine sprachliche Äußerung interpretiert wissen möchte oder anhand dessen die Einstellung der oder des Verwendenden zu einem geäußerten Sachverhalt rekonstruierbar gemacht werden soll, ohne diese explizit sprachlich zu formulieren. In dieser Verwendung fungieren Emojis als Kontextualisierungshinweise (i.S.v. Gumperz 1982; 1992; Auer 1986: 24 u. a.) bzw. als Kontextualisierungsschlüssel (vgl. Knoblauch 1991: 453), anhand derer der „Sinn der Mitteilung und die von Sprechern verfolgten Strategien und Intentionen“ (ebd.) inferierbar werden sollen, ohne dass der Sinn, die Strategien und Intentionen, von der oder dem Verwendenden explizit sprachlich präsentiert werden. Im Gegensatz zu Praktiken des Lesbarmachens tragen Praktiken des Sichtbarmachens nichts zur Interpretation der Äußerung auf Ebene der Proposition oder Illokution bei. Praktiken des Sichtbarmachens markieren auch keine Einstellungen der Schreiber*innen zu sprachlich geäußerten Sachverhalten. Stattdessen werden mit ihnen Propositionen oder Teile davon – entweder zusätzlich zu ihrer sprachlichen Realisierung oder alternativ dazu, in keinem Fall aber für das Verständnis zwingend erforderlich – „ins Bild gesetzt“, um den Adressat*innen anzuzeigen, dass man sich Mühe gemacht hat, die Äußerung für sie ansprechend zu gestalten und ihre Rezeption durch bildliche Mittel zu unterstützen. Der Übergang von illustrativen zu rein ornamentalen Verwendungen ist dabei fließend; das Illustrieren und Dekorieren der Äußerung fungiert als Zeichen der Wertschätzung. Für die störungsfreie Gestaltung von Kommunikation besonders relevant werden Praktiken des Sichtbarmachens da, wo die Beziehung zu den Partner*innen durch mögliche Effekte einzelner Handlungen in Gefahr ge- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 186 II Fallstudien rät, gestört zu werden. In solchen Fällen fungieren Emojis als ins Bild gesetzter „sozialer Kitt“, der potenziell riskanten Äußerungen vorsorglich beigefügt wird, um den Adressat*innen anzuzeigen, dass trotz möglicherweise unerwünschter Implikationen der Äußerung die Verwendenden die Wünsche der Adressat*innen respektieren und auf eine gute und von wechselseitiger Wertschätzung geprägte Beziehung achten. In solchen Verwendungen sind Emojis Mittel des höflichen Handelns und dienen der Abschwächung potenzieller Gesichtsbedrohungen (face work). Trotz Abschwächung bleibt das, was mit der Äußerung proponiert und bezweckt wird (z. B. jemanden zu etwas auffordern, jemanden kritisieren), unverändert. Das unterscheidet das Sichtbarmachen zum Zwecke der sozialverträglichen Gestaltung der eigenen Äußerung von Praktiken des Lesbarmachens, mit denen den Adressat*innen entweder eine nicht aus dem Sprachlichen allein ableitbare Lesart nahegelegt wird oder mit denen Einstellungen zum Proponierten markiert werden, die an den sprachlichen Äußerungsanteilen selbst nicht abgelesen werden können. 4.2 Linguistische Pragmatik: Höfliches Handeln als face work Höflichkeit ist ein zentraler Gegenstand der linguistischen Pragmatik mit ausdifferenziertem Forschungsfeld (für einen Überblick: Ehrhardt 2018). Als „klassisch“ im Bereich der Theorien sprachlicher Höflichkeit kann der Ansatz von Brown/Levinson (1987) gelten, der davon ausgeht, dass wir in Kommunikation stets bestrebt sind, sowohl die Wünsche der Partner*innen nach einem positiven Selbstbild und nach Selbstbestimmung zu respektieren, als auch unser eigenes positives Selbstbild und unseren Wunsch nach Autonomie zu schützen. Höfliches Handeln ist nach diesem Ansatz face work, d. h. eine Form kontinuierlicher Imagearbeit. Mit dieser Idee bauen Brown/Levinson auf dem Konzept des face auf, das von Erving Goffman (1974) 4 eingeführt wurde und das beim kommunikativen Handeln stets als eine Größe präsent ist, die es zu schützen bzw. zu respektieren gilt. Relevant sind dabei zwei Aspekte von face mit denen unterschiedliche Bedürfnisse (facewants) verbunden sind: das positive Gesicht, welches das Bedürfnis eines jeden Menschen nach Akzeptanz, Wertschätzung und gemeinschaftlichem Beistand beschreibt (vgl. Brown/Levinson 1987: 101), und das negative Gesicht, welches sich auf den Wunsch nach individuellem Freiraum und Handlungsfreiheit bezieht (vgl. ebd.: 61).4 Beide Aspekte von face können in Kommunikation durch Äußerungen bzw. sprachliche Handlungen in ihrer Integrität gefährdet werden. Brown/ Levinson sprechen in Bezug auf Äußerungen, mit denen die Möglichkeit einer Bedrohung des fremden oder eigenen (positiven oder negativen) face verbunden ist, von face-threatening acts. Face-threatening acts lassen sich in der Kommunikation oftmals nicht vermeiden. So geht bereits mit der Realisierung einer Fragehandlung eine für das Gegenüber möglicherweise unerwünschte Einschränkung seiner bzw. ihrer Autonomie (und damit des negativen Gesichts) einher, insofern nach dem Kooperationsprinzip (vgl. Grice 1975) Fragen eine starke Aufforderung an das Gegenüber innewohnt, in einem bestimmten Sinne folgezuhandeln (nämlich so, dass das Folgehandeln als relevante Antwort auf die Frage interpretiert werden kann). Auch ist es in Kommunikation häufig unumgänglich, Verhaltensweisen des Gegenübers zu evaluieren – beispielsweise deren Berechtigung oder Qualität zu kritisieren oder in Zweifel zu ziehen. Kritik am Gegenüber und deren oder dessen Verhalten kann je nach Situation vom Gegenüber mehr oder weniger stark als Bedrohung des positiven Gesichts wahrgenommen werden und deshalb ihren bzw. seinen Wünschen zuwiderlaufen. Zugleich bedroht der oder die Handelnde, indem er oder sie einen face-threatening act riskiert, auch das eigene positive Gesicht, da er oder sie annehmen muss, dass, sollte die Bedrohung der face-wants des Gegenübers von diesem tat- Die Attribute ‚positiv’ und ‚negativ’ sind dabei nicht in einem wertenden Sinne zu verstehen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 186 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emojis“ sächlich als solche erkannt werden, dies eine Schädigung des eigenen Selbstbilds nach sich ziehen kann, weil das Gegenüber die faceBedrohung als unhöfliches Verhalten wahrnimmt und daraufhin sein bzw. ihr Bild von der bzw. dem Bedrohenden revidiert. Um das eigene und fremde Gesicht zu schützen bzw. eigene und fremde face-wants zu pflegen, legen Interaktionsbeteiligte, Goffman zufolge, zwei Einstellungen zugrunde: „eine defensive Orientierung im Hinblick auf die Wahrung des eigenen Images und eine protektive im Hinblick auf die Wahrung des Images5 anderer“ (Goffman 1986 [2013]: 19). Imagepflege kann dadurch erfolgen, dass face-threatening acts in der Interaktion vermieden werden. Diese Technik trägt nur zu einem gewissen Grad zur Gesichtswahrung bei, da es viele Situationen gibt, in denen potenzielle Gesichtsbedrohungen kaum vermeidbar, in bestimmten Interaktionsarten (z. B. in Prüfungsgesprächen) sogar in die darin vorgesehenen Handlungsmuster eingeschrieben sind. Eine zweite Technik der Imagepflege ist daher der „korrektive Prozess“ (Goffman 1986 [2013]: 21-30), bei dem es darum geht, Gesichtsbedrohungen durch eine wiedergutmachende Handlung (redressive action) in ihrer Wirkung abzuschwächen. Der face-threatening act wird dabei mit Zusätzen bzw. Modifikationen ausgeführt, die dem oder der Angesprochenen signalisieren, „dass keine Gesichtsbedrohung beabsichtigt oder gewünscht ist und dass S die Bedürfnisse von Hs Gesicht grundsätzlich anerkennt und selbst wünscht, dass sie erfüllt werden“ (Brown/Levinson 2007: 71). Darüber hinaus gibt es eine Reihe gesichtswahrender oder gesichtsstärkender sprachlicher Handlungen (face-flattering acts, KerbratOrecchioni 2005). So dienen beispielsweise Lob, Komplimente oder andere Sympathiebeteuerungen der Aufwertung des positiven Gesichts des oder der Angesprochenen. Brown/Levinson (2007) gehen davon aus, dass in Anbetracht der wechselseitigen Verletzbarkeit „jeder rationale Akteur versuchen 5 187 [wird], gesichtsbedrohende Akte zu vermeiden bzw. bestimmte Strategien zu verwenden, um die Bedrohung zu reduzieren“ (Brown/Levinson 2007: 69). Genau solchen Praktiken des höflichen Handelns widmet sich unsere Untersuchung. Die Begegnung mit dem im untersuchten Praxisfeld angefallenen Datenmaterial (Abschnitt 3) legt bei erster Sichtung nahe, dass die Studierenden Emojis verwenden, um die sozial riskante Aufgabe des Peer-Feedbacks zu bewältigen. Eine genauere Untersuchung des Materials soll dazu beitragen, diese Intuition zu konkretisieren. Am Ende soll die empirisch fundierte Formulierung einer Forschungshypothese stehen. Die Fragestellung für die Untersuchung lautet wie folgt: Leisten Emojis unter den Bedingungen der im untersuchten Lehr-Lern-Szenario gestellten Peer-Feedback-Aufgabe einen Beitrag zum höflichen Handeln (und wenn ja, welchen)? Wir wollen damit herausfinden, wie durch die Hinzufügung von Emojis zu sprachlichen Äußerungen face-wants der Interagierenden bedient werden, die durch die mit der sprachlichen Äußerung ausgeführten Handlungen potenziell bedroht werden. Wir untersuchen den Beitrag von Emojis zur Abmilderung (Modalisierung) von face-threatening acts und zur Intensivierung von face-flattering acts. Die Untersuchung der Fragestellung soll dabei auch dazu beitragen, auf empirischer Grundlage eine Einschätzung zu der Frage formulieren zu können, ob Emojis in Lehr-LernSzenarien, in denen von den Lernenden explizit verlangt wird, Kritik zu üben, ein hilfreiches Mittel sein können, um mit der dadurch eingeforderten Realisierung von Gesichtsbedrohungen umzugehen. Das in der deutschen Übersetzung von Goffman (1986 [2013]) ‚Image’ genannte Konzept entspricht dem englischen face; der Ausdruck ‚Imagepflege’ ist somit eine synonyme Bezeichnung für face work. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 187 24.03.22 11:06 188 II Fallstudien 5. Methodisches Vorgehen und Analyse Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 5.1 Eingrenzung des Untersuchungsgegenstands und Zusammenstellung der Datensets Nachdem wir nun (Abschnitt 4.2) über eine grundsätzliche Orientierung zur Modellierung sprachlicher Höflichkeit als face work verfügen, können wir die Risiken und mögliche Bearbeitungsstrategien im Zusammenhang mit der in Abschnitt 3 abgebildeten Aufgabenstellung aus der Spielphase III des didaktischen Planspiels Ortho & Graf wie folgt theoriebasiert präzisieren: Stößt eine Spielerin oder ein Spieler bei der Bearbeitung der Aufgabe auf eine Fallakte, die nicht vollständig bearbeitet ist oder die ihr bzw. ihm hinsichtlich der darin behandelten Fehlschreibung nicht plausibel erscheint, so muss sie bzw. er, um sich im Sinne der Aufgabenstellung zu verhalten, mit der Formulierung einer Rückmeldung sprachliche Handlungen ausführen, mit denen eine Gesichtsbedrohung auf drei Ebenen verbunden ist: • Bedrohung des negative face der Adressat*innen (in diesem Fall des „Ermittlerteams“, das die Fallakte ausgefüllt hat), die durch den Hinweis auf ein Defizit oder die Formulierung eines Optimierungsvorschlags in ihrer Autonomie eingeschränkt werden (weil mit der Feststellung von Mängeln durch die „Innenrevision“ im Rahmen des Spielszenarios zumindest implizit die Aufforderung verbunden ist, diese Mängel zu beheben). • Bedrohung des positive face der Adressat*innen, da diesen durch den Hinweis auf ein Defizit oder die Formulierung eines Optimierungsvorschlags, direkt oder indirekt, zu verstehen gegeben wird, dass sie etwas nicht „gut“ (i.S.v. angemessen zu dem in Spielphase II für die Durchführung von Ermittlungen und die Gestaltung von Fallakten ausgegebenen Erwartungshorizont) gemacht haben. • Bedrohung des positive face der oder des Kritik-Übenden, die bzw. der sich dadurch, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 188 dass sie bzw. er andere auf Defizite oder Optimierungsmöglichkeiten hinweist, diesen anderen gegenüber als „Besserwisser*in“ aufspielen muss (was innerhalb der Peer-Group in aller Regel vermieden wird bzw. zu Sanktionierungen führen kann). Diese Risiken sind, gerade in einem PeerSetting, nicht zu unterschätzen. Es ist daher davon auszugehen, dass einige Spieler*innen Vermeidungsstrategien (im Folgenden: VS) wählen oder zumindest in Erwägung ziehen. Vermeidungsstrategien zielen nach Brown/ Levinson (1987) darauf, das Risiko, einen facethreatening act (im Folgenden: FTA) ausführen zu müssen, dadurch zu vermeiden, dass man der Realisierung solcher Akte weitestmöglich aus dem Weg geht. Im Kontext der gestellten Aufgabe sind die folgenden Arten von Vermeidungsstrategien denkbar: VS 1: Aufgabe nicht bearbeiten: Dies wäre die bestmögliche Form der FTA-Vermeidung, die darin besteht, die Bearbeitung der Aufgabe zu verweigern. Da mit der Wahl dieses Strategietyps ein Rückzug aus der weiteren aktiven Mitwirkung am Planspiel verbunden (und damit auch der erfolgreiche Abschluss der Lehrveranstaltung gefährdet) wäre, ist dieser Strategietyp keine wirkliche Option. Tatsächlich hat keine*r der Studierenden die weitere Teilnahme am Planspiel nach Spielphase II abgebrochen. VS 2: Aufgabe bearbeiten, aber FTAs vermeiden: Der oder die Lernende entscheidet sich für die Bearbeitung der Aufgabe, richtet die Art des Umgangs mit der Aufgabenstellung aber auf FTA-Vermeidung aus. Dafür bieten sich die folgenden Optionen: VS 2.a: Bearbeite nur solche Fallakten, bei deren Kommentierung du keinen FTA ausführen musst: Der oder die Lernende schreibt nur zu solchen Fallakten einen Feedback-Kommentar, die ihr bzw. ihm nach Prüfung als vollständig und plausibel bearbeitet er- 24.03.22 11:06 Fallstudie „Emojis“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. scheinen und somit keinen Anlass zu Kritik bieten. VS 2.b: V ermeide FTAs grundsätzlich, unabhängig von der Qualität der Fallakte: Der oder die Lernende kommentiert jeden von ihr bzw. ihm bearbeiteten Fall grundsätzlich nur positiv, unabhängig davon, ob die darin dargestellte Ermittlung Anlass zur Kritik bietet oder nicht. Vermeidungsstrategien werden hier lediglich der Vollständigkeit halber erwähnt. In unserer Untersuchung klammern wir sie aus, da wir uns spezifisch für die Indienstnahme von Emojis als Mittel des höflichen Handelns bei der Gestaltung von Peer-Feedback-Kommentaren interessieren. Den Gegenstand unserer Untersuchung bilden somit Postings, die die folgenden Kriterien erfüllen: 1. Die Postings beziehen sich unmittelbar auf die zu kommentierende Fallakte. Sie stellen keine Antworten auf bereits vorhandene Feedback-Postings anderer Lernender dar. 2. Die mit den Postings formulierten Feedback-Kommentare sind nicht ausschließlich lobend. Allein lobende Kommentare können entweder Resultat einer Vermeidungsstrategie (Strategietyp 2.a oder 2.b) sein, oder es besteht bei ihnen keine Notwendigkeit der Behandlung von FTAs, da sie keine FTAs enthalten. 3. Die mit den Postings formulierten Kommentare enthalten mindestens eine sprachliche Handlung, mit der ein FTA verbunden werden kann (d. h. mit deren Ausführung die Gefahr einer Gesichtsbedrohung einhergeht). 4. Die Postings enthalten mindestens ein Emoji (oder Emoticon).6 Diese Kriterien wurden auf den Gesamtbestand der in Spielphase III formulierten PeerFeedback-Postings angewandt. Insgesamt wurden in Spielphase III von den 65 Teilnehmenden 680 Peer-Feedback-Postings verfasst. 6 189 Für die Untersuchung ausgewählt wurden daraus alle Postings, die alle drei Kriterien erfüllen. Die Anwendung von Kriterium 1 führte zum Ausschluss von 120 Postings, die als reaktiv eingestuft wurden und sich sequenziell auf Vorgänger-Postings bezogen. Die Anwendung der Kriterien 2 und 3 führte zum Ausschluss weiterer 216 Postings. Ob die hohe Zahl ausschließlich positiv evaluierender Kommentare einen Ausweis für eine im Allgemeinen hohe Qualität der Fallakten darstellt, als höflichkeitsbedingte Vermeidungsstrategie oder als Strategie zur Vermeidung von Aufwand zu werten ist, wird hier ausgeklammert und wäre eine eigene Untersuchung wert (die allerdings zusätzlich eine Befragung der Studierenden erforderte, da sich die Frage, wie die Vermeidung motiviert ist, nicht aus den Daten selbst heraus klären lässt). Die Anwendung von Kriterium 4 führte zum Ausschluss von 114 Postings, die weder ein Emoji noch ein Emoticon enthielten. Die verbleibenden 229 Feedback-Postings bildeten das Datenset für die Untersuchung. Diese Postings wurden manuell aus den Diskussionsseiten des Wikis extrahiert und einschließlich der Emojis in eine Tabelle überführt. In der Tabelle wurden die Postings in einem ersten Analyseschritt zwei Gruppen zugeordnet: Set 1: Postings, die ausschließlich Äußerungen enthalten, mit denen ein FTA verbunden ist (N=62). Set 2: Postings, die sowohl Äußerungen beinhalten, mit denen ein FTA verbunden ist, als auch Äußerungen, mit denen ein face-flattering act (FFA) verbunden ist (N=167). Als Äußerungen wurden im Anschluss an Hoffmann (2016: 32) alle sprachlichen Einheiten klassifiziert, denen sich eine Illokution zuweisen ließ. Die Realisierung im Satzformat war dafür nicht notwendigerweise obligatorisch, um syntaktischen Besonderheiten (z. B. dem möglichen Auftreten von Ellipsen) der konzeptionellen Mündlichkeit Rechnung zu tra- In ganz wenigen Fällen verwendeten die Schreiber*innen Emoticons anstelle von Emojis. Diese wurden in der Untersuchung ebenfalls mitberücksichtigt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 189 24.03.22 11:06 II Fallstudien gen. Das zugrunde gelegte Konzept entsprach damit auch dem Konzept der ‚kommunikativen Minimaleinheit’ der IDS-Grammatik (vgl. Zifonun et al. 1997: 85-92), das „die kleinsten sprachlichen Einheiten“ beschreibt, „mit denen sprachliche Handlungen vollzogen werden können“ (ebd.: 91). Ein Posting kann grundsätzlich mehrere Äußerungen enthalten. Die Klassifikation der einzelnen Äußerungen und die Zuordnung der 229 Postings zu den beiden Datensets erfolgte mit Bezug auf die potenziellen Effekte der mit den Äußerungen intendierten Handlungen auf die facewants der Adressat*innen: Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 190 • Face-flattering acts (FFAs) liegen vor im Falle positiv-evaluierender Handlungen, mit denen den Adressat*innen für die Bearbeitung eines Falls Lob, Anerkennung und/ oder Zustimmung ausgedrückt wird. Handlungen dieses Typs zielen auf eine positive Bedienung der face-wants des Adressaten. • Face-threatening acts (FTAs) liegen vor im Falle von Handlungen, mit denen Dissens (im weitesten Sinne) ausgedrückt wird und denen mit Blick auf die Aufgabenstellung eine – direkt oder indirekt vorgebrachte – Aufforderung (Direktive) zur Optimierung der Fallakte unterstellt werden kann. Die Bandbreite reicht von Anregungen zu kleineren Überarbeitungen über Hinweise auf Unvollständigkeit bis hin zur Formulierung von Zweifeln am vorgelegten Lösungsweg und zur Formulierung alternativer Lösungsvorschläge. 5.2 Festlegung von Kategorien für die Klassifikation der Daten Die Erstellung der beiden Datensets und die Klassifikation der darin dokumentierten Äußerungen bildete die Voraussetzung, um im nächsten Schritt die Funktion der in den Daten vorhandenen Emoji-Verwendungen in Bezug auf FFAs und FTAs zu bestimmen. Dazu wurden in einem vorbereitenden Schritt die in den beiden Datensets enthaltenen Postings von den beiden Untersuchenden gemeinsam gesichtet. Auf dem Wege einer ge- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 190 meinsamen Analyse eines Teils des Materials wurden verschiedene Funktionstypen der Emoji-Verwendung unterschieden und dazu Definitionen formuliert, die der anschließenden Analyse des gesamten Datenmaterials zugrunde gelegt wurden. Bei der Entwicklung der Funktionstypen wurden einzelne Emoji-Verwendungen unter Berücksichtigung 1. der Emoji-Form und der dazu möglichen oder gesellschaftlich etablierten Assoziationen, 2. des sprachlichen Kontexts, 3. der im Posting vorhandenen face-bezogenen acts (FFA/FTA) sowie 4. ihrer Adjazenz/NichtAdjazenz zu diesen acts hinsichtlich ihres Beitrags zum face work beschrieben. Im Folgenden beschreiben wir die auf diesem Wege entwickelten Funktionstypen-Kategorien und geben Beispiele. Hinsichtlich ihres Beitrags zum Handeln lassen sich in den untersuchten Datensets zunächst zwei Grundtypen der Verwendung von Emojis unterscheiden, von denen der zweite Typ in verschiedene Subtypen differenziert wird: 1. Eigenständig handlungsrealisierend sind Emoji-Verwendungen, in denen ein positiv besetztes Emoji zu Beginn eines Postings steht, ohne dass das Posting eine sprachliche Handlung enthält, mit der ein face flattering act (FFA) verbunden werden kann. Für Emoji-Verwendungen dieses Typs lässt sich im gegebenen Kontext interpretativ keine supportive (modalisierende oder verstärkende) Funktion in Bezug auf die im gleichen Posting unmittelbar angeschlossenen sprachlichen Handlungen herstellen; wir werten sie daher als nicht-sprachliche Realisierungen von FFAs (Beispiele 6 und 7; in Beispiel 7 ist das Daumen-hoch-Emoji zudem syntaktisch integriert und um das Temporaladverbial „erstmal“ erweitert). 2. Handlungsunterstützend sind Emoji-Verwendungen, bei denen die Emojis eine sprachlich realisierte Handlung unterstützen, indem sie deren intendierte oder antizipierte Wirkung entweder visuell verstärken oder abschwächen. Emojis mit verstärkender Funktion bezeichnen wir als Booster, Emojis mit abschwächender (modalisierender) Funktion als Softener: 24.03.22 11:06 Fallstudie „Emojis“ 2.1 2.1.1 2.1.2 2.2.1 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2.2 2.2.2 2.2.3 7 Booster: Das Emoji wird verwendet, um den Effekt der sprachlichen Handlung auf die face-wants der Beteiligten zu verstärken: FFA-Booster: Emoji-Verwendungen, die der Verstärkung eines FFA dienen (Beispiele 8–12). FTA-Booster: Emoji-Verwendungen, die der Verstärkung eines FTA dienen (Beispiele 13–15). Softener: Das Emoji wird verwendet, um den Effekt der sprachlichen Handlung auf die face-wants der Beteiligten abzufedern (Modalisierung). Softener beziehen sich grundsätzlich auf FTAs. Die Abschwächung kann auf drei verschiedene Arten realisiert werden: Der oder die Schreibende nimmt mit dem Emoji eine Positionierung zur eigenen Äußerung vor, ohne dass damit ein Wechsel der Interaktionsmodalität markiert wird: Er bzw. sie relativiert den Geltungsanspruch der sprachlichen Äußerung oder bringt zum Ausdruck, dass ihm bzw. ihr die ausgeführte Sprachhandlung unangenehm ist. Ein häufiger Fall in den Daten ist die Verwendung des Grübeln bzw. Zweifel andeutenden Gesichts (Beispiele 16–18). Der oder die Schreibende markiert mit dem Emoji den Wechsel in eine unernste Interaktionsmodalität: Die Verwendung des Emojis lässt sich im gegebenen Kontext weder als verstärkend (2.1) noch als positionierend (2.2.1) noch als spielerisch (2.2.3) deuten, und die Form des Emojis ist dazu geeignet, Scherz oder Komik zu markieren (Beispiele 19–21). Als unernst werten wir dabei auch Fälle der hyperbolischen Darstellung von Emotion (Beispiele 20/21). Spielerisch-modalisierende Verwendung: Der oder die Schreibende verweist mit dem Emoji auf den spielerischen 191 Rahmen der aktuellen Phase des didaktischen Planspiels, in der er bzw. sie gegenüber den Ermittlerteams die Rolle einer Reviewerin bzw. eines Reviewers einnimmt. Die Verwendung der beiden Emojis, die einen Lehrer bzw. eine Lehrerin vor einer Wandtafel abbilden, betrachten wir, wenn sie einem FTA beigestellt sind, als Verwendungen dieses Typs (Beispiel 22). Beispiele 6-7: eigenständige handlungsrealisierende Emojis (gereckter Daumen) in FFAFunktion:7 6. Eine Begründung des Paragraphen wäre zum Verständnis noch hilfreich. Gut gewähltes Beispiel. Mara Hartmann (Diskussion) 10:19, 4. Jul. 2017 (CEST) 7. Martin Dohmann (Diskussion) 23:29, 2. Jul. 2017 (CEST) Erstmal aber vielleicht könnte man noch weitere Beispiele in die [sic] Handlungsempfehlung nennen Beispiele 8–12: FFA-Booster: 8. Gute Arbeit! 9. Ihr habt diesen schweren Fall meiner Meinung nach gut gelöst! 10. Eine gute Ermittlungsakte von Orthoduo! Die Fallbeurteilung anhand des amtlichen Regelwerks ist sehr ausführlich. 11. Eine klasse Ermittlungsarbeit 12. Gut recherchiert und erklärt! Beispiele 13–15: FTA-Booster: Man hätte in der Handlungsempfeh13. lung eventuell nochmal das konkret am Fall durchspielen können -- Lennart Jöhren (Diskussion) 08:59, 29. Jun. 2017 (CEST) 14. Eure Lösung und Begründung anhand des amtlichen Regelwerks ist gut und richtig, aber in eurer Empfehlung steht dann, dass nur die Variante ohne Komma richtig sei. Das verwirrt etwas --Karla Korte (Diskussion) 19:58, 26. Jun. 2017 (CEST) In diesem und den nachfolgenden Beispielen sind, sofern komplette Postings zitiert werden, auch die Nutzersignaturen der Verfasserinnen und Verfasser mitabgebildet. Diese erscheinen sämtlich in pseudonymisierter Form. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 191 24.03.22 11:06 192 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 15. II Fallstudien Man hätte bei der Begründung anhand des amtlichen Regelwerks vielleicht noch ein Beispiel des vorliegenden Paragraphen zur Veranschaulichung hinzufügen können, ansonsten eine korrekte und gute Ermittlung --Elina Leifeld (Diskussion) 10:00, 27. Jun. 2017 (CEST)8 Beispiele 16–18: FTA-Softener (Positionierung): In 16 und 17 wird mit dem Emoji, das ein grübelndes Gesicht darstellt, der Geltungsanspruch der formulierten Zweifel an der Korrektheit der kommentierten Akte markiert; in 18 wird mit dem Äffchen, das die Hände vor die Augen schlägt, der Akt des Kritisierens als für den Kommentierenden unangenehm gekennzeichnet (etwa im Sinne von „Es ist mir unangenehm, dass ich euch kritisiere“): 16. Muss bei der professionellen Fallbeurteilung nicht stehen, dass der Satz nicht korrekt ist, da ihr ja etwas verbessert habt?!? --Sebastian Sauer (Diskussion) 10:30, 29. Jun. 2017 (CEST) 17. Mhhh also bei Dusch- und Schaumbad handelt es sich nicht um einen Bindestrich, sondern um einen Ergänzungsstrich (§98). Mit dem Ergänzungsstrich zeigt man an, dass in Zusammensetzungen oder Ableitungen einer Aufzählung ein gleicher Bestandteil ausgelassen wurde, der sinngemäß zu ergänzen ist. --Alena Junghans (Diskussion) 11:57, 4. Aug. 2017 (CEST) 18. Ich hätte mir noch eine Handlungsempfehlung und eine etwas umfangreichere Erklärung anhand des Regelwerkes gewünscht! [nicht signiertes Posting] Beispiele 19–21: FTA-Softener (Markierung einer unernsten Interaktionsmodalität): 19. An sich ist die Erklärung verständlich, jedoch glaube ich kaum, dass hier wirklich mit Absicht eine Großschreibung vorAriane Kampe genommen wurde. (Diskussion) 20:22, 5. Jul. 2017 (CEST) 8 20. Im Bereich C solltet ihr noch den Arbeitsauftrag löschen.--Sandra Jessen (Diskussion) 11:33, 4. Aug. 2017 (CEST) 21. Ihr habt euch bei der Fallbeurteilung Kategorie B vertan. Die Schreibung ist definitiv nicht korrekt, da ihr diese ja schließlich auch korrigiert. Die Zuordnung sollte zu Kategorie [3] erfolgen. --Sandra Jessen (Diskussion) 11:23, 4. Aug. 2017 (CEST) Beispiel 22: FTA-Softener (spielerisch-modalisierend): Das Lehrerin-Emoji leitet den FTA ein und verweist auf die durch das PlanspielSzenario zugewiesene Rolle; daneben enthält das Beispiel eine FFA-Realisierung durch Emoji (Bizeps) und ein Emoji, mittels dessen eine unernste Interaktionsmodalität markiert wird (Halloween-Kürbis): 22. Liebe Kollegen, euren Ermittlungen konnten wir soweit folgen. Hier nur ein kleiner Hinweis: Die Handlungsempfehlung könnte stärker herausstellen, wie der Auftraggeber diesen Sachverhalt prüft und so selbst zu einer Lösung gelangt. Klugscheißermodus aus Clara Iburg (Diskussion) 11:21, 4. Aug. 2017 (CEST) 5.3 Vorgehen bei der Analyse Sämtliche Emoji-Verwendungen in den beiden Datensets wurden von den beiden Untersuchenden zunächst unabhängig voneinander einem der festgelegten Funktionstypen zugeordnet. Anschließend wurden die Zuordnungen verglichen und in einem iterativen Prozess Fälle mit abweichender Zuordnung einer intersubjektiven Prüfung unterzogen. Es handelte sich somit um eine qualitative Variante eines Inter-Annotator-Agreement-Verfahrens, bei dem zwei Analysierende unabhängig voneinander eine Zuordnung der Daten zu einem Set vordefinierter Kategorien vornehmen (zum Inter-Annotator- In Beispiel 15 deuten wir das Posting-initial stehende Emoji (Zeigegeste) als ein Element, mittels welchen eine visuelle Fokussierung auf den nachfolgenden FTA hergestellt wird; das Posting-final stehende Emoji ist ein FFA-Booster. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 192 24.03.22 11:06 Fallstudie „Emojis“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Agreement → Kapitel 14 [Annotationen] Abschnitt 3 in diesem Band). Ein Teil der abweichenden Zuordnungen konnte durch Schärfung der Abgrenzung zwischen den Funktionstypen geklärt werden, deren Resultat sich in den oben gegebenen Funktionstypen-Definitionen widerspiegelt; in anderen Fällen handelte es sich um Spezialfälle, für deren Behandlung zusätzliche Vereinbarungen getroffen wurden: • Spezialfall 1: Wenn ein modalisierendes Emoji am Ende eines Postings (also zwischen der eigentlichen Äußerung und der Benutzersignatur) steht, ist nicht immer klar entscheidbar, ob das Emoji einen einzelnen FTA modalisiert oder das Posting als Ganzes, insbesondere dann, wenn vor dem Emoji zusätzlich ein erzwungener Zeilen- oder Absatzwechsel eingefügt wurde (Beispiel 23). Für unsere Analyse spielt das keine wesentliche Rolle. Da wir nur solche Postings untersuchen, die mindestens einen FTA enthalten, ist auch das Posting als Ganzes mit einem face threat verbunden. Entsprechend werten wir solche Fälle als modalisierend, und zwar ungeachtet der Frage, ob die Modalisierung vom Verfasser auf Ebene einer einzelnen sprachlichen Handlung oder mit Bezug auf das Posting als Ganzes intendiert ist. Beispiel 23: 23. Die Lösung des Beitrages leuchtet mir ein. Ich würde die Handlungsempfehlung jedoch präziser und verständlicher formulieren, sodass jedem klar ist, was gemeint ist. Corinna Bertelsmann (Diskussion) 20:19, 10. Jul. 2017 (CEST) • Spezialfall 2: Wenn hinter einem FTA ein Emoji steht, das als positiv konnotiert gelten kann und im Posting an anderer Stelle ein FFA enthalten ist, der nicht durch ein unmittelbar adjazent stehendes Emoji verstärkt wird, dann werten wir das Emoji als distant platzierten FFA-Booster (Beispiele 24–25). Der FTA wird dadurch an seinem linken und rechten Ende durch face-ver- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 193 193 stärkende Elemente gleichsam eskortiert; die betreffenden Emoji-Instanzen wirken dadurch sekundär zugleich FTA-modalisierend. Beispiele 24–25: 24. [Der Fall ist sehr gut gelöst.]FFA [Einzig und allein der Tipp am Ende könnte etwas präziser formuliert werden.] FTA [ ]FFA-Booster--Finn Worms (Diskussion) 10:32, 5. Jul. 2017 (CEST) 25. [Gut gelöst !]FFA [Nur die Zuordnung zu einem Dezernat fehlt.]FTA [Das Team muss sie hinzufügen.]FTA [ ]FFA-Booster --Melissa Claas (Diskussion) 20:25, 9. Jul. 2017 (CEST) • Spezialfall 3: Das symbolische Emoji, das in der „Emojibox“ über das Codekürzel „check“ beschrieben ist, lässt sich in einigen Verwendungen als FFA-Booster interpretieren, in anderen – insbesondere am Ende eines Postings – bleibt unklar, ob es nicht eher symbolisch kennzeichnen soll, dass die kommentierte Akte vom Posting-Verfasser im Sinne der Aufgabenstellung „kontrolliert“ wurde. Beispiel 26 zeigt einen Fall, den wir als FFA-Booster klassifiziert haben, Beispiel 27 einen Fall der zweitgenannten Art, für den wir einen Beitrag zum face work ausschließen; stattdessen ist das Emoji in diesem Fall an die Seminarleiter*innen – beziehungsweise im Rahmen des PlanspielSettings an die Leitung der Ermittlungsbehörde – adressiert. Beispiele 26–27: 26. Richtig gelöst. Hätte mir aber eine ausführlichere Empfehlung gewünscht. Einfach mal kurz erwähnen was einen Haupt-/Nebensatz ausmacht und wie ich diese richtig erkenne, anstatt selbst nachschauen zu müssen. --Nadine Steinhoff (Diskussion) 15:07, 7. Jul. 2017 (CEST) 27. Die Auflösung bezüglich des Kommas finde ich gelungen, eventuell würde ich die ersten Unsicherheit [sic] auch noch behandeln. Ariane Kampe (Diskussion) 20:17, 5. Jul. 2017 (CEST) 24.03.22 11:06 194 II Fallstudien Im Zuge der Analyse des Datenmaterials und der Klärung von Spezialfällen stellte sich für 18 Postings aus den beiden Datensets heraus, dass die darin enthaltenen Verwendungen von Emojis Funktionen übernehmen, die nicht mit face work zu tun haben. Aus diesem Grund wurde den in Abschnitt 5.1 beschriebenen Kriterien für die Gewinnung der Datensets ein fünftes Kriterium hinzugefügt: Die Anwendung dieses zusätzlichen Kriteriums führte zum Ausschluss von 18 Postings aus den Datensets. Die Datensets veränderten sich damit noch einmal geringfügig im Zuschnitt: Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 5. Die Postings enthalten mindestens ein Emoji (oder Emoticon), das einen Beitrag zum face work leistet. Set 1ˈ: Postings, die ausschließlich Äußerungen enthalten, mit denen ein FTA verbunden ist (N=58). Set 2ˈ: Postings, die sowohl Äußerungen beinhalten, mit denen ein FTA verbunden ist, als auch Äußerungen, mit denen ein FFA verbunden ist (N=153). Set 1ˈ enthielt 64, Set 2ˈ enthielt 216 EmojiInstanzen. 6. Ergebnisse und Diskussion Alle 280 Emoji-Verwendungen in den beiden Datensets wurden als Ergebnis der Analyse einer der in Abschnitt 5.2 formulierten Funktionstypen-Kategorien zugeordnet. Zudem wurde für jedes der 211 Postings in den beiden Datensets kodiert, welche der Funktionstypen – FTA-Booster, FTA-Softener, FFA-Booster – in ihm auftraten. Die Verteilung der Funktionstypen in den untersuchten Daten stützt die Hypothese, dass Studierende, die in ihren 9 Feedback-Kommentaren FTAs realisieren und sich für deren Gestaltung aus dem zur Verfügung gestellten Emoji-Inventar bedienen, die Emojis als Mittel im Rahmen von Höflichkeitsstrategien einsetzen: Nur 18 von 229 Postings, mit denen mindestens ein FTA realisiert wurde, enthielten Emojis, für die kein Beitrag zum höflichen Handeln festgestellt werden konnte. Die Analyse gibt weiterhin Aufschluss darüber, auf welche Weise in den untersuchten Kommentaren Emojis eingesetzt werden, um face-wants der Adressat*innen zu bedienen. In Datenset 1ˈ, dessen Postings ausschließlich FTAs, aber keine FFAs enthalten, werden Emojis deutlich häufiger in der Funktion von Softenern (also modalisierend) eingesetzt als in der Funktion von Boostern (also verstärkend) (Tab. 1). Dieser Befund bestätigt die Grundannahme des Face-work-Ansatzes, dass Kommunikationsbeteiligte in aller Regel bestrebt sind, potenziell gesichtsverletztende Akte abzuschwächen. Die Ergebnisse der Analyse von Datenset 2ˈ, dessen Postings jeweils sowohl FTAals auch FFA-Instanzen enthalten, bestätigen zunächst den Befund zu Datenset 1ˈ, dass FTAs häufiger abgeschwächt als verstärkt werden (Tab. 2). Darüber hinaus legt die Analyse von Datenset 2ˈ nahe, dass nicht nur die Funktion der Emojis als solcher, sondern auch die Entscheidung, welche Typen von Akten (FFAs oder FTAs) mit einem Emoji kombiniert werden, als Höflichkeitsstrategie gewertet werden kann: In 77,1% aller Postings (118 Fälle) wurden FFAs mit Boostern verstärkt, während nur in 34,7% aller Postings (53 Fälle) FTAs mit Softenern versehen wurden. 57% der Postings (87 Fälle) enthalten ausschließlich FFA-Booster, was bedeutet, dass die ebenfalls in diesen Postings enthaltenen FTAs nicht durch Emojis begleitet werden. Diesen Befund deuten wir wie folgt: Die Abschwächung von FTAs spielt im „gemischten“ Datenset 2ˈ durchaus eine Rolle, stellt aber offenbar nicht die einzige und auch nicht „ausschließlich“ ist hier und in Tabelle 2 zu lesen als: „Das Posting enthält keine Emojis, die auf andere als die angegebene Weise zum face work beitragen.“ Das heißt: Wenn ein Posting „ausschließlich FTA-Softener“ enthält, so enthält es daneben weder FTA-Booster noch FFA-Booster. Damit ist nicht ausgeschlossen, dass einzelne Postings ggf. zusätzlich Emojis enthalten können, die rein strukturierende Funktion haben und denen somit keine Relevanz für das face work zukommt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 194 24.03.22 11:06 Fallstudie „Emojis“ 195 Tab. 1: Verteilung der Emoji-Funktionstypen auf Postings in Set 1ˈ: Set 1ˈ: Postings, die ausschließlich Äußerungen enthalten, mit denen ein FTA verbunden ist: 58 davon: mit FTA-Softenern: 49 ausschließlich9 mit FTA-Softenern: 43 mit FTA-Boostern: 10 ausschließlich mit FTA-Boostern: 7 Postings Postings Postings Postings Set 2ˈ: Postings, die sowohl Äußerungen beinhalten, mit denen ein FTA verbunden ist, als auch Äußerungen, mit denen ein FFA verbunden ist: 153 davon: mit FFA-Boostern:10 118 ausschließlich mit FFA-Boostern: 87 mit FTA-Softenern: 53 ausschließlich mit FTA-Softenern: 25 mit FTA-Boostern: 16 mit FTA-Boostern: 6 Postings Postings Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Tab. 2: Verteilung der Emoji-Funktionstypen auf Postings in Set 2ˈ: Postings Postings Postings Postings ausschließlich die primäre Strategie dar, um potenzielle Gesichtsbedrohungen abzumildern. Prominent erscheint im Datenset eine Strategie, in der FTAs dadurch abgemildert werden, dass diese gerade nicht mit einem Emoji als Softener verbunden werden, sondern dass die im selben Posting enthaltenen FFA-Anteile durch Verbindung mit einem FFA-Booster visuell salient gesetzt werden: Positives wird bildlich verstärkt – in den untersuchten Daten durch Emoji-Formen wie , , und – und soll den Adressat*innen somit unmittelbar ins Auge stechen, während Kritik durch Verzicht auf die Begleitung durch Bildelemente so lange unauffällig bleiben soll, bis die Adressat*innen sie durch Erlesen im Posting auffinden. Damit wird ein zentrales pragmatisches Potenzial von Emojis – ihre visuelle Salienz (vgl. Beißwenger/Pappert 2019a: 62–65) – für Zwecke des face work adaptiert: In einem semiotischen Kontext, in dem geschriebene Sprache die Default-Modalität bildet, heben sich Bildzeichen für das Auge als Figur ab, springen unmittelbar ins Auge und binden die Aufmerksamkeit von Rezipierenden. Als Bildzeichen werden sie unmittelbar wahrgenommen und holistisch verarbeitet, ohne dass – wie das für die schriftlichen Beitragsanteile der Fall ist – die Bedeutung und der Sinn erst durch Erlesen für die mentale Verarbeitung zugänglich gemacht werden müssen. Als „wahrnehmungsnahe Zeichen“ (SachsHombach 2003: 74) fallen Bilder nicht nur auf den ersten Blick auf, sondern können als „schnelle Schüsse ins Gehirn“ (Kroeber-Riel 1996: IX) auch unmittelbar und mühelos interpretiert werden. In Beißwenger/Pappert (2019c: 248) haben wir diese Höflichkeitsstrategie, die auf der bewussten bildlichen Salientsetzung bestimmter Posting-Teile beruht, als bird’s eye view politeness beschrieben, bei der den Adressat*innen des Kommentars schon von Weitem Positives und Wertschätzendes signalisiert wird, um damit – als Verfasser*in – 10 Emojis, die – eigenständig handlungsrealisierend – FFAs realisieren, wurden in die Summe der FFA-Booster eingerechnet. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 195 24.03.22 11:06 196 II Fallstudien 1. Der §57 ist richtig. Ich würde es aber genauer schreiben. Der Paragraph enthält einige Fallbeispiele. 2. Gute Ermittlung , nur scheint mir die Handlungsempfehlung nicht ausreichend. Hier sollten aus meiner Sicht Tipps stehen, wie man zum Beispiel Haupt- und Nebensätze voneinander unterscheiden kann […]. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. „social credits“ zu erwerben, die, wenn die Adressat*innen beim anschließenden Erlesen der verbalen Posting-Anteile auf die darin enthaltene Kritik stoßen, für die dadurch verursachte Gesichtsbedrohungen abgetragen werden und diese abfedern können. Zwei typische Fälle für diese Strategie sind die Beispiele 1 und 2 aus Abschnitt 3, die wir hier noch einmal wiedergeben: Vor dem Hintergrund der vorgestellten Befunde lässt sich zu der in Abschnitt 4 präsentierten Fragestellung als Ergebnis der Untersuchung somit die folgende Antwort (im Sinne einer Forschungshypothese) formulieren: Emojis leisten unter den Rahmenbedingungen des untersuchten Lehr-Lern-Szenarios einen Beitrag zum höflichen Handeln bei der Bearbeitung einer Peer-Feedback-Aufgabe. Dabei spielen die Emojis ihr Potenzial als Bildzeichen aus, die sich gegenüber geschriebener Sprache als visuell saliente Einheiten abheben. Vor dem Hintergrund der in Abschnitt 2 eingeführten Konzeptualisierungen von Angewandter Linguistik illustrieren die Ergebnisse der Untersuchung darüber hinaus das Verhältnis von Anwendung und Wissenschaft in zweierlei Hinsicht: • Sie können einen Beitrag zur Lösung praktischer Probleme mit Sprache und Kommunikation in einem konkreten Praxisfeld leisten: Die Beobachtungen und Befunde am Datenmaterial legen nahe, dass Emojis in der hier untersuchten digitalen Lernumgebung von den Studierenden nicht nur dekorativ oder spielerisch eingesetzt wurden, sondern als Ressourcen für Praktiken höflichen Handelns unter den Bedingungen digitaler Kommunikation adaptiert wurden, die die UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 196 sozial riskante Aufgabe des Kritik-Übens unter Peer-Bedingungen erleichtern sollte. Die Studierenden haben damit ein von ihnen wahrgenommenes Kommunikationsproblem selbst gelöst, indem sie Ressourcen, die in der digitalen Umgebung vorzufinden waren, als Problemlösemittel eingesetzt haben. Aus dieser Deutung unserer Ergebnisse lässt sich für das Praxisfeld der Mediendidaktik, genauer für die Konzeption von Szenarien des digital gestützten Lernens, die Empfehlung ableiten, dass Emojis für die Bearbeitung von Peer-Feedback-Aufgaben in digitalen Umgebungen eine praktische Ressource darstellen können, um Lernende dabei zu unterstützen, mit den Risiken von face-threats beim Formulieren von Kritik umzugehen. Die Nutzung von Emojis als Ressourcen höflichen Handelns könnte in den Aufgabenstellungen sogar explizit als Möglichkeit nahegelegt werden. Emojis können auf diese Weise dazu beitragen, Vermeidungsstrategien im oben beschriebenen Sinne, die nicht im Sinne der Aufgabe sind, zu umgehen. Ob und inwieweit das der Fall ist, wurde in der vorliegenden Studie nicht untersucht, kann aber eine interessante Fragestellung für Folgeuntersuchungen sein. • Sie liefern neue Impulse für die linguistische Theoriebildung: Gegenstand der Untersuchung, die 2018 durchgeführt wurde, war die Emoji-Verwendung in einer konkreten und recht speziellen Kommunikationsumgebung. Untersucht wurde nicht die digitale Alltagskommunikation, sondern Kommunikation im Lehr-Lern-Kontext. Die Beobachtungen und Befunde sind dennoch auch für eine generelle Modellierung der Potenziale und Funktionen von Emojis relevant: Sie zeigen, dass Emojis keine reine Spielerei sind, sondern zur Bearbeitung wichtiger Aufgaben bei der Organisation von Kommunikation und bei der Absicherung sprachlichen Handelns gegenüber Kommunikationsstörungen auf der Beziehungsebene beitragen. Diese Feststellung gilt empirisch zunächst nur für das hier untersuchte Lehr-Lern-Setting mit seinen spezifischen medialen und didaktischen Rahmenbedingungen; sie lädt aber unmittelbar dazu ein, 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emojis“ die Listung von Emotionen auch für die Kommunikation in anderen Kontexten empirisch unter die Lupe zu nehmen und zu rekonstruieren. Für die Autoren der hier vorgestellten Untersuchung bildeten die Befunde die Grundlage, um grundsätzlicher über den Beitrag von Emojis zum sprachlichen Handeln nachzudenken und diesen auch an Sprachdaten aus der digitalen Alltagskommunikation – an WhatsAppVerläufen aus dem MoCoDa2-Korpus (→ Kapitel 26 [Korpora internetbasierter Kommunikation] in diesem Band) – zu untersuchen. Die Ergebnisse dieser weitergehenden linguistischen Analysen führten zur Formulierung eines pragmatischen Beschreibungsrahmens zur Funktion von Emojis in digitaler Kommunikation, der Ende 2019 als Monographie vorgelegt wurde (vgl. Beißwenger/Pappert 2019c). Die Ergebnisse der hier vorgestellten Untersuchung stellten somit den Ausgangspunkt für eine weitere Beschäftigung mit dem Thema unter erweiterter Fragestellung dar und trugen somit zur weiteren Theoriebildung über das untersuchte Phänomen – auch unabhängig von einer möglichen „Verwertung“ der Ergebnisse in einem Praxisfeld – bei. 7. Methodische Reflexion Abschließend möchten wir die hier vorgestellte Untersuchung unter einer methodischen Perspektive reflektieren: • Die Basis für die Untersuchung bildeten authentische Sprachdaten aus einem Praxisfeld, deren Zustandekommen nicht zu Zwecken einer späteren linguistischen Analyse angeregt wurde, sondern als Teil eines didaktischen Szenarios. Zu dem Zeitpunkt, zu welchem die Daten das linguistische Interesse der Autoren des vorliegenden Kapitels erregt haben (Anfang 2018), war die Lehrveranstaltung, in deren Rahmen die Daten ursprünglich entstanden sind, bereits über ein halbes Jahr abgeschlossen. Untersucht werden konnten somit nur die Produkte (= die einzelnen Kommentar-Postings), die in der Wiki-Umgebung dokumentiert waren; UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 197 197 ein Zugriff auf die Einstellungen der Teilnehmer*innen der Lehrveranstaltung zu der Option, in ihren Kommentar-Postings Emojis zu verwenden, sowie zu eventuellen Vermeidungsstrategien in Bezug auf den Umgang mit face-threatening acts (beispielsweise über Befragungen) war ebenso wenig möglich wie die nachträgliche Erhebung von soziologischen Metadaten zu den Beteiligten. Entsprechend konnte sich die Analyse ausschließlich auf die Emojis im sprachlichen Kontext der jeweiligen Postings und auf eine Kenntnis des didaktischen Szenarios stützen, das dem Planspiel zugrunde lag. Für mögliche künftige Wiederholungen des Planspiels mit neuen Lernendengruppen wäre es interessant, die Kommentaraktivitäten in der Spielphase III von vornherein als Untersuchungsgegenstand in den Blick zu nehmen und begleitend zur Lehrveranstaltung auch Metadaten und Einstellungen von den Studierenden abzufragen. Hier könnten qualitative Interviews als zusätzliche Methode ins Spiel kommen (→ Kapitel 18 [Interviewerhebungen] in diesem Band), um einen metareflexiven Zugang zur Praxis der Emoji-Verwendung und zur Wahrnehmung der Peer-Feedback-Aufgabe durch die Studierenden zu erhalten. Für die Rekonstruktion von Praktiken höflichen Handelns in digitalen (Lern-)Umgebungen als Praktiken im Entstehen (vgl. Beißwenger 2016: 281) kann ein solcher Zugang wertvolle zusätzliche Anhaltspunkte liefern. • Die Daten wurden mit einigem Abstand zu ihrer Entstehung aus der Wiki-Umgebung erhoben. Die nachträgliche Einholung eines Einverständnisses der Studierenden zur Nachnutzung ihrer Daten war nicht mehr möglich. Entsprechend wurden Beispiele aus den Datensets für die Präsentation in diesem Kapitel pseudonymisiert, d. h., Namen und sonstige personenbezogene Daten wurden durch alternative sprachliche Ausdrücke ersetzt, um die Persönlichkeitsrechte der Schreiber*innen zu schützen. Grundsätzlich ist es gerade bei Untersuchungen an Daten aus spannenden, für Dritte nicht ohne Weiteres zugänglichen Kommunikationsbereichen – wie zum Beispiel der Planspielumgebung von Ortho & Graf – erstre- 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 198 II Fallstudien benswert, die dabei verwendeten Datensets der wissenschaftlichen Gemeinschaft als Ressource für den Nachvollzug der darauf ausgeführten Untersuchungen und auch für eigene Untersuchungen am Material zur Verfügung stellen zu können. Im vorliegenden Fall ist das aus den genannten Gründen nicht möglich. Im Falle einer künftigen Wiederholung der Untersuchung auf neuem Material ist geplant, die Studierenden zu Beginn des Planspiels explizit um Einverständnis zur wissenschaftlichen Nachnutzung ihrer Daten und zu einer Bereitstellung der Daten für Forschungszwecke (in anonymisierter bzw. pseudonymisierter Form) zu bitten. • Die Untersuchung nahm ihren Ausgangspunkt bei einer wissenschaftlichen Intuition der Forschenden, die aus der Begegnung mit dem Material abgeleitet wurde. Den Hintergrund für diese Intuition bildeten die eigene vorgängige Beschäftigung mit emergenten Praktiken in digitaler Kommunikation (vgl. Beißwenger 2016) und mit den Funktionspotenzialen von Emojis (vgl. Pappert 2017). Ziel der Untersuchung war es, die Intuition durch eine kriteriengeleitete und systematische, explorative Analyse des Materials in den Status einer Forschungshypothese zu überführen. Die im Zuge der Analyse gewonnenen Erkenntnisse waren geeignet, die Ausgangsintuition zu bestätigen und diese zum Abschluss der Untersuchung in eine Hypothese zu überführen (vgl. Abschnitt 6). Auch wenn die Hypothese aufgrund des Befunds der vorgestellten Untersuchung plausibel erscheint, so gilt sie zunächst nur für die PeerFeedback-Kommentare aus dem hier untersuchten Seminar- bzw. Planspielkontext. Es ist noch nichts darüber ausgesagt, ob sich ein vergleichbarer Befund auch bei erneuter Durchführung des Planspiels oder auch in anderen Kontexten der Verwendung von Emojis – etwa in privater digitaler Alltagskommunikation per WhatsApp – replizieren ließe. Die Ergebnisse der Untersuchung sind somit zwar interessant, in ihrer Aussagekraft aber begrenzt auf einen engen Bereich. Die Wiederholung der Untersuchung auf neuem Datenmaterial UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 198 aus einem vergleichbaren Spielkontext sowie ihre Übertragung auf andere Kontexte digitaler Kommunikation wären plausible nächste Schritte, um die Generalisierbarkeit der hier gewonnenen Ergebnisse zu prüfen. Die oben formulierte Hypothese würde für solche Folgeuntersuchungen den Ausgangspunkt bilden; Ziel der Folgeuntersuchungen wäre dann die Überprüfung (d. h. Verifikation oder Falsifikation) der Hypothese an neuem und anderem Datenmaterial. • Der Fokus der Untersuchung lag auf dem Beitrag von Emojis zu höflichem Handeln. Aus der Forschung zu sprachlicher Höflichkeit wissen wir, dass höfliches Handeln in Kommunikation auf ein breites Spektrum an sprachlichen Formen zurückgreifen kann; Emojis stellen in digitalen Kommunikationsumgebungen somit nur eines neben weiteren Gestaltungsmitteln im „Höflichkeitsinventar“ von Schreiber*innen dar. In Folgeuntersuchungen könnte gewinnbringend das Zusammenspiel von Emojis mit sprachlichen Mitteln der Abmilderung von face-threats untersucht werden. Im nachfolgend abgebildeten Beispiel sind drei Emojis, die zum face work beitragen, mit verschiedenen sprachlichen Mitteln höflichen Handelns kombiniert: Emoji-Instanz 1 realisiert nichtsprachlich einen FFA, Emoji-Instanz 2 modalisiert den nachfolgenden sprachlichen Kritik-Akt unter Verweis auf den Spielkontext, Emoji-Instanz 3 markiert eine unernste Interaktionsmodalität. Sprachlich höflichkeitsrealisierend sind daneben die Anrede („Liebe Kollegen“), mit der eine Konzeptualisierung der Kommunikationssituation als Kommunikation unter Gleichen („Kollegen“) ausgedrückt und zugleich durch die unmittelbare Ansprache mit „Liebe“ eine Nähesituation etabliert wird. Die Kritik wird als „kleiner Hinweis“ kategorisiert und damit als marginal dargestellt. Mit dem Adverb „nur“ wird die Schwere der Kritik weiter relativiert. Die Verwendung des Verbs „können“ (anstelle von alternativ „sollen“ oder „müssen“) im folgenden Satz und die Wahl des Konjunktivs stellen die Ausführung der durch die Kritik ange- 24.03.22 11:06 regten Überarbeitungen als lediglich optional dar und schützt somit das negative Gesicht (den Wunsch nach Autonomie) der Adressat*innen, denen vermittelt wird, dass die vorgeschlagene Änderung keineswegs zwingend ausgeführt werden müsse. Die gewählte Abschlussäußerung „Klugscheißermodus aus“ thematisiert die Bedrohung des positiven Gesichts der Produzentin des Peer-Kommentars, die aus dem Wagnis zur Formulierung von Kritik resultiert und mildert diese Bedrohung durch sprachliche Markierung einer unernsten Interaktionsmodalität („Klugscheißer“), die mit dem Kürbis-Emoji harmoniert, ab. Die Anzeige einer potenziellen Bedrohung des eigenen Gesichts relativiert zugleich die potenziellen Gesichtsbedrohungen für die Adressat*innen, die aus der geäußerten Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Emojis“ 199 Kritik erwachsen. Die genauere Untersuchung des Zusammenspiels von Emojis und sprachlichen Mitteln der Höflichkeit dürfte ein lohnenswerter Gegenstand für künftige Untersuchungen sein. 22. Liebe Kollegen, euren Ermittlungen konnten wir soweit folgen. Hier nur ein kleiner Hinweis: Die Handlungsempfehlung könnte stärker herausstellen, wie der Auftraggeber diesen Sachverhalt prüft und so selbst zu einer Lösung gelangt. Klugscheißermodus aus Clara Iburg (Diskussion) 11:21, 4. Aug. 2017 (CEST) Zum Weiterlesen Die hier präsentierte Fallstudie kann im Detail nachgelesen werden in Beißwenger/Pappert (2019a; 2019b). Der in Abschnitt 3 skizzierte pragmatische Beschreibungsrahmen für Funktionen und Praktiken von Emojis in der WhatsApp-Kommunikation ist ausführlich in der Monographie Beißwenger/Pappert (2019c) dargestellt. Einen aktuellen Überblick über die pragmatische Höflichkeitsforschung gibt Ehrhardt (2018). Zu den Klassikern der Höflichkeitstheorie zählt die Monographie von Brown/Levinson (1987), die zugleich die Referenzpublikation zum hier zugrunde gelegten Face-work-Ansatz darstellt. Literatur Auer, Peter (1986): Kontextualisierung, in: Studium Linguistik, Bd. 19, S. 22–47. Beißwenger, Michael (2015): Sprache und Medien: Digitale Kommunikation, in: Studiport: Online-Kurs zu Sprach- und Textverständnis, [online] https://beta. orca.nrw/sprach-und-textverstaendnis/kursinfos/ Erweiterte Version: http://www.michaelbeisswenger.de/pub/beisswenger_digikomm_ preview.pdf. Beißwenger, Michael (2016): Praktiken in der internetbasierten Kommunikation, in: Deppermann, Arnulf/Helmuth Feilke/Angelika Linke (Hrsg.), Sprachliche und kommunikative Praktiken (= Jahrbuch 2015 des Instituts für Deutsche Sprache), Berlin/ New York: de Gruyter, S. 279–310. Beißwenger, Michael/Lena Meyer (2018): Ortho & Graf: ein Wiki-basiertes Planspiel zur Förderung von Rechtschreibkompetenzen in der Sekundarstufe II, in: Gailberger, Steffen/Frauke Wietzke (Hrsg.), Deutschunterricht in einer digitalen Gesellschaft. Unterrichtsanregungen für die Sekundarstufen, Weinheim: Beltz Juventa, S. 296–330. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 199 Beißwenger, Michael/Lena Meyer (2020): Gamification als Schlüssel zu „trockenen“ Themen? Beobachtungen und Analysen zu einem webbasierten Planspiel zur Förderung orthographischer Kompetenz, in: Beckers, Karin/Marvin Wassermann (Hrsg.), Wissenskommunikation im Web. Sprachwissenschaftliche Perspektiven und Analysen, Frankfurt a. M.: Peter Lang (Transferwissenschaften 11), S. 203–239. Beißwenger, Michael/Steffen Pappert (2019a): Face work mit Emojis. Was linguistische Analysen zum Verständnis sprachlichen Handelns in digitalen Lernumgebungen beitragen können, in: Beißwenger, Michael/Matthias Knopp (Hrsg.), Soziale Medien in Schule und Hochschule: Linguistische, sprach- und mediendidaktische Perspektiven (= Forum Angewandte Linguistik, Band 63), Frankfurt a. M.: Peter Lang, S. 99–141. Beißwenger, Michael/Steffen Pappert (2019b): How to be polite with emojis: a pragmatic analysis of face work strategies in an online learning environment, in: European Journal of Applied Linguistics, Jg. 7, H. 2, S. 225–253. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 200 II Fallstudien Beißwenger, Michael/Steffen Pappert (2019c): Handeln mit Emojis. Grundriss einer Linguistik kleiner Bildzeichen in der WhatsApp-Kommunikation, Duisburg: Universitätsverlag Rhein-Ruhr. Brown, Penelope/Stephen C. Levinson (1987): Politeness. Some universals in language usage, Cambridge: Cambridge University Press. Brown, Penelope/Stephen C. Levinson (2007): Gesichtsbedrohende Akte, in: Herrmann, Steffen/Sybille Krämer/Hannes Kuch (Hrsg.), Verletzende Worte. Die Grammatik sprachlicher Missachtung, Bielefeld: Transcript Verlag, S. 59–88. Deterding, Sebastian/Dan Dixon/Rilla Khaled/Lennart E. Nacke (2011): From game design elements to gamefulness: defining “gamification“, in: Proceedings of the 15th International Academic MindTrek Conference: Envisioning Future Media Environments, Tampere, Finland, September 28–30, 2011, [online] ACM Digital Library, DOI 10.1145/2181037.2181040. Dürscheid, Christa/Christina M. Siever (2017): Jenseits des Alphabets – Kommunikation mit Emojis, in: Zeitschrift für Germanistische Linguistik, Jg. 45, H. 2, S. 256–285. Ehrhardt, Claus (2018): Höflichkeit, in: Liedtke, Frank/ Astrid Tuchen (Hrsg.), Handbuch Pragmatik, Stuttgart: Metzler, S. 282–292. Goffman, Erving (1974): Das Individuum im öffentlichen Austausch, Frankfurt a. M.: Suhrkamp. Goffman, Erving (1986 [2013]): Interaktionsrituale. Über Verhalten in direkter Kommunikation, 10. Aufl., Frankfurt a. M.: Suhrkamp. Grice, Herbert Paul (1975): Logic and Conversation, in: Cole, Peter/Jerry L. Morgan (eds.), Syntax and Semantics. Vol. 3: Speech acts, New York: Academic Press, S. 41–58. Gumperz, John J. (1982): Discourse Strategies, Cambridge: University Press. Gumperz, John J. (1992): Contextualization revisited, in: Auer, Peter/Aldo di Luzio (Hrsg.), The Contextualization of Language, Amsterdam/Philadelphia: John Benjamins, S. 39–54. Hoffmann, Ludger (2016): Deutsche Grammatik. Grundlagen für Lehrerausbildung, Schule, Deutsche als Zweitsprache und Deutsch als Fremdsprache, 3., neu bearbeitete und erweiterte Aufl., Berlin: Erich Schmidt. Kerbrat-Orecchioni, Catherine (2005): Politeness in France: How to Buy Bread Politely, in: Hickey, Leo/ UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 200 Miranda Stewart (Hrsg.), Politeness in Europe, Clevedon: Multilingual Matters, S. 29–44. Knapp, Karlfried (2011a): Angewandte Linguistik in Deutschland – eine Disziplin?, in: Histoire Épistémologie Langage, Jg. 33, H. 1, 117–128. Knapp, Karlfried (2011b): Vorwort, in: Knapp, Karlfried/Gerd Antos/Michael Becker-Mrotzek/Arnulf Deppermann/Susanne Göpferich/Joachim Grabowski/Michael Klemm/Clauda Villiger (Hrsg.), Angewandte Linguistik. Ein Lehrbuch, 3. Aufl., Tübingen: Narr, S. XXI-XXV. Knoblauch, Hubert (1991): Kommunikation im Kontext: John. J. Gumperz und die Interaktionale Soziolinguistik, in: Zeitschrift für Soziologie, Jg. 20, H. 6, S. 446-462. Kroeber-Riel, Werner (1996): Bildkommunikation. Imagerystrategien für die Werbung, München: Verlag Vahlen. Meer, Dorothee/Ina Pick (2019): Einführung in die Angewandte Linguistik. Gespräche, Texte, Medienformate analysieren. Stuttgart: Metzler. Pappert, Steffen (2017): Zu kommunikativen Funktionen von Emojis in der WhatsApp-Kommunikation, in: Beißwenger, Michael (Hrsg.), Empirische Erforschung internetbasierter Kommunikation (= Empirische Linguistik/Empirical Linguistics), Berlin/ New York: de Gruyter, S. 175-211. Sachs-Hombach, Klaus (2003): Das Bild als kommunikatives Medium. Elemente einer allgemeinen Bildwissenschaft, Köln: Halem. Schwan, Stephan (2006): Game Based Learning, [online] https://www.e-teaching.org/didaktik/konzeption/methoden/lernspiele/game_based_learning/ gamebasedlearning.pdf. Zifonun, Gisela/Ludger Hoffmann/Bruno Strecker (1997): Grammatik der deutschen Sprache (= Schriften des Instituts für deutsche Sprache), Berlin/New York: de Gruyter. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 6. April 2021. Eine Open-Access-Version dieses Kapitels mit farbiger Wiedergabe aller enthaltenen Emoji-Grafiken kann online abgerufen werden: https://www.utb. de/doi/book/10.36198/9783838557113 24.03.22 11:06 201 11. Fugenelemente im Korpus: Regelhaftigkeit und Variation Gegenstand des Beitrags sind korpuslinguistische Zugänge zur Variation im Auftreten des Fugenelements in Komposita aus zwei Nomen (Arbeit|s|weg). Die qualitative Vorstudie zeigt, dass die Verfugung nach Erstglied auf Vokal (Bühne|n|spiel, See|ufer) entgegen manchen Hinweisen aus bisherigen Korpusuntersuchungen sehr weitgehend linguistisch systematisierbar ist. Die Hauptstudie fokussiert dann die sehr variable Verfugung nach Erstglied auf Konsonant (Arbeit|s|weg vs. Heimat|ort). Sie modelliert statistisch den Einfluss von Größen, deren Bedeutung in der bisherigen Forschung nur angenommen, aber nicht überprüft werden konnte. Dabei führt sie auch neue Einflussgrößen ein und gibt deutliche Hinweise darauf, dass die Variation in größerem Ausmaß als bisher vermutet einzelfallspezifisch geregelt ist. 1. Einleitung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Sandra Hansen, Felix Bildhauer, Marek Konopka 1.1 Phänomen, Fragestellungen, Aufbau des Beitrags Zwischen Bestandteilen komplexer Wörter können Fugenelemente auftreten. Sie befinden sich zwischen einem Wortstamm, der als Erstglied der Bildung fungiert, und einem Wort oder (viel seltener) einem Suffix, das das Zweitglied bildet, vgl. Arbeit|s|weg bzw. frühling|s|haft. Die vorliegende Studie fokussiert Fugenelemente heimischen Ursprungs1 in ihrer Hauptdomäne, den Zusammensetzungen aus zwei Nomen (N&NKomposita). In solchen Zusammensetzungen können zwischen den beiden Nomen die Elemente -s-, -es-, -ns-, -ens-, -n-, -en-, -er-, -e(vgl. Fleischer und Barz 2012: 186) erscheinen, vgl.: 1. a. Arbeit|s|weg b. Alter|s|weisheit 2. Bund|es|regierung 3. Name|ns|recht 4. Herz|ens|sache 5. a. Kirche|n|chor b. Rabe|n|könig 1 2 6. a. Bank|en|aufsicht b. Narr|en|kappe 7. Völk|er|bund 8. Pferd|e|bahn In allen Beispielen außer (1a) entspricht das Erstglied zuzüglich des folgenden Elements einer Form aus dem Flexionsparadigma des ersten Nomens. Fugenelemente gleichen hier formal Flexionsendungen. Sie werden dann als paradigmisch bezeichnet (vgl. Wellmann et al. 1974). Unparadigmisch ist nur das Fugenelement -s- in (1a), denn eine Flexionsform wie Arbeits ist im Paradigma eines Femininums nicht vorhanden. Dieser letzte Fall kann für Deutschlernende, die gerade dabei sind, Zusammenhänge zwischen Komposition und Flexion zu entdecken, verwirrend sein. Gleichzeitig ist er ein Hinweis darauf, dass (so die Meinung der meisten Forschenden) die scheinbaren Flexionsendungen am Erstglied nicht der Kasus- und Numerusmarkierung dienen, sondern dazu, „die Zusammengehörigkeit (Morphologisierung) des gesamten Kompositums anzuzeigen“ (Nübling et al. 2017: 113, vgl. Gallmann 1999: 184, Schlücker 2012: 9).2 Schauen wir uns zunächst die paradigmischen Fälle an. Den Fugenelementen wird vor Zu Fugenelementen in komplexen Wörtern mit Bestandteilen fremder Herkunft wie Therm|o|meter oder Strat|i|grafie vgl. Donalies 2002: 43 und Fleischer und Barz 2012: 110f. Allerdings haben sich die meisten Fugenelemente historisch gesehen aus Flexionsendungen entwickelt (dazu z. B. Demske 2001: 307 ff., Nübling und Szczepaniak 2009: 197, Kopf 2018: insb. 304-334). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 201 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 202 II Fallstudien allem die Fähigkeit abgesprochen, die Kasusfunktion zu übernehmen (dazu ausführlich Gallmann 1999): So habe das sog. Fugen-s nicht mehr die Genitivfunktion. Was den Ausdruck des Numerus angeht, sind Fugenelemente aber differenzierter zu betrachten. Sie sind in jedem Fall keine regulären Numeruskennzeichen, man vergleiche Bischof|s|konferenz ‚Konferenz der Bischöfe’ einerseits und Hühn|er|ei ‚Ei eines Huhns’ andererseits (vgl. Nübling und Szczepaniak 2009: 197). Dennoch können manchmal scheinbare Numerusoppositionen beim Erstglied als tatsächliche Anzahlunterschiede interpretiert werden, z. B. Land|es| verteidigung ‚Verteidigung eines Landes’ und Länd|er|spiel ‚Spiel zwischen Ländern’ (vgl. Donalies 2002: 47). Zumindest -e- (vgl. Pferd|e| bahn) und -er- (vgl. Völk|er|bund) wird bescheinigt, dass sie bevorzugt bei „positiver Pluralbedeutung“ auftreten (Fuhrhop 1996: 545).3 Festzuhalten bleibt somit, dass paradigmische Fugenelemente in manchen Fällen dazu gebraucht werden können, auf Ein- oder Mehrzahl hinzuweisen, was bereits einen Einflussfaktor bei ihrer Wahl darstellt. Die unparadigmischen Fälle entstehen vor allem dadurch, dass an Feminina, die wie Arbeit im Singular auf einen Konsonanten enden und im Plural die Endung -en haben, das Fugen-s angeschlossen werden kann (vgl. Kopf 2018: 51). Interessanterweise ist das unparadigmische -s sogar häufiger als das paradigmische. Insgesamt ist das Fugen-s das häufigste Fugenelement (vgl. Kopf 2018: 28). Unparadigmisch ist außerdem das Fugenelement -ennach einer Reihe mehrsilbiger letztsilbenbetonten Maskulina und Neutra aus dem Lateinischen wie in Medikament|en|dosis oder Instrument|en|kasten.4 Dass es so viele verschiedene Fugenelemente gibt, dass sie paradigmisch und unparadigmisch sein können und dass sie alle dieselbe Hauptfunktion haben, macht die Bestimmung 3 4 5 6 der Bedingungen, wann man welches Fugenelement setzt, besonders schwer. Hinzu kommt noch, dass die Mehrheit der Komposita ohne ein Fugenelement auskommt (z. B. Land|kreis, Baum|stamm oder See|ufer). Während sich erwachsene Muttersprachler*innen bei der Produktion von Komposita meist auf ihr Sprachgefühl verlassen bzw. auf ihr mentales Lexikon zurückgreifen können, in dem das Kompositum als Ganzes abgespeichert ist, fehlen Deutschlernenden diese Möglichkeiten. Dass es Kind|er|geburtstag, Blume|n|vase und Baum|blüte heißen muss und nicht etwa *Kind|geburtstag, *Blume|vase und *Baum|s| blüte, können sie erst einmal aus nichts ableiten. Was ihnen helfen könnte, wären explizite Regeln. Aber gibt es sie? Oder muss man alle Komposita womöglich auswendig lernen? Für Letzteres spricht zwar die Tatsache, dass es Komposita mit ein und demselben Erstglied gibt, in denen die Frage des Fugenelements unterschiedlich gelöst ist, z. B. Tag|traum, Tag|es|licht und Tag|e|dieb.5 Und dennoch gibt es auch Bedingungen, die den Gebrauch eines bestimmten Fugenelements erzwingen. So tritt etwa nach dem Suffix -ung am Ende des Erstglieds regulär das Fugen-s auf wie in Klärungs|s|bedarf. Solche Bedingungen sorgen dafür, dass bei der Produktion neuer Komposita sehr häufig keine Beliebigkeit hinsichtlich der Verfugung herrscht. Es gilt also, einerseits die wirksamen Bedingungen herauszuarbeiten und in ihrer Tragweite zu bestimmen und andererseits die Relevanz von einzelfallspezifischen (idiosynkratischen) Lösungen im Gesamtsystem der Komposition einzuschätzen. Da das Fugenelement in der überwiegenden Mehrheit der Kompositumvorkommen fehlt,6 ist die Nichtverfugung der Normalfall. Sie wird in der Forschung zum Teil als sog. Null-Fuge (-Ø-) modelliert, die in eine Reihe mit den oben diskutierten Fugenelementen gestellt wird (vgl. Nübling und Sz- In der Korpusstudie von Schäfer und Pankratz (2018: 353) ist die Tendenz, zur Markierung der Vielzahl gebraucht zu werden, besonders stark bei -e und -er in Kombination mit dem Umlaut. Das Erstglied gleicht hier der Form des Dativ Plural. Dies ist aber zufällig, denn anders als der Genitiv spielt der Dativ bei der Entwicklung der Komposita keine Rolle. Damit bleiben solche Fälle unparadigmisch. Vgl. den Titel einer Arbeit von Donalies (2011). In unserem Datensatz tritt ein Fugenelement nur bei 27 % der Kompositumtypen auf (vgl. Abschnitt 4.2). Für eine Übersicht mit Ergebnissen verschiedener Untersuchungen und Angaben zu den Tokens und den Typen vgl. Kopf (2018: 39). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 202 24.03.22 11:06 Fallstudie „Fugenelemente“ czepaniak 2009: 198). Die Fugensetzung kann damit zunächst als Variation zwischen den Varianten -s-, -es-, -ns-, -ens-, -n-, -en-, -er-, -e-, -Ø- aufgefasst werden. Die entsprechende Fragestellung: Alternativ kann die Nichtverfugung ausgegliedert und den (anderen) Fugenelementen gegenübergestellt werden. Dies führt zu einer Fragestellung, die nicht weniger wichtig erscheint. Sie könnte folgendermaßen formuliert werden: 2. Unter welchen Umständen wird überhaupt ein Fugenelement gesetzt? Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 1. Unter welchen Umständen wird welches Fugenelement aus dem Variantenset gewählt? Obwohl es zum Phänomen „Fugenelement“ eine umfangreiche Fachliteratur gibt, wird es immer noch kontrovers diskutiert. Bei der Distribution der Fugenelemente scheint es nur wenige „hundertprozentige Regeln“ zu geben. Öfter liegen gleichzeitig verschiedene Faktoren vor, von denen jeder die Fugenelementsetzung zwar zu beeinflussen scheint, sie aber nicht endgültig determiniert. Zu solchen Einflussgrößen ist eine Reihe von sehr interessanten Feststellungen in der traditionelleren, durch Introspektion geprägten Forschung7 getroffen worden. Diese Feststellungen können aus empirischer Perspektive jedoch nur den Status von Hypothesen besitzen. Sie müssen noch umfassend evaluiert werden, was aber im Rahmen der theoretischen Forschung, die sie hervorgebracht hat, nicht durchgeführt wird. Bezüglich der tatsächlichen Wirkmächtigkeit der Einflussgrößen besteht somit weiterhin Klärungsbedarf. Um solche Hypothesen zu prüfen, sind breit angelegte empirische Untersuchungen notwendig, die aber immer noch viel zu selten sind. Von den wenigen Arbeiten, die sich 7 8 9 203 dem Thema mit korpuslinguistischer Methodik widmen, sind vor allem diejenigen von Donalies (2011), Bubenhofer et al. (2014) und Kopf (2018) zu nennen.8 Unsere Aufmerksamkeit gilt insbesondere der Studie von Bubenhofer et al. (2014): Die Autor*innen behandeln explizit die oben unter 1 formulierte Fragestellung, analysieren mit einem einheitlichen Verfahren eine besonders große Datenmenge und vergleichen die Ergebnisse mit Feststellungen aus der bisherigen Forschung. Da sie dabei diese auch gut abdecken, wird die Untersuchung im zweiten Teil der Einleitung (Abschnitt 1.2) genauer referiert. Im Hauptteil des vorliegenden Beitrags (Abschnitte 2 bis 4) wird die aktuelle Studie vorgestellt, die auf Bubenhofer et al. (2014) aufbauend sich der oben unter 2 formulierten Fragestellung verschreibt und Daten aus dem Deutschen Referenzkorpus (DeReKo, Kupietz et al. 2010, Kupietz et al. 2018) sowohl qualitativ als auch quantitativ (mithilfe einer logistischen Regressionsanalyse) untersucht. Den Schluss (Abschnitt 5) bilden eine linguistische und eine methodische Reflexion. 1.2 Vorhersage von Fugenelementen Die Studie von Bubenhofer et al. (2014) beschäftigt sich mit der Frage, unter welchen Umständen welches Fugenelement aus dem Variantenset gewählt wird (vgl. Fragestellung 1 in Abschnitt 1.1) und beschränkt sich auf Komposita, die bezüglich der Fugen nicht bzw. kaum variieren. Dabei wurde ein Verfahren des maschinellen Lernens eingesetzt, um automatisch Regeln für die Wahl von Fugenelementen aufzudecken. Hierzu wurde auf der Basis eines aus dem DeReKo extrahierten Datensatzes von über 400 000 Komposita (Tokens) ein sogenannter Entscheidungsbaum generiert, der die Art der Fugenelemente in Abhängigkeit von verschiedenen Einflussfaktoren vorhersagt.9 Diese Einflussfaktoren Siehe z. B. den Aufsatz von Fuhrhop (1996). Darüber hinaus wird in der Untersuchung von Schäfer und Pankratz (2018) eine Korpusstudie mit einem Experiment kombiniert. Für eine detaillierte Beschreibung der Vorgehensweise und der Berechnung des Entscheidungsbaumes vgl. https://grammis.ids-mannheim.de/korpusgrammatik/4697. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 203 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 204 II Fallstudien wurden dabei aufgrund von Hypothesen aus der bisherigen Forschung definiert und betrafen vor allem die Morphologie (z. B. Suffigierung des Erstglieds) und die Phonologie (z. B. Silbenanzahl für Erst- und Zweitglied) der Komposita.10 Schon der oberste Knoten des modellierten Baumes beinhaltet die Entscheidung, ob es sich beim letzten Laut des Erstglieds um einen Konsonanten oder um einen vokalischen Auslaut handelt (z. B. Konsument|en|information vs. Frau|en|chor). Es wird also bestätigt, dass die Bestimmung des Fugenelements vom Erstglied ausgeht (vgl. Fuhrhop 1996). Das Zweitglied hingegen spielt in dem Modell so gut wie keine Rolle. Für suffigierte Erstglieder auf Konsonant lassen sich für die untersuchten Daten besonders sichere Aussagen für das Auftreten von vier Elementen treffen: -nen-, -en-, -s- und -Ø-: • -nen-11: bei 70 %12 der femininen Erstglieder auf -in, -essin oder -nerin, die Belebtes bezeichnen (z. B. Lehrerin|nen|verband), dazu auch Ortner et al. (1991: 94) • -en-: bei 94 % der maskulinen Erstglieder auf -ent, -ist, -ant, -or oder -(at)or, die überwiegend schwach flektiert werden13 und Personen bezeichnen (z. B. Student|en| führer, Tourist|en|attraktion), dazu auch Lohde (2006: 24) • -s-: bei 98 % der femininen Erstglieder auf -ung, -ion, -keit, -heit oder -schaft (z. B. Regierung|s|chef, Koalition|s|vertrag), dazu auch Fuhrhop (1996: 537), Fleischer und Barz (2012: 188) • -Ø-: bei 99 % der maskulinen Nomen auf -er (z. B. Sieger|ehrung), dazu auch Fleischer und Barz (2012: 188) Bei nicht suffigierten, konsonantisch auslautenden, einsilbigen Erstgliedern scheint die Wahl der e-, er- und es-Fuge nicht mit ab- strakten Gemeinsamkeiten der Erstglieder, sondern mit konkreten Erstgliedlexemen zusammenzuhängen, was die Wirksamkeit idiosynkratischer lexikalischer Konventionen nahelegt (vgl. Bubenhofer et al. 2014: 212). Außerdem sind bei nicht suffigierten Erstgliedern auf Konsonant folgende Tendenzen festzustellen: • -s-: bei 83 % der Erstglieder, für die das Fugen-s paradigmisch ist (z. B. Krieg|s|ende) oder die mehrsilbig bzw. derivationell komplex sind (z. B. Arbeit|s|kampf, Verein|s| heim), dazu auch Fuhrhop (1996: 537), Nübling und Szczepaniak (2011: 57) • -en-: bei 90 % der schwach flektierenden Maskulina und Feminina mit Pluralbedeutung (z. B. Mensch|en|menge, Schuld|en| berg), dazu auch Fuhrhop (1996: 541) • -Ø-: bei 95 % der Erstglieder, die auf <e> + Konsonant(en) enden (z. B. Abend|kasse, Titel|verteidiger) und/oder simplizisch sind (z. B. Welt|krieg) Zusammenfassend kann für nicht suffigierte Erstglieder festgehalten werden, dass die Ergebnisse der Baummodellierung zwar prinzipiell in linguistische Regeln überführt werden können, allerdings auch die Wirkung lexikalischer Konventionen nicht ausschließen (vgl. Bubenhofer et al. 2014: 215). Bei vokalisch auslautenden Erstgliedern scheint es für die Wahl der Fuge relevant zu sein, ob die letzte Silbe des Erstglieds betont oder unbetont ist. Zusätzlich zu dieser Unterscheidung sind allerdings weitere Merkmale zu spezifizieren: • -Ø-: bei 97 % der Erstglieder mit betonter Letztsilbe, die nicht auf [de], [fraʊ], oder [gaɪ] enden, bei 97 % der Erstglieder mit unbetonter Letztsilbe, deren letzter Laut nicht Schwa [ə] ist (z. B. Taxi|fahrer) und bei 10 Der beschriebene Entscheidungsbaum ist unter https://grammis.ids-mannheim.de/korpusgrammatik/4730 als PDF-Dokument verfügbar. 11 Im Grunde genommen handelt es sich hier um die Fuge -en-, da der letzte Konsonant des Erstgliedstamms gedoppelt wird (vgl. Donalies 2011: 30). 12 Die Zahl bezieht sich auf den Prozentsatz der vom Modell korrekt vorhergesagten Tokens in der jeweiligen Datengruppe. 13 D. h. alle Formen außer Nominativ Singular erhalten die Flexionsendung -en. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 204 24.03.22 11:06 Fallstudie „Fugenelemente“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 100 % der Erstglieder auf Schwa, die im Genitiv Singular auf -(e)s enden und im Nominativ Plural endungslos oder nur im Singular gebräuchlich sind (z. B. Gewerbe|gebiet, Prestige|denken), dazu auch Fuhrhop (1996: 542) • -n-: bei 93 % der schwach flektierenden Maskulina auf Schwa (z. B. Schütze|n| haus), dazu auch z. B. Ortner et al. (1991: 91f.) Auch in allen anderen, bisher nicht genannten Fällen, in denen das Erstglied auf Schwa endet, sei die n-Fuge der Normalfall (vgl. auch Fuhrhop 1996: 541). Allerdings müssten für diese Fälle sehr komplexe Regelverkettungen modelliert werden, die eher gegen eine in linguistische Regeln überführbare Systematisierbarkeit sprechen (vgl. Bubenhofer et al. 2014: 223). Bubenhofer et al. (2014) stellen fest, dass bei der Fugenelementvariation einerseits Kombinationen phonologischer und morphologischer Einflussgrößen wirken, andererseits aber auch lexikalische Idiosynkrasien eine Rolle spielen. Als besonders relevante Einflussgrößen erweisen sich dabei Auslautart, Silbenanzahl, Suffigierung, Flexionsparadigma und Letztsilbenbetonung des Erstglieds. Die Ergebnisse dieser Untersuchung werden in der aktuellen Studie dazu genutzt, Hypothesen zu bilden, potenzielle Einflussfaktoren festzulegen und notwendige Datenausschlüsse zu bestimmen. 2. Datengrundlage der Fallstudie 2.1 Datenextraktion und -annotation Ziel der aktuellen Korpusstudie ist es, verschiedene Einflussfaktoren (unabhängige Variablen) daraufhin zu untersuchen, ob sie das Auftreten bzw. das Nicht-Auftreten eines Fugenelements (abhängige Variable) maßgeblich bestimmen (vgl. Fragestellung 2 aus Abschnitt 1). Korpusstudien sind Beobachtungsstudien, bei denen neben der abhängigen Variable auch die unabhängigen Variablen (z. B. Sil- 205 benzahl des Erstglieds, Anlaut des Zweitglieds) nur beobachtet werden (und nicht systematisch manipuliert werden, wie in einem wissenschaftlichen Experiment). Korpusdaten müssen i. d. R. im Nachhinein weiter aufbereitet werden, d. h. für jeden einzelnen Beleg14 muss für jede unabhängige Variable der jeweilige Wert annotiert („beobachtet“) werden. Je nach Umfang der Stichprobe und Art der Annotation kann dies leicht den größten Teil des Arbeitsaufwands der Studie ausmachen. Die folgenden beiden Abschnitte illustrieren typische Schritte der Datenerhebung und Aufbereitung. 2.1.1 Datenerhebung In Korpusstudien untersucht man sprachliche Regularitäten in der Regel anhand von Stichproben. Normalerweise ist das Ziel jedoch, Aussagen nicht nur über eine konkrete Stichprobe zu machen, sondern über die Grundgesamtheit, aus der die Stichprobe gezogen wurde. In quantitativen Studien helfen dabei inferenzstatistische Verfahren (→ Kapitel 21 [Aufbereitung Untersuchungsergebnisse] in diesem Band), die unter bestimmten Bedingungen Rückschlüsse von Eigenschaften der Stichprobe auf Eigenschaften der Grundgesamtheit erlauben, unter Berücksichtigung des damit verbundenen Unsicherheitsfaktors (man kann nie ganz sicher sein, wenn man nur eine Stichprobe und nicht die Grundgesamtheit untersucht hat). Sowohl die Anwendung inferenzstatistischer Tests auf Korpusdaten als auch die Definition der relevanten Grundgesamtheit im Zusammenhang mit Sprachdaten werfen nicht-triviale Fragen auf und sind in der Literatur kontrovers diskutiert worden. Wir übergehen diese Fragen hier aus Platzgründen, weisen aber auf die weiterführende Literatur am Ende des Kapitels hin. Das Korpus, aus dem die Stichprobe für diese Studie entnommen wurde, ist ein ca. 7 Mrd. Tokens großer Teil des Deutschen Referenzkorpus (DeReKo, Release 2017-II; vgl. Kupietz et al. 2010; Kupietz et al. 2018). Es verfügt über morphologische Annotationen, die für das Auffinden von Komposita relevant 14 Hier und im Folgenden verwenden wir Beleg, Token, und Vorkommen synonym. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 205 24.03.22 11:06 206 II Fallstudien Tab. 1: Auswahl an Spalten aus dem aufbereiteten Datensatz. Gezeigt werden Kompositum und Fugenelement sowie für das Erstglied: Lemma, Genus, Suffix, Auslaut, Endbetonung und für das Zweitglied: Lemma, Präfix und Anlaut Erstglied Kompositumtoken Fuge Lemma Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Kriminalitätsbelastung s Zweitglied Genus Suffix Auslaut kriminalität fem ität plosiv.stl Endbet. … 1 … Lemma Präfix Anlaut … belastung be plosiv.sth … Flughafen 0 flug mask 0 plosiv.sth 1 … hafen 0 frikativ.stl … Satellitenfernsehen en satellit mask 0 plosiv.stl 1 … fernsehen 0 frikativ.stl … Richtungsfahrbahn s richtung fem ung plosiv.sth 0 … fahrbahn 0 frikativ.stl … Eigentumswohnung s eigentum neut tum liquidnasal 0 … wohnung 0 frikativ.sth … Haftentlassung 0 haft fem 0 plosiv.stl 1 … entlassung ent plosiv.stl … Dorferneuerung 0 dorf neut 0 frikativ.stl 1 … erneuerung er plosiv.stl … … … … … … … … … … … … … sein werden. Wie in DeReKo generell sind auch in diesem Teilkorpus Zeitungstexte dominant, mit Abstand den größten Anteil haben dabei Texte aus Deutschland.15 Um nominale Komposita im Korpus aufzufinden, wurde die vorhandene Wortbildungsannotation (basierend auf Werkzeugen von Canoo16) verwendet.17 Für diese Studie wurden zunächst alle Vorkommen von Wörtern erhoben, die laut morphologischer Annotation nominale Komposita sind. Diese Suche ergab knapp über sechs Millionen Treffer. Da diese Stichprobengröße aus praktischen Gründen (Annotations- und Rechenaufwand) deutlich zu umfangreich ist, wurde im Weiteren nur eine Zufallsauswahl von 58 440 Roh-Belegen berücksichtigt, die ausschließlich zweigliedrige Komposita umfasst. Auch diese Stichprobe ist noch zu groß gewählt,18 man muss jedoch davon ausgehen, dass bei der folgenden Auf- bereitung noch zahlreiche Belege ausgeschlossen werden, weil sie nicht dem Untersuchungsgegenstand dieser Studie entsprechen (vgl. Abschnitt 2.2). Zudem ist es für die anschließende statistische Modellierung von Vorteil, den Datensatz in mehrere Teile zerlegen zu können, von denen dann jeder eine ausreichende Größe haben sollte. Für jedes Kompositumtoken wurden zusätzlich Informationen über seine morphologische Struktur exportiert, die als Annotationen im Korpus verfügbar sind (z. B. das Lemma von Erst- und Zweitglied, Fugenelemente, eventuell vorhandene Prä- und Suffixe). Teilweise unter Zuhilfenahme dieser Informationen wurde der Datensatz anschließend so aufbereitet, dass Fehlbelege aussortiert und die zu untersuchenden unabhängigen Variablen (z. B. Suffix des Erstglieds, Anlaut des Zweitglieds) „beobachtet“ und 15 Für Details zu Zusammensetzung und Aufbereitung siehe https://grammis.ids-mannheim.de/korpusgram matik/6615, https://grammis.ids-mannheim.de/korpusgrammatik/6616 und https://grammis.ids-mann heim.de/korpusgrammatik/6625. 16 https://web.archive.org/web/20200227205012/http://www.canoonet.eu/. 17 Dies setzt ein entsprechend aufbereitetes Korpus voraus, außerdem ein Anfrageinterface, das es über eine geeignete Anfragesprache ermöglicht, auf die Wortbildungsannotationen zuzugreifen. 18 Allgemein hängt die optimale Stichprobengröße von der angestrebten Teststärke und der erwarteten Effektgröße der Prädiktoren ab. Wir können hier auf die Berechnung nicht näher eingehen (siehe aber z. B. Bortz 2005, Kap. 4.7), halten jedoch fest, dass es in linguistischen Korpusstudien in der Regel keine spezifischen Hypothesen über die Effektgröße einzelner Prädiktoren gibt und somit auch keine Teststärke berechnet werden kann. Die Stichprobengröße muss hier intuitiver bzw. nach praktischen Gesichtspunkten festgelegt werden, wobei zu beachten ist, dass bei großen Stichproben auch sehr kleine (und für praktische Belange unbedeutende) Effekte statistisch signifikante Testergebnisse bewirken („Die H0 ist bei sehr großen Stichproben gewissermaßen chancenlos.“; Bortz 2005: 119). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 206 24.03.22 11:06 Fallstudie „Fugenelemente“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. annotiert werden können. Tabelle 1 zeigt einen Ausschnitt der aufbereiteten Daten. 2.1.2 Aufbereitung und weitere Annotation Einige der nachfolgend beschriebenen Schritte wurden mit einfachen Bash- und PythonSkripten durchgeführt, insbesondere das Aufrufen von Werkzeugen für die automatische Annotation und das Formatieren von deren Output. Für den Austausch und die Langzeitarchivierung verwendet man am besten ein Textformat (.csv). Wichtig ist zudem, dass alle Schritte und Entscheidungen bei der Datenerhebung und -aufbereitung dokumentiert werden, idealerweise in einer Textdatei (.txt), sodass hinterher nachvollziehbar ist, auf welche Weise die Annotationen zustande gekommen sind, was sie bedeuten, welche Belege aussortiert wurden usw. Auch verwendete Skripte können mit den Daten zusammen archiviert und weitergegeben werden. Phonetische und phonologische Merkmale: Mehrere der unabhängigen Variablen beziehen sich auf die phonetisch-segmentale und prosodische Struktur der beiden Kompositumglieder. Grundlage für alle diese Annotationen ist eine automatische Text-zu-PhonemKonvertierung einschließlich Silbengrenzen und Betonung (vgl. Reichel und Kisler 2014), die als Webservice zu Verfügung steht und auch über eine REST-Schnittstelle angesprochen werden kann.19 Aus dieser Transkription wurde unter anderem die Silbenzahl der beiden Kompositumglieder abgeleitet, daneben auch die Artikulationsart des letzten Segments des Erstgliedlemmas, die Artikulationsart des ersten Segments des Zweitgliedlemmas und die Akzentposition des Erstglieds. Darüber hinaus wurde das Vorhandensein eines Konsonantenclusters im Auslaut der letzten Silbe des Erstglieds erfasst, indem die Konsonanten 19 20 21 22 207 gezählt wurden, die dem letzten Konsonanten vorangehen. Die Werte rangieren von 0 (Haus) bis 3 (Arzt).20 Morphologische Merkmale: Aus der morphologischen Annotation wurden Informationen über eventuell vorhandene Prä- und Suffixe an beiden Kompositumgliedern übernommen, ebenso wie die Wortart der beiden Kompositumglieder. Genusinformation für das Erstglied ist nicht als Annotation im Korpus verfügbar und musste hinzugefügt werden. Dazu wurden zunächst alle Erstglieder mit einem morphologischen Analysetool (SMOR-Lemmatizer;21 Schmid et al. 2004) vorannotiert. Ambiguitäten (z. B. die Kiefer vs. der Kiefer, das Gehalt vs. der Gehalt) wurden manuell aufgelöst. Eigennamen: Komposita, die selbst Eigennamen sind oder als Erstglied einen Eigennamen enthalten, wurden von der weiteren Untersuchung ausgeschlossen. Da der Eigennamenstatus von Kompositumbestandteilen ebenfalls nicht als Annotation im Korpus verfügbar ist, wurden auch hier die Erst- und Zweitgliedlemmata mit dem SMOR-Lemmatizer vorannotiert. Eine Durchsicht von 300 zufällig ausgewählten Tokens, die von SMOR als Eigennamen ausgezeichnet wurden, zeigte, dass die Präzision sehr hoch war (97,6 % der als Eigennamen ausgezeichneten Nomen waren tatsächlich Eigennamen), wohingegen der Recall weniger zufriedenstellend war (nicht als Eigennamen ausgezeichnete Nomen waren tatsächlich häufig Eigennamen). Ambige Fälle (Schneider, Hausmann etc.) und solche, die nicht als Eigenname klassifiziert worden waren, wurden deshalb von einer Person manuell überprüft.22 Fremdsprachliches Material: Für jedes Kompositumerstglied wurde manuell annotiert, ob es sich um ein „Fremdwort“ handelt (um solche Komposita im nächsten Schritt von der weite- https://clarin.phonetik.uni-muenchen.de/BASWebServices/interface/Grapheme2Phoneme. Die Affrikate <z> wurde als zwei Konsonanten gezählt, z. B. <Arzt> [artst]. https://www.cis.uni-muenchen.de/~schmid/tools/SMOR/. Dies setzt eine Definition dessen voraus, was als Eigenname zählen soll, und illustriert eine Situation, die bei der Annotation von Korpusdaten immer wieder auftritt: Unterscheidungen, anhand derer man Daten klassifiziert, müssen operationalisiert werden, und damit geht oft ein gewisses Maß an Willkürlichkeit einher. Im konkreten Fall wurden z. B. Monatsnamen und Nationalitäten (wenn Menschen gemeint sind: die Polen) nicht als Eigenname gewertet, Ländernamen (Polen) hingegen schon, ebenso Ortsbezeichnungen wie Marktstraße. Das Problem tritt in noch gravierender Form bei der Annotation des Fremdwortstatus auf. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 207 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 208 II Fallstudien ren Untersuchung auszunehmen). Im Zweifel haben wir solche Erstglieder als Fremdwort gewertet, die den Plural entweder mit s bilden oder überhaupt keine deutsche Pluralbildung aufweisen. Wie bereits im Fall der Eigennamen ist diese Operationalisierung zu einem gewissen Grad willkürlich, im Vergleich zu anderen Möglichkeiten der Abgrenzung erscheint ein solches morphologische Kriterium jedoch relativ objektiv zu sein. Beispiele finden sich in Abschnitt 2.2 unter Punkt 4. Frequenzklasse: Abschließend wurde die Frequenzklasse des Erst- und Zweitgliedlemmas im verwendeten DeReKo-Teilkorpus berechnet und annotiert. Dabei wurden Schreibvarianten desselben Lemmas zusammengeführt (so wurden z. B. die Vorkommen von Schwarzweiß-Fotografie, Schwarzweißfotografie, SchwarzWeiß-Photographie etc. als Instanzen desselben Lemmas gezählt). Bei der Berechnung der Frequenzklasse wird die absolute Frequenz eines Lemmas in Bezug gesetzt zur absoluten Frequenz des häufigsten Lemmas (der bestimmte Artikel der/die/das), sodass ein Lemma x die Häufigkeitsklasse k hat, wenn das häufigste Lemma etwa 2k-mal häufiger vorkommt als x.23 Die häufigsten Erstglieder im Datensatz sind Jahr und Uhr (Klasse 5), seltene Erstglieder sind z. B. Lebendpuppe und Betriebsgebietentwicklung (Klasse 29). Die mittlere Frequenzklasse (Median) im Datensatz ist für Erst- und Zweitglieder 11. Die rohen Frequenzklassen wurden so zentriert, dass sie die Differenz zur mittleren Frequenzklasse repräsentieren. Beispielsweise wurden Lemmata der Häufigkeitsklasse 9 mit −2 kodiert, und Lemmata der Häufigkeitsklasse 14 wurden mit 3 kodiert. 2.2 Linguistische Eingrenzung des Phänomens – Datenausschlüsse Aus den extrahierten Daten wurden Komposita ausgeschlossen, bei denen man aufgrund bisheriger Forschung annehmen konnte, dass sie keine bzw. kaum Variation zwischen dem Auftreten und dem Nicht-Auftreten eines Fu- genelements zulassen (vgl. Abschnitt 1.2). Dabei stützten wir uns auf Bubenhofer et al. (2014), weitere im Folgenden an einschlägigen Stellen angeführte Fachliteratur und eigene qualitative Korpusuntersuchungen. Ausgeschlossene Komposita enthalten Erstglieder, die bestimmte Endungen bzw. Suffixe aufweisen, Erstglieder, die substantivierte Adjektive darstellen, und Erstglieder, die auf Vokal enden (vgl. Abschnitt 1.2): 1. Erstglied auf -heit, -(ig)keit, -schaft, -ung, -ion, -ität, -ling, -sal, -tum, -ant, -ist, -er, -anz, -atur (aufgeführt werden nur diejenigen Suffixe, die im extrahierten Datensatz auftreten) Nach den Suffixen -heit, -(ig)keit, -schaft, -ung, -ion, -ität, die feminine Nomen ableiten, erscheint regelmäßig das unparadigmische -s- wie z. B. in Freiheit|s|rechte, Rettung|s|aktion, Revolution|s|führer. Nach den Suffixen -ling, -tum, -sal, die Maskulina oder Neutra ableiten, steht regelmäßig das paradigmische -s- wie in Flüchtling|s|elend, Wachstum|s|kritik, Schicksal|s|schlag (vgl. Fleischer und Barz 2012: 188; Fuhrhop 1996: 534, 537; Nübling und Szczepaniak 2009: 206; Kopf 2018: 28f.). Nach den Suffixen beider Gruppen können prinzipiell auch Fugenelemente erscheinen, die sich als Pluralsuffixe interpretieren lassen. Allerdings kommt dies in unserem Korpus sehr selten vor und nur im Falle der Fugenelemente bzw. Pluralsuffixe -en- und -er- (Letzteres mit Umlaut) wie in Neuheit|en|präsentation, Liegenschaft|en|kommission, Priorität|en| liste und Altertüm|er|verwaltung. Nur sporadisch wird gar kein Fugenelement gesetzt – etwa in dem steuerrechtlichen Ausdruck Erbschaft|steuer (neben Erbschaft|s| steuer).24 Nach den Suffixen -ant und -ist, die schwache Maskulina ableiten, tritt in unserem Korpus regelmäßig das paradigmische Fugenelement -en- auf wie in Praktikant|en|Gehalt oder Fundamentalist|en|-Organisation. Auf die Erstglieder auf -er, -anz, -atur schließlich folgt regelmäßig kein Fugenele- 23 Vgl. die Benutzerinformationen zu den korpusbasierten Grundformenlisten (DeReWo) unter https://www1.ids-mannheim.de/kl/projekte/methoden/derewo.html. 24 Zu Komposita mit -steuer vgl. etwa Fleischer und Barz (2012: 192). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 208 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Fugenelemente“ ment wie in Verbraucher|schützer, Distanz| schuss und Temperatur|erhöhung. Abweichungen sind in unserem Korpus vereinzelt und nur bei -er zu finden. Sie sind semantisch sehr stark eingeschränkt auf die in der Forschung gut bekannten Fälle, und zwar auf Komposita mit einer Bezeichnung für Familiengehörige als Zweitglied (Farmer|s| tochter)25 und Komposita mit einer plausiblen Mehrzahlinterpretation des Erstglieds (Armatur|en|brett). 2. Substantivierte Adjektive bzw. Partizipien wie in Alt|en|wohnheim oder Abgeordnet| en|kollege Solche Erstglieder sind spezielle Konversionsprodukte (vgl. Eisenberg 2013: 280f.): Sie basieren auf Adjektiven bzw. Partizipien, die syntaktisch als Nomen gebraucht werden, dabei aber ihre adjektivische Flexion behalten (der/die Abgeordnete wie die abgeordnete Kollegin/der abgeordnete Kollege). Als Erstglieder von Komposita verbinden sie sich gemäß der schwachen Flexion immer mit -en-. 3. Erstglieder, deren Stammformen auf Vokale enden, wie in Blume|n|topf, Osterhase|n|suche, Gelände|wagen, Frau|en|quote, See|n|land, Floh|markt, Schnee|fall Die Studie von Bubenhofer et al. (2014: 217) sagt für Erstglieder auf alle unbetonten Vokale außer Schwa pauschal das Fehlen der Fuge voraus. Für einen großen Teil der Erstglieder auf Schwa enthält das Modell hingegen komplexe, wenig transparente Regeln (vgl. Abschnitt 1.2). Die Sichtung der von uns extrahierten Belege ergab, dass sich bei Erstgliedern auf Vokal insgesamt doch sehr deutliche Regularitäten abzeichnen, die allerdings erst durch die Berücksichtigung semantischer Faktoren sichtbar werden, die bei der Baummodellierung von Bubenhofer et al. (2014) nicht möglich war. Die Variation zwischen Verfugung und Nichtverfugung erscheint bei solchen Erstgliedern relativ weit kombinatorisch geregelt und ist in jedem Fall nicht in dem Maße „frei“ wie bei Erstgliedern auf Konsonant. Die Erstglieder auf Vokal werden daher einer qualitativen Untersuchung un- 209 terzogen, deren Ergebnisse in Abschnitt 3 beschrieben werden. Nach den oben aufgezählten Ausschlüssen befinden sich im zu analysierenden Datensatz nur Komposita mit Erstgliedern auf Konsonant. Die Erstglieder erscheinen in der Regel ohne Suffix. Sehr wohl sind im Datensatz aber noch Komposita mit präfigierten Erstgliedern (z. B. Abwasser|rohr) und mit Erstgliedern, die selbst durch Komposition entstanden sind (z. B. Tierschutz| verein), enthalten. Außer den obigen Ausschlüssen, die sich nach den morphologischen und lautlichen Merkmalen des Erstglieds richten, sind auch lexikalisch motivierte Ausschlüsse notwendig. Wegen fehlender Variation werden aus dem zu analysierenden Datensatz Komposita mit nicht integriertem Fremdwort als Erstglied entfernt. Schließlich wird auch die Sondergruppe der Komposita ausgeschlossen, die Eigennamen sind bzw. deren Erstglieder Eigennamen sind (zur Umsetzung vgl. Abschnitt 2.1). 4. Fremdwörter Es wird vielfach beobachtet, dass nicht integrierte Fremdwörter als Erstglieder Fugenelemente verhindern (vgl. z. B. Fuhrhop 1996: 542). So wurden aus dem zu analysierenden Datensatz z. B. Banlieue| -Hei­matfilm, Beach|volleyball oder Crew| -mitglied entfernt (zur Methode vgl. Abschnitt 2.1.2). 5. Eigennamen Der Ausschluss von Komposita, die als Ganzes Eigennamen sind (Rose|marie, Baden|Württemberg, Roland|s|eck, Dürer|straße) oder aber einen Eigennamen als Erstglied aufweisen (Europa|meister, Mars|mensch, Achilles|sehne, Hilton|-Fan) ist damit zu begründen, dass durch den grammatischen und semantischen Sonderstatus von Eigennamen die Eigennamenkomposition andere Regularitäten aufweist als die Komposition mit Appellativen (vgl. Fleischer und Barz 2012: 179; Schlücker 2012: 59), die im Fokus dieses Beitrags steht. 25 Vgl. Nübling und Szczepaniak (2009: 207); Fuhrhop (1996: 537). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 209 24.03.22 11:06 210 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 3. Qualitative Auswertung Die qualitative Auswertung der extrahierten Daten fokussiert Komposita mit Erstgliedern auf Vokal, die später bei der quantitativen Analyse, die in Abschnitt 4 beschrieben wird, ausgeschlossen werden. Bubenhofer et al. (2014: 216) stellen für Erstglieder mit unbetonter Letztsilbe, die auf andere Vokale als Schwa enden, eine starke Tendenz zur Null-Fuge fest. Bei den auf Schwa endenden Erstgliedern dagegen beobachten sie verschiedene unter Verwendung von morphologischen und phonologischen Einflussgrößen schwer systematisierbare Tendenzen. Wie aus anderen Untersuchungen (vgl. z. B. Ortner et al. 1991; Fuhrhop 1996) bekannt, ist die Variation in diesem Bereich aber auch durch semantische Faktoren geprägt und zum Teil kombinatorisch geregelt (d. h., dass die Verfugungsvarianten an unterschiedliche Klassen von Erstgliedern gekoppelt sind). Die qualitative Analyse des relevanten Datenausschnitts aus unserer Extraktion erfolgt vor diesem Hintergrund. 3.1 Erstglieder, die auf andere Vokale als Schwa enden In den extrahierten Daten befanden sich vor den Ausschlüssen (vgl. Abschnitt 2.2) 608 unterschiedliche Kompositumvorkommen (Tokens), deren Erstglieder auf einen anderen Vokal als Schwa enden. Eine Übersicht über die allerwichtigsten Frequenzen gibt Tabelle 2.26 Nur ca. 7 % der Erstgliedtypen lassen dabei ein Fugenelement zu. Damit erscheint die Nichtverfugung als der Standardfall (z. B. Bau|forschung, Knie|beuge, See|rose). Von dieser wird nur bei folgenden zehn Erstgliedern abgewichen: Ei, Firma, Frau, Galerie, Idee, Partei, Pfarrei,27 Putzfrau, See (Mask.) und Thema. Die dabei auftretenden Fugenelemente entsprechen formal durchgängig den Pluralsuf- Tab. 2: Frequenzen von Erstgliedern, die auf andere Vokale als Schwa enden, in Abhängigkeit von der Verfugungsvariante26 Anzahl Erstglied auf andere Vokale als Schwa Komposita (Tokens) Erstglieder (Typen) mit Fugenelement 71 10 ohne Fugenelement 537 134 Gesamt 608 140 fixen. Mit fünf der Erstglieder werden in unserem Material nur solche verfugten Komposita gebildet, in denen das Erstglied tatsächlich für eine Mehrzahl von Referenten steht, vgl. z. B. Galerie|n|verband, Idee|n| wettbewerb, Partei|en|streit, Pfarrei|en| gemeinschaft und See|n|land. Drei dieser Erstglieder finden sich in unserem Material auch in unverfugten Komposita wieder, vgl. z. B. See|ufer, Partei|tag und Pfarrei|heim. Sie verweisen dann folgerichtig auf Einzelreferenten. Mit den restlichen fünf Erstgliedern werden verfugte Komposita gebildet, in denen das Erstglied auch nur für einen Referenten steht bzw. stehen kann, vgl. Ei|er|kopf, Firm|en|logo, Frau|en|künstlerin, Putzfrau| en|leben und Them|en|aspekt. Am häufigsten ist dabei das Erstglied Frau, mit dem ca. 50 % Vorkommen (36 Tokens) der verfugten Komposita gebildet werden. Insgesamt legen unsere Daten im Bereich „Erstglieder auf andere Vokale als Schwa“ folgende Gesetzmäßigkeit nahe: Es wird kein Fugenelement gebraucht (es sei denn, es kommt ihm tatsächlich die Pluralbedeutung zu). Von dieser Regelung sind Erstglieder (fremden Ursprungs) auf -a (vgl. Firma, Thema) und einige native Erstglieder (vgl. Ei, Frau) ausgenommen. Bei den ersteren wird bei Verfugung die Endung -a getilgt. Bei den letzteren erklärt sich die Verfugung historisch.28 26 Vier Erstgliedtypen (Ei, Partei, Pfarrei und (der) See) erscheinen sowohl mit als auch ohne Fugenelement. 27 Galerie, Partei und Pfarrei sind als Suffigierungen auf -ie bzw. -ei zu betrachten. 28 So geht z. B. -er- in Ei|er|kopf auf ein Suffix zurück, das im Germanischen auch im Singular auftritt (vgl. Wegener 2008: 339f.). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 210 24.03.22 11:06 Fallstudie „Fugenelemente“ 3.2 Erstglieder, die auf Schwa enden Komposita mit Erstgliedern, die auf Schwa enden, sind dreimal so häufig (Tokens) wie Komposita, deren Erstglieder auf andere Vokale ausgehen. Eine Übersicht über die Frequenzen wird in Tabelle 3 gegeben.29 Anzahl Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Tab. 3: Frequenzen von Erstgliedern, die auf Schwa enden, in Abhängigkeit von der Verfugungsvariante29 Erstglied auf Schwa Komposita (Tokens) Erstglieder (Typen) mit Fugenelement 924 284 ohne Fugenelement 900 245 Gesamt 1824 482 Erstglieder mit Fugenelementen und solche ohne Fugenelemente halten sich hier in etwa die Waage. Die qualitative Auswertung unserer Daten erlaubt eine Reihe von Regeln aufzustellen, die einen Großteil der Daten beschreiben. Zunächst ist daran zu erinnern, dass nach schwach flektierenden Maskulina prinzipiell die Fuge -(e)n- gesetzt wird (z. B. Experte|n| meinung, Kunde|n|vorteil, vgl. Abschnitt 1.2). Die seltenen Ausnahmen werden etwa von Ortner et al. (1991: 91f.) angeführt. Auch substantivierte Adjektive und Partizipien flektieren schwach und erhalten standardmäßig die (e)n-Fuge, weswegen sie im Voraus aus den Daten ausgeschlossen wurden (vgl. Abschnitt 2.2). Bei anderen Nomen auf -e zeigen die Fälle ohne Fuge morphologische bzw. semantische Auffälligkeiten. Prinzipiell keine Fuge gesetzt wird in unserem Material nach 29 30 31 32 211 1. Nomen, die mit dem Präfix ge- beginnen. Es sind fast ausschließlich Neutra, die auf -e bzw. -de enden und meist als Zirkumfigierungen30 betrachtet werden können. Es handelt sich um Abstrakt- oder Kollektivbildungen, die oft aus Verben abgeleitet wurden, wie Gebäude, Gelände, Gemälde, Gemüse, Getreide, Gewebe. Allen gemeinsam ist, dass sie im Plural endungslos sind.31 Zu den Neutra gesellt sich das Femininum Gemeinde (z. B. in Gemeinde| vertreter), das in unserem Material ebenfalls nie ein Fugenelement zu sich nimmt, obwohl es einen n-Plural bildet.32 Im Weiteren finden sich unter den Erstgliedern, die von keinem Fugenelement gefolgt werden, vor allem 2. Nomen, die in der für das Kompositum relevanten Bedeutung im Plural nicht üblich sind. In den Daten fallen hier insbesondere Ableitungen aus (vor allem trennbaren) Verben auf, die in den entsprechenden Komposita ihre abstrakte Bedeutung bewahren und auf Tätigkeiten oder Vorgänge verweisen wie in Aufgabe|recht, Anzeige|tafel oder Blüte|zeit. Manchmal kann an formal gleiche Ableitungen aber ein Fugenelement anschließen. Die Ableitungen nehmen dann konkretere Bedeutungen an und werden pluralisierbar, vgl. Aufgabe|n|struktur, Anzeige|n|markt oder Blüte|n|achse (dazu auch Ortner et al. 1991: 93). Ohne Fugenelemente treten meist auch Adjektivabstrakta wie in Güte|siegel, Härte|fall oder Hitze|entwicklung auf. Vorkommen der Adjektivabstrakta mit Fugenelement sind jedoch ebenfalls nicht selten, vgl. Breite|n|kultur, Größe|n|wahn oder Höhe|n|zug. Die Erstglieder auf Schwa, die in unserem Material mit der n-Fuge erscheinen, sind, wenn man von den schwach flektierenden 47 Erstgliedtypen (z. B. Aufgabe, Anzeige oder Blüte) erscheinen sowohl mit als auch ohne Fugenelement. Zur Zirkumfixderivation bei Nomen vgl. z. B. Fleischer und Barz (2012: 266f.). Die Relevanz dieses Aspekts wurde auch bei Bubenhofer et al. (2014: 220) deutlich. Im gesamten DeReKo (Release 2017-II) finden sich hier auch Verwendungen mit der n-Fuge. Das Erstglied kann dann für eine Mehrzahl von Referenten stehen (vgl. Gemeinde|n|gemeinschaft, Gemeinde|n|zusammenschlüsse). Die dazugehörigen Typen sind allesamt sehr selten. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 211 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 212 II Fallstudien Maskulina und dem Neutrum Auge (z. B. in Auge|n|zeuge) absieht, Feminina, die den Plural ebenfalls mit -n bilden. Sie weisen das Fugenelement regulär auf, d. h. auch dann, wenn sie auf individuelle Referenten verweisen wie in Etappe|n|sieg, Behörde|n|sprecher, Tabelle|n|führer. Bei einer kleineren Gruppe von femininen und neutralen Erstgliedern kann das Schwa getilgt werden, ohne dass ein Fugenelement hinzutritt, wie in Adress|buch, Kirch|gemeinde, Sach|lage, End|runde, Eck| ball. Bei einigen davon kann auch die n-Fuge vorkommen wie in Kirchen|gemeinde (vgl. dazu Kopf 2018: 39). Schließlich findet sich in unserem Material nach zwei femininen Erstgliedern das unparadigmische Fugenelement -s- wie in Hilf|s| werk und Liebe|s|film. Dabei wird bei Hilfe das Schwa getilgt. Mit Hilfe sind dann auch unverfugte Komposita ohne Schwatilgung wie Hilfe|leistung zu finden. Insgesamt werden im Bereich „Erstglieder auf Schwa“ folgende Regularitäten deutlich: Bei schwach flektierenden Erstgliedern tritt die n-Fuge auf. Sie ist auch ansonsten als Standardfall anzusehen. Die Nichtverfugung ist nur in einigen morphologisch spezifizierten Fällen obligatorisch (Gewerbe, Gelände). Sie tritt ansonsten bei abstrakt zu interpretierenden Erstgliedern auf, vor allem Ableitungen aus Verben und (seltener) Adjektiven. Die Phänomene Schwatilgung und s-Fuge sind auf wenige lexikalisch festgelegte Fälle beschränkt. Mit diesen Feststellungen erscheint die Verfugung nach Erstgliedern auf Vokale nicht mehr als nur durch sehr komplexe Regelverkettungen erklärbar (vgl. Bubenhofer et al. 2014: 223), sondern als weitgehend transparent geregelt. 4. Statistische Auswertung 4.1 Allgemeines zur Regressionsanalyse In diesem Teil sollen Variablen untersucht werden, die das Auftreten eines Fugenelements nicht eindeutig determinieren, die aber dennoch einen Einfluss darauf haben könnten. Beispielsweise könnte ein bestimmter Auslaut am Erstglied viel häufiger mit UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 212 einem Fugenelement einhergehen als ein anderer Auslaut. Ein solcher Zusammenhang wäre probabilistisch. Mithilfe einer Regressionsanalyse kann geschätzt werden, wie stark der Einfluss einzelner Variablen ist, und es lassen sich Aussagen über die Unsicherheit dieser Schätzungen machen (inwieweit also anzunehmen ist, dass vorgefundene Zusammenhänge nicht nur in der Stichprobe, sondern auch in der Grundgesamtheit bestehen). In einer gewöhnlichen linearen Regression wird der Einfluss einer oder mehrerer Größen (der unabhängigen Variablen oder Prädiktoren) auf eine abhängige Variable modelliert. Die Werte der abhängigen Variable werden vorhergesagt, indem die jeweiligen Ausprägungen der unabhängigen Variablen gewichtet und addiert werden (daher auch die Bezeichnung lineares Modell). Als „Gewicht“ wird für jede unabhängige Variable ein Koeffizient auf Basis der Stichprobe geschätzt, und dieses „Gewicht“ ist der (geschätzte) Effekt einer unabhängigen Variable auf die Werte der abhängigen Variable. Die abhängige Variable ist dabei mindestens intervallskaliert (z. B. die gemessene Artikulationszeit von Vokalen in einem phonetischen Experiment). In der Korpuslinguistik kommen intervallskalierte Variablen als abhängige Variablen jedoch kaum vor. Viel häufiger hat man es mit Ausprägungen einer kategorialen Variable zu tun, z. B. Genitiv vs. Dativ als Ausprägungen der Variable Kasus, oder Anwesenheit vs. Abwesenheit als Ausprägungen der Variable Fugenelement, wie in dieser Fallstudie. Eine abhängige Variable, die nur zwei Werte annehmen kann, erfüllt jedoch nicht die Voraussetzungen für eine gewöhnliche lineare Regression. Aus diesem Grund muss man eine angepasste Form der Regression verwenden: In einem generalisierten linearen Modell wird die abhängige Variable nicht direkt modelliert, sondern erst durch eine Funktion transformiert. Diese transformierte Variable wird dann als lineare Kombination der gewichteten unabhängigen Variablen modelliert, wie gerade beschrieben. Für Variablen mit zwei Ausprägungen (Anwesenheit vs. Abwesenheit, Genitiv vs. Dativ usw.) ist es am üblichsten, als Funktion die sog. 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Fugenelemente“ Logit-Transformation33 zu verwenden – man bekommt dann eine logistische Regression. Der Regression liegt die Annahme zugrunde, dass es in Wirklichkeit einen Prozess gibt, der die Daten erzeugt hat, und dass die Struktur des Modells (Welche unabhängigen Variablen gehen in welcher Form ein?) diesen datengenerierenden Prozess abbildet. Ist die Modellspezifikation nicht korrekt (z. B. weil wichtige unabhängige Variablen fehlen), können auch die geschätzten Koeffizienten verzerrt sein und/oder die Genauigkeit der Schätzung falsch dargestellt werden. In der Praxis bleibt die Modellspezifikation allerdings meist nur eine Annäherung. Bei der Entwicklung der Modellspezifikation folgen wir der Empfehlung von Berk et al. (2010), mit zwei separaten Stichproben zu arbeiten. Anhand der ersten Stichprobe wird zunächst das Modell erarbeitet (also bestimmte Prädiktoren ein- oder ausgeschlossen) und der Einfluss der im Modell verbleibenden Prädiktoren wird anschließend auf dem zweiten Datensatz evaluiert.34 4.2 Analyse der Fugenelementdaten Der Datensatz, auf dem „getestet“ wurde und über den im Folgenden berichtet wird, umfasst 5618 Belege.35 Er enthält ein zufällig ausgewähltes Token pro Kompositumtyp,36 eventuell vorhandene weitere Tokens desselben Typs wurden entfernt. Von den 5618 Kompositumtypen im Datensatz weisen 1513 (27 %) ein Fugenelement auf, in knapp 80 % der Fälle ist dies -s oder -es. In den 5618 KomAnhang positumtypen zur Fahnenkorrektur kommen von Kap. 11: 1688 verschiedene Fugenelemente im Korpus: und 924 (55 %) davon Lemmata alsRegelhaftigkeit Erstglied vor, Variation jeweils nur in einem einzigen Kompositumtyp. Auf der anderen Seite gibt es einige we26. November 2021 213 nige hochfrequente Erstgliedlemmata (z. B. Land, Staat, Bund), und die häufigsten 178 (11 %) Lemmata decken dabei die Hälfte der 5618 Kompositumtypen ab. Obwohl bei der Aufbereitung des Datensatzes bereits Fälle ausgeschlossen wurden, bei denen aufgrund formaler Merkmale das Auftreten eines Fugenelements eindeutig vorhersagbar ist (z. B. Erstglieder, die mit bestimmten Suffixen enden, vgl. Abschnitt 2.2), gibt es bei den im Datensatz verbleibenden Erstgliedern jeweils sehr wenig Variation hinsichtlich der Fuge: Ob ein Fugenelement auftritt oder nicht, scheint in erster Linie eine Idiosynkrasie des Erstglieds zu sein. So zeigen von 1688 Erstgliedlemmata nur 106 (6 %) überhaupt Variation, d. h., sie treten mindestens einmal mit Fugenelement und mindestens einmal ohne Fugenelement auf. Und auch bei diesen Lemmata ist in der Regel eine der Varianten deutlich dominant und die andere Variante marginal. Tabelle 4 illustriert einige Fälle. In unserem Datensatz kommt knapp die Hälfte der Erstglieder mehr als einmal vor und Datenpunkte, die dasselbe Erstglied aufweisen, sind nicht unabhängig voneinander. Unabhängigkeit der einzelnen Beobachtungen ist jedoch eine Voraussetzung für einfache Regressionsmodelle. Sind die Beobachtungen nicht unabhängig, sondern gruppiert (wie hier nach dem Erstglied), sollte dies in der Regressionsanalyse berücksichtigt werden, in der Regel dadurch, dass man ein hierarchisches Modell (mixedeffects Modell) spezifiziert, das den Korrelationen zwischen den Datenpunkten Rechnung trägt. Wir verzichten hier auf eine solche Modellierung und gehen einen anderen Weg, indem wir den Datensatz so modifizieren, dass die Abhängigkeiten zwischen den Datenpunkten eliminiert werden (zumindest, was das Erstglied betrifft) und ein 33 Das Logit (oder log odds) ist die logarithmierte Chance (odds) eines Ereignisses. Die Chance ist das Verhältnis der Wahrscheinlichkeit eines Ereignisses zur Wahrscheinlichkeit, dass das Ereignis nicht eintritt: Seite 213, Fn. 34: Die verlorengegangene Formel bitte wieder einfügen. logit(p) = log p 1−p 34 Zur Problematik, auf demselben Datensatz Modellselektion zu betreiben und statistisch zu testen, vgl. auch Leeb und Pötscher (2005). 35schlecht Der separate Datensatz, dessen das Modell entwickelt wurde, hat eine vergleichbare Größe. Seite 215, Abb. 1: Die aufgelöste Formel bitte durch Folgende anhand ersetzen. 36 Als Kompositumtyp bezeichnen wir die Kombination von einem bestimmten Erstgliedlemma mit einem P (F ugei = 1) = logit−1 (β0 + β1 REGi + β2 ARTi + β3 GENi + bestimmten Zweitgliedlemma, unabhängig davon, ob ein Fugenelement auftritt oder nicht. So werden z. B. β4 P ROi + β5 CLU STi + β6 F C1i + β7 F C2i ) Adventskranz und Adventkranz demselben Kompositumtyp zugerechnet. Seite 215, Fn. 40: Den in der Druckfahne markierten Term bitte durch die entsprechende Formel ersetzen: P = 7, 39 e2 = = 0, 88. e2 + 1 8, 39 1 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 213 24.03.22 11:06 214 II Fallstudien Tab. 4: Beispiele für Erstgliedlemmata mit variablem Verfugungsverhalten (absolute Frequenz der Varianten) Erstgliedlemma mit Fuge Bsp. Tokens Bsp. 10 Nachbarkreis, Nachbarhaus 1 Nachbarsjunge Arbeit 2 Arbeitnehmer, Arbeitgeber 44 Arbeitsweg, Arbeitstag Fastnacht 1 Fastnachtsamstag 3 Fastnachtskampagne, Fastnachtsriege Gast 21 Gastmusiker, Gastgewerbe 2 Gästeteam, Gästebesuch Land 24 Landenge, Landfläche 59 Landespolizei, Landesmeister einfaches logistisches Regressionsmodell verwendet werden kann.37 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Nachbar ohne Fuge Tokens 4.2.1 Modellspezifikation Die Modellspezifikation in Abbildung 1 beinhaltet die in Tabelle 5 erläuterten sieben unabhängigen Variablen. In diesem logistischen Regressionsmodell wird die Wahrscheinlichkeit für das Auftreten eines Fugenelements im Fall i modelliert, indem zunächst eine Summe gebildet wird, die sich im Wesentlichen aus den Werten der 7 unabhängigen Variablen im Fall i zusammensetzt, jeweils multipliziert mit dem dazugehörigen Koeffizienten β1 ... β7.38 Hinzuaddiert wird noch eine Konstante β0. Die Werte der Koeffizienten β0 … β7 sind unbekannte Eigenschaften der Grundgesamtheit und werden deshalb anhand der Stichprobe als β�0 … β�7 geschätzt. Ist ein Koeffizient = 0, Tab. 5: Übersicht über die unabhängigen Variablen und mögliche Werte Variable Erklärung Typ Werte reg Region Faktor Ueberregional, Nord, Mitte, Sued art Artikulationsart letztes Segment Erstglied Faktor frikativ, plosiv, liquidnasal gen Genus Erstglied Faktor Mask, Neut, Fem pro Prosodische Struktur Erstglied Faktor einsilbig, endbetont, nicht-endbetont clust Anzahl Konsonaten im Codacluster (Endsilbe Erstglied) numerisch 0, 1, 2, 3 fc1 Frequenzklasse Erstglied numerisch 1, 2, 3, 4 ... fc2 Frequenzklasse Zweitglied numerisch 1, 2, 3, 4 ... 37 Ein Grund dafür ist, dass die Einführung hierarchischer Modelle den Rahmen dieses Kapitels übersteigen würde. Ein weiterer Grund dafür liegt in der Natur der Daten: Da das Erstgliedlemma ein fast perfekter Prädiktor für das Auftreten eines Fugenelements ist, würde ein hierarchisches Modell mit sog. random factors (in unserem Fall wären das z. B. die Lemmata des Erstglieds) fast ausschließlich extreme Wahrscheinlichkeiten vorhersagen (nahe 0 oder nahe 1) und der Schätzalgorithmus würde nur langsam oder überhaupt nicht konvergieren. Praktisch bedeutet das, dass man das Wesentliche hier auch ganz ohne Modell erfassen kann: Bei den im Datensatz verbliebenen Komposita ist das Auftreten eine Fugenelements fast ausschließlich eine Idiosynkrasie des Erstglieds. 38 Die Darstellung ist hier kompakt und vereinfacht. Tatsächlich werden Faktoren mit mehr als zwei Ausprägungen (das betrifft in dieser Studie alle Faktoren) als Kombination von Faktoren mit genau 2 Ausprägungen repräsentiert (Dummy-Kodierung). Das Modell hat also technisch mehr als 7 unabhängige Variablen. Dies ist z. B. auch in Abbildung 2 und Tabelle 6 ersichtlich. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 214 24.03.22 11:06 Fallstudie „Fugenelemente“ 215 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Abb. 1: Spezifikation des logistischen Regressionsmodells besteht kein Zusammenhang zwischen der zugehörigen unabhängigen Variable und der abhängigen Variable (dies wird zunächst einmal als „Nullhypothese“ angenommen). Um die vorhergesagte Wahrscheinlichkeit für den Fall i zu erhalten, wird die Summe wieder in eine Wahrscheinlichkeit überführt.39 Damit ein einfaches logistisches Regressionsmodell verwendet werden kann, sollten möglichst keine Abhängigkeiten zwischen den einzelnen Datenpunkten bestehen. Dies lässt sich hier erreichen, indem wir in unserer Stichprobe (n = 5618) von allen Belegen mit mehrfach vorkommenden Erstgliedern nur einen zufällig ausgewählten Beleg pro Erstglied behalten und aus dem so reduzierten Datensatz eine Zufallsstichprobe (n = 1000) ziehen. Anhand dieser Daten werden nun die Koeffizienten β0 … β7 geschätzt. Dann wird das ganze Verfahren wiederholt, sodass die Koeffizienten β0 … β7 auf einer leicht anderen Datengrundlage geschätzt werden und erwartbar etwas von der ersten Schätzung abweichen. Wiederholt man dieses Verfahren noch einige Male, erhält man Verteilungen der Koeffizientenschätzungen, die man grafisch darstellen und visuell beurteilen kann. Wir haben dieses Verfahren 500 Mal wiederholt. Gerade in Szenarien wie unserem, bei denen die Modellspezifikation zum Teil heuristisch vorgenommen wurde, kann es leicht passieren, dass Koeffizientenschätzungen im Wesentlichen Idiosynkrasien einer gegebenen Stichprobe abbilden. Durch die zahlreichen Replikationen mit leicht unterschiedlichen Datensätzen versuchen wir, dem entgegenzuwirken. Die Verteilung der Koeffizientenschätzungen für jede unabhängige Variable sowie deren Mit- telwert zeigt Abbildung 2. Für jedes der 500 Modelle wurden zudem zwei Werte berechnet, die Aufschluss über die Anpassungsgüte des Modells geben: 1. Nagelkerkes (1991) Pseudo-R2, das Werte zwischen 0 und 1 annimmt und sich weitgehend analog zum Bestimmtheitsmaß R2 interpretieren lässt, mit dem bei gewöhnlichen linearen Regressionen der Anteil der durch das Modell „erklärten“ Varianz gemessen wird. 2. der PRE-Wert (proportional reduction in error): Dabei wird das Modell als Klassifizierer verwendet, das für jeden Datenpunkt vorhersagt, ob ein Fugenelement auftritt, oder nicht. Diese Vorhersagen werden mit den tatsächlich beobachteten Werten (Fuge tritt auf vs. Fuge tritt nicht auf) verglichen und der Anteil der inkorrekt klassifizierten Datenpunkte ermittelt. Bei nur zwei Kategorien würde selbst ein einfaches Modell ohne Prädiktoren nicht mehr als 50 % der Fälle falsch klassifizieren, wenn es für jeden Datenpunkt die häufigere der beiden Kategorien (hier: „Fugenelement tritt nicht auf“) vorhersagen würde. Der PRE-Wert misst, um welchen Anteil sich diese Fehlerrate verringert, wenn ein Modell mit zusätzlichen Prädiktoren verwendet wird: Verringert sich die Fehlerrate nicht, ist PRE = 0; wenn es keine Fehler mehr gibt, ist PRE = 1; in allen anderen Fällen liegt PRE zwischen 0 und 1. Die Verteilung der R2Nagelkerke -Werte und PRE-Werte zeigen die letzten beiden Histogramme in Abbildung 2. 39 logit−1 ist die inverse Logitfunktion und transformiert ein Logit x zurück in eine Wahrscheinlichkeit: Ist die 2 Summe im linearen Term z. B. 2, dann ergibt sich daraus eine Wahrscheinlichkeit von P = 2e = 7,39 = 0,88. e +1 8,39 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 215 24.03.22 11:06 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 216 Abb. 2: Koeffizientenschätzungen und Modellgüte für das Regressionsmodell bei 500-fachem Resampling (n=1000). Die ersten 13 Histogramme zeigen die Verteilung für 13 geschätzte Koeffizienten. Vertikale Linien zeigen den Mittelwert (µ) an. Das vorletzte Histogramm zeigt die Verteilung von Nagelkerkes PseudoR2, das letzte Histogramm zeigt die Verteilung der PRE-Werte (proportional reduction in error) UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 216 24.03.22 11:06 Fallstudie „Fugenelemente“ 217 β� Variable Ausprägung reg Nord −0,29 Mitte −0,17 0,84 Sued 0,02 1,03 art OR Referenz 0,75 liquidnasal 0,45 1,57 plosiv 1,87 6,50 Neut −0,02 0,98 Fem −0,60 0,55 endbetont 0,96 2,64 nicht_endbetont 0,97 2,62 clust −0,46 0,63 fc1 −0,20 0,82 fc2 −0,08 0,93 gen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Tab. 6: Geschätzte Koeffizienten β� und geschätzte Chancenverhältnisse OR (odds ratio, = exp(β�)). Die dargestellten Werte sind Mittelwerte aus 500-fachem Resampling (n = 1000). Bei den Faktoren geben die Koeffizienten die Änderung in den Logits gegenüber der Referenzausprägung (rechte Spalte) an. Bei den metrischen Variablen geben die Koeffizienten die Änderung in den Logits für eine Einheit in der jeweiligen Variable an. Für clust entspricht eine Einheit einem Konsonanten im Cluster (clust = 0 bedeutet „kein Konsonantencluster“). Für fc1 und fc2 entspricht eine Einheit einer Abweichung von der mittleren Häufigkeitsklasse (= 11) um eine Häufigkeitsklasse pro Tabelle 6 zeigt für jeden Koeffizienten den Mittelwert aus 500 Schätzungen sowie das gemittelte Chancenverhältnis (odds ratio) und bei Faktoren die Referenzausprägung, auf die sich Koeffizient und Chancenverhältnis beziehen. 4.2.2 Interpretation Jeder der Koeffizienten zeigt die Änderung auf der Ebene der Logits an, die sich ergibt, wenn der Wert der entsprechenden Variable sich im Vergleich zur Referenzausprägung ändert (Faktoren) bzw. sich um eine Einheit vergrößert (metrische Variablen) und alle anderen Variablen konstant gehalten werden (wie in der Besprechung der einzelnen Faktoren unten illustriert wird). Der zugrundeliegende Referenzfall ist ein Kompositum aus Ueberregional Frikativ Mask Einsilbig einer überregionalen Quelle, bei dem Erstund Zweitgliedlemma eine mittlere Frequenzklasse haben,40 mit einem maskulinen, einsilbigen Erstgliedlemma, das auf einen Frikativ endet und kein Konsonantencluster am rechten Rand aufweist. Ein Beispiel für diese Kombination von Variablenausprägungen ist das Kompositum Kurs|verlust. Bezogen auf die Wahrscheinlichkeit für das Auftreten eines Fugenelements zeigen positive Koeffizienten an, dass diese zunimmt, negative Koeffizienten zeigen an, dass sie abnimmt. Um wie viel genau die Wahrscheinlichkeit ab- oder zunimmt, hängt auch von den Ausprägungen der anderen unabhängigen Variablen in einem gegebenen Fall ab. Für den gerade beschriebenen Referenzfall ist die vorhergesagte Wahrscheinlichkeit im Mittel 40 Die Variablen fc1 und fc2 wurden auf die mittlere Frequenzklasse (Median, in beiden Fällen 11) zentriert. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 217 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 218 II Fallstudien logit−1(−2,05) = 0,11. Dabei ist −2,05 der Mittelwert der geschätzten Koeffizienten für β0 (der „Intercept“ des linearen Modells), vgl. Abbildung 2.41 Bevor die Ergebnisse im Einzelnen besprochen werden, weisen wir darauf hin, dass wir diese Art von Effektschätzungen in korpuslinguistischen Studien lediglich als Anhaltspunkte dafür interpretieren, ob eine unabhängige Variable mit der abhängigen Variable assoziiert ist. Zu interpretieren ist im Wesentlichen das Vorzeichen des Koeffizienten, und allenfalls noch seine Größe im Verhältnis zu anderen Koeffizienten. Wir werten die Histogramme in Abbildung 2 für die einzelnen Prädiktoren hier nur visuell aus. Mittelwert und Streuung nehmen wir als Anhaltspunkt für die Beurteilung der Effekte, ihrer Kompatibilität mit existierenden Hypothesen und für eine Einschätzung darüber, welche Variablen im Rahmen weiterer Untersuchungen (einschließlich experimenteller Studien) berücksichtigt werden sollten. Region: In der Forschungsliteratur gibt es Hinweise auf regionale Variation bei Fugenelementen. Vor allem werden österreichische Formen mit paradigmischem und unparadigmischem -s- beobachtet wie in Unfall|s| geschehen und Fabrik|s|arbeiter, die mit bundesdeutschen Nullformen wie in Unfall|geschehen und Fabrik|arbeiter variieren (vgl. Ammon et al. 2004: 62; Kellermeier-Rehbein 2005: 23). Auch in der Schweiz kommen zusätzliche s-Formen wie in Anleihen|s| markt, Zug|s|unglück, Ausfuhr|s|artikel neben Formen ohne -s- vor (vgl. KellermeierRehbein 2005: 26). Donalies stellt fest, dass es regional bedingte Varianten gibt, diese aber nur für einzelne Erstglieder verlässlich gelten, meist sogar nur für einzelne Erstglieder mit gleichem Zweitglied, wie bei Schaf|fleisch neben Schaf|s|fleisch (vgl. Donalies 2011: 92). In unseren Daten gibt es kein Indiz dafür, dass regional bestimmte Zusammensetzungen etwa vermehrt mit dem Fugen-s vorkom- men. Die Koeffizienten für die Ausprägungen der Variable reg liegen alle nahe bei 0. Nur bei der Ausprägung Nord lässt die Verteilung der geschätzten Koeffizienten vermuten, dass hier tatsächlich ein (schwacher) Effekt vorliegen könnte. Das negative Vorzeichen zeigt an, dass bei Belegen aus der Region Nord die Wahrscheinlichkeit für ein Fugenelement im Vergleich zur Referenzausprägung Ueberregional abnimmt. Die Daten sind dennoch relativ gut mit der Nullhypothese (Koeffizient = 0, also kein Effekt) kompatibel. Artikulationsart: Im Gegensatz dazu scheint die Artikulationsart des letzten Segments des Erstgliedlemmas (Faktor art) einen entscheidenden Einfluss auf das Auftreten eines Fugenelements zu haben. Die Vergleichsbasis sind Erstglieder, die auf Frikativ enden. Verglichen mit diesen steigt die Wahrscheinlichkeit für ein Fugenelement, wenn das Erstglied auf Plosiv endet: Der Koeffizient ist positiv, sein Mittelwert ist mit 1,87 deutlich verschieden von 0 und die Streuung in Abbildung 2 spricht für einen tatsächlichen Effekt. Exponiert man diesen Koeffizienten (e1,87 = 6,5), erhält man das Chancenverhältnis (odds ratio): Verglichen mit Erstgliedern, die auf Frikativ enden, ist die Chance ein Fugenelement vorzufinden, sechseinhalbmal größer, wenn das Erstglied mit einem Plosiv endet. Für ein Kompositum, das sich nur im Auslaut des Erstglieds vom Referenzfall entsprechend unterscheidet (z. B. Krieg|s|dienst), liegt die vorhergesagte Wahrscheinlichkeit für ein Fugenelement bei logit−1(−2,05 +1,87) = 0,46. Der Koeffizient für die Ausprägung liquidnasal weist in die gleiche Richtung (positives Vorzeichen), ist mit durchschnittlich 0,45 jedoch deutlich kleiner, und es müsste in diesem Fall weiter untersucht werden, ob es sich um einen echten Effekt handelt. Genus: Beim Faktor gen dienen als Referenz maskuline Erstglieder, und nur der Koeffizient 41 Dies ist die vorhergesagte Wahrscheinlichkeit für eine Grundgesamtheit, aus der die verwendeten Datensätze (jeweils n=1000) Zufallsstichproben entnommen sind. Die Datensätze sind gegenüber der eigentlichen Grundgesamtheit (in etwa: Menge aller zweigliedrigen nominalen Komposita im Korpus) verändert worden (keine Erstglieder, die auf Vokal enden; nur ein Exemplar pro Kompositumtyp; nur ein Exemplar pro Erstgliedlemma usw.). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 218 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Fugenelemente“ für die Ausprägung Fem ist im Mittel nennenswert verschieden von 0, während die Schätzungen für die Ausprägung Neut sich einigermaßen gleichmäßig um 0 verteilen. Letzteres deutet darauf hin, dass es sich bei Schätzungen jenseits von 0 um zufällige Assoziationen in den jeweiligen Stichproben handelt. Der Koeffizient für gen = Fem (−0,6) hat ein negatives Vorzeichen, im Vergleich zu Maskulina nimmt also die Wahrscheinlichkeit für ein Fugenelement bei Feminina ab. Die Chance, bei Feminina ein Fugenlement vorzufinden, ist damit nur etwa halb so groß, wie bei Maskulina (odds ratio = 0,55). Im verwendeten Datensatz gibt es kein Kompositum, das sich vom Referenzfall nur im Erstglied-Genus unterscheidet, sodass wir auf eine Illustration hier verzichten. Prosodie: Im Vergleich zu einsilbigen Erstgliedern, die hier als Referenz dienen, haben mehrsilbige Erstglieder eine höhere Wahrscheinlichkeit, mit einem Fugenelement aufzutreten: Die Mittelwerte für die beiden geschätzten Koeffizienten (pro = endbetont, pro = nicht_endbetont) haben ein positives Vorzeichen, sind deutlich verschieden von Null, und auch ihre Streuung zeigt an, dass die Koeffizienten stabil größer als 0 geschätzt wurden. Endbetonte und nicht-endbetonte Erstglieder unterscheiden sich dabei nicht wesentlich, für beide ist die Chance, mit einem Fugenelement aufzutreten, gut zweieinhalb Mal höher als bei einsilbigen Erstgliedern. Für eventuelle Folgestudien zur Verfugung vs. Nicht-Verfugung wäre deshalb zu überlegen, nur noch zwischen einsilbigen und mehrsilbigen Erstgliedern zu unterschieden, ohne Berücksichtigung der Akzentposition. Ein Kompositum, das sich nur hinsichtlich dieses prosodischen Merkmals vom Referenzfall unterscheidet (z. B. Beruf|s|politiker, Kongress|zentrum), hat eine vorhergesagte Wahrscheinlichkeit für ein Fugenelement von logit−1(−2,05 +0,96) = 0,25. Konsonantencluster: clust ist eine numerische Variable. Die Schätzung für den Koeffizienten ist im Mittel −0,46 und die Streuung der Werte lässt es plausibel erscheinen, dass tatsächlich ein Effekt vorliegt. Das negative Vorzeichen besagt, dass die Wahrscheinlichkeit für ein Fugenelement mit zunehmender Länge des Konsonantenclusters geringer UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 219 219 wird. Die Referenz ist hier ein Erstglied, das kein Konsonantencluster im Auslaut seiner letzten Silbe aufweist. Die odds ratio von e−0,46 = 0,63 zeigt hier an, um welchen Faktor sich die Chance pro Konsonant im Cluster verringert. Beispielsweise hat ein Erstglied mit zwei Konsonanten nur die 0,4-fache Chance, mit einem Fugenelement aufzutreten, im Vergleich zu einem Erstglied ohne Konsonantencluster (e2.−0,46 = e−0,46 . e−0,46 = 0,63 . 0,63 = 0,4). Für ein Kompositum, das sich nur in dieser Hinsicht vom Referenzfall unterscheidet (z. B. Kampf|hund, mit zwei Konsonanten vor dem auslautenden Konsonant), liegt die vorhergesagte Wahrscheinlichkeit für ein Fugenelement bei logit−1(−2,05 −0,46 −0,46) = 0,05. Frequenzklasse: Die Variablen fc1 und fc2 (Frequenzklasse von Erst- und Zweitgliedlemma) sind ebenfalls numerisch. In beiden Fällen ist der geschätzte Koeffizient im Mittel negativ, für fc1 ist er im Betrag jedoch deutlich größer (−0,2) als für fc2 (−0,08). Aus der Streuung geht hervor, dass praktisch alle Schätzungen unterhalb von 0 liegen. Frequenzklassen sind so definiert, dass seltene Lemmata eine höhere Frequenzklasse haben als häufige Lemmata (vgl. Abschnitt 2.1.2). Als Basisfall dient hier jeweils ein Lemma mit einer durchschnittlichen Frequenzklasse (in unserem Datensatz ist das für Erst- und Zweitglied Klasse 11). Die negativen Koeffizienten besagen, dass bei höheren Frequenzklassen (also selteneren Lemmata) die Wahrscheinlichkeit für ein Fugenelement abnimmt. Der Effekt ist deutlich größer für das Erstgliedlemma. Die odds ratio (e−0,2 = 0,82) für fc1 lässt sich am besten an einem Beispiel erklären: Hat ein Erstgliedlemma eine um 2 größere Häufigkeitsklasse als ein durchschnittlich häufiges Erstgliedlemma (hat es also für die Variable fc1 den Wert 2), dann verringert sich die Chance für ein Fugenelement um den Faktor e−0,2.2 = 0,82 . 0,82 = 0,67, also um ein Drittel. Hat ein Erstgliedlemma eine um 2 kleinere Häufigkeitsklasse als ein durchschnittlich häufiges Erstgliedlemma (also Wert −2 für die Variable fc1), dann vergrößert sich die Chance um den Faktor e−0,2.−2 = 1,5, sie ist also eineinhalbmal so groß. An einem Beispiel illustriert: Komposita wie Spruch|band und Fluss|lauf 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 220 II Fallstudien unterscheiden sich vom Referenzfall nur bezüglich der Frequenzklasse des Erstglieds (sie ist in beiden Fällen 13, die Erstglieder sind also seltener als im Referenzfall; kodiert als Differenz zur mittleren Frequenzklasse haben beide also den Wert +2). Die vorhergesagte Wahrscheinlichkeit liegt in diesen Fällen bei logit−1(−2,05 −0,2 −0,2) = 0,08. Die odds ratio für fc2 (e−0,08 = 0,92) lässt sich analog interpretieren, jedoch ist der Effekt kleiner: Bei zwei Frequenzklassen Abweichung nach unten (also Frequenzklasse 9) wächst die Chance für ein Fugenelement z. B. nur um den Faktor e−0,08.−2 = 1,17. Zur Illustration: Das Kompositum Kurs|ziel unterscheidet sich nur darin vom Referenzfall, dass sein Zweitgliedlemma eine um 2 kleinere Frequenzklasse hat (kodiert als −2), es kommt also häufiger vor als das durchschnittliche Zweitgliedlemma. Die vorhergesagte Wahrscheinlichkeit liegt hier bei logit−1(−2,05 +0,08 +0,08) = 0,15. Anpassungsgüte: Der Wert für Nagelkerkes Pseudo R2 ist im Mittel 0,21, der Anteil der durch die unabhängigen Variablen „erklärten“ Varianz in den Daten ist damit eher niedrig. Dies könnte einerseits an einer fehlerhaften Modellspezifikation liegen (zu denken ist hier in erster Linie an eventuell ausgelassene relevante Prädiktoren). Andererseits erscheint es auch plausibel anzunehmen, dass im Wesentlichen lexikalische Eigenschaften (vor allem des Erstglieds) eine entscheidende Rolle spielen, die durch unsere Prädiktoren nicht erfasst werden und bei denen es sich möglicherweise um Idiosynkrasien handelt. Ein ähnliches Bild ergibt sich hinsichtlich des PRE-Werts: Er liegt durchschnittlich bei 0,1; in unserem Modell kann die Information aus den sieben Prädiktoren den Vorhersagefehler nur um 10 % reduzieren (gegenüber einem Modell ohne Prädiktoren). 5. Reflexion 5.1 Linguistische Aspekte Die Untersuchung der Variation zwischen dem Auftreten und dem Nicht-Auftreten eines Fugenelements befasste sich in ihrem qualitativen Teil (Abschnitt 3) mit Komposita, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 220 deren Erstglieder auf einen Vokal enden. Sie führte dabei zu Ergebnissen, die sich folgendermaßen zusammenfassen lassen: • Bei Erstgliedern, die auf einen anderen Vokal als Schwa enden, werden in der Regel keine Fugenelemente gebraucht (z. B. See|ufer), es sei denn dem Fugenelement soll die Funktion zukommen, den Plural zu markieren (z. B. See|n|land). • Bei Erstgliedern auf Schwa bildet die nFuge den Standardfall (z. B. Experte|n| meinung, Familie|n|kreis). Die Nichtverfugung hingegen beschränkt sich weitgehend auf morphologisch und/oder semantisch spezifizierbare Fälle wie Komposita mit Erstgliedern mit dem Präfix ge- (z. B. Gewerbe|gebiet) oder Abstrakta, die aus Verben (z. B. Aufgabe|recht) oder Adjektiven (z. B. Güte|siegel) abgeleitet sind – den Erstgliedern liegen in solchen Fällen Nomen zugrunde, die in der relevanten Bedeutung im Plural nicht üblich sind. In beiden Bereichen können in beschränktem Maße idiosynkratische bzw. historisch erklärbare Abweichungen von den genannten Grundregeln vorkommen (z. B. Ei|er|kopf, Frau|en|künstlerin im ersteren oder Kirch| gemeinde im letzteren Bereich). In unseren Ergebnissen werden die Erkenntnisse aus der bisherigen Forschung (vgl. z. B. Ortner et al. 1991: 50–111 oder Fuhrhop 1996) systematisiert, präzisiert und erweitert. Der statistische Teil der Untersuchung zum Auftreten und Nicht-Auftreten eines Fugenelements (Abschnitt 4) befasste sich mit Komposita, deren Erstglieder einen konsonantischen Auslaut aufweisen (ausgeschlossen wurde allerdings eine Reihe von Erstgliedtypen, die keine bzw. wenig Variation der Verfugung zulassen). Die Ergebnisse der Analyse legten bei einigen der untersuchten potenziellen Einflussfaktoren nahe, dass sie tatsächlich für das Verfugungsverhalten von Komposita von Bedeutung sind. Die Wahrscheinlichkeit für das Auftreten eines Fugenelements steigt, • wenn das Erstglied auf einen Plosiv auslautet statt Frikativ (z. B. Krieg|s|dienst) und 24.03.22 11:06 Fallstudie „Fugenelemente“ • wenn das Erstglied mehrsilbig ist statt einsilbig (z. B. Beruf|s|politiker). • Erstglieder auf Konsonanten (vgl. Abschnitt 4) Die Wahrscheinlichkeit für das Auftreten eines Fugenelements sinkt Mit unserer Untersuchung konnten wir vor allem zur genaueren Beschreibung des Verfugungsverhaltens und seiner Einflussfaktoren in Bezug auf die Gruppen 2 und 3 beitragen. Dabei wurden einerseits Erkenntnisse aus der traditionelleren, introspektiv geprägten Forschung, die aus empirischer Perspektive lediglich als Hypothesen einzustufen sind, überprüft und andererseits einige neue Hypothesen evaluiert. Wünschenswert wäre jetzt eine komplementäre Anschlussuntersuchung, die anhand des vorliegenden Datensatzes die potenziellen Einflussfaktoren für die Wahl einer bestimmten Fuge überprüft (vgl. Fragestellung 1 aus Abschnitt 1). In einer solchen Untersuchung könnten die aus Bubenhofer et al. (2014) gewonnen Erkenntnisse mit neuen Methoden validiert und vertieft werden. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 • mit steigender Anzahl der Konsonanten am Ende des Erstglieds (z. B. Kampf|hund) und • mit steigender Frequenzklasse des Erstglieds (d. h. bei seltenerem Erstglied, z. B. Spruch|band). wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 221 Die involvierten Einflussfaktoren können allerdings der statistischen Analyse zufolge nur einen eher geringen Teil der Varianz in den Daten erklären. Somit scheinen insbesondere idiosynkratische Eigenschaften des Erstglieds darüber zu entscheiden, ob ein Fugenelement auftritt oder nicht. Die Ergebnisse des statistischen Teils der Untersuchung sind, was die Feststellungen zu Erstgliedern auf Plosive und zur Mehrsilbigkeit des Erstglieds angeht, teilweise mit den Hypothesen aus der bisherigen Forschung kompatibel (vgl. z. B. Nübling und Szczepaniak 2009, 2011 und Fleischer und Barz 2012: 187f.). Unsere Befunde zu Konsonantenclustern und zur Frequenz des Erstglieds sowie unsere Folgerungen hinsichtlich lexikalischer Idiosynkrasien gehen über diese Hypothesen hinaus (vgl. z. B. Fuhrhop 1996: 525). Die Ergebnisse beider Teile unserer Untersuchung ergeben zusammen mit den Erkenntnissen aus der bisherigen Forschung ein Gesamtbild des Verfugungsverhaltens der N&N-Komposita. In diesem Bild zeichnen sich drei Gruppen von Erstgliedern ab, die unterschiedliches Verfugungsverhalten nach sich ziehen: 1. stabiles Verfugungsverhalten (immer oder nie mit Fuge) • Erstglieder auf bestimmte Endungen/ Suffixe (vgl. Abschnitt 2.2) • Erstglieder, die auf schwachflektierende Maskulina/Adjektivkonversionen zurückgehen (vgl. Abschnitt 2.2) 2. weitgehend geregeltes Verfugungsverhalten • Erstglieder auf Vokale (vgl. Abschnitt 3) 3. prinzipiell variables Verfugungsverhalten UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 221 5.2 Methodische Aspekte In unseren Analysen zur Variation zwischen dem Auftreten und dem Nicht-Auftreten eines Fugenelements waren wir bemüht, Komposita auszuschließen, bei denen anzunehmen war, dass das Erstglied keine bzw. kaum Variation zulässt. Für die Studie erwies sich eine Mischung aus qualitativen und quantitativen Analysemethoden als gewinnbringend. Die qualitative Auswertung schloss dabei an die Ergebnisse bisheriger Forschung an und konzentrierte sich auf Komposita mit Erstgliedern, die auf Vokal endeten. Deren Verfugungsverhalten erwies sich als weitgehend geregelt und u. a. durch semantische Variablen geprägt. Solche semantischen Variablen sind automatisch schwer zu erfassen und lassen sich deshalb am besten durch qualitative Analysen ermitteln (vgl. Abschnitt 3). Einflussvariablen phonologischer, morphologischer und lexikalischer Art, die automatisch gut zu erheben und deshalb für eine quantitative Auswertung geeignet sind, wurden in Abschnitt 4 in der quantitativen Studie zu Komposita mit Erstgliedern auf Konsonant berücksichtigt. Um zu überprüfen, ob es 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 222 II Fallstudien einen Zusammenhang zwischen den unabhängigen Variablen und dem Verfugungsverhalten in den Daten gibt, wurde im Rahmen der quantitativen Studie eine logistische Regressionsanalyse durchgeführt. Wie in Abschnitt 4.2 beschrieben, kamen in unserem Datensatz knapp die Hälfte der Erstglieder mehr als einmal vor, und die einzelnen Datenpunkte waren entsprechend nicht unabhängig voneinander. Um dennoch ein einfaches logistisches Regressionsmodell verwenden zu können, benutzten wir ein Resampling-Verfahren: Anhand vieler kleinerer Stichproben, in denen kein Erstglied mehr als einmal enthalten war, schätzten wir die Koeffizienten neu. Es ergab sich damit für jeden Koeffizienten eine Verteilung von geschätzten Werten, die visuell inspiziert und interpretiert wurde. Die logistische Regressionsanalyse stellte dabei eine gute Möglichkeit dar, die Wahrscheinlichkeit für ein Auftreten des Fugenelements in Abhängigkeit von den ausgewählten unabhängigen Variablen zu beurteilen. Weitere Untersuchungen, die – basierend auf dem vorliegenden Datensatz – die Variantenauswahl von Fugenelementen in den Blick nehmen könnten, würden unsere Studie komplettieren. Diese Analysen könnten zur Hypothesengenerierung zunächst deskriptiver Natur sein und die Verteilung der Fugenelemente im Korpus z. B. mithilfe von relativen oder normierten Werten und in Abhängigkeit von den erhobenen unabhängigen Variablen beschreiben und visualisieren (vgl. hierzu die Beschreibung deskriptiver Methoden in (→ Kapitel 21 [Aufbereitung Untersuchungsergebnisse] in diesem Band). Ein Desiderat stellt außerdem eine weitergehende systematische Überprüfung der Rolle des Zweitglieds dar: Sind überhaupt phonologische, morphologische oder semantische Einflussfaktoren auf das Verfugungsverhalten von Komposita beobachtbar, die sich auf das Zweitglied beziehen? Ein weiterer Aspekt, den wir im Rahmen der methodischen Reflexion berücksichtigen möchten, ist, dass die Daten von Korpusstudien typischerweise in natürlichen Kommu- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 222 nikationssituationen entstehen. Das heißt, dass ihre Entstehungsbedingungen in der Regel kaum kontrollierbar sind und beispielsweise soziodemographische Informationen über die Autor*innen der Texte oder situative Aspekte der Texterstellung nicht erfasst werden. Solche Faktoren könnten jedoch gut im Rahmen von experimentellen Erhebungen berücksichtigt werden. In einem Experiment könnten außerdem die gewählten unabhängigen Variablen, wie z. B. Silbenzahl oder Auslautart des Erstglieds systematisch variiert werden, um stärkere bzw. sicherere Aussagen über die Einflüsse auf die abhängige Variable (hier: das Verfugungsverhalten) zu treffen. Um eventuelle kausale Zusammenhänge besser beurteilen zu können, wären ebenfalls Untersuchungen experimenteller Natur geeignet. Bei gleichbleibendem Erst- und Zweitglied (z. B. Nachbar|haus vs. Nachbar|s|haus, Abfahrt|möglichkeit vs. Abfahrt|s|möglichkeit) könnte man den Fokus auf die Erklärung der Variation durch mögliche soziolinguistische Variablen, wie z. B. die Herkunft, das Alter oder den beruflichen Hintergrund der Befragten legen. Schäfer und Pankratz (2018) konnten beispielsweise zeigen, dass es mit experimentellen Methoden möglich ist, zu untersuchen, ob Versuchspersonen Fugenelemente als Pluralsuffixe interpretieren (z. B. bei Brett|er|bündel vs. Brett|er|schliff). Auch eine Studie, die eine mögliche Interpretation von Fugenelementen als Genitivsuffixe in den Blick nimmt, wäre sehr interessant. Die in dieser Studie gewonnenen Erkenntnisse könnten also für experimentelle Studien als Ausgangspunkt dienen. Prinzipiell wäre eine Zusammenführung von Daten aus Korpusuntersuchungen und solchen Daten, die experimentell gewonnen werden, gewinnbringend, denn durch eine systematische Analyse mit verschiedenen Methoden könnte bewertet werden, wie sich die Methoden am besten ergänzen. Auf diese Weise könnte eine höhere, kombinierte Aussagekraft der verschiedenen Datentypen im Sinne von konvergierender Evidenz erreicht werden. 24.03.22 11:06 Fallstudie „Fugenelemente“ 223 Zum Weiterlesen Hosmer et al. (2013) ist ein Standardwerk für logistische Regression. Gelman und Hill (2007) ist eine sehr gut verständliche Einführung in hierarchische („gemischte“) Modelle. Carsey und Harden (2014) ist eine sehr zugängliche Einführung in Resampling und Simulation und eignet sich auch gut als ergänzende Statistikeinführung. Greenland et al. (2016) behandeln weit verbreitete Missverständnisse im Zusammenhang mit p-Werten und verwandten statistischen Konzepten. Leech (2007) und Hunston (2008) behandeln Fragen der Korpuszusammensetzung und Repräsentativität. Koplenig (2019) diskutiert kritisch die Anwendung inferenzstatistischer Methoden in der Korpuslinguistik. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Literatur Ammon, Ulrich/Hans Bickel/Jakob Ebner/Ruth Esterhammer/Markus Gasser/Lorenz Hofer/Birte Kellermeier-Rehbein/Heinrich Löffler/Doris Mangott/Hans Moser/Robert Schläpfer/Michael Schloßmacher/Regula Schmidlin/Günter Vallaster, in Zusammenarbeit mit Rhea Kyvelos/Regula Oehler (2004): Nyffenegger/Thomas Variantenwörterbuch des Deutschen – Die Standardsprache in Österreich, der Schweiz und Deutschland sowie in Liechtenstein, Luxemburg, Ostbelgien und Südtirol, Berlin: de Gruyter. Berk, Richard/Lawrence Brown/Linda Zhao (2010): Statistical inference after model selection, in: Journal of Quantitative Criminology, Jg. 26, H. 2, S. 217–236. Bortz, Jürgen (2005): Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer. Bubenhofer, Noah/Caren Brinckmann/Katrin Hein (2014): Maschinelles Lernen zur Vorhersage von Fugenelementen in nominalen Komposita, in: Bubenhofer, Noah/Marek Konopka/Roman Schneider, Präliminarien einer Korpusgrammatik. Unter Mitwirkung von Caren Brinckmann, Katrin Hein und Bruno Strecker (=CLIP, Band 4), Tübingen: Narr, S. 183–227. Carsey, Thomas M./Jeffrey J. Harden (2014): Monte Carlo Simulation and Resampling Methods for Social Science, Thousand Oaks: Sage Publications. Demske, Ulrike (2001): Merkmale und Relationen. Diachrone Studien zur Nominalphrase des Deutschen (=Studia Linguistica Germanica, Band 56), Berlin/ New York: de Gruyter. Donalies, Elke (2002): Die Wortbildung des Deutschen (=Studien zur Deutschen Sprache, Band 27), Tübingen: Narr. Donalies, Elke (2011): Tagtraum, Tageslicht, Tagedieb. Ein korpuslinguistisches Experiment zu variierenden Wortformen und Fugenelementen in zusammengesetzten Substantiven. Mit einem Exkurs und zahlreichen Statistiken von Noah Bubenhofer (=amades – Arbeitspapiere und Materialien zur deutschen Sprache, Band 42), Mannheim: Institut für Deutsche Sprache. Eisenberg, Peter (2013): Grundriss der deutschen Grammatik. Band 1: Das Wort, 4. Aufl., Stuttgart/Weimar: Metzler. Fleischer, Wolfgang/Irmhild Barz (2012): Wortbildung der deutschen Gegenwartssprache, 4. Aufl., Berlin/ Boston: de Gruyter. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 223 Fuhrhop, Nanna (1996): Fugenelemente, in: Lang, Ewald/Gisela Zifonun (Hrsg.), Deutsch- typologisch (=Jahrbuch des Instituts für deutsche Sprache 1995), Berlin: de Gruyter, S. 525–550. Gallmann, Peter (1999): Fugenmorpheme als NichtKasus-Suffixe, in: Butt, Matthias/Nanna Fuhrhop (Hrsg.), Variation und Stabilität in der Wortstruktur. Untersuchungen zu Entwicklung, Erwerb und Varietäten des Deutschen und anderer Sprachen, Hildesheim/ New York/Zürich: Olms, S. 177–190. Gelman, Andrew/Jennifer Hill (2007): Data Analysis Using Regression and Multilevel/Hierarchical Models, Cambridge: Cambridge University Press. Greenland, Sander/Stephen J. Senn/Kenneth J. Rothman/John B. Carlin/Charles Poole/Stephen N. Goodman/Douglas G. Altman (2016): Statistical tests, P values, confidence intervals, and power. A guide to misinterpretations, in: European Journal of Epidemiology, Jg. 31, H. 4, S. 337–350. Hosmer, David W./Stanley Lemeshow/Rodney X. Sturdivant (2013): Applied Logistic Regression, 3. Aufl., Hoboken: Wiley. Hunston, Susan (2008): Collection strategies and design decisions, in: Lüdeling, Anke/Merja Kytö (Hrsg.), Corpus Linguistics. An International Handbook, Band 1, Berlin: de Gruyter, S. 154–168. Kellermeier-Rehbein, Birte (2005): Areale Wortbildungsvarianten des Standarddeutschen – Beiuntersuchung zum Variantenwörterbuch des Deutschen (=Duisburger Arbeiten zur Sprach- und Kulturwissenschaft, Band 61), Frankfurt a. M. [u. a.]: Peter Lang. Kopf, Kristin (2018): Fugenelemente diachron. Eine Korpusuntersuchung zu Entstehung und Ausbreitung der verfugenden N+N-Komposita, Berlin/Boston: de Gruyter. Koplenig, Alexander (2019): Against statistical significance testing in corpus linguistics, in: Corpus Linguistics and Linguistic Theory, Jg. 15, H. 2, S. 321–346. Kupietz, Marc/Cyril Belica/Holger Keibel/Andreas Witt (2010): The German Reference Corpus DeReKo. A primordial sample for linguistic research, in: Calzolari, Nicoletta/Khalid Choukri/Bente Maegaard/Joseph Mariani/Jan Odijk/Stelios Piperidis/ Mike Rosner/Daniel Tapias (Hrsg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010), Valletta/Malta: 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 224 II Fallstudien European Language Resources Association (ELRA), S. 1848–1854. Kupietz, Marc/Harald Lüngen/Pawel Kamocki/Andreas Witt (2018): The German Reference Corpus DeReKo. New developments – new opportunities, in: Calzolari, Nicoletta/Khalid Choukri/Christopher Cieri/Thierry Declerck/Sara Goggi/Koiti Hasida/Hitoshi Isahara/Bente Maegaard/Joseph Mariani/Hélène Mazo/Asuncion Moreno/Jan Odijk/Stelios Piperidis/Takenobu Tokunaga (Hrsg.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki/Japan: European Language Resources Association (ELRA), S. 4353–4360. Leeb, Hannes/Benedikt M. Pötscher (2005): Model selection and inference: facts and fiction, in: Econometric Theory, Jg. 21, H. 1, S. 21–59. Leech, Geoffrey (2007): New resources or just better old ones? The Holy Grail of representativeness, in: Hundt, Marianne/Nadja Nesselhauf/Carolin Biewer (Hrsg.), Corpus Linguistics and the Web, Amsterdam/New York: Rodopi, S. 133–149. Lohde, Michael (2006): Wortbildung des modernen Deutschen. Ein Lehr- und Übungsbuch, Tübingen: Narr. Nagelkerke, Nicolaas J. D. (1991): A note on a general definition of the coefficient of determination, in: Biometrika, Jg. 78, H. 3, S. 691–692. Neef, Martin (2009): IE, Germanic: German, in: Lieber, Rochelle und Pavol Stekauer (Hrsg.), The Oxford Handbook of Compounding, Oxford: Oxford University Press, S. 386–399. Nübling, Damaris/Antje Dammel/Janet Duke/Renata Szczepaniak (2017): Historische Sprachwissenschaft des Deutschen. Eine Einführung in die Prinzipien des Sprachwandels, 5. Aufl., Tübingen: Narr. Nübling, Damaris/Renata Szczepaniak (2009): Religion+s+freiheit, Stabilität+s+pakt und Subjekt(+s+) pronomen. Fugenelemente als Marker phonologischer Wortgrenzen, in: Müller, Peter O. (Hrsg.), Studien zur Fremdwortbildung, Hildesheim/New York/Zürich: Olms, S. 197–222. Nübling, Damaris/Renata Szczepaniak (2011): Merkmal(s?)analyse, Seminar(s?)arbeit und Essen(s?) ausgabe. Zweifelsfälle der Verfügung als Indikatoren für Sprachwandel, in: Zeitschrift für Sprachwissenschaft, Jg. 30, H. 1, S. 45–73. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 224 Ortner, Lorelies/Elgin Müller-Bollhagen/Hanspeter Ortner/Hans Wellmann/Maria Pümpel-Mader/ Hildegard Gärtner (1991): Deutsche Wortbildung. Vierter Hauptteil. Substantivkomposita (=Sprache der Gegenwart, Band 79), Berlin/New York: de Gruyter. Reichel, Uwe D./Thomas Kisler (2014): Language-independent grapheme-phoneme conversion and word stress assignment as a web service, in: Hoffmann, Rüdiger (Hrsg.), Elektronische Sprachverarbeitung (=Studientexte zur Sprachkommunikation, Band 71), Dresden: TUDpress, S. 42–49. Schäfer, Roland/Elizabeth Pankratz (2018): The plural interpretability of German linking elements, in: Morphology , Jg. 28, H. 4, S. 325–358, [online] https://link.springer.com/content/pdf/10.1007/ s11525-018-9331-5.pdf. Schlücker, Barbara (2012): Die deutsche Kompositionsfreudigkeit. Übersicht und Einführung, in: Gaeta, Livio/Barbara Schlücker (Hrsg.), Das Deutsche als kompositionsfreudige Sprache. Strukturelle Eigenschaften und systembezogene Aspekte, Berlin/Boston: de Gruyter, S. 1–25. Schmid, Helmut/Arne Fitschen/Ulrich Heid (2004): SMOR: A German computational morphology covering derivation, composition, and inflection, in: Lino, Maria Teresa/Maria Francisca Xavier/Fátima Ferreira/Rute Costa/Raquel Silva (Hrsg.), Proceedings of the IVth International Conference on Language Resources and Evaluation (LREC 2004), Paris: European Language Resources Association, S. 1263– 1266. Wellmann, Hans/Nikolaus Reindl/Annemarie Fahrmeier (1974): Zur morphologischen Regelung der Substantivkomposition im heutigen Deutschen, in: Zeitschrift für deutsche Philologie, Bd. 93, S. 358–378. Wegener, Heide (2008): The regrammaticalization of linking elements in German, in: Seoane, Elena/ María J. López-Couso (Hrsg.), Theoretical and empirical issues in grammaticalization, Amsterdam/Philadelphia: Benjamins, S. 333–355. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 16. April 2021. 24.03.22 11:06 225 12. Redewiedergabe in Hochliteratur und Heftromanen Diese Fallstudie1 untersucht die quantitative Verteilung von direkten und nicht-direkten Formen von Redewiedergabe im Vergleich zwischen zwei Literaturtypen: Hochliteratur – definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen – und Heftromanen – massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden. Die Studie geht von manuell annotierten Daten aus und überprüft daran die Verlässlichkeit automatischer Annotationswerkzeuge, die im Anschluss eingesetzt werden, um eine Untersuchung von insgesamt 250 Volltexten durchzuführen. Es kann nachgewiesen werden, dass sich die Literaturtypen sowie auch unterschiedliche Genres von Heftromanen hinsichtlich der verwendeten Wiedergabeformen unterscheiden. 1. Einleitung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Annelen Brunner, Fotis Jannidis Die vorgestellte Studie liegt an der Schnittstelle zwischen Linguistik und Literaturwissenschaft insofern, als dass sie eine literaturwissenschaftliche Fragestellung behandelt, die sich in der sprachlichen Form manifestiert. Der Begriff ‚Redewiedergabe’ im Titel steht hier für die Art und Weise, wie in einem Erzähltext die Rede, aber auch die Gedanken und schriftlichen Äußerungen einer Figur wiedergegeben werden. Welche Form gewählt wird – das direkte Zitat? eine Paraphrasierung? vielleicht nur eine kurze Erwähnung, dass eine Rede- oder Gedankenhandlung stattgefunden hat? – verrät viel über die Figurendarstellung im Text, das Verhältnis zwischen der Erzählerinstanz und den Figuren und die Darstellung der erzählten Welt insgesamt. Wenn etwa die Äußerungen von Figuren direkt zitiert werden, so wirkt dies üblicherweise unmittelbarer und eröffnet zudem die Möglichkeit, Charakterzüge einer Figur über deren Ausdrucksweise zu kommunizieren. Werden die Figurenstimmen durch die Erzählerstimme gefiltert, so verlieren diese einen Teil ihrer individuellen Färbung. Zugleich können leichter Wertungen und 1 Schwerpunktsetzungen – etwa durch Zusammenfassung – vorgenommen werden. Die Erzählerinstanz hat damit explizitere Kontrolle darüber, wie die Figuren wahrgenommen werden. Die verschiedenen Techniken der Wiedergabe werden deswegen in der literaturwissenschaftlichen Erzählforschung häufig auf einer Skala angeordnet zwischen unmittelbarer und mittelbarer Darstellung (vgl. Genette 1998; Martínez und Scheffel 2016) oder auch nach dem Grad der Treue zur ‚Originaläußerung’ der Figur (faithfulness, vgl. Leech und Short 2013). Es handelt sich um einen der klassischen Aspekte, die bei der wissenschaftlichen Untersuchung von Erzähltechnik betrachtet werden, und die Frage nach der Einbindung von Figurenreden und -gedanken ist Teil von fast allen umfassenderen erzähltheoretischen Darstellungen. Der Ansatz, dieses Thema von einer stark quantitativen Perspektive zu betrachten, ist jedoch ungewöhnlich und neuartig. Die vorgestellte Studie untersucht Redewiedergabe im Vergleich zwischen zwei Literaturtypen von gegensätzlichen Enden des Spektrums: Hochliteratur und Heftromane. Heftromane sind massenproduzierte Erzählwerke unterschiedlicher Genres, die zumeist Diese Studie wurde im Rahmen des DFG-Projekts „Redewiedergabe“ durchgeführt, gemeinsam mit meinen Kolleg*innen Ngoc Duyen Tanja Tu, Lukas Weimer, Stefan Engelberg und Fotis Jannidis, denen ich an dieser Stelle herzlich danke! Der Inhalt wurde auch in folgender Veröffentlichung vorgestellt: Brunner, Jannidis, Engelberg, et al. (2020). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 225 24.03.22 11:06 II Fallstudien über den Zeitschriftenhandel vertrieben werden und früher abwertend als „Romane der Unterschicht“ (vgl. Nusser 1979) bezeichnet wurden. In der neueren Literaturforschung haben diese Hefte, die bestimmt jeder schon einmal im Zeitschriftenhandel gesehen hat, wieder etwas Aufmerksamkeit erfahren und werden nicht mehr so abfällig betrachtet (vgl. z. B. Nast 2017; Stockinger 2018). Es ist jedoch nicht von der Hand zu weisen, dass sie deutlich andere Produktionsbedingungen und auch ein anderes Publikum haben als die Literatur, die wir als ‚Hochliteratur’ bezeichnen – gesellschaftlich besonders geschätzte Werke, die als wertvoll und ‚anspruchsvoll’ gelten. 2. Fragestellung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 226 Unsere Forschungsfrage lautet: Gibt es zwischen Heftromanen und Hochliteratur messbare Unterschiede in den verwendeten Wiedergabeformen? Ausgehend davon betrachten wir auch folgende, weiterführende Fragen: 1. Heftromane lassen sich in unterschiedliche Genres wie Krimi, Science-Fiction oder Liebesroman untergliedern, die durch Reihen („Jerry Cotton“, „Perry Rhodan“, „Julia Extra“ etc.) repräsentiert sind. Wie verhalten sich diese Genres zueinander und zur Hochliteratur in Hinblick auf die verwendeten Wiedergabeformen? Sind die Unterschiede zwischen den Genres untereinander vielleicht größer als zur Hochliteratur? 2. Bei der direkten Wiedergabe – also dem einfachen Zitat einer Figurenäußerung, wie z. B. Sie sagte: „Ich lese nur Literaturnobelpreisträger!“ – liegt eine klare Trennung zwischen Figurenstimme und Erzählerstimme vor. Andere Formen weisen, wie oben erwähnt, eine Vermischung der beiden Stimmen auf und sind teilweise auch grammatisch komplexer, wie die indirekte Wiedergabe, die Nebensatzkonstruktionen und häufig auch den Modus Konjunktiv aufweist. Man kann die Hypothese aufstellen, dass direkte Wiedergabe leichter verständlich und lesbar ist als andere Formen UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 226 der Wiedergabe. Zugleich gelten Heftromane als weniger komplexe Literaturform. Tritt direkte Wiedergabe folglich auch häufiger in Heftromanen auf? 3. Material, Methode und Analyse Wir planen eine quantitative Studie, d. h., unser Ziel ist es, die Anteile verschiedener Wiedergabeformen in Texten zu messen und zu vergleichen. Solche Studien werden überzeugender, je größer die Menge von Material ist, auf der sie beruhen. Gerade bei einem Phänomen wie Redewiedergabe muss man davon ausgehen, dass die Anteile von vielen Faktoren beeinflusst sind, z. B. vom Inhalt des Textes – eine Familiensaga hat vermutlich mehr Dialog als die Geschichte eines Schiffbrüchigen auf einer einsamen Insel – sodass es umso wichtiger ist, genug Daten zu haben, um solche Störfaktoren auszugleichen. Es ist jedoch sehr zeitaufwendig, Passagen von Redewiedergabe in Texten manuell zu markieren. Deswegen verwenden wir in der Studie ein Hilfsmittel: einen Redewiedergabe-Erkenner, d. h. ein Computerprogramm, das solche Passagen automatisch erkennt und auszeichnet. Im Bereich der maschinellen Sprachverarbeitung werden zahlreiche solche Hilfsmittel entwickelt, die dabei helfen, große Mengen von Sprachdaten zu analysieren. Die Erkennung von Redewiedergabe ist dabei ein ziemlich spezieller Anwendungsfall. Weitverbreitet und in quantitativen linguistischen Untersuchungen häufig verwendet sind vor allem Lemmatisierer, die Wörter auf ihre Grundform zurückführen (z. B. liest zu lesen), Tagger, die Wörtern morphologische Kategorien zuweisen, und Parser, die syntaktische Analysen durchführen. Daneben gibt es verschiedenste weitere Werkzeuge, die z. B. Wörtern semantische Kategorien zuweisen, den ‚Gefühlsgehalt’ eines Textes messen (Sentiment Analysis) oder automatisch den Referenten für Pronomen finden (→ Kapitel 14 [Annotation] in diesem Band). Solche Werkzeuge können außerordentlich nützlich sein. Wenn Sie damit arbeiten, gibt es jedoch einiges zu beachten: Automatische 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Redewiedergabe“ Werkzeuge liefern niemals 100% korrekte Ergebnisse und machen oft mehr und vor allem andere Arten von Fehlern als Menschen. Zudem ist immer der Kontext zu beachten, in dem sie entwickelt wurden. Dieser bestimmt das theoretische Modell, das ihnen zugrunde liegt (z. B. welche morphologischen Kategorien unterschieden werden und wie diese definiert sind), sowie auch die Art der Sprachdaten, für die sie entwickelt wurden. Eine Übertragung auf einen anderen Typ von Sprachdaten kann sehr problematisch sein – ein morphologischer Tagger etwa, der für moderne Zeitungssprache entwickelt wurde, wird deutlich schlechtere Ergebnisse liefern, wenn man ihn auf ChatDaten oder Texte aus dem 18. Jahrhundert anwendet. Darum ist es sehr wichtig, das Werkzeug an den eigenen Daten zu testen und seine Funktionalität zu bewerten, bevor man sich dazu entschließt, es in einer Studie zu verwenden. Wir werden dies weiter unten für unseren Anwendungsfall tun. Da automatische Werkzeuge immer für ein bestimmtes Kategoriensystem entwickelt werden, bedingt die Auswahl des Werkzeugs auch die Kategorien, mit denen später gearbeitet werden kann. Die vorgestellte Studie ist insofern ein Sonderfall, als sie im Kontext eines größeren Forschungsprojekts entstanden ist, dem ‚Redewiedergabe-Projekt’ (www.redewiedergabe.de). In diesem Projekt haben wir die automatischen Erkenner selbst entwickelt und konnten darum bestimmen, welche Fälle sie unterscheiden. Falls Sie nicht selbst Programmierer*in sind (oder eng mit jemand entsprechendem zusammenarbeiten), müssen Sie Ihre Fragestellung angesichts der verfügbaren Klassifikationen ggf. anpassen oder Wege finden, wie Sie diese adaptieren können, etwa indem Sie Kategorien zusammenfassen oder verfeinern. Solche Schritte müssen dann natürlich dokumentiert und begründet werden. Auch diesen Aspekt werden wir anhand dieser Fallstudie illustrieren. Zur Vorbereitung unserer Studie brauchen wir also folgende Vorüberlegungen: 1. Welches Korpusmaterial verwenden wir? 2. Welche Typen von Redewiedergabe unterscheiden wir und wie sind diese definiert? UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 227 227 3. Welches automatische Werkzeug verwenden wir und wie verlässlich sind die Ergebnisse, die dieses liefert? Die Punkte 2 und 3 sind, aus den oben beschriebenen Gründen, eng miteinander verknüpft. 3.1 Korpusmaterial Der geplante Vergleich beruht auf der Unterscheidung zwischen ‚Heftroman’ und ‚Hochliteratur’ und im zweiten Schritt auf der Unterscheidung zwischen verschiedenen Heftroman-Genres. Was die Heftromane angeht, ist die Definition dieser Kategorien zum Glück sehr einfach: Die Literaturform ist durch ihre Publikationsform klar erkennbar und die Genres durch explizit benannte Reihen repräsentiert und unterscheidbar. Die Gleichsetzung von Genre und HeftromanReihe ist allerdings natürlich eine Vereinfachung und sollte bei der späteren Interpretation der Ergebnisse im Auge behalten werden. Schwieriger ist es, zu entscheiden, was ‚Hochliteratur’ sein soll. Da die Bezeichnung vor allem eine gesellschaftliche Wertung widerspiegelt, haben wir uns dafür entschieden, solche Werke in unser Korpus aufzunehmen, die entweder einen Literaturpreis erhalten haben oder auf der Auswahlliste für einen standen – also Werke, die von einem literarisch geschulten Gremium als besonders herausragend bewertet wurden. Diese Definition hat den Vorteil, dass sie sehr gut operationalisierbar ist. Die nächste Frage ist, was der Untersuchungszeitraum sein soll. Wir wollen keine diachrone Studie durchführen; um genug Material zu bekommen, müssen wir allerdings in Kauf nehmen, dass dieses eine gewisse zeitliche Streuung aufweist. Wir beschränken uns auf die Periode von der Nachkriegszeit bis in die jüngste Vergangenheit (1947-2016), also modernere Literatur. Ein möglicher Störfaktor, den man vor allem bei literaturwissenschaftlichen Studien im Auge behalten muss, ist zudem die Verteilung der Autor*innen. Da unterschiedliche Autor*innen einen stark unterschiedlichen 24.03.22 11:06 228 II Fallstudien Tab. 1: Korpuszusammensetzung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Gruppe Anzahl Texte Unterschiedliche Autor*innen(-Pseudonyme) Hochliteratur 50 50 - Liebesroman 50 50 Julia Extra Science-Fiction 50 11 (2-5 Texte pro Pseudonym) Perry Rhodan Horror 50 4 (2-35 Texte pro Pseudonym) John Sinclair Krimi 50 Unbekannt Jerry Cotton Schreibstil haben können, besteht die Gefahr, dass andere Faktoren – z. B. die Literaturform Heftroman oder Hochliteratur, die uns ja eigentlich interessiert – von diesem Autor*innensignal überlagert werden, wir also versehentlich die Besonderheiten des Schreibstils einer Person messen statt die einer Literaturform. Wir versuchen folglich, bei unserer Korpuszusammensetzung möglichst viele unterschiedliche Autor*innen miteinzubeziehen. Bei den Heftromanen ist die Autorschaftsfrage allerdings etwas schwierig, da üblicherweise unter Pseudonym gearbeitet wird und durchaus auch mehrere Personen das gleiche Pseudonym benutzen können (vgl. Hügel 2001). Wir versuchen trotzdem, in unserem Korpus im Rahmen unserer Möglichkeiten auch bei den Heftromanen eine möglichst große Diversität bei den Autor*innen(-Pseudonymen) zu erzielen. Tabelle 1 zeigt einen Überblick über das Korpus, mit dem die Studie durchgeführt wird. Bei den Gruppen Hochliteratur und Liebesroman konnten wir unterschiedliche Autor*innen für jeden Text auswählen, bei Science-Fiction ist die Streuung mit zwei bis fünf Texten pro Pseudonym immerhin akzeptabel. Für die Gruppe Krimi war so gut wie keine Autor*inneninformation verfügbar – wir konnten nur vier der 50 Texten einigermaßen sicher Namen zuordnen und können auf dieser Grundlage davon ausgehen, dass mindestens drei verschiedene Personen beteiligt waren. Es ist jedoch bekannt, dass über 2 Reihe die Zeit hinweg hundert und mehr Personen an der Krimi-Reihe „Jerry Cotton“ mitgearbeitet haben (vgl. Karr 2010), sodass es höchstwahrscheinlich deutlich mehr sind. Die Gruppe Horror weist leider nur wenige unterschiedliche Autor*innen-Pseudonyme auf, von denen eines sehr dominant ist. 35 unserer Horrorromane wurden unter diesem Pseudonym verfasst. 3.2 Redewiedergabe-Kategorien Wie oben bereits erwähnt, erwächst unsere Studie aus einem weiteren Kontext, dem ‚Redewiedergabe-Projekt’, dessen Ziel es ist, ein Korpus mit Redewiedergabe-Formen zu annotieren und automatische Erkenner für diese Formen zu entwickeln. Das in diesem Projekt entwickelte und erprobte Annotationssystem beruht auf Kategoriensystemen aus der Literaturwissenschaft (vgl. hierzu auch Brunner 2015) und ist ausführlich dokumentiert (vgl. Brunner, Weimer, Engelberg, et al. 2020). Wie in der Einleitung erwähnt, werden die verschiedenen Redewiedergabetypen in narratologischen Darstellungen typischerweise auf einer Skala angeordnet. Die Reihenfolge in Tabelle 2 entspricht dieser Ordnung: Direkte Wiedergabe ist die unmittelbarste oder figurennächste Form, erzählte Wiedergabe die Form, die dem Erzählertext am nächsten steht.2 Für die Zwecke dieser Studie ist es wichtig zu wissen, dass mit „Redewiederga- Verschiedene narratologische Darstellungen unterscheiden sich sowohl in der genauen Definition der Pole als auch der Granularität der Unterteilung. Unser Kategoriensystem ist vor allem angelehnt an die Systeme von Genette (1998), Martínez und Scheffel (2016) und Leech und Short (2013), entspricht keinem davon jedoch vollkommen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 228 24.03.22 11:06 Fallstudie „Redewiedergabe“ 229 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Tab. 2: Hauptkategorien des Annotationssystems im Projekt „Redewiedergabe“ Form Beispiel Beschreibung direkt Er dachte: „Ich habe Hunger.“ Zitat der Rede, Gedanken oder schriftlichen Äußerung einer Figur; häufig mit Einleitungsformel und typographischer Markierung (z. B. Anführungszeichen). frei indirekt Er war ratlos. Wo sollte er jetzt etwas zu essen finden? Auch bekannt als ‚erlebte Rede’ (vgl. z. B. Martínez und Scheffel 2016). Form, v. a. von Gedankenwiedergabe, bei der sich Merkmale der Erzählerstimme (z. B. Tempus, Personalpronomen) und der Figurenstimme (z. B. Stil, Satzform) mischen. indirekt Sie sagte, dass sie ein gutes Restaurant kenne. Integration der Figurenstimme in den Erzählertext mit Einleitungsformel und abhängiger Proposition. erzählt Die beiden unterhielten sich über Restaurants. Weitere mehr oder minder ausführliche Darstellungen von Rede-, Gedanken- oder Schreibhandlungen im Erzählertext. be“ nicht nur die Wiedergabe von gesprochener Sprache, sondern auch die von Gedanken und geschriebenem Text gemeint ist. Tabelle 2 illustriert die vier Haupttypen von Wiedergabe im Kategoriensystem. 3.3 Redewiedergabe-Erkenner Die automatischen Werkzeuge, die wir verwenden werden, wurden im Rahmen des Redewiedergabe-Projekts gezielt für die Erkennung der vier oben genannten Hauptkategorien entwickelt. Sie beruhen auf maschinellem Lernen, d. h., zunächst wurde eine große Menge von Texten von Menschen annotiert, die sogenannten Trainingsdaten. Auf diese Daten wurde ein Algorithmus angewendet, der aus dem Material Regeln ableitet (‚lernt’), um in neuen, unbekannten Texten dann ähnliche Fälle finden zu können. Die Details der Implementierung übersteigen den Rahmen dieses Kapitels,3 was man allerdings zu maschinellem Lernen wissen sollte, ist, dass so entstandene Werkzeuge grundsätzlich stark von ihren Trainingsdaten beeinflusst sind – dies sind schließlich die Beispiele, aus denen sie lernen. Das bedeutet, dass 3 man umso vorsichtiger sein muss, was die Anwendung eines solchen Werkzeugs auf Daten angeht, die stark unterschiedlich zu denen sind, auf denen sie trainiert wurden. Tatsächlich gibt es auch eine solche Diskrepanz in unserem Anwendungsfall: Die Erkenner wurden auf dem RedewiedergabeKorpus (vgl. Brunner, Engelberg, Jannidis et al. 2020; verfügbar unter https://github. com/redewiedergabe/corpus) trainiert, welches sich aus Ausschnitten aus Zeitungen und Zeitschriften sowie Erzählungen des 19. bis frühen 20. Jahrhunderts zusammensetzt. Dies ist auch die Textsorte, für die die Erkenner im Redewiedergabe-Projekt primär entwickelt wurden. Die Anwendung auf moderne Texte, wie in dem Untersuchungskorpus für diese Studie, war nicht von Anfang an vorgesehen und es gibt folglich Unterschiede in Orthographie und Stil zwischen den Trainingsdaten und den Anwendungsdaten. Umso wichtiger ist es, die Tauglichkeit der Werkzeuge vor der Durchführung der eigentlichen Studie zu überprüfen. Wir führen darum eine Vorstudie durch, die zum einen der Bewertung der Erkenner dient, zum anderen auch erste Einblicke in unsere Forschungsfragen bietet. Einen guten Überblick zu maschinellem Lernen bietet z. B. das Einstiegskapitel in Chollet (2018), das sich auch mit DeepLearning beschäftigt, einer Unterart des maschinellen Lernens, das bei unseren Erkennern verwendet wurde. Eine aktuelle Veröffentlichung zu unseren Erkennern ist Brunner, Tu, Weimer, et al. (2020). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 229 24.03.22 11:06 230 II Fallstudien Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 3.4 Vorstudie 3.4.1 Bewertung der automatischen Methoden Für die Vorstudie wurden aus 22 Hochliteratur-Texten und 22 Heftromanen4 zufällige Textausschnitte mit einer Länge von ca. 1000 Tokens (d. h. 1000 Wörter und Satzzeichen) gezogen. Diese Ausschnitte sind lang genug, um einen Eindruck von der Textstruktur zu bekommen, aber gleichzeitig kurz genug, um das Material in vertretbarer Zeit manuell bearbeiten zu können. Die Heftroman-Ausschnitte wurden zur Hälfte aus dem Genre Liebesroman, zur Hälfte aus dem Genre Horror gewählt, um auch Genreunterschiede beobachten zu können. Diese Ausschnitte wurden entsprechend dem oben beschriebenen Annotationssystem (vgl. Brunner, Weimer, Engelberg, et al. 2020) von zwei Personen unabhängig voneinander annotiert. Anschließend verglich eine dritte Person diese beiden Annotationen, wählte bei Unstimmigkeiten jeweils die Variante aus, die unseren Annotationsrichtlinien besser entsprach, und verbesserte offensichtliche Fehler, sodass am Ende eine möglichst verlässliche Annotation, die sogenannte Konsens-Annotation vorlag. Wenn man eine Studie durchführt, die auf komplexen manuellen Kategorisierungen beruht, ist stark anzuraten, mehr als eine Person das gleiche Material annotieren zu lassen. Dann kann man die Annotationen vergleichen (inter-annotator agreement) und bekommt so ein besseres Verständnis dafür, wie schwierig es ist, das Kategoriensystem auf echte Sprachdaten anzuwenden (vgl. z. B. Ide und Pustejovsky 2017). Wenn man noch dabei ist, das Kategoriensystem zu entwickeln, kann dies auch helfen, Schwachstellen in der Definition zu erkennen.5 Da sprachliche Daten sehr lebendig sind, ist es 4 5 jedoch durchaus erwartbar, dass bei einem komplexen Kategoriensystem nie hundertprozentige Einigkeit erzielt werden kann (vgl. Artstein 2017; zur Beziehung zwischen Annotation und Textinterpretation auch Gius und Jacke 2017). Nachdem die Konsens-Annotation erstellt ist, wenden wir unsere automatischen Erkenner auf die gleichen Textausschnitte an und können nun die Übereinstimmung zwischen deren Ergebnissen und der Konsens-Annotation messen. Für jede der Wiedergabeformen gibt es einen speziell trainierten Erkenner und diese werden nacheinander angewendet. So ist es möglich, dass auch ineinander verschachtelte Wiedergaben unterschiedlichen Typs erkannt werden (z. B. eine indirekte Wiedergabe in einer direkten Wiedergabe: „Er hat mir versprochen, zum Restaurant zu kommen“, erklärte sie.). Um die Qualität der automatischen Erkennung zu messen, verwenden wir die Maße F1-Score, Precision und Recall. Dies sind verbreitete Maße, die ursprünglich aus dem Bereich des Information Retrieval (Entwicklung von Suchmaschinen) stammen, aber in der Informatik auch zur Bewertung von Kategorisierungsaufgaben verwendet werden. Da viele Wiedergabeformen keine ganzen Sätze umfassen, werden die Berechnungen auf Tokenbasis durchgeführt, d. h. es wird gemessen, wie vielen Tokens das richtige Label (z. B. ‚Teil von direkter Wiedergabe’) zugewiesen wurde. Precision (Genauigkeit) bezeichnet den Anteil von automatisch annotierten Tokens, bei denen das Label mit der manuellen Annotation übereinstimmt, die also korrekt kategorisiert sind. Recall (Trefferquote) bezeichnet den Anteil von manuell annotierten Tokens, die vom automatischen Erkenner gefunden wurden. Precision und Diese Test-Texte waren nicht Teil des Untersuchungskorpus, ähnelten den Untersuchungstexten jedoch stark. Es wäre zu bevorzugen gewesen, die Test-Texte nach dem Zufallsprinzip aus dem Untersuchungskorpus selbst zu ziehen, dieses war jedoch noch nicht fertig gestellt, als wir die Vorstudie durchführten. Manuelle Annotation ist eine ausgesprochen zeitaufwendige Aufgabe und erfordert auch Einarbeitungszeit in das Annotationssystem von den Annotierenden. Oft ist es darum aus Zeit- und Kostengründen bei studentischen Projekten nicht möglich, eine zweite Person für die Vergleichsannotation zu rekrutieren, ganz zu schweigen von zwei weiteren Personen wie in unserem Szenario. Hier kann es helfen, zumindest die eigene Annotation in zeitlichem Abstand noch einmal zu wiederholen und dieses Ergebnis mit dem früheren Ergebnis zu vergleichen, um die eigene Konsistenz zu messen. Man spricht dann auch von intra-annotator agreement. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 230 24.03.22 11:06 Fallstudie „Redewiedergabe“ 231 Tab. 3: Fiktive Beispielauswertung. In diesem Fall wäre die Precision für die Erkennung direkter Wiedergabe 0,6: Es wurden 5 Fälle als positiv vorhergesagt (Token 1 bis 5), davon waren 3 Vorhersagen korrekt. Der Recall wäre 1, also perfekt: Es gab 3 positive Fälle (Token 1, 2 und 3) und diese wurden alle gefunden. Der F1-Score, das harmonische Mittel aus Precision und Recall, wird berechnet mit der Formel: 2 * (Precision * Recall) / (Precision + Recall) und wäre damit 0,75 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Ist das Token Teil von direkter Wiedergabe? Token Manuelle Annotation Automatische Vorhersage „ Ja Ja Hallo Ja Ja “ Ja Ja , Nein Ja sagte Nein Ja er Nein Nein . Nein Nein Recall stehen immer in einem Spannungsverhältnis: Eine zu restriktive Erkennungsmethode übersieht Fälle und führt zu niedrigem Recall, eine zu großzügige findet zu viele Fälle und führt zu niedriger Precision. Der F1-Score ist ein Wert, in den Precision und Recall zu gleichen Teilen verrechnet werden, und kann als Maß für den Gesamterfolg interpretiert werden. Die drei Maße haben einen Wertebereich zwischen 0 (nichts gefunden oder nur Falsches gefunden) und 1 (perfekt). Tabelle 3 zeigt eine fiktive Beispielauswertung. In unserer Studie interessieren wir uns vor allem für die prozentualen Anteile einer Wiedergabeform in unterschiedlichen Texten. Auch diese wird auf Tokenbasis berechnet, also z. B. ‚25% der Tokens im Textausschnitt sind Teil von direkter Wiedergabe’. Um einen Eindruck zu gewinnen, wie verlässlich solche Aussagen auf der Basis der automatischen Methoden sind, zeigt Tabelle 4 auch den durchschnittlichen absoluten Fehler für die Prozentanteile. Dieser wird ermittelt, indem für jeden der 44 Textausschnitte zunächst der absolute Fehler berechnet wird. Dies ist die Abweichung zwischen dem tatsächlichen Anteil und dem automatisch vorhergesagten Anteil. Wenn also laut manueller Annotation ein UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 231 Textausschnitt 25% direkte Wiedergabe enthält, aber laut automatischer Annotation nur 20%, dann wäre der absolute Fehler 5%. Es wird dabei nicht beachtet, ob zu viel oder zu wenig gefunden wurde. Wenn die automatische Annotation also 30% direkte Wiedergabe vorhergesagt hätte, wäre der absolute Fehler ebenfalls 5%. Die absoluten Fehler für die 44 Textausschnitte werden addiert und der Durchschnitt wird gebildet. Dies vermittelt einen Eindruck, um wie viele Prozentpunkte die automatischen Methoden ungefähr danebenliegen. Es ist zu betonen, dass dieser Wert keine Auskunft darüber gibt, ob der Anteil über- oder unterschätzt wurde. Tabelle 4 zeigt die Auswertung der Erkenner für die vier unterschiedlichen Wiedergabeformen. Dabei wurden die Ergebnisse der Erkenner mit der menschlichen KonsensAnnotation verglichen und die Werte F1Score, Precision, Recall und durchschnittlicher absoluter Fehler berechnet. Zusätzlich sind für jede Wiedergabeform die gleichen Werte auch für die Übereinstimmung zwischen den beiden Erstannotierenden angegeben. Da diese beiden Personen unabhängig voneinander gearbeitet haben, erlaubt dies eine Abschätzung, wie verlässlich die Annotation wäre, wenn man sie durch Menschen 24.03.22 11:06 232 II Fallstudien Tab. 4: Auswertung der automatischen Erkenner an den Testdaten (44 Textausschnitte zu je ca. 1000 Tokens). Zusätzlich angegeben sich die Übereinstimmungswerte zwischen den Erstannotierenden F1-Score Precision Recall durchschnittlicher absoluter Fehler direkt Konsens vs. Automatisch 0,83 0,78 0,89 7,84% zwischen Erstannotierenden 0,98 0,98 0,98 0,97% frei-indirekt Konsens vs. Automatisch 0,39 0,71 0,27 6,5% zwischen Erstannotierenden 0,69 0,64 0,73 3,58% Konsens vs. Automatisch 0,77 0,81 0,75 1,61% zwischen Erstannotierenden 0,81 0,84 0,77 1,68% erzählt Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. indirekt Konsens vs. Automatisch 0,63 0,68 0,58 2,28% zwischen Erstannotierenden 0,67 0,66 0,68 1,85% erledigen ließe.6 Wie man sieht, schwankt auch dieser Wert deutlich zwischen den einzelnen Wiedergabetypen. Bei Betrachtung der Ergebnisse stellen wir fest, dass die Erkennung von freier indirekter Wiedergabe mit Abstand am schlechtesten funktioniert und die Werte auch deutlich schlechter sind als das, was menschliche Annotierende leisten. Dies ist insofern nicht verwunderlich, als freie indirekte Wiedergabe ein sehr schwer zu bestimmender Wiedergabetyp ist, der wenige klare und verlässliche Oberflächenmerkmale aufweist. Das Problem ist vor allem, dass viele Fälle vom Erkenner nicht gefunden werden (schlechter Recall) und damit die Anteile massiv unterschätzt werden. Angesichts dieser Ergebnisse haben wir beschlossen, dass es nicht sinnvoll ist, eine Studie darauf aufzubauen und zu 6 riskieren, Fehlschlüsse zu ziehen, die auf Problemen unserer automatischen Erkennung beruhen. Die Anteile freier indirekter Wiedergabe werden darum in der Hauptstudie nicht untersucht. Glücklicherweise sind die Ergebnisse für die anderen drei Wiedergabeformen erfreulicher. Bei direkter Wiedergabe mag es auf den ersten Blick verwundern, wieso der Erkenner nur einen F1-Score von 0,83 erreicht. Immerhin sind die Übereinstimmungsraten zwischen Menschen hier fast perfekt. Und könnte man direkte Wiedergabe nicht einfach finden, indem man Passagen in Anführungszeichen sucht? Leider ist es nicht so einfach. Direkte Rede ist keinesfalls immer mit Anführungszeichen markiert und selbst wenn sie es ist, gibt es unterschiedliche Typen von Anführungszeichen, die von Text zu Text variieren Die Angabe von F1-Score, Precision und Recall für einen Annotierendenvergleich ist eher ungewöhnlich und wurde hier gewählt, damit man die Werte direkt mit den Ergebnissen für die automatische Annotation vergleichen kann. Üblicherweise verwendet man für den Annotierendenvergleich ein zufallskorrigiertes Maß namens Kappa, von dem es unterschiedliche Varianten gibt (siehe z. B. Artstein 2017). Wert 1 bedeutet bei Kappa-Maßen perfekte Übereinstimmung, Wert 0 bedeutet, dass die Übereinstimmung auf zufälligem Niveau liegt. Der Wert kann im Gegensatz zu F1-Score, Precision und Recall auch negativ werden, wenn die Übereinstimmung schlechter ist, als man es bei zufälliger Verteilung erwarten würde. Die Werte für Fleiss’ Kappa in unseren Fall lauten: direkt = 0,97, frei-indirekt = 0,66, indirekt= 0,79, erzählt = 0,64 (also jeweils leicht niedriger als die F1-Scores). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 232 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Redewiedergabe“ und nicht immer konsistent gesetzt sind. Wenn man sich die Ergebnisse für diesen Wiedergabetyp im Detail ansieht, kann man feststellen, dass die Erfolgswerte von Ausschnitt zu Ausschnitt deutlich schwanken. In einigen Ausschnitten wird die direkte Wiedergabe nahezu perfekt erkannt, in anderen liegt die Vorhersage des prozentualen Anteils an direkter Wiedergabe an allen Tokens des Texts im Extremfall bis zu 20-30% daneben. Probleme treten insbesondere bei Ich-Perspektive in Kombination mit unmarkierter Wiedergabe auf, was v. a. in der Hochliteratur häufiger vorkommt. Solche Fälle sind schwierig für den Erkenner (und teilweise auch für Menschen), weil die direkte Wiedergabe sich dann kaum noch durch Oberflächenmerkmale vom Erzählertext unterscheiden lässt. Der Erkenner neigt in solchen Fällen dazu, den Anteil an direkter Wiedergabe zu überschätzen. Trotzdem sind die mit dem maschinellen Erkenner erzielten Ergebnisse deutlich stabiler als eine Identifikation von direkter Wiedergabe anhand von Anführungszeichen gewesen wäre. Diese hätte nämlich bei unmarkierter direkter Wiedergabe vollkommen versagt, während der Erkenner zumindest noch teilweise korrekte Ergebnisse liefert (siehe Abbildung 1). Wir sollten diese Problematik im Auge behalten; die Ergebnisse sind jedoch im Schnitt gut genug, dass man mit ihnen weiterarbeiten kann. Es mag an dieser Stelle verwundern, wieso der durchschnittliche absolute Fehler bei 233 freier indirekter Wiedergabe, die ja deutlich schlechtere Werte für F1-Score, Precision und Recall hat, geringer ist als für direkte Wiedergabe. Dies liegt daran, dass dieser Wert davon abhängt, wie hoch die Anteile für eine Wiedergabeform insgesamt sind. Während der durchschnittliche Anteil von direkter Wiedergabe laut Konsens-Annotation in den Textausschnitten bei fast 30% liegt, sind es nur ca. 10% für freie indirekte Wiedergabe. Ein Fehler von 6,5% für freie indirekte Wiedergabe ist damit deutlich gravierender als ein Fehler von 7,84% für direkte Wiedergabe. Bei den Formen indirekte und erzählte Wiedergabe fällt auf, dass die F1-Scores zwar schlechter sind als für direkte Wiedergabe, jedoch nicht viel unter der Übereinstimmung liegen, die die Erstannotierenden erzielt haben. Diese Formen zu annotieren ist offensichtlich auch für Menschen nicht trivial. Dies ist darauf zurückzuführen, dass durch die stärkere Integration in den Erzähltext sowohl ihre genaue Abgrenzung als auch die Entscheidung, was als Wiedergabe zu werten ist, schwieriger wird. Betrachtet man auch hier die Ergebnisse für die einzelnen Textausschnitte, stellt man fest, dass die Schwankungen deutlich geringer sind als bei direkter Wiedergabe. Die Gesamtanteile dieser Formen am Text sind jedoch auch insgesamt geringer (durchschnittlich ca. 7% Anteil indirekt und 9% Anteil erzählt). Bei beiden Formen werden die Anteile an den Tokens des Ge- Abb. 1: Ein Beispiel für die Qualität der Erkennung von unmarkierter direkter Wiedergabe im Testkorpus. Die unterstrichenen Textteile wurden von Menschen als direkte Wiedergabe identifiziert, die grau hinterlegten vom automatischen Erkenner. Wie man sieht, ist die Erkennung nicht sehr genau – der Erkenner setzt zu spät ein, hört zu früh auf und erfasst auch Rahmenformeln fälschlicherweise mit. Nur auf Basis von Anführungszeichen wäre in diesem Textausschnitt allerdings überhaupt keine direkte Wiedergabe identifiziert worden, was ein deutlich schlechteres Ergebnis wäre. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 233 24.03.22 11:06 234 II Fallstudien Tab. 5: Auswertung für die Erkennung der neu definierten Kategorie ‚nicht-direkt’. Als ‚nicht-direkt’ zählt jedes Token, das entweder als Teil von indirekter oder als Teil von erzählter Wiedergabe markiert wurde F1-Score Precision Recall durchschnittlicher absoluter Fehler Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. nicht-direkt Konsens vs. Automatisch 0,70 0,74 0,67 2,96% zwischen Erstannotierenden 0,78 0,78 0,78 2,28% samttexts von den Erkennern eher unter- als überschätzt. An dieser Stelle überdenken und schärfen wir noch einmal das Design unserer Studie. Nachdem wir freie indirekte Wiedergabe aktuell nicht verlässlich mit automatischen Methoden identifizieren können, bietet sich aus literaturwissenschaftlicher Perspektive eine Gegenüberstellung von direkter und nichtdirekter Wiedergabe an, eine Dichotomie, die schon in der klassischen Rhetorik aufgemacht wurde (vgl. McHale 2014). Hier wird unterschieden zwischen dem Zitat einer Figurenstimme und deren Integration in den Erzählertext. Dies bedeutet, dass wir die Formen indirekte und erzählte Wiedergabe zu einer neuen Kategorie ‚nicht-direkt’ zusammenfassen – wir leiten also aus den durch den Erkenner vorgegebenen Kategorien eine neue ab, die besser zu den Zielen unserer Studie passt. Diese umfasst alle Textpassagen, die entweder als indirekte oder als erzählte Wiedergabe ausgezeichnet wurden. Diese Zusammenfassung ist theoretisch auch insofern zu rechtfertigen, als die Grenze zwischen indirekter und erzählter Wiedergabe in der Literatur häufig unterschiedlich gezogen wird. Zur Erinnerung: ‚nicht-direkt’ umfasst damit nun diejenigen Fälle, in denen Rede, Gedanken oder schriftliche Zeugnisse nicht zitiert, sondern mehr oder minder ausführlich in den Erzählertext integriert werden, d. h. sowohl die klassische indirekt-Konstruktion mit Einleitungsformel und abhängigen Nebensatz (Sie sagte, dass sie ein gutes Restaurant kenne.) als auch formal abweichende und häufig stärker zusammenfassende Wiedergaben (Die beiden unterhielten sich über Restaurants.). Da wir außerdem Gedankenwiedergabe mit untersuchen, sind z. B. auch folgende Fälle erfasst: Er UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 234 wusste nicht, was er wollte. Sein Grübeln über Restaurants war nervtötend. Tabelle 5 zeigt die Auswertung der automatischen Erkennung für diese neue Kategorie. Wie zu erwarten war, liegen die Messwerte für nicht-direkt etwa in der Mitte zwischen indirekt und erzählt. Der durchschnittliche absolute Fehler ist größer, allerdings werden auch die Anteile selbst durch die Zusammenfassung größer: Der Anteil von nicht-direkt in den Testdaten liegt bei durchschnittlich ca. 15%. In Relation dazu sind die Schwankungen ungefähr vergleichbar mit denen, die wir beobachten konnten, als wir die beiden Formen indirekte und erzählte Wiedergabe einzeln untersucht haben. Wir können nun unsere Forschungsfragen noch einmal stärker operationalisieren und als Hypothesen formulieren: 1. Es gibt signifikante Unterschiede im prozentualen Anteil direkter Wiedergabe und nicht-direkter Wiedergabe a. zwischen den beiden Gruppen Heftromane und Hochliteratur. b. zwischen den einzelnen Genres von Heftromanen untereinander und zur Hochliteratur. Nebenhypothese: Der Anteil direkter Wiedergabe ist höher in Heftromanen. 2. Für die Wirkung eines Textes ist es auch relevant, wie das Verhältnis von direkter und nicht-direkter Wiedergabe ist: Sind beide Anteile niedrig, kann das auch einfach bedeuten, dass der Text insgesamt wenig Wiedergabe verwendet, z. B. aus inhaltlichen Gründen. Wie wir gesehen haben, sind die durchschnittlichen Anteile für die beiden Wiedergabetypen zudem unterschiedlich (ca. 30% direkt, ca. 15% 24.03.22 11:06 Fallstudie „Redewiedergabe“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. nicht-direkt). Es kann jedoch sein, dass sich in bestimmten Texten dieses Verhältnis verschiebt und damit einer der Formen ein besonderes Gewicht gegeben wird. Unsere weiterführende Hypothese ist, dass sich, wenn man die Anteile direkter und nichtdirekter Wiedergabe in den Texten in Kombination betrachtet, ebenfalls Unterschiede zwischen den untersuchten Gruppen feststellen lassen. 3.4.2 Verhalten von Redewiedergabe in den manuell annotierten Textausschnitten Bevor wir unser Untersuchungsmaterial für die eigentliche Studie erweitern, nutzen wir die manuell annotierten Daten, um unsere Hypothesen zunächst daran zu überprüfen. Abbildungen 2 und 3 zeigen Boxplots für die Anteile von direkter und nicht-direkter Wiedergabe in den 44 konsens-annotierten Textausschnitten. Die Aufteilung der Daten erfolgt einmal nach den übergreifenden Gruppen Heftromane und Hochliteratur und einmal mit einer zusätzlichen Aufspaltung der Heftromane nach Genres. Ein Boxplot ist ein verbreiteter Typ von Datenvisualisierung, der einen raschen Eindruck vermittelt, in welchem Bereich Daten liegen und wie sie sich verteilen (vgl.→ Kapitel 21 [Aufbereitung Untersuchungsergebnisse] in diesem Band). Auf der senkrechten Achse sind die Anteile von direkter bzw. nicht-direkter Wiedergabe auf einer Skala von 0-100% abzulesen. Der Boxplot selbst besteht aus einem Kasten (der ‚Box’) und zwei davon ausgehenden Strichen, den Antennen oder ‚Whiskers’. Die Box umschließt den Bereich, in dem 50% der Daten liegen. Der Strich, der die Box teilt, markiert den Median, also den Wert, der genau in der Mitte liegt, wenn man alle Werte der Größe nach sortiert. Die Antennen markieren die weitere Streuung von Datenpunkten. Wenn zusätzlich noch Punkte über oder unter den Antennen zu sehen sind, sind dies Ausreißer, d. h. Werte, die im Vergleich zu den anderen Werten ungewöhnlich hoch oder niedrig sind. Betrachten wir als Beispiel in Abbildung 2 den Boxplot für den Anteil von nicht-direkt in Heftromanen: Der Median ist bei ca. 11% und UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 235 235 die Werte streuen sehr wenig. Die Hälfte liegt zwischen ca. 10% und 12% (innerhalb der Box) und fast alle Werte liegen zwischen ca. 7% und 17% (innerhalb der Antennen). Es gibt allerdings vier Ausreißer, also Textausschnitte, die ungewöhnlich hohe Werte aufweisen (Maximum fast 27%). Diese werden repräsentiert durch die vier Punkte über der oberen Antenne. Insgesamt ergibt sich hier das Bild einer gleichförmigen Verteilung mit ein paar Abweichungen. Das andere Extrem ist der Boxplot für den Anteil von direkt bei Hochliteratur, wo man sieht, dass sowohl die Box selbst als auch die Antennen sich über fast die gesamte Skala ausbreiten. Bei der Betrachtung der Boxplots in Abbildung 2 fällt auf, dass sich die Median-Werte (die Striche in der Mitte der Boxen) bei den Anteilen direkter Wiedergabe sehr ähnlich verhalten, auch wenn, wie oben bereits angemerkt, Hochliteratur deutlich mehr Streuung aufweist. Die Anteile von nicht-direkter Wiedergabe scheinen bei Hochliteratur etwas höher zu sein. Wenn man sich die Aufspaltung nach Genres in Abbildung 3 ansieht, sieht man, dass es vor allem die Horrorroman-Ausschnitte sind, die recht niedrige Anteile von nicht-direkter Wiedergabe (und eine extrem geringe Streuung dieser Anteile) aufweisen. Um die Signifikanz dieser Beobachtungen zu überprüfen, führen wir einen Permutationstest durch, einen statistischen Test, der sich besonders gut für Korpusdaten eignet (vgl. Koplenig 2019; eine anschauliche Erklärung findet sich auch in Tu, Engelberg und Weimer 2019). Die Grundidee dabei ist folgende: Zunächst wird der durchschnittliche Unterschied eines Wertes (z. B. Anteil direkt) zwischen zwei Gruppen von Daten ermittelt (z. B. Heftromane vs. Hochliteratur). Dann durchmischt man die zugrundeliegenden Daten (also in unserem Fall die Werte von Anteil direkt für alle 44 Textausschnitte), teilt sie zufällig in neue zwei Gruppen auf und misst den Unterschied zwischen diesen Zufallsgruppen. Ist dieser größer als der Unterschied zwischen den Gruppen Heftroman vs. Hochliteratur, so ist das ein Indiz, dass der zwischen Heftroman und Hochliteratur gemessene Unterschied nur zufällig zustande 24.03.22 11:06 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 236 II Fallstudien Abb. 2: Konsens-annotierte Textausschnitte: Gegenüberstellung der Anteile von direkter und nicht-direkter Wiedergabe in Heftromanen vs. Hochliteratur Abb. 3: Konsens-annotierte Textausschnitte: Gegenüberstellung der Anteile von direkter und nicht-direkter Wiedergabe in Hochliteratur vs. Heftroman-Genres Liebesromane und Horror UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 236 24.03.22 11:07 gekommen ist. Das Zufallsgruppen-Experiment wird mehrfach wiederholt, in unserem Fall 10.000 Mal. Wenn innerhalb dieser vielen Wiederholungen in weniger als 1% der Fälle (also in maximal 99 Fällen) größere Unterschiede herauskamen, kann man davon sprechen, dass der zwischen den echten Gruppen gemessene Unterschied signifikant ist auf einem Niveau von p=0,01. Es ist also sehr unwahrscheinlich, dass er zufällig zustande kam.7 Mit dem Permutationstest lassen sich in den konsens-annotierten Testdaten im Vergleich Heftroman vs. Hochliteratur allerdings weder für Anteil direkt noch für Anteil nichtdirekt signifikante Unterschiede nachweisen. Wenn man die Unterscheidung nach Genres mit einbezieht und drei Vergleiche durchführt (hoch vs. horror; hoch vs. liebes; liebes 237 vs. horror) sind lediglich die Abweichungen zwischen Hochliteratur und Genre Horror im Anteil nicht-direkter Wiedergabe signifikant. Rechnet man den Permutationstest auf Basis der automatisch annotierten Daten statt auf den konsens-annotierten Daten, verschwindet auch diese Signifikanz. Letzteres ist insofern kein schlechter Befund, als dass die Ungenauigkeit, die mit der Verwendung automatischer Annotation einhergeht, hier zwar mögliche Unterschiede verwischt, aber immerhin nicht künstlich erzeugt, was deutlich problematischer wäre. Die beiden Dimensionen interessieren uns jedoch nicht nur in Isolation, sondern wir wollen etwas über die Erzählweise erfahren. Diese wird, wie oben beschrieben, auch vom Zusammenspiel der beiden Wiedergabe-Arten innerhalb eines Textes beeinflusst. Eine Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Redewiedergabe“ Abb. 4: Konsens-annotierte Textausschnitte: Scatterplot mit den Dimensionen Anteil direkt/Anteil nichtdirekt. Jeder Punkt repräsentiert einen Textausschnitt 7 Das Signifikanzniveau von 0,01 ist ziemlich streng gewählt. Häufig wird auch ein Signifikanzniveau von 0,05, also 5%, als akzeptabel betrachtet. Ein Grund, weshalb wir dieses strenge Niveau gewählt haben, ist, dass wir auf unseren Daten mehrere Vergleiche durchführen, nämlich nicht nur zwischen Heftromanen und Hochliteratur, sondern auch zwischen verschiedenen Genres (hoch vs. liebes, hoch vs. horror, liebes vs. horror). In der Hauptstudie werden wir noch zwei zusätzliche Genres betrachten und führen entsprechend mehr Vergleiche durch. Man geht davon aus, dass mehrere Vergleiche über die gleiche Datenmenge, auch wenn deren Aufteilung wechselt, die Gefahr von Zufallseffekten vergrößert. Deswegen ist es sinnvoll, in solchen Studien ein strengeres Signifikanzniveau anzunehmen. Eine in der Statistik häufig angewandte Strategie, mit diesem Problem umzugehen, ist auch die sogenannte Bonferroni-Korrektur (https://de.wikipedia.org/wiki/Bonferroni-Korrektur). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 237 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 238 II Fallstudien gute Möglichkeit, einen solchen Zusammenhang zwischen zwei Dimensionen darzustellen, ist ein Scatterplot (Abbildung 4). Bei dieser Graphik repräsentiert die horizontale X-Achse den Anteil an direkter Wiedergabe, die vertikale Y-Achse den Anteil an nicht-direkter Wiedergabe. Die 44 Textausschnitte werden in diesem Koordinatensystem als Punkte repräsentiert und die drei Gruppen farblich gekennzeichnet. In dem Scatterplot in Abbildung 4, der auf Basis der konsens-annotierten Daten erstellt wurde, lässt sich eine Tendenz der HorrorTextausschnitte erkennen, sich mit niedrigen Werten für nicht-direkt zusammen zu gruppieren, während die Liebesroman- und vor allem die Hochliteratur-Ausschnitte gestreuter erscheinen. Dies ist ein interessanter Ersteindruck, man sollte jedoch vorsichtig sein, daraus weiterreichende Schlüsse zu ziehen, vor allem angesichts der Tatsache, dass die Permutationstests kaum signifikante Ergebnisse ergeben haben. Scatterplots sind intuitive Datenvisualisierungen, die allerdings leicht zu Überinterpretation verführen. Sie werden aussagekräftiger und verlässlicher, je mehr Datenpunkte sie enthalten. Es ist aber in jedem Fall gut, sie nicht allein zu verwenden, sondern zusätzlich Signifikanztests wie den Permutationstest durchzuführen. Zusammenfassend stellen wir fest, dass die Vorstudie noch keine unserer Hypothesen bestätigt hat. Immerhin konnten wir jedoch nachweisen, dass die automatische Annotation nicht grob andere Ergebnisse ergibt als die manuelle, was sehr wichtig ist, da wir uns im nächsten Schritt auf diese verlassen. 3.5 Hauptstudie mit automatisch annotiertem Material Für die Hauptstudie erweitern wir unser empirisches Material sehr stark, indem wir das unter „Korpusmaterial“ (Tabelle 1) beschriebene Korpus automatisch annotieren. Es 8 kommen nun auch zwei neue Genres von Heftromanen hinzu, die in der Vorstudie nicht untersucht wurden: Krimis und Science-Fiction. Statt 44 Ausschnitten von 1000 Tokens, betrachten wir nun insgesamt 250 vollständige Erzähltexte, deren Textlänge zwischen ca. 20.000 und 330.000 Tokens liegt. Die großen Unterschiede in der Textlänge treten vor allem bei den Hochliteratur-Texten auf, die eine Spanne von 35.000 und 330.000 Tokens aufweisen, während die Heftromane nur zwischen 20.000 und 50.000 Tokens variieren. Um sicher zu gehen, dass diese Textlängen-Varianz nicht unsere Ergebnisse verfälscht, führen wir eine Normierung durch: Wir zerlegen jeden Volltext in 1000-TokenAbschnitte und berechnen die Anteile von direkt und nicht-direkt für jeden Abschnitt. Anschließend bilden wir die Durchschnittswerte über alle 1000-Token-Abschnitte des Textes.8 Diese Werte liegen den folgenden Auswertungen zugrunde. Wir führen nun mit dem erweiterten, automatisch annotierten Material die gleichen Tests durch wie zuvor mit den Textausschnitten. Betrachten wir zunächst die Boxplots (Abbildungen 5 und 6). Anders als bei den Ausschnitten zeigen sich nun klare Unterschiede in beiden Dimensionen: Der Anteil direkter Wiedergabe ist bei Hochliteratur geringer, während der Anteil nicht-direkter Wiedergabe höher ist (Abbildung 5). Die Signifikanz beider Unterschiede lässt sich mit dem Permutationstest bestätigen. Auch zwischen Hochliteratur und den einzelnen Heftroman-Genres lassen sich signifikante Unterschiede für viele der Vergleichspaare bestätigen (Abbildung 6): hoch/ krimi, hoch/horror, horror/krimi und horror/liebes sind signifikant unterschiedlich in beiden Dimensionen; hoch/liebes, scifi/liebes und scifi/krimi sind signifikant unterschiedlich nur in Anteil direkt; horror/scifi sind signifikant unterschiedlich nur in Anteil nicht-direkt. Dieses Vorgehen ist analog zu einem in der Korpuslinguistik verbreiteten Maß, der Standardisierten Type-TokenRatio (STTR). Eine Beschreibung dieses Maßes findet sich z. B. in den frei verfügbaren Ergänzungsmaterialien zu dem Einführungsbuch „Korpuslinguistik“ (Perkuhn, Keibel und Kupietz 2012), verfügbar unter http:// corpora.ids-mannheim.de/libac/doc/libac-addOn-LexikalVielfalt.pdf. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 238 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Redewiedergabe“ 239 Abb. 5: Automatisch annotierte Volltexte: Gegenüberstellung der Anteile von direkter und nicht-direkter Wiedergabe in Heftromanen vs. Hochliteratur Abb. 6: Automatisch annotierte Volltexte: Gegenüberstellung der Anteile von direkter und nicht-direkter Wiedergabe in Hochliteratur vs. Heftroman-Genres Horror, Krimi, Liebesroman und Science-Fiction UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 239 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 240 II Fallstudien Abb. 7: Scatterplots für die automatisch annotierten Volltexte des Untersuchungskorpus. Jeder Datenpunkt repräsentiert einen Volltext Abbildung 7 zeigt Scatterplots für die Daten der Hauptstudie. Zur besseren Übersichtlichkeit wird zunächst die Verteilung der Datenpunkte jeder Gruppe einzeln visualisiert. Der letzte Plot zeigt die Überlagerung der fünf Gruppen, also die Datenpunkte für alle 250 Volltexte unseres Untersuchungskorpus. Es fällt sofort auf, dass die HochliteraturTexte eine deutliche Streuung aufweisen, während sich nicht nur die einzelnen Genres, sondern auch die Heftromane als Gruppe zusammen gruppieren. Die HochliteraturTexte sind zudem die einzige Gruppe, in der sogar ein ‚Übergewicht’ an nicht-direkter im Vergleich zu direkter Wiedergabe auftritt. Man kann dies so interpretieren, dass die Autor*innen in der Art und Weise, wie sie Figurenstimmen in den Text einbinden, sowohl individualistischer sind als auch eher bereit, nicht das direkte Zitat zu wählen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 240 Innerhalb der Gruppe der Heftromane kann man für die Genres Liebesroman, Horrorroman und Krimi beobachten, dass sie sich recht deutlich entlang einer gedachten Linie gruppieren, die von links nach rechts flach ansteigt (besonders gut sichtbar ist dies in der letzten Graphik). Die Anteile von direkter und nicht-direkter Wiedergabe in diesen Texten steigen in Relation zueinander fast gleichmäßig an, wobei der Anteil direkter Wiedergabe stets höher ist. Es differenziert sich recht klar das Horror-Genre mit einem insgesamt geringeren Wiedergabeanteil, während sich die ‚kommunikativeren’ Genres Liebesroman und Krimi stark überlagern. Zwischen diesen beiden Genres lassen sich auch mit dem Permutationstest keine signifikanten Unterschiede nachweisen. Science-Fiction nimmt eine Zwischenstellung ein: Die Texte sind diverser und streuen ähnlich wie Hochliteratur, wenn auch nicht so extrem. Dies ist das 24.03.22 11:07 241 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Redewiedergabe“ Abb. 8: Scatterplots für die automatisch annotierten Volltexte des Untersuchungskorpus, zerlegt in 1000-Token-Abschnitte. Jeder Datenpunkt repräsentiert einen 1000-Token-Abschnitt einzige Heftroman-Genre, für das sich auf keiner der beiden Dimensionen signifikante Unterschiede zu Hochliteratur nachweisen lassen. Warum sehen wir diese Muster – insbesondere im Scatterplot – erst in der Betrachtung der Volltexte und nicht in der Vorstudie mit den Textausschnitten? Dies hängt damit zusammen, dass die Schwankungen in den Anteilen von Wiedergabe innerhalb eines Erzähltextes sehr stark sind. Dies ist auch wenig verwunderlich, wenn man sich den Verlauf einer Geschichte vorstellt: Oft wechseln z. B. dialoglastige Passagen mit beschreibenden UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 241 Passagen ab. Wie oben erwähnt haben wir für unsere Analysen die Volltexte in 1000-TokenAbschnitte zerlegt und anschließend den Durchschnittswert gebildet. Abbildung 8 zeigt nun einen Datenpunkt für jeden einzelnen dieser 1000-Token-Abschnitte. Man beachte, dass die Achsen der Plots im Gegensatz zu Abbildung 7 erweitert wurden, um die extremeren Werte, die in den kurzen Abschnitten auftreten, abbilden zu können. Auf den letzten Plot, die Überlagerung aller Datenpunkte, wurde hier verzichtet, da er nicht mehr lesbar gewesen wäre. Zwar kann man in der Gesamtheit dieser Datenpunkte die 24.03.22 11:07 II Fallstudien gleichen Trends erkennen wie für die Volltexte in Abbildung 7, doch wenn man – wie bei der Vorstudie – nur wenige zufällig gezogene 1000-Token-Abschnitte aus jeder Gruppe betrachtet, ist die Wahrscheinlichkeit sehr hoch, dass die Schwankungen innerhalb der Gruppe die Gruppenunterschiede verschleiern. Man sieht, wie problematisch es ist, Aussagen über die tatsächlichen Anteile von Wiedergabe in einem Text zu treffen, wenn man ihn nicht vollständig betrachtet. Die Ausweitung auf mehr Material, die durch die Anwendung automatischer Methoden möglich wurde, führt hier also zu einem Erkenntnisgewinn, der sonst nur mit extremem Annotationsaufwand möglich gewesen wäre. 4. Ergebnisse und Diskussion Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 242 Zusammenfassend lässt sich sagen, dass sich in der Hauptstudie die anfangs aufgestellten Hypothesen für unser Untersuchungskorpus fast durchgehend bestätigen lassen: Es ergeben sich tatsächlich statistisch signifikante Unterschiede in den Anteilen sowohl von direkter als auch von nicht-direkter Wiedergabe zwischen Hochliteratur und Heftromanen. Auch die sekundäre Hypothese, dass direkte Wiedergabe in Heftromanen anteilig häufiger ist, ließ sich bestätigen. Bei der genaueren Betrachtung der unterschiedlichen Heftroman-Genres konnten wir feststellen, dass diese sich unterschiedlich stark voneinander unterscheiden. V. a. die Genres Liebesroman und Krimi weisen starke Überschneidungen auf: Zwischen ihnen gibt es in keiner der beiden Dimensionen eine signifikante Abweichung. Insgesamt wirken die Heftromane, gerade in der Betrachtung in zwei Dimensionen, wie eine recht geschlossene Gruppe, die sich gegenüber der Hochliteratur durch eine geringere Streuung auszeichnet und in der die Anteile direkter Wiedergabe stets höher sind als die Anteile nicht-direkter Wiedergabe. Angesichts der Tatsache, dass die Heftroman-Genres bewusst reglementierte Reihen sind, während die Hochliteratur-Gruppe nur dadurch definiert ist, dass die enthaltenen Werke als literarisch hochwertig eingeschätzt wurden, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 242 mag es nicht erstaunlich scheinen, dass Hochliteratur sich diverser verhält. Es ist jedoch durchaus bemerkenswert, dass sich der Unterschied zwischen konventionalisiertem und individualistischem Erzählen auf der Dimension der verwendeten Redewiedergabeformen so deutlich quantitativ nachweisen lässt. Eine Sonderstellung nimmt das Genre Science-Fiction ein, das eine stärkere Streuung aufweist als die anderen HeftromanGenres und für das sich keine signifikanten Unterschiede zu Hochliteratur nachweisen lassen. Dieser Befund passt zu Beobachtungen von Jannidis, Konle und Leinen (2019), die ebenfalls Heftromane und Hochliteratur mit verschiedenen quantitativen Maßen untersuchen. Auch sie stellen fest, dass ScienceFiction sich ‚hochliteratur-ähnlicher’ verhält als die anderen Heftroman-Genres und höhere Werte bei Maßen wie Wortlänge und Standardisierter Type-Token-Ratio aufweist, die mit größerer Komplexität des Erzählens in Verbindung gebracht werden können (vgl. Jannidis, Konle und Leinen 2019). Bedauerlicherweise ist es uns nicht möglich, die annotierten Daten zur Verfügung zu stellen, da diese dem Urheberrecht unterliegen (vgl. → Kapitel 15 [Juristische Fragen] in diesem Band). Aus Gründen des Copyrights ist es grundsätzlich nicht einfach, moderne Texte in digitaler Form zu bekommen und mit ihnen zu arbeiten. Die Texte, auf denen unsere Studie beruht, wurden gekauft, per Hand gescannt und anschließend aufbereitet. Wir dürfen sie nicht veröffentlichen und weitergeben, sodass die Rohdaten unserer Studie nicht verfügbar gemacht werden können. Auf unserer Github-Seite (https://github. com/redewiedergabe/tagger) sind jedoch aktuelle Versionen unserer automatischen Erkenner zum freien Download verfügbar. Diese sind eine Weiterentwicklung der Werkzeuge, die in dieser Studie verwendet wurden (vgl. Brunner, Tu, Weimer et al. 2020). 5. Methodische Reflexion Bei einer Studie, die sich auf automatische Methoden stützt, sind es sicherlich fast immer 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Redewiedergabe“ die automatischen Methoden, die als erstes hinterfragt werden. Wir haben in unserer Darstellung darum viel Zeit darauf verwendet, diese auszuwerten und das Maß ihrer Verlässlichkeit zu zeigen. Es ist immer eine Abwägung zu treffen zwischen den Vorteilen und den Unsicherheiten, die eine Automatisierung bringt. Allerdings wollen wir auch nochmal ins Gedächtnis rufen, dass – selbst wenn man die Ressourcen dafür hat – auch die Annotation durch Menschen keine vollständige Sicherheit bringt, wie man an den Übereinstimmungraten für die Annotation nicht-direkter Wiedergabe zwischen unseren Erstannotierenden gesehen hat (vgl. Tabelle 5). Die größte Herausforderung bleibt wohl die schwankende Qualität der Erkennung direkter Wiedergabe – Qualitätsschwankungen sind oft problematischer als im Schnitt schlechtere, aber stabilere Ergebnisse, da sie zu Verzerrungen in der Analyse führen können. Ein bekanntes Problem ist die Tendenz des Erkenners, für direkte Wiedergabe bei Texten in der Ich-Perspektive zu viel zu markieren. Um uns diesem Problem zumindest anzunähern, haben wir für einen großen Teil der Texte die Erzählperspektive ermittelt. Eine Mischung von Texten in Ich- und ErPerspektive ist sowohl bei der Hochliteratur als auch bei den Heftromanen (allerdings nicht innerhalb aller Einzel-Genres) gegeben und Texte mit der gleichen Perspektive platzieren sich an unterschiedlichen Stellen. Einzig der Bereich mit sehr niedrigem Anteil von direkter Wiedergabe (<17%) ist ausschließlich durch Texte mit Er-Perspektive besetzt. Dies könnte in der Tat darauf hindeuten, dass die Anteile von direkter Wiedergabe in Ich-Erzählungen überschätzt wurden und sich einige der Texte mit Ich-Perspektive in den Scatterplots nach links verschieben sollten. Selbst wenn das jedoch der Fall wäre, sollte es für Hochliteratur und Heftromane gleichermaßen gelten. Insgesamt ist der Einfluss der Erzählperspektive ein Faktor, der in weiteren Untersuchungen genauer betrachtet werden sollte. Eine weitere Schwäche der Studie ist, dass wir freie indirekte Wiedergabe nicht in die Analyse einbeziehen konnten. Diese Wiedergabeform ist in modernen Texten – sowohl UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 243 243 Heftromanen als auch Hochliteratur – durchaus gängig und ein Faktor, der die Erzählweise beeinflusst. Dieses Problem kann jedoch nur gelöst werden, indem die automatische Erkennung für diese Form verbessert wird. Zudem könnte man einwenden, dass man zwischen der Wiedergabe von Rede und von Gedanken hätte unterscheiden sollen. Wir glauben, dass es für diese erste Untersuchung gerechtfertigt ist, dies nicht zu tun, um erst einmal die allgemeineren Trends zu untersuchen; eine solche Differenzierung würde sich aber für weiterführende Studien anbieten. Ist Hochliteratur vielleicht reflektierender und hat mehr Gedankenwiedergabe? Um die Studie um diese Dimension erweitern zu können, bräuchte man allerdings ebenfalls neue, genauere automatische Erkenner. Was die Korpuszusammenstellung angeht, so bleibt das Problem, dass wir nicht vollständig sicherstellen konnten, dass bei den Heftromanen eine gute Durchmischung von Autor*innen besteht. Da der individuelle Stil einer Person sich oft sehr stark im Textmaterial niederschlägt, ist dies ein potentieller Störfaktor. Er könnte behoben werden, indem man die Studie noch einmal durchführt und dabei nur Werke verwendet, bei denen die Autor*innen zweifelsfrei bekannt sind – das ist allerdings nicht einfach für Heftromane. Auch die Vereinfachung, die HeftromanGenres durch jeweils eine Reihe zu repräsentieren, ist nicht unproblematisch. Besser wäre eine Mischung von Heftromanen aus unterschiedlichen Reihen, die aber dem gleichen Genre zuzuordnen sind. Allerdings ist hier anzumerken, dass manche Heftroman-Genres extrem durch eine Reihe dominiert werden, z. B. Horrorroman durch „John Sinclair“. Es ist hier nicht einfach, überhaupt an Texte anderer Reihen heranzukommen, und es stellt sich auch die Frage, ob die Prägung des Heftroman-Genres Horror durch „John Sinclair“ nicht so stark ist, dass es gerechtfertigt ist, nur diese Reihe zu analysieren. Auf einer grundsätzlicheren Ebene kann man in Frage stellen, ob der Vergleich eines Genres mit einer Gruppe wie ‚Hochliteratur’ überhaupt sinnvoll ist. Wir argumentieren, dass es in unserer Studie primär um den Unterschied zwischen zwei Literaturtypen geht, 24.03.22 11:07 244 II Fallstudien schen den Literaturtypen zueinander verhalten. Dies wird jedoch dadurch sehr erschwert, dass gerade literarisch hochgeschätzte Werke oft bewusst Genre-Grenzen überschreiten bzw. sich nicht klar einem Genre zuordnen lassen. Immerhin gibt es ein paar Genres, die innerhalb des Literaturbetriebs noch ziemlich klar abgegrenzt sind, wie z. B. Science-Fiction, Fantasy und Kriminalroman. Eine Untersuchung von Werken, die Preise innerhalb solcher Sparten gewonnen haben, im Kontrast zu Heftromanen des gleichen Genres wäre sicherlich interessant. Zum Weiterlesen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. von denen die eine als besonders kreativ und innovativ, die andere als besonders konventionelle Massenware betrachtet wird. Die Genre-Unterscheidung kam hinzu, weil wir differenzierter auf die Varianz innerhalb der Gruppe Heftromane eingehen wollten – und tatsächlich konnten wir nachweisen, dass sich Science-Fiction anders zu Hochliteratur verhält als die anderen drei Genres. Ein interessanter weiterer Schritt wäre, auch bei Hochliteratur-Texten eine Einteilung in Genres durchzuführen, um zu prüfen, wie sich Genre-Unterschiede und Unterschiede zwi- Überblicksdarstellungen und Ressourcen zum Forschungsfeld Digital Humanities sind das Handbuch Jannidis, Kohle und Rehbein (2017) (u. a. mit Kapiteln zu automatischer und manueller Annotation, quantitativen Methoden in der Literaturwissenschaft und Programmieren) sowie die Webressource forText: https:// fortext.net (gut aufbereitete Beschreibungen zu Methoden und Werkzeugen der quantitativen Textanalyse für Einsteiger). Zum Thema Programmieren und maschinelles Lernen bieten sich McKinney (2015) (anschauliches Einsteigerbuch mit Schwerpunkt auf Datenanalyse) und Chollet (2018) (komplexes, aber sehr gutes Einführungskapitel zur Entwicklung von maschinellem Lernen; frei im Netz verfügbar) an. Literatur Artstein, Ron (2017): Inter-annotator Agreement, in: Handbook of Linguistic Annotation, Bd. 1, 297–313. Brunner, Annelen (2015): Automatische Erkennung von Redewiedergabe. Ein Beitrag zur quantitativen Narratologie (=Narratologia 47), Berlin [u. a.]: de Gruyter. Brunner, Annelen/Fotis Jannidis/Stefan Engelberg/ Ngoc Duyen Tanja Tu/Lukas Weimer (2020): Redewiedergabe in Heftromanen und Hochliteratur, in: Schöch, Christof (Hrsg.), Digital Humanities: Spielräume. 7. Tagung des Verbands Digital Humanities im deutschsprachigen Raum e.V. (DHd 2020), Paderborn: Zenodo, S. 190–194, [online] http://doi.org/10.5281/ zenodo.3666690. Brunner, Annelen/Ngoc Duyen Tanja Tu/Lukas Weimer/Fotis Jannidis (2020): To BERT or not to BERT – Comparing Contextual Embeddings in a Deep Learning Architecture for the Automatic Recognition of four Types of Speech, Thought and Writing Representation, in: Ebling, Sarah/Don Tuggener/ Manuela Hürlimann/Mark Cieliebak/Martin Volk (eds.), Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing, [online] http://ceur-ws.org/Vol2624/paper5.pdf. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 244 Brunner, Annelen/Lukas Weimer/Stefan Engelberg/ Fotis Jannidis/Ngoc Duyen Tanja Tu (2020): Annotationsrichtlinien des Projekts „Redewiedergabe. Eine literatur- und sprachwissenschaftliche Korpusanalyse“ (Version 1.2), Zenodo, [online] http://doi.org/ 10.5281/zenodo.3759617. Brunner, Annelen/Stefan Engelberg/Fotis Jannidis/ Ngoc Duyen Tanja Tu/Lukas Weimer (2020): Corpus REDEWIEDERGABE, in: Calzolari, Nicoletta et al. (eds.), Proceedings of The 12th Language Resources and Evaluation Conference, Marseille, S. 803–812, [online] http://www.lrec-conf.org/proceedings/ lrec2020/pdf/2020.lrec-1.100.pdf. Chollet, François (2018): Deep Learning with Python, Shelter Island: Manning. Genette, Gérard (1998): Die Erzählung, 2. Aufl., München: Wilhelm Fink Verlag. Gius, Evelyn/Janina Jacke (2017): The Hermeneutic Profit of Annotation: On Preventing and Fostering Disagreement in Literary Analysis, in International Journal of Humanities and Arts Computing, Jg. 11, H. 2, S. 233–254. Hügel, Hans-Otto (2001): Kommunikative und ästhetische Funktion des Romanhefts, in: Leonhard, Joachim-Felix (Hrsg.), Medienwissenschaft. Ein Handbuch 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Fallstudie „Redewiedergabe“ zur Entwicklung der Medien und Kommunikationsformen. 2. Teilband, Berlin [u. a.]: De Gruyter, S. 1621– 1631. Ide, Nancy M./James Pustejovsky (eds.) (2017): Handbook of Linguistic Annotation, Dodrecht: Springer. Jannidis, Fotis/Hubertus Kohle/Malte Rehbein (Hrsg.) (2017): Digital Humanities. Eine Einführung, Stuttgart: J. B. Metzler. Jannidis, Fotis/Leonard Konle/Peter Leinen (2019): Makroanalytische Untersuchung von Heftromanen, in: Sahle, Patrick (eds.), Digital Humanities: multimedial & multimodal. Konferenzabstracts, Frankfurt/Mainz, S. 167–173, [online] http://doi. org/10.5281/zenodo.2600812. Karr, Hanns P. (2010): Cotton, Jerry, in Karr, Hanns P. (Hrsg.), Lexikon der deutschen Krimi-Autoren – Internet Edition, [online] http://www.krimilexikon.de/ cotton.htm. Koplenig, Alexander (2019): A non-parametric significance test to compare corpora, in: PLoS ONE, Jg. 14, H. 9, [online] https://doi.org/10.1371/journal. pone.0222703. Leech, Geoffrey/Mick Short (2013): Style in fiction. A linguistic introduction to English fictional prose, 2. Aufl., London [u. a.]: Routledge. Martínez, Matías/Michael Scheffel (2016): Einführung in die Erzähltheorie (=C.H. Beck Studium), 10. Aufl., München: C.H. Beck. McHale, Brian (2014): Speech Representation, in: Hühn, Peter/John Pier/Wolf Schmid/Jörg Schö- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 245 245 nert (eds.), The living handbook of narratology, Hamburg: Hamburg University Press, [online] http:// www.lhn.uni-hamburg.de/article/speech-representation. McKinney, Wes (2015): Datenanalyse mit Python, 1. Aufl., Heidelberg: O’Reilly. Nast, Mirjam (2017): „Perry Rhodan“ lesen. Zur Serialität der Lektürepraktiken einer Heftromanserie, Bielefeld: transcript Verlag. Nusser, Peter (1979): Romane für die Unterschicht. Groschenhefte und ihre Leser, 4., mit einem Nachwort versehene Aufl., Stuttgart: Metzler. Perkuhn, Rainer/Holger Keibel/Marc Kupietz (2012): Korpuslinguistik (=LIBAC – Linguistik für Bachelor 3433), Paderborn: Fink. Stockinger, Claudia (2018): Das Groschenheft, in: Spoerhase, Carlos/Steffen Martus (Hrsg.), Gelesene Literatur. Populäre Lektüre im Zeichen des Medienwandels, München: text + kritik. Tu, Ngoc Duyen Tanja/Stefan Engelberg/Lukas Weimer (2019): „Was für Enthüllungen!“, heulte die wohlgekleidete respektable Menge. Eine korpuslinguistische Untersuchung zur lexikalischen Vielfalt von Redeeinleitern, in: Linguistische Berichte [Sonderausgabe zu Redewiedergabe], Bd. 27, S. 13–53. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 05. Juli 2021. 24.03.22 11:07 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 246 24.03.22 11:07 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. III DATEN – METADATEN – ANNOTATIONEN UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 247 24.03.22 11:07 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 248 24.03.22 11:07 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 249 13. Daten und Metadaten Thomas Schmidt 1. Einleitung Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. In diesem Kapitel werden Metadaten als Daten definiert, die der Dokumentation und/ oder Beschreibung empirischer Sprachdaten dienen. Einleitend werden die verschiedenen Funktionen von Metadaten im Forschungsprozess und ihre Bedeutung für die Konzepte der Ausgewogenheit und Repräsentativität diskutiert. Anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch (FOLK) werden dann Metadaten eines konkreten Korpus vorgestellt, und es wird gezeigt, wie diese bei Korpusanalysen zum Einsatz kommen. Die Grundlage empirischer Forschung in der Linguistik sind sprachliche Daten wie schriftliche Texte, audiovisuelle Aufzeichnungen gesprochener Sprache und zugehörige Transkripte oder experimentell erhobene Daten. Wie sich solche sprachlichen Daten für welche Fragestellungen und in welchen Zusammenhängen nutzen lassen, hängt ganz wesentlich davon ab, wie sie dokumentiert, beschrieben, kategorisiert und organisiert werden. Die Daten, die einer solchen Dokumentation, Kategorisierung und/oder Organisation der eigentlichen sprachlichen Daten dienen, nennen wir Metadaten. Dieses Kapitel gibt einen Überblick darüber, welche Typen von Metadaten es gibt, welche Funktionen sie im Forschungsprozess erfüllen, und wie sie konkret genutzt werden. Als ausführlich illustrierendes Beispiel dienen die Metadaten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK). 2. Typen und Funktionen von Metadaten In ganz allgemeiner Form werden Metadaten oft als „Daten über Daten“ oder als „strukturierte Daten, die Informationen über Merkmale anderer Daten enthalten“ (Wikipedia: https://de.wikipedia.org/wiki/Metadaten), definiert. Ein greifbareres Bild ergibt sich, wenn man für einen konkreten Typ von Da- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 249 ten betrachtet, welche Typen von Metadaten ihn beschreiben und welchen Zwecken diese dienen. Wir tun dies im Folgenden für den Datentyp des linguistischen Korpus. Die wohl wichtigste Funktion von Metadaten eines Korpus ist die Abbildung des Korpusdesigns. Das Design eines Korpus beschreibt die Systematik seines Aufbaus und bestimmt wesentlich, welche Forschungsfragen sich mit ihm bearbeiten lassen (vgl. dazu z. B. Hunston 2008). Einige Beispiele sollen das verdeutlichen: Das DWDS-Kernkorpus des 20. Jahrhunderts (Geyken et al. 2017) ist ein Korpus geschriebener Sprache, das im Kontext der Arbeiten zum Digitalen Wörterbuch der Deutschen Sprache (DWDS) zur Untersuchung des deutschen Wortschatzes im 20. Jahrhundert aufgebaut wurde. Die beiden wesentlichen Parameter des Korpusdesigns sind hier erstens die Textsorte und zweitens der Zeitpunkt der Entstehung des Textes. Entsprechend werden für jeden im Korpus enthaltenen Text Korpusdesign-Metadaten wie etwa „Textsorte: Belletristik“ und „Zeitraum: 1920-1929“ oder „Textsorte: Gebrauchstext“ und „Zeitraum: 1980-1989“ festgehalten. Bei einem Vergleichskorpus (also einem Korpus mit vergleichbaren sprachlichen Äußerungen in verschiedenen Sprachen) wie GeWiss (Fandrych/Meißner/Slavcheva 2012), das für die Untersuchung gesprochener Wissenschaftssprache in verschiedenen Sprachen und Verwendungskontexten erhoben wurde, sind die jeweils verwendete Sprache (Deutsch, 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 250 III Daten – Metadaten – Annotationen Englisch, Polnisch), deren Status (Erstsprache, Zweitsprache), der Erhebungsort (Universität in Deutschland, Polen, England) und der Gesprächstyp (Prüfungsgespräch, Expertenvortrag, studentischer Vortrag) die wesentlichen Parameter des Korpusdesigns und werden entsprechend als Metadaten zu den einzelnen Aufnahmen und Transkripten festgehalten. Bei einem Variationskorpus (also einem Korpus, das vornehmlich regionale Variation innerhalb einer Sprache abbildet) wie dem Korpus „Deutsche Mundarten“ (auch unter dem Namen „Zwirner-Korpus“ geläufig, Zwirner/Bethge 1958), in dem es vor allem um dialektale Variation geht, sind es hingegen vor allem die räumliche Zuordnung einzelner Datensätze (z. B. Geburtsort oder Schulort eines/r Sprecher*in) und die verwendeten dialektologischen Erhebungsmethoden (z. B. Wenkersätze, freie Erzählung, Vorlesen eines Textes), die als Metadaten das Korpusdesign abbilden. Wie das Korpusdesign selbst sind Korpusdesign-Metadaten abhängig vom Erkenntnisinteresse und von den methodischen Grundlagen, in die die Erstellung und ErstAuswertung eines Korpus eingebettet sind. Sie sind in diesem Sinne korpusspezifisch, d. h., es kann nicht erwartet werden, dass sich solche Metadaten über Korpora, die aus verschiedenen Zusammenhängen stammen, ohne Weiteres vergleichen lassen. Anders ist dies bei Katalog-Metadaten. Deren vorrangige Funktion ist es, wesentliche Eigenschaften eines Korpus so abzubilden, dass es sich mit Hilfe geeigneter Werkzeuge auffinden lässt, und dass Forscher*innen in die Lage versetzt werden, Natur und Zusammensetzung der Korpusdaten zu verstehen, ohne das Korpus erst im Detail studieren zu müssen. Katalog-Metadaten sind somit vergleichbar mit bibliografischen Angaben, die eine Bibliothek zu ihren Beständen führt. Sie folgen typischerweise einem vorgegebenen Schema, das auf möglichst viele verschieden1 artige Korpora anwendbar ist und diese nach ihren wesentlichen Eigenschaften differenziert. Typische Katalog-Metadaten halten z. B. allgemeinere Eigenschaften wie die in einem Korpus repräsentierte(n) Sprache(n), Text- oder Interaktionstypen, den Zeitraum und die Region(en), aus denen die Daten stammen, die an der Erstellung des Korpus beteiligten Personen, dessen Umfang oder die Bedingungen zur Nutzung der Daten fest. Katalog-Metadaten spielen eine zentrale Rolle in digitalen Infrastrukturen wie CLARIN.1 Sie werden dort in Katalogen gesammelt und können über geeignete Instrumente für die Suche nach Korpora (oder auch nach anderen Sprachressourcen) verwendet werden. Beispiele für solche Kataloge, die jeweils ihre eigenen Metadaten-Schemata definieren, sind das Portal der Open Language Archive Community (OLAC, http://www.languagearchives.org/) oder das CLARIN Virtual Language Observatory (https://vlo.clarin.eu/, siehe Abb. 1). Ein dritter Typ von Metadaten schließlich dient primär organisatorischen Zwecken – entweder beim Aufbau des Korpus oder bei dessen späterer Administration innerhalb eines Archivs oder Datenzentrums. Während der Korpusaufbauphase halten beispielsweise geeignete Metadaten fest, in welchem Status der Erschließung (z. B. Transkription, abschließende Kontrolle) sich ein gegebener Datensatz befindet oder wer ihn aktuell bearbeitet. Innerhalb eines Archivs legen organisatorische Metadaten z. B. den Ablageort oder archivinterne Kennungen eines Datensatzes fest. Wenn die Funktionen von Korpusdesign-, Katalog- und Organisations-Metadaten so zwar recht klar zu unterscheiden sind, heißt das dennoch nicht, dass ein gegebenes Metadatum zwangsläufig in genau eine dieser Kategorien fällt. Vielmehr kann etwa das Datum einer Sprachaufnahme in verschiedenen Kontexten einmal eine Funktion in Bezug auf das Korpusdesign erfüllen, ein anderes Mal CLARIN ist die „Common Language Resources and Technology Infrastructure“, ein europaweites Projekt mit dem Ziel, die Verfügbarkeit und Nutzbarkeit verschiedenster sprachlicher Ressourcen durch den Aufbau einer darauf spezialisierten digitalen Infrastruktur zu verbessern. Vgl. dazu und speziell zum Thema der Metadaten in CLARIN Wittenburg/van Uytvanck (2012). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 250 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Daten und Metadaten 251 Abb. 1: Katalog-Metadaten zum Korpus „Deutsche Umgangssprachen: Pfeffer-Korpus“ im CLARIN Virtual Language Observatory als Katalog-Metadatum dienen und noch ein anderes Mal für Fragen der Projektorganisation herangezogen werden. 3. Ausgewogenheit und Repräsentativität als Funktionen von Metadaten Eine wichtige Frage, die sich bei Korpusanalysen oft stellt, ist die nach der Ausgewogenheit und/oder Repräsentativität der verwendeten Korpora. Beide Eigenschaften stehen in unmittelbarem Zusammenhang mit den Metadaten, die das Korpusdesign beschreiben, denn Ausgewogenheit und Repräsentativität UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 251 können nur im Hinblick auf solche spezifischen Merkmale definiert und bewertet werden. Ein ausgewogenes Korpus ist eines, bei dem die Menge des Korpusmaterials sich hinsichtlich eines bestimmten (außersprachlichen) Merkmals oder einer Merkmalskombination gleich verteilt. Beispielsweise ist das DWDS-Kernkorpus ausgewogen bzgl. der Haupt-Parameter des Korpusdesigns (s. o.), also hinsichtlich der Verteilung auf Texttypen und hinsichtlich der Verteilung auf Zeiträume (Jahrzehnte). Das bedeutet, dass zu jeder möglichen Kombination von MetadatenWerten (z. B. „Belletristik“/„1920-1929“) ungefähr gleich große Datenmengen (in diesem Fall Texte im Umfang von jeweils ca. 2.5 Mil- 24.03.22 11:07 252 III Daten – Metadaten – Annotationen 4. Metadaten am Beispiel von FOLK Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. lionen Tokens) im Korpus enthalten sind. Bei einem repräsentativen Korpus werden solche Verteilungen auf die entsprechenden Verteilungen in einer Grundgesamtheit bezogen. Beispielsweise ist ein Korpus, in dem Sprecher*innen mengenmäßig gemäß einem ausgewählten demographischen Parameter (z. B. Bildungsstand, Geschlecht oder Alter) so verteilt sind wie in der Grundgesamtheit (z. B. der Gesamtbevölkerung von Deutschland), repräsentativ bzgl. dieser Parameter. Im Folgenden illustrieren wir einige Aspekte von Korpus-Metadaten am Beispiel des Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK, → Kapitel 25 [Korpora gesprochener Sprache] in diesem Band). FOLK enthält Audio- und Videoaufnahmen von Gesprächen in unterschiedlichsten gesellschaftlichen Kontexten (z. B. private Unterhaltungen, berufliche Kommunikation, Unterrichtsstunden, öffentliche Podiumsdiskussionen), aus dem gesamten deutschsprachigen Kerngebiet (Deutschland, Österreich, Schweiz, Liechtenstein und Belgien) und unter Beteiligung von Sprecher*innen mit unterschiedlichsten Eigenschaften (z. B. Alter, Bildungsstand). Metadaten, die diese Unterschiede und Gemeinsamkeiten zwischen einzelnen Datensätzen in systematischer Form festhalten, sind entscheidend für die Nutzung des Korpus. Es sei erwähnt, dass die Metadaten-Frage im Falle von FOLK eine besonders komplexe ist – zum einen wegen der Vielzahl von Parametern, die für eine adäquate Beschreibung von Gesprä- chen und Gesprächsteilnehmer*innen notwendig ist, zum anderen, weil für FOLK als öffentliches und vielseitig einsetzbares Referenzkorpus auch kaum Möglichkeiten gegeben sind, diese Vielzahl mit Verweis auf ein spezifisches Erkenntnisinteresse einzuschränken. Da FOLK in erster Linie ein Gesprächskorpus ist, ist für das Korpusdesign zunächst der Begriff des Gesprächstyps leitend, d. h., vor allen anderen Eigenschaften sind es Unterschiede in Gesprächsanlässen, -konstellationen, -kontexten und -inhalten (vergleichbar den „Situational Parameters“ nach Biber 1993: S. 245), die die Auswahl von Daten für das Korpus bestimmen und die in den KorpusdesignMetadaten angemessen abgebildet werden müssen. Eine allgemein akzeptierte Taxonomie von Gesprächstypen, die – ähnlich etwa einer Einordnung von Texttypen in einer Textsorten-Systematik (z. B. „Belletristik“, „Gebrauchstext“, „Zeitungstext“, „Wissenschaft“ wie beim DWDS-Kernkorpus) – jedem Gespräch einen eindeutigen Platz in einer Typen-Liste oder -Hierarchie zuweisen würde, existiert nicht. Stattdessen werden Gesprächstypen in FOLK durch ein Bündel an Merkmalen beschrieben, die wesentliche Eigenschaften des Gesprächs systematisch festhalten. Die Grundlagen dieser Systematik und wie sie auf empirischer Grundlage des bereits vorliegendem FOLK-Materials erarbeitet worden ist, beschreibt ausführlich Kaiser (2018). In Tabelle 1 soll zur Illustration eine exemplarische Auswahl von Metadaten-Feldern (erste Spalte) und deren Belegung für drei unterschiedliche Gesprächstypen (Spalten 2 bis 4) genügen. Tab. 1: Ausgewählte Metadaten zu Gesprächen in FOLK Unterrichtsstunde in der Berufsschule WG-Gespräch Podiumsdiskussion Interaktionsdomäne Institutionell Privat Öffentlich Lebensbereich Bildung Privat (nicht spezifiziert) Politik Aktivität Unterricht nicht aktivitätsgeleitet Podiumsdiskussion Sprecherkonstellation Mehr-Personen-Interaktion Drei-Personen-Interaktion Mehr-Personen-Interaktion Publikum nein nein ja (verbal nicht beteiligt) Vertrautheit bekannt vertraut bekannt ; unbekannt UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 252 24.03.22 11:07 Daten und Metadaten Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Diese und einige weitere Parameter sind für FOLK die primären Korpusdesign-Metadaten. Sie sind jeweils mit Einträgen aus vordefinierten Listen belegt, deren Bedeutung sorgfältig definiert wurde, so dass für jede Gesprächsaufnahme klare Kriterien für die Zuweisung der Metadatenwerte vorgegeben sind. Beispielsweise sind die möglichen Werte für die „Interaktionsdomäne“ wie folgt definiert (vgl. Kaiser 2018: S. 521f.): Öffentliche Interaktionen sind Gespräche, die im Rahmen öffentlich zugänglicher und/ oder massenmedial vermittelter Anlässe stattfinden. Sie haben meist ein Publikum und behandeln z. B. politische, wissenschaftliche, andere gesellschaftlich relevante oder unterhaltende Themen. […] Private Interaktionen sind informelle Gespräche mit Familie und/oder Freunden und Bekannten, inklusive Urlaub, Feste etc., aktivitätsgeleitet oder frei, aber nicht (formelle oder auch informelle) Interaktionen in institutionellen Umfeldern (Arzt, Behörden etc.) oder in öffentlichen Kontexten. […] Institutionelle Interaktionen sind Gespräche, die im Rahmen institutioneller Räumlichkeiten bzw. Handlungen mit Personen in der Rolle institutioneller bzw. professioneller Vertreter und mit den entsprechenden konstitutiven Aktivitäten stattfinden, also z. B. jegliche Interaktionen am Arbeitsplatz, in Ausbildungsstätten, in Behörden, in medizi- 253 nischen, aber auch Dienstleistungs- bzw. Verkaufskontexten ebenso wie im organisierten Vereinsleben oder in Bereichen von Religion, Kunst, Unterhaltung und Sport. Mit Hilfe dieser Parameter: 1. kann das Korpus in seiner Zusammensetzung sinnvoll quantifiziert werden, z. B. „FOLK in Version 2.14 setzt sich knapp zur Hälfte aus privaten Interaktionen, zu etwa einem Drittel aus institutionellen Interaktionen, zum Rest aus öffentlichen Interaktionen zusammen“, 2. können systematische Suchen auf den Metadaten ausgeführt und so Teilkorpora mit klar definierten Eigenschaften (z. B. „nur institutionelle Mehr-Personen-Interaktionen“ oder „nur Interaktionen aus dem Bildungsbereich, in denen Sprecher*innen miteinander vertraut sind“) gebildet werden und 3. können bei Untersuchungen auf den eigentlichen Korpusdaten sprachliche Formen mit Eigenschaften der Gespräche, in denen sie auftreten korreliert werden. Dies wird in Abschnitt 5 näher beschrieben. Begleitend dazu werden weniger stark systematisierte Metadaten zu Gesprächen erhoben bzw. erstellt, die nicht für Analyse und Quantifizierung genutzt werden, sondern dazu dienen, Gesprächsinhalte in freier, aber knapper Form zusammenzufassen. So etwa für die Po- Tab. 2.: Inhalts- und Themenangaben als weitere Metadaten zur Podiumsdiskussion Inhalt Heidrun Kämper moderiert eine Podiumsdiskussion mit zwei emeritierten Professoren aus Mannheim zur aktuellen Krise in der Ukraine. Das Thema der Podiumsdiskussion lautet: „Bricht die Ukraine auseinander – Herausforderungen für die Europäische Politik“. Themen Ukraine ; Sanktionen ; Faschismusvorwurf ; potentielle EU-Mitgliedschaft ; Strategien ; Russland ; deutsch-französische Sicherheitspolitik ; internationaler Konflikt ; Integrationskonkurrenz Tab. 3: Ausgewählte Metadaten zu Sprecher*innen in FOLK Geschlecht Weiblich Weiblich Weiblich Geburtsjahr 1987 1986 1987 Bildungsabschluss Realschulabschluss Hochschulabschluss Abitur Sprachlich prägende Region Rheinfränkische Sprachregion Schwäbische Sprachregion Rheinfränkische Sprachregion UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 253 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 254 III Daten – Metadaten – Annotationen diumsdiskussion aus Spalte 4 in Tabelle 1 eine Inhaltsangabe und eine Liste von Themen: Der Klassifikation von Gesprächen werden als „sekundäre Parameter“ soziobiographische Metadaten zu den beteiligten Sprecher*innen an die Seite gestellt, die die Zusammensetzung des Korpus mit Bezug auf Eigenschaften wie Alter, Geschlecht, Bildungsstand, räumliche Herkunft charakterisieren. So gibt es für das oben erwähnte WG-Gespräch beispielsweise die Metadaten in Tabelle 3 zu den beteiligten Sprecherinnen. Zu beachten ist hier, dass personenbezogene Metadaten oft nicht mit maximaler Präzision festgehalten werden, weil den aufgenommenen Personen eine Anonymisierung zugesagt wurde. So wird beispielsweise das Geburtsdatum nur auf das Jahr genau bestimmt, und bei den Daten zur sprachlichen Prägung wird kein spezifischer Ort, sondern nur die betreffende Dialektregion angegeben. Auch anhand dieser Metadaten von Sprecher*innen lässt sich die Zusammensetzung von FOLK charakterisieren (z. B. „Die Sprecher*innen sind etwa zur Hälfte weiblich“/„der größte Teil der Sprecher*innen ist zwischen 20 und 30 Jahre alt“), und die Metadaten lassen sich zur Einschränkung und Analyse von Befunden auf den eigentlichen Korpusdaten heranziehen. 5. Verwenden von Metadaten in der linguistischen Analyse Oft sind die an ein Korpus herangetragenen Fragestellungen oder Hypothesen so formuliert, dass sie Eigenschaften sprachlicher Formen in Bezug setzen zu außersprachlichen Eigenschaften der Kontexte, in denen sie auftreten. Beispiele für solche Hypothesen sind: • Die Ersetzung des Genitivs durch den Dativ (wie in „wegen dem…“, Eigenschaft der sprachlichen Form) tritt in Interaktionen aus dem öffentlichen Raum oder aus institutionellen Zusammenhängen (Eigenschaft der Gespräche) weniger häufig auf als in privaten Interaktionen. • Wörter wie „König“ und „zwanzig“ werden von Sprechern aus dem Norden UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 254 Deutschlands (Eigenschaft der Sprecher*innen) überwiegend mit auslautendem -ch (Eigenschaft der sprachlichen Form), von Sprechern aus dem Süden Deutschlands überwiegend mit auslautendem -k ausgesprochen. • Die Formel „oh mein Gott“ (Eigenschaft der sprachlichen Form) wird häufiger von weiblichen Sprechern unter 40 (Eigenschaft der Sprecherin) und in privaten Kontexten (Eigenschaft des Gesprächs) verwendet als von männlichen und/oder älteren Sprechern und/oder in nicht-privaten Zusammenhängen. Da solche außersprachlichen Eigenschaften als Metadaten im Korpus festgehalten sind, besteht die zugehörige Analyse darin, die Ergebnisse von Korpusrecherchen nach sprachlichen Formen mit den betreffenden Metadaten in Bezug zu setzen. Dies kann prinzipiell auf zwei Weisen erfolgen: Entweder wird 1. vor der Suche der Suchraum geeignet eingeschränkt, indem aus dem Gesamtkorpus mehrere virtuelle Korpora gebildet werden, die jeweils nur eine Ausprägung des Merkmals abdecken – also z. B. ein virtuelles Korpus nur mit öffentlichen und institutionellen Interaktionen, ein virtuelles Korpus nur mit privaten Interaktionen. Oder es wird 2. eine Suche nach den sprachlichen Formen auf dem Gesamtkorpus ausgeführt und das Ergebnis dann nach den interessierenden Metadaten differenziert. In der Datenbank für Gesprochenes Deutsch (DGD) lassen sich für FOLK beide Möglichkeiten realisieren. Die folgenden Screenshots zeigen zunächst, wie sich über den Menüpunkt „Recherche > Metadaten“ Suchen auf den Metadaten ausführen lassen, deren Resultat virtuelle Korpora sind, die zu den oben angeführten Hypothesen passen. So wird – vgl. die erste Hypothese – über eine Suche auf dem Metadatenfeld („Deskriptor“) „Interaktionsdomäne“ nach den Werten „Institutionell|Öffentlich“ (der senkrechte Strich bedeutet dabei ein „oder“) ein virtuelles Korpus von insgesamt 148 Sprechereignissen gebildet (vgl. Abbildung 2). Analog können Metadaten zu Sprechereigenschaften abgefragt werden. Das Ergebnis 24.03.22 11:07 255 Abb. 2: Bildung eines virtuellen Korpus anhand einer Metadaten-Suche zum Parameter „Interaktionsdomäne“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Daten und Metadaten Abb. 3: Bildung eines virtuellen Korpus anhand einer Metadaten-Suche zum Parameter „Sprachlich prägender Ort“. ist ein virtuelles Korpus mit denjenigen Sprechereignissen, an denen mindestens ein*e Sprecher*in mit dem spezifizierten Merkmal – hier: der sprachlich prägende Ort ist „nordost“ oder „nordwest“ gemäß der Einteilung von Lameli (2008/2011), vgl. die zweite Hypothese – beteiligt ist (vgl. Abbildung 3). Schließlich lassen sich Abfragen auch so gestalten, dass sie eine Kombination aus mehreren gesprächs- und/oder sprecherbezogenen Eigenschaften beinhalten. Der Screenshot in Abbildung 4 illustriert eine zur dritten Hypothese passende Abfrage nach Sprechereignissen aus der Interaktionsdomäne „Privat“ mit weiblichen Sprechern, die zwischen 0 und 40 Jahren alt sind. Solche virtuellen Korpora können dann als Grundlage bei der Suche nach sprachlichen Formen verwendet werden. Der umgekehrte Analyse-Weg beginnt mit der Suche nach einer sprachlichen Form und UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 255 zieht in einem zweiten Schritt die interessierenden Metadaten-Parameter heran. Dies ist in Abbildung 5 illustriert. Hier wurde in der Tokensuche zunächst nach der Formel „oh mein gott“ gesucht und dann zu jedem der 69 Treffer die MetadatenEigenschaften „Geschlecht“ und „Alter“ der zugehörigen Sprecher*innen abgerufen, die in zusätzlichen Spalten der KWIC-Konkordanz angezeigt werden. Der erste Eindruck, dass hier in der Tat Verwendungen durch weibliche Sprecher unter 40 überwiegen, kann durch eine automatisch generierte Quantifizierung untermauert werden, wie in Abbildung 6 dargestellt. Diese Quantifizierung setzt die im Suchergebnis festgestellten Häufigkeiten zu Geschlecht und Alter der Sprecher*innen in Relation zu den betreffenden Häufigkeiten im Gesamtkorpus. Beispielsweise lässt sich aus der Tabelle zum Geschlecht ablesen, dass der 24.03.22 11:07 III Daten – Metadaten – Annotationen Abb. 4: Bildung eines virtuellen Korpus anhand einer kombinierten Metadaten-Suche zu den Parametern „Interaktionsdomäne“, „Geschlecht“ und „Alter“ Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 256 Abb. 5: Tokensuche nach der Formel „oh mein gott“ Ausdruck „oh mein gott“ 47-mal in gut 1,2 Millionen im Korpus enthaltenen Tokens weiblicher Sprecher gefunden wurde, aber nur 21-mal in gut 1,1 Millionen Tokens männlicher Sprecher. Die daraus abgeleiteten relativen Häufigkeiten (0.0037 vs. 0.0019) belegen also eine etwa doppelt so hohe Trefferzahl bei weiblichen gegenüber männlichen Sprechern, was als empirische Evidenz für die Hypothese gewertet werden kann – zumal das Korpus zumindest in Bezug auf diesen UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 256 Parameter sowohl als ausgewogen (etwa gleich viel Material zu weiblichen wie männlichen Sprechern) als auch als repräsentativ (Geschlechterverhältnis etwa 50:50 wie in der Gesamtbevölkerung) angesehen werden kann. Ähnliche Befunde lassen sich für die Verteilung der Treffer über das Alter der Sprecher*innen feststellen. Die zweite Tabelle belegt, dass die weitaus kleinere Zahl der Treffer (nur 12 von insgesamt 69) auf Perso- 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Daten und Metadaten 257 Abb. 6: Metadatenbezogene Quantifizierung des Suchergebnisses aus Abbildung 5 nen im Alter von über 40 Jahren entfällt. Setzt man diese Zahlen in Bezug zur Gesamtverteilung im Korpus, relativiert sich der Unterschied zwar etwas – das Korpus enthält insgesamt deutlich weniger Material von Sprecher*innen über 40 Jahren und somit fällt der Unterschied in den relativen Häufigkeiten geringer aus als in den absoluten –, die Gesamttendenz bleibt aber bestehen. Diese Beispiele zeigen zum einen, dass sich für ein Korpus mit sorgfältig zusammengestellten Metadaten viele interessante Forschungsfragen stellen und bearbeiten lassen. Der Planung und Erhebung von Metadaten sollte also bei der Korpuserstellung angemessen Raum und Sorgfalt zugestanden werden. Sie zeigen zum anderen, dass bei der Hypothesenbildung und Analyse erhöhte methodische Vorsicht und ein informierter Blick auf die Metadaten geboten sind, weil Unausgewogenheiten bzgl. einzelner Parameter sonst schnell zu unzulässigen Verallgemeinerungen führen können. Dies gilt erst recht, wenn als empirische Grundlage mehrere Datenquellen mit unterschiedlichen Metadaten miteinander kombiniert werden sollen. Zum Weiterlesen Grundlegende Prinzipien und Überlegungen zur Repräsentativität eines Korpus und deren Bezug zu Korpusmetadaten werden in Biber (1993) diskutiert. Schmidt (2004) bietet eine eher technisch orientierte Einführung in das Thema Metadaten. Die Metadatensystematik des FOLK-Korpus wird in Kaiser (2018) im Detail entwickelt und dargestellt. Broeder/van Uytvanck (2014) beschreiben verschiedene gebräuchliche Formate für Metadaten. Koplenig (2017) diskutiert die Bedeutung adäquater Metadaten für quantifizierende Korpus-Analysen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 257 24.03.22 11:07 258 III Daten – Metadaten – Annotationen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Literatur Biber, Douglas (1993): Representativeness in Corpus Design, in: Literary and Linguistic Computing, Band 8, Heft 4, 1993, S. 243–257. Broeder, Daan und Dieter van Uytvanck(2014): Metadata Formats, in Durand, Jacques/ Ulrike Gut/ Gjert Kristoffersen (Hrsg.): The Oxford Handbook of Corpus Phonology, Oxford: Oxford University Press. Fandrych, Christian, Cordula Meißner und Adriana Slavcheva (2012): The GeWiss corpus: Comparing spoken academic German, English and Polish, in: Schmidt, Thomas und Kai Wörner (eds.): Multilingual Corpora and Multilingual Corpus Analysis. Hamburg Studies in Multilingualism 14, Amsterdam: John Benjamins, S. 319-338. Geyken, Alexander, Adrien Barbaresi, Jörg Didakowski, Bryan Jurish, Frank Wiegand und Lothar Lemnitzer (2017): Die Korpusplattform des „Digitalen Wörterbuchs der deutschen Sprache“ (DWDS), in: Zeitschrift für germanistische Linguistik, Band 45, Heft 2 (Aug 2017). Hunston, Susan (2008): Collection strategies and design decisions. In: Lüdeling, Anke/Merja Kytö (eds.): Corpus Linguistics: An international handbook, Band 1. Berlin: de Gruyter, S. 154-168. Kaiser, Julia (2018): Zur Stratifikation des FOLK-Korpus: Konzeption und Strategien, in: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 19 (2018), S. 515-552. Koplenig, Alexander (2017): The impact of lacking metadata for the measurement of cultural and linguis- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 258 tic change using the Google Ngram data sets—Reconstructing the composition of the German corpus in times of WWII, in: Digital Scholarship in the Humanities, Band 32, Heft 1, April 2017, S. 169–188, [online] https://doi.org/10.1093/llc/fqv037. Lameli, Alfred (2008): Deutsche Sprachlandschaften, in: Nationalatlas aktuell 9 (08/2008), Leipzig: LeibnizInstitut für Länderkunde (IfL), nochmals publiziert in: Bode, Volker, Sebastian Lentz und Sabine Tzschaschel (Hrsg.) (2011): Deutschland aktuell. Kartenbeiträge zu Wirtschaft, Gesellschaft, Kultur, Politik und Umwelt, Leipzig: Leibniz-Institut für Länderkunde (IfL). Schmidt, Ingrid (2004): Modellierung von Metadaten, in: Lobin, Henning und Lothar Lemnitzer (Hrsg.): Texttechnologie. Perspektiven und Anwendungen, Tübingen, S. 143-164. Wittenburg, Peter und Dieter van Uytvanck, (2012): Chapter 2: Metadata, in: Clarin User Guide. Version 1.0.1, 2012, [online] https://www.clarin-d.net/de/ hilfe/benutzerhandbuch. Zwirner, Eberhard und Wolfgang Bethge (1958): Erläuterungen zu den Texten, in: Deutsches Spracharchiv. Lautbibliothek der deutschen Mundarten, Band 1, Göttingen: Vandenhoeck & Ruprecht. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 25. Mai 2021. 24.03.22 11:07 259 14. Linguistische Annotation In diesem Kapitel führen wir die Funktion und Praxis des Annotierens von Korpusdaten ein. Wir stellen verschiedene für das Deutsche verwendete Annotationsschemata (sog. Tagsets) vor und veranschaulichen an Datenbeispielen, wie diese in die Primärdaten eingebracht werden können. Wir beschreiben Verfahren der Evaluation von Annotationen, die mit Werkzeugen aus dem Bereich der automatischen Sprachverarbeitung erzeugt wurden, und erläutern am Beispiel von Sprachdaten aus Genres internetbasierter Kommunikation die Probleme, die auftreten können, wenn man ein etabliertes Tagset und dazu existierende automatische Verfahren auf Daten anwendet, auf die dieses Tagset und die darauf bezogenen Werkzeuge nicht genau zugeschnitten sind. Nach Lektüre dieses Textes sollten Sie in der Lage sein, informiert mit annotierten Sprachdaten umzugehen, den Nutzwert von Annotationen bei der Abfrage und Analyse linguistischer Korpora einzuschätzen und grundsätzliche Überlegungen für die Planung eigener Annotationsprojekte anzustellen. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Lothar Lemnitzer, Michael Beißwenger 1. Einführung In einem allgemeinen Sinn bedeutet Annotation „Anmerkung“ oder „Hinzufügung“. Dabei kann dieses Wort sowohl den Vorgang des Hinzufügens, das Annotieren, bezeichnen, als auch das Ergebnis, also eine einzelne Anmerkung oder eine Menge davon, die sich z. B. auf einen Text beziehen. Annotationen stellen Zusatzinformationen dar, die sich auf den Haupttext beziehen und als wesentlich erachtet werden. Die annotierten Inhalte werden dabei z. B. klassifiziert oder in ein Begriffsschema eingeordnet. Wird die Tätigkeit automatisch durch eine Software vorgenommen, dann spricht man auch von Tagging (Vergabe von Tags). Für Annotationen als Beifügungen zu einem Text ist charakteristisch, dass sie auf ein bestimmtes Segment der zu annotierenden Primärdaten – also einen Text, ein Gesprächstranskript, auf Daten aus Formen internetbasierter Kommunikation –, die auf diese Weise für Forschungszwecke aufbereitet werden, bezogen sind. Wenn die Annotationen für Menschen lesbar sein sollen, sollten sie so angeordnet sein, dass sie den Informationsoder Lesefluss, also die Lektüre der Primärdaten, möglichst nicht stören. Zudem sollten alle Informationen so klar strukturiert wer- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 259 den, dass sie maschinenlesbar auszuwerten sind. Daraus ergeben sich mehrere Anforderungen an Annotationen, die verschiedene Formen des Annotierens unterschiedlich gut erfüllen: 1. Die Annotation sollte den Informationsfluss der Primärdaten nicht stören. 2. Es sollte deutlich erkennbar sein, auf welchen Teil der Primärdaten sich die einzelnen Annotationen jeweils beziehen. 3. Es sollte erkennbar sein, in welcher Beziehung die Annotation zum Datensegment, auf das sie sich bezieht, steht bzw. welche Funktion die Annotation erfüllt. Auch wenn wir uns später auf aktuelle Beispiele von Annotationen in gegenwartsnaher linguistischer Forschung konzentrieren, möchten wir zunächst an einem Beispiel zeigen, dass das Phänomen „Annotation“ keineswegs erst mit den digitalen Arbeitsumgebungen aufgekommen ist. Sie sehen im Folgenden zwei Beispiele von annotierten Texten aus dem Deutschen Textarchiv (→ Kapitel 24 [Korpora geschriebener Sprache], Abschnitt 4, in diesem Band). Auf der in Abbildung 1 abgebildeten Seite befinden sich Annotationen zum Primärtext 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 260 III Daten – Metadaten – Annotationen Abb. 1: Johann: Von wahrem Christenthumb. Bd. 1. Magdeburg, 1610, S. 119, in: Deutsches Textarchiv, http://www.deutschestextarchiv.de/arndt_christentum01_1610/151 in einer eigenen Spalte. Die Anordnung in zwei Spalten erlaubt es, den Bezug, also die annotierte Stelle im Primärtext, leicht zu erkennen. Die Art der Annotation wird aber nicht expliziert, sie konnte vermutlich vom kundigen zeitgenössischen Leser leicht erschlossen werden. Die mittlere der drei Annotationen ist sicher der Verweis auf eine Bibelstelle, die anderen könnten den Inhalt des Abschnitts, auf die sie sich beziehen, knapp zusammenfassen. In dem annotierten Textabschnitt „Gebrauch“ (des Granatapfels) in Abbildung 2 werden einige wohltuende, lindernde Wirkungen des Granatapfels aufgezählt. Die Annotation bezieht sich in einer Weise auf den Text, dass dort die Leiden aufgezählt werden, die durch Anwendung des Granatapfels gelindert werden. Vermutlich dienen diese An- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 260 Abb. 2: Mattioli, Pietro Andrea: Theatrvm Botanicvm, Das ist: Neu Vollkommenes Kräuter-Buch (Übers. Theodor Zwinger). Basel, 1690, S. 24, in: Deutsches Textarchiv, http://www.deutschestextarchiv.de/zwinger_theatrum_1690/40 notationen der Orientierung des eiligen Lesers im Text. Diese beiden Formen der manuellen, aber bereits in das gedruckte Werk einbezogenen Annotation erfüllen nicht alle der oben genannten Kriterien. Sie stehen zwar neben dem Text und stören so nicht den Lesefluss, aber: 1. der Skopus der Annotation, also das exakte Textsegment, auf das sich die Annotation bezieht, ist nicht klar markiert und 2. es ist nicht klar, welcher Art die Annotation ist: Ist sie als erläuternder Kommentar gedacht, als Zusammenfassung, als Verweis oder als Stellungnahme des bzw. der Kommentierenden zum kommentierten Text? Kundige zeit- 24.03.22 11:07 genössische Leser*innen werden beim Lesen des Textes vermutlich beide Fragen für sich beantwortet haben, da diese Formen der Annotation und deren Interpretation den Intellektuellen der Zeit wohl nicht fremd waren. Für Leser*innen der heutigen Zeit stellen sich diesbezüglich hingegen Schwierigkeiten, die sich durch vertiefte Kenntnis der präsentierten Textsorten und mit etwas Übung aber überwinden lassen. Dennoch ist diese Form der Annotation (notwendigerweise) unvollkommen. Betrachten wir im Kontrast dazu moderne, digitale Formen der Annotation von Wortart und Grundform zu den einzelnen Wörtern eines Satzes (die Vorlage für dieses Beispiel stammt aus Heid 2015). Die Beispiele 1-4 zeigen vier verschiedene Formen der Integration solcher Annotationen in die Primärdaten. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Annotation Beispiel 1: Darstellung im vertikalen Format (tabellarisch) das absolute Rauchverbot beachten ART ADJA NN VVINF dabsolut Rauchverbot beachten Beispiel 2: Darstellung der Primärdaten als Fließtext; die als Tags beigegebenen Informationen zur Wortart und zur Grundform sind den einzelnen Textwörtern jeweils angehängt das/ART+d- absolute/ADJA+absolut Rauchverbot/NN+Rauchverbot beachten/ VVINF+beachten Beispiel 3: Kodierung der Informationen in XML, einer weitverbreiteten Auszeichnungssprache für strukturierte Textdaten <w lemma=“d-“ pos=“ART“>das</w> <w lemma=“absolut“ pos=“ADJA“> absolute</w> <w lemma=“Rauchverbot“ pos=“NN“> Rauchverbot</w> <w lemma=“beachten“ pos=“VVINF“>beachten</w> Beispiel 4: „Stand off“-Annotation, bei der Primärdaten und zugehörige Annotationen getrennt abgespeichert werden UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 261 261 das absolute Rauchverbot beachten <offset from=“1“ to=“3“ lemma=“d-“ pos=“ART“> <offset from=“5“ to=“12“ lemma=“absolut“ pos=“ADJA“> <offset from=“14“ to=“24“ lemma=“Rauchverbot“ pos=“NN“> <offset from=“26“ to=“33“ lemma=“beachten“ pos=“VVINF“> Allen Darstellungsformen ist gemeinsam, dass einer Zeichenkette von vier Textwörtern linguistische Informationen beigefügt werden, für jedes Wort die Grundform und die Wortart. Die Wortart ist anhand von Kürzeln angegeben, die dem Stuttgart-Tübingen-Tagset (STTS, Schiller et al. 1999), einem für die Annotation deutschsprachiger Textdaten etablierten De-facto-Standard für das Wortartentagging, entnommen sind. „ART“ steht für Artikel, „ADJA“ für attributiv verwendete Adjektive, „NN“ für ein Nomen der semantischen Klasse „Gattungsname“ und „VVINF“ für infinite Formen von Vollverben. An den Kürzeln können Sie ablesen, dass das Tagset genau genommen mehr kodiert als die bloße Information der Zugehörigkeit zu einer Wortart: Kodiert werden darüber hinaus auch einige morphosyntaktische Informationen (im Beispiel etwa, dass das Adjektiv „absolut“ im Datenausschnitt in attributiver Verwendung erscheint und dass es sich bei „beachten“ um die Infinitivform des Vollverbs handelt). Die einzelnen Darstellungsformen haben die folgenden Besonderheiten: • In Beispiel 1 wird die Zeichenkette des Primärtextes zerbrochen, das Lesen wird dadurch erschwert. Man muss wissen, dass die Informationen in den Spalten zwei und drei die Wortart und die Grundform sind; diese Informationen sind in den Annotationen selbst nicht explizit enthalten. Der Skopus der Information, also der Bezug auf ein Segment des Primärtextes, ist hingegen klar. • In Beispiel 2 sind dieselben Daten in gewohnter linearer Form angeordnet, der Lesefluss wird aber dennoch unterbrochen. Ansonsten gilt dasselbe wie für Beispiel 1. 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 262 III Daten – Metadaten – Annotationen • In Beispiel 3 wird jede Einheit des Primärtextes (jede Wortform) mit einem Etikett umschlossen, die das Wort unter Verwendung der für XML geltenden Auszeichnungskonventionen als Instanz eines Elements mit dem Namen „w“ für „Wort“ ausweist. Jeder dieser Element-Instanzen wird eine Menge von Attributen beigefügt – im Beispiel das Attribut „lemma“ für die Angabe der Grundform sowie das Attribut „pos“ (für engl. part of speech) für die Angabe der Wortartenzugehörigkeit. Jedes der Attribute hat einen Wert (ART, ADJA usw.). Der Gewinn dieser Darstellung gegenüber den bisherigen ist, dass die Art der zusätzlichen Information explizit genannt wird. • In Beispiel 4 werden der Primärtext und die Annotation voneinander getrennt. Die Annotation verweist in den Primärtext und ist wie folgt zu lesen: Die Zeichenkette, die in den Originaldaten die Zeichenpositionen 1 bis 3 einnimmt, ist ein Artikel und hat die Grundform „-d-“ usw. Der Primärtext ist ohne störendes Beiwerk lesbar. Vor allem aber lässt sich die Annotation mithilfe eines Computerprogramms dazuschalten. Auch kann eine weitere Datei erzeugt werden, in der Annotationen mit einem anderen Skopus kodiert werden; man spricht in einem solchen Fall auch von einer weiteren Annotationsebene: Beispiel 4a: <offset from=“1“ to=“24“ phrase=“NP“> <offset from=“26“ to=“33“ phrase=“VP“> Zum selben Primärtext wird eine Zerlegung in die phrasalen Konstituenten (Satzglieder) angegeben, hier Nominalphrase („das absolute Rauchverbot“, NP) und Verbalphrase („beachten“, VP). Auch Relationen lassen sich gut ergänzen: Beispiel 4b: <id=“1“ offset from=“1“ to=“24“ phrase=“NP“> <id=“2“ offset from=“26“ to=“33“ phrase=“VP“> <rel type=“DirO“ node1=“1“ node2=“2“/> Dies kann man so lesen, dass zwischen zwei Knoten mit den „Namen“ 1 und 2 eine syntaktische Relation besteht, nach der 1 (die Nominalphrase) das direkte Objekt („DirO“) von 2 (der Verbalphrase) ist. Die Option aus Beispiel 4, also die konsequente Trennung von Primärtext und Annotation(en), ist die eleganteste und flexibelste, allerdings auch wesentlich schwieriger zu verarbeitende Form der Annotation. Mittel der Wahl bei der Kodierung ist bei den heutigen Referenzkorpora die Kodierung der Informationen (Primärtext und Annotationen) mittels XML – das, was wir oben in Beispiel 3 dargestellt haben. Die Auszeichnungssprache XML ist so konzipiert worden, dass die Verarbeitung der Informationen mithilfe von Programmen sehr effizient zu bewerkstelligen ist, und es steht eine große Auswahl an Software für diese Zwecke zur Verfügung. Im Zusammenhang mit Baumbanken (→ Kapitel 24 [Korpora geschriebener Sprache], Abschnitt 5, in diesem Band) kann man hin und wieder das Tabellenformat (auch „vertikales Format“ genannt) finden. Es ist ein relativ einfaches Format, in dem sich hierarchische Strukturen mit mehreren Hierarchieebenen (etwa: Satz, Satzteil, Phrase, Wort) durch Hinzufügen weiterer Spalten gut nachbilden lassen. Beispiel 5 zeigt einen Auszug aus der NEGRA-Baumbank, die an der Universität Saarbrücken entwickelt wurde. Beispiel 5: Auszug aus der NEGRA-Baumbank1 #BOS 2 2 899973978 1 3.Pl.*.Nom SB 504 Sie PPER gehen VVFIN 3.Pl.Pres.Ind HD 504 gewagte ADJA Pos.*.Akk.Pl.St NK 500 Verbin- N Fem.Akk.Pl.* NK 500 dungen und Risiken ein , versuchen 1 KON CD 502 NN Neut.Akk.Pl.* CJ 502 PTKVZ SVP 504 $, -- 0 -- VVFIN 3.Pl.Pres.Ind HD 505 http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/sentno1.html#ASCII. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 262 24.03.22 11:07 Annotation 263 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Abb. 3: Visualisierung des Beispielsatzes aus der NEGRA-Baumbank3 ihre PPOSAT *.Akk.Pl NK 501 NN Fem.Akk.Pl.* NK 501 Möglichkeiten auszureizen VVIZU HD 503 $. -- 0 . NP -- CJ 502 #500 NP -- OA 503 #501 #502 CNP -- OA 504 #503 VP -- OC 505 S -- CJ 506 #504 S -- CJ 506 #505 CS 0 #506 #EOS 2 In Beispiel 5 steht in der linken Spalte zunächst der Primärtext, dessen Wortformen die terminalen Knoten der syntaktischen Struktur des durch sie konstituierten Satzes, und damit den Bezugspunkt der Annotation, darstellen. In den weiteren Spalten werden Strukturen höherer Hierarchieebenen (nichtterminale Knoten) kodiert. Hier wird jedem Wort bzw. Satzzeichen eine Wortart,2 eine morphologische Beschreibung, eine Zuordnung zu einem übergreifenden phrasalen Element (z. B. OA=Objekt im Akkusativ) und ein Verweis zum hierarchisch übergeordneten Knoten zugeschrieben. Die Knoten (z. B. #501) werden hinsichtlich ihrer phrasalen Klasse (NP) und syntaktischen Funktion (Ak2 3 kusativobjekt) bestimmt sowie ebenfalls einem hierarchisch übergeordneten Knoten zugeordnet. Aus den Informationen dieser Tabelle lässt sich für diesen Satz, der aus zwei Teilsätzen besteht, ein syntaktischer Strukturbaum konstruieren (s. Abb. 3). Annotierte Sprachdaten sind nicht primär für die Lektüre durch menschliche Leser*innen bestimmt. Es handelt sich um digitale Artefakte, deren Hauptzweck die maschinelle Verarbeitung ist, weshalb das Kriterium der Lesbarkeit durch menschliche Nutzer*innen meist von geringerer Wichtigkeit ist. Die Kodierung in maschinell verarbeitbarer Form macht die Annotationen für menschliche Nutzer*innen von digitalen Korpora interessant, die anstelle einer reinen Volltextsuche Recherchemöglichkeiten nutzen können, die zusätzlich zu den Primärdaten die Annotationen nutzen. Möglich wird zum Beispiel: 1. Die qualifizierte Suche nach sprachlichen Ausdrücken in einer bestimmten Form und Funktion, z. B. die Suche nach Belegen für das Wort „achten“, aber nur in der Funktion als finites Verb zur Grundform „achten“ (wir achten sie) oder nur in der Dass auch Satzzeichen eine „Wortarten“-Information zugeordnet wird, ist insbesondere der Anforderung bei der automatischen Klassifikation geschuldet, bei der Zerlegung von Sätzen in zu klassifizierende Einheiten allen Tokens – also auch solchen, bei denen es sich nicht um Wörter handelt – eine Information zur TokenKlasse beizugeben. „Part-of-speech-Tagging“ ist daher, wie oben schon erwähnt, mehr als die reine Zuordnung von Wortarteninformationen zu Wortformen. Im abgebildeten Beispiel steht das Tag „$,“ für ein Satzzeichen des Typs „Komma“. http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/sentno1.html#ASCII. Die Darstellung dieses Baumes wurde von den Autoren rekonstruiert und aus Gründen besserer Anschaulichkeit leicht vereinfacht. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 263 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 264 III Daten – Metadaten – Annotationen Funktion als Ordinalzahl zur Grundform „achte“ (am achten Tag). In den Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) (→ Kapitel 24 [Korpora geschriebener Sprache], Abschnitt 3 in diesem Band) kann dies über die linguistische Suchmaschine mit den Suchausdrücken @ achten with $p=VVINF bzw. @achten with $p=ADJA abgefragt werden (→ Kapitel 22 [Korpusabfragen] in diesem Band). 2. Die Bündelung von Daten für die weitere statistische Auswertung. So werden im Wortprofil des DWDS als typische Nomen, die mit dem Verb bestellen als Akkusativobjekte in Zusammenhang stehen, genannt: Bier, Kaffee, Pizza, Feld, Acker, Taxi, Tisch, Aufgebot, als adverbiale Modifikatoren etwa: bequem, elektronisch. 3. Die Suche nach Beispielen für bestimmte syntaktische Strukturen, z. B. Belege für Sätze, bei denen eine Verbpartikel vor der Satzklammer steht. Dies wird von manchen grammatischen Modellen des Deutschen als „ungrammatisch“ ausgeschlossen. Ein Beispiel für diese Konstruktion aus der „tageszeitung“: Los ging es schon in dieser Woche (Beispiel aus Rehbein und Ruppenhofer 2010). Im Kernkorpus des DWDS können über die Suchmaschine DDC mittels des Suchausdrucks „$p=PTKVZ $p=VVFIN“ (die Anführungszeichen gehören zum Suchausdruck) weitere Beispiele für diese Konstruktion gefunden werden. 2. Gegenstände und Klassen von (linguistischen) Annotationen Wie wir oben gezeigt haben, kann der Gegenstand linguistischer Annotation, also die Sequenz der Primärdaten, die annotiert werden, beliebig lang sein. Typische Objekte der Annotation sind Wörter, Wortgruppen, Satzteile und Sätze. Selten werden kürzere Sequenzen (Wortteile, z. B. Morpheme) oder längere, satzübergreifende Sequenzen (z. B. sog. turns in Gesprächen) annotiert. Weiter unten finden Sie zwei Beispiele hierfür. Gegenstand der Annotation können viele unterschiedliche Merkmale der Einheiten des Primärtextes sein. Die Wahl des Merkmals UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 264 hängt in der Regel von einem konkreten Forschungsinteresse ab (Beispiele dafür sind → die Kapitel 11 [Fallstudie „Fugenelemente“] und 12 [Fallstudie „Redewiedergabe“] in diesem Band). Es gibt aber einige Merkmale, die für die linguistische Forschung allgemein von Interesse sind. Vor allem diese werden im Folgenden dargestellt. Das Annotieren ist in der Regel auch ein Klassifizieren der zu annotierenden Objekte: „Dieses Wort in diesem Kontext ist keine Ordinalzahl, sondern ein Verb“ usw. Grundlage einer solchen Klassifikation ist eine endliche Menge von Klassenbezeichnern. Diese Listen von Klassenbezeichnern werden im Allgemeinen als Tagsets bezeichnet. Eines der bekanntesten Tagsets für die Annotation deutscher Texte ist das schon erwähnte Stuttgart-Tübingen-Tagset für die Wortarten-Annotation STTS (vgl. Schiller et al. 1999, vgl. auch Zinsmeister et al. 2013). 2.1 Annotation der Wortklasse Die Wortklassenannotation ist die am weitesten verbreitete Form der Annotation für deutschsprachige Korpora. Meist wird der automatischen Annotierung das „kleine“ STTS-Tagset zugrunde gelegt, das ca. 50 verschiedene Klassen umfasst. Abbildung 4 zeigt einen Ausschnitt der Tagset-Tabelle. Die Schwächen dieses Ansatzes sind offensichtlich: Klassen von Wörtern, die man unter Umständen aufgrund ihrer gemeinsamen Merkmale zu einer eigenen Klasse zusammenfassen möchte, werden nicht von anderen Klassen unterschieden, sondern mit diesen zu einer allgemeineren Klasse zusammengefasst. Als zwei Beispiele seien hier die Modalpartikel genannt, die als Adverbien, und die Ordinalzahlen, die als attributive Adjektive annotiert werden. Manche linguistische Fragestellung lässt sich deshalb nicht einfach in eine Korpusabfrage und eine „passende“ Menge von Treffern übersetzen (→ Kapitel 22 [Korpusabfragen] in diesem Band). Abzuwägen ist der Wunsch nach großer Vielfalt der Annotationen gegen das Kriterium der Akkuratheit automatischer Annotationsverfahren. Je größer ein Tagset ist, 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Annotation 265 Abb. 4: Ausschnitt aus der Tagset-Tabelle des Stuttgart-Tübingen-Tagsets, Schiller et al. 1999: S. 6 umso mehr und subtilere Unterscheidungen müssen getroffen werden, um die Zuordnung von Wortformen zu den mit den Tags bezeichneten Klassen sicherzustellen. Automatische Taggingverfahren stoßen hier in dem Sinne an ihre Grenzen, dass die Rate an Fehlentscheidungen zu groß, das heißt die Akkuratheit der Annotation zu gering wird. Eine weitere Schwierigkeit bzw. Begrenzung des Stuttgart-Tübingen-Tagsets ist es, dass bestimmte Phänomene gar nicht adäquat abgebildet werden können. Das Tagset ist für die Annotation von standardsprachlichen Texten des Deutschen der Gegenwart maßgeschneidert und deshalb für die Annotierung von Daten nicht-standardisierter Schriftlichkeit (zum Beispiel aus anderen Sprachstadien als dem Gegenwartsdeutschen, aus Transkripten gesprochener Sprache oder aus Genres internetbasierter Kommunikation) weniger gut geeignet (vgl. Zinsmeister et al. 2013). In Abschnitt 4 zeigen 4 5 wir exemplarisch für den Bereich der internetbasierten Kommunikation, dass die dabei auftretenden Probleme nicht gering sind, weil sie unterschiedliche Ebenen des Verarbeitungs- und Annotationsprozesses betreffen. 2.2 Annotation weiterer grammatischer Kategorien Weitere Merkmale, die sich auf einzelne Wörter beziehen und die bereits annotiert wurden, sind etwa Numerus und Kasus bei den Substantiven, Tempus und Person bei den Verben. Als Beispiel für diese Form der erweiterten Annotation von Textwörtern soll hier erneut die NEGRA-Baumbank4 dienen und das daraus entnommene obige Beispiel 7. Die Annotator*innen haben sich für die Annotation dieser Merkmale auf das erweiterte STTS-Tagset5 gestützt, das auch diese mor- http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html. Schiller et al. 1999, Abschnitt 2.4. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 265 24.03.22 11:07 III Daten – Metadaten – Annotationen phosyntaktischen Merkmale miteinbezieht. Eine detailliertere Annotation wie in diesem Fall führt zu einer größeren Anzahl von Klassen, die ein automatisches Taggingverfahren unterscheiden muss. Je höher die Zahl der Klassen, umso größer ist die Wahrscheinlichkeit, dass Klassen verwechselt werden und damit die Fehlerquote. Die automatische Annotation wird deshalb in der Regel manuell geprüft und korrigiert. Aus diesem Grund sind Baumbanken im Verhältnis zu Referenzkorpora klein, die größten von ihnen umfassen aber immerhin mehrere Hunderttausend Sätze. 2.3 Annotation grammatischer Kategorien auf wortübergreifender Ebene Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 266 Auf der wortübergreifenden Ebene werden ebenfalls bei der Erstellung von Baumbanken linguistisch relevante Strukturen wie Phrasen (Nominalphrase, Verbalphrase, Adverbialphrase usw.), Funktionen (Subjekt, direktes Objekt, Prädikat usw.) und Dependenzen zwischen Satzteilen und Teilsätzen annotiert. Einen in die Materie einführenden Überblick geben Lemnitzer und Zinsmeister (2015, Kapitel 4, Abschnitt 2.3). Bei einigen Baumbanken werden zusätzlich noch sog. topologische Felder, d. h. die Stellungsfelder im deutschen Satz (ausgehend von der Verbklammer das Vorfeld, Mittelfeld, Nachfeld usw.) annotiert (zum theoretischen Hintergrund dieses Konzepts vgl. Gallmann 2019). 2.4 Annotation übergreifender Strukturen Im Folgenden werden wir zwei Projekte vorstellen, bei denen die zu annotierenden Objekte den formalen Rahmen von Wort und Satz sprengen und die annotierten Merkmale nicht Merkmale sind, die man typischerweise als „grammatisch“ bezeichnet. Diese Art der Annotation stellt gegenwärtig noch keinen Standard dar. Wir halten es aber für wichtig 6 7 8 zu zeigen, dass sich die Annotation von Texten auch auf Phänomene und Strukturen jenseits der Ebene des Satzes beziehen kann und so Daten entstehen, die für die Untersuchung satzübergreifender Phänomene geeignet sind. Das erste Beispiel bildet das Potsdamer Kommentarkorpus („Potsdam Commentary Corpus“, Stede 2016, Bourgonje und Stede 2018),6 dessen Daseinszweck die Ersteller*innen des Korpus wie folgt beschreiben: „Die Zielsetzung [für den Aufbau dieses Korpus] war, Texte insbesondere (wenn auch nicht ausschließlich) für die linguistische Untersuchung vor allem von pragmatischen Phänomenen der Subjektivität und Argumentation zu sammeln […]. Das Untersuchungsziel ist wie gesagt die Analyse verschiedener Diskursphänomene und ggf. ihrer Korrelation mit syntaktischen Strukturen“ (Stede 2016: 5). Als eine mögliche Anwendung der Daten wird das Parsen rhetorischer Strukturen genannt, weitere Anwendungen werden in Stede und Neumann (2014) beschrieben. Der frei verfügbare Teil des Korpus umfasst 176 Texte aus einer regionalen Zeitung, bei deren Aufbereitung die folgenden Annotationsschritte durchgeführt wurden: 1. Die Texte wurden in Sätze und Wörter (Tokens) segmentiert; 2. Es wurden Diskurssegmente, referentielle Ausdrücke und Topiks7 identifiziert und ausgezeichnet; 3. Strukturübergreifend wurden Koreferenzketten und Argumentationsstrukturen identifiziert und ausgezeichnet. Dabei folgte die Annotation auf den verschiedenen Ebenen jeweils verschiedenen theoretischen Ansätzen, die Argumentationsstruktur etwa der Rhetorical Structure Theory.8 Die Annotationsrichtlinien umfassen über 150 Seiten (Stede 2016). Da die unterschiedlichen Annotationsebenen strukturell unabhängig voneinander sind, also sich auf jeweils unterschiedliche Textsegmente beziehen, bot sich eine http://angcl.ling.uni-potsdam.de/resources/pcc.html. Als Topik wird der Satzgegenstand bzw. das, über das etwas in einem Satz ausgesagt wird, bezeichnet. Mann und Thompson 1988. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 266 24.03.22 11:07 267 Abb. 5: Visualisierte Mehrebenenannotation eines Erbauungstextes, aus dem tevo-Projekt, dort werden auch die Annotationsebenen und annotierten Merkmale erläutert Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Annotation separate Annotation der verschiedenen Ebenen im „stand-off“-Format an. Tatsächlich enthält das Archiv der frei verfügbaren Texte neben dem Originaltext für jedes „Objekt“ eine Reihe von Dateien, in der meist mittels XML-Auszeichnung die verschiedenen Aspekte annotiert sind. Die Dateien dieses Korpus sind somit ein interessantes Studienobjekt und Beispiel für eine komplexe Annotation auf mehreren Ebenen. Das zweite Beispiel bezieht sich auf ein Vorhaben, das gerade erst begonnen hat. Der Titel (und damit das Thema) dieses Projekts lautet „Die Evolution von komplexen Textmustern – Entwicklung eines korpuslinguistischen Analyseverfahrens zur Erfassung der Mehrdimensionalität des Textmusterwandels“.9 Anhand von deutschsprachigen Texten aus verschiedenen Zeiträumen und verschiedener Genres, nämlich Zeitungstexten, Erbauungsliteratur und Funeralschriften (Gedenkschriften, die anlässlich der Beisetzung meist berühmter Persönlichkeiten über diese Personen verfasst wurden), soll gezeigt werden, wie sich über einen bestimmten Zeitraum bestimmte Textsorten in ihren rhetorischen Mustern verändert haben. Zu diesem Zweck wird eine ma- nuell handhabbare Menge von Text elaboriert annotiert. Die hierfür entwickelten Schemata10 umfassen eine funktionale, eine stilistische, eine thematische und eine Beziehungsdimension. Die Beziehungsdimension bestimmt, wie und mit welchen textuellen Mitteln eine Beziehung zwischen dem Produzenten und den Rezipienten eines Textes aufrechterhalten wird. Anhand der Annotationsbeispiele (s. Abb. 5), die auf der Webseite des Projekts gegeben werden, kann man erkennen, dass die Skopi der verschiedenen Annotationen sich überlappen und sich eine separierende „standoff“-Annotation hier anbietet. 2.5 Annotation weiterer Informationen in Texten Eine beliebte, weil auch kommerziell interessante11 Form der Annotation bezieht sich auf Textsegmente, die als Eigennamen gelten (engl. named entities). Die Aufgabe des Annotierens zerfällt in zwei Schritte: 1. das Erkennen und Markieren der oft mehrwortigen Textsegmente, die Vorkommen von Eigennamen sind, und 2. die Klassifizierung der Ei- 9 Weitere Details zu diesem Projekt: https://www.uni-paderborn.de/en/forschungsprojekte/tevo. 10 http://kaskade.dwds.de/~haaf/tsw/tagset.html. 11 Um nur ein Beispiel zu nennen: Die Erkennung von Markennamen in sehr großen Textmengen (z. B. in Texten aus den sozialen Medien) kann für die Imagepflege von Unternehmen und ihren Marken wichtig sein. Es lassen sich Profile darüber erstellen, wie etwa ein bestimmtes Produkt in den Medien gesehen und bewertet wird, auch im Verhältnis zu Produkten oder Marken der Konkurrenz. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 267 24.03.22 11:07 268 III Daten – Metadaten – Annotationen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. gennamen, etwa als Namen von Personen, Unternehmen, Orten, anderen geographischen Entitäten wie Flüssen und Bergen usw. Das nicht-kommerzielle Interesse an Daten, die so annotiert sind, kommt z. B. vonseiten 1. des maschinellen Übersetzens: Eigennamen stellen hier wegen ihrer (Nicht-)Übersetzbarkeit und wegen Ambiguitäten zu Appellativa gleicher Form besondere Anforderungen; 2. der Literaturwissenschaft: Es ist interessant, Textstellen, die sich auf bestimmte Personen, Orte usw. beziehen, auch werkübergreifend zusammenstellen zu können; 3. der Geschichtswissenschaft: In großen Quellensammlungen können Vorkommen von Personen- und Ortsnamen mit entsprechenden Namen in Personendatenbanken und Ortsnamenregistern verknüpft werden. Man denke etwa an die vielen Änderungen von Ortsnamen, die, vom historischen Wandel abgesehen, die gleiche Entität bezeichnen. Diese Liste möglicher Anwendungen ist keinesfalls vollständig. Es gibt nationale und internationale Bemühungen, ja geradezu Wettbewerbe darum, die Qualität der Eigennamenerkennung zu verbessern (vgl. Tjong Kim Sang und De Meulder 2003, für das Deutsche Benikova et al. 2014). Nozza et al. (2021) stellen State-of-the-Art-Verfahren für die Realisierung eines Eigennamenerkenners dar, Jiang et al. (2016) präsentieren eine vergleichende Bewertung existierender Systeme. Es gibt unseres Wissens nach noch kein allgemein akzeptiertes bzw. verbreitetes Vokabular für die Klassifikation dieser Einheiten. Während der Eigennamenerkenner, der in Stanford entwickelt wurde,12 die Hauptkategorien Personenname, Ortsname und Orga- nisation unterscheidet, und diese Liste in andere, auch deutsche Adaptierungen übernommen wurde,13 scheint der Eigennamenerkenner von Didakowski (2007) Personennamen, geographische Namen, Firmennamen und Produktnamen zu unterscheiden (S. 161). Es sieht so aus, als habe man sich auf eine minimale Unterscheidung – Eigennamen von Personen und Orten – stillschweigend geeinigt und überlasse die weitere Ausgestaltung den einzelnen Projekten und Anwendungen. 3. Evaluation von Annotationsverfahren Zu den etablierten Verfahren der Annotation – hierzu gehört natürlich in erster Linie die Auszeichnung von Wortarten (Part-ofspeech-Tagging) – gibt es mittlerweile eine Vielzahl von Beiträgen, die die Qualität und Akkuratheit dieser Verfahren bewerten.14 Ein frühes Beispiel hierfür ist die Studie von Volk und Schneider (1998), eine interessante, wenn auch nicht ganz neue, Arbeit in diesem Zusammenhang ist Giesbrecht und Evert (2009), die die provokante Frage stellen, ob automatisches Wortartentagging ein gelöstes Problem sei (um diese Frage dann im Anschluss zu verneinen). Im Zentrum solcher Evaluationen stehen die Akkuratheit von automatischen Verfahren, oft auch im Vergleich zueinander, und die Identifizierung häufiger Fehlerklassen (in welchem Bereich werden Tags auffällig häufig verwechselt?). Zwei Verfahren sind bei (vergleichenden) Evaluationen von Verfahren und Werkzeugen dieser Art üblich: 1. Man bildet einen sog. „Goldstandard“, also z. B. ein kleines Korpus, das manuell 12 https://nlp.stanford.edu/software/CRF-NER.shtml. 13 https://nlpado.de/~sebastian/software/ner_german.shtml. 14 „Akkuratheit“ ist dabei ein unscharfer Begriff, der aufgabenspezifisch präzisiert werden muss. Bei der automatischen Annotierung geschriebener Texte, die etwa dem schriftsprachlichen Standard einer Sprache entsprechen, kann man eine Akkuratheit von größer 97 % (also eine Fehlerrate von unter 3%) erwarten. Bei der Annotation von Eigennamen oder von morphosyntaktischen Merkmalen wird die Akkuratheit hingegen weit darunter liegen. Als sog. „Baseline“ wird bei der Bewertung automatischer Fehler auch der relative Anteil der Abweichungen genommen, die bei händischer Annotation durch mehrere Personen auftritt. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 268 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Annotation getaggt wird. Ein übliches Verfahren, das besonders bei schwierigen Annotationen verwendet wird, ist es, mehrere Personen die gleichen Abschnitte annotieren zu lassen. Abweichende Entscheidung werden in der Gruppe diskutiert oder von einer dazu befugten, meist leitenden Person entschieden und Unklarheiten bzw. Konflikte damit gelöst. Die solcherart annotierten Daten werden als hundertprozentig korrekt betrachtet. Als Akkuratheit eines automatischen Verfahrens kann dann das Verhältnis von gleich annotierten Wörtern zu den abweichend annotierten Wörtern definiert werden. 2. Man bildet eine obere Grenze für die Leistungsfähigkeit eines automatischen Verfahrens. Dafür lässt man eine oder mehrere Personen die gleiche Aufgabe mit den gleichen Daten durchführen, mit den gleichen Anweisungen und zumindest ähnlichen intellektuellen Voraussetzungen. Danach misst man das Inter-Annotator-Agreement als den Quotienten der Entscheidungen, die beide/alle Annotator*innen übereinstimmend gefällt haben, und der Entscheidungen, bei denen es Abweichungen gab. Einen ausführlichen Überblick über Verfahren, wie dieses Agreement zwischen zwei oder mehr Annotator*innen gemessen werden kann, geben Artstein und Poesio (2008). Dieses Verfahren kommt vor allem bei komplexeren Annotationsprozessen mit schwierigeren Entscheidungen oder vagen Entscheidungskriterien zum Einsatz. Ein optimales automatisches Annotationsprogramm sollte sich in den Horizont abweichender Entscheidungen menschlicher Annotator*innen einreihen können. Man sollte also bei der Analyse der Abweichungen zweier beliebiger Annotator*innen nicht erkennen können, ob beide Agent*innen menschlich oder eine*r davon ein Programm ist. Man bezeichnet ein solches Verfahren auch als „faire Evaluation“, weil von einer Software nicht mehr (also eine höhere Akkuratheit) erwartet wird, als eine Gruppe menschlicher Annotator*innen zu erbringen imstande ist. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 269 269 Eine weitere Form der Evaluierung ist qualitativer Natur. Man extrahiert aus der Menge fehlerhaft annotierter Wörter sog. Verwechslungsklassen, also Gruppen von Annotationen, die häufig und systematisch falsch sind. So werden etwa infinite und finite Verben oft unzureichend unterschieden. Verbesserungen bei der Zuordnung solcher frequenter Fehler steigern die Akkuratheit des automatischen Taggens deutlich. Eine ausführliche Analyse typischer Fehlerquellen für das Deutsche findet sich in der Dissertation von Petra Steiner (2004). Die Analyse basiert allerdings nicht auf dem STTS-Tagset, sondern auf einem umfangreicheren Tagset, das im Rahmen eines europäischen Projekts entworfen wurde (Steiner und Lemnitzer 1994). Ein quantitatives Verfahren der Fehleranalyse ist die Bildung und Auswertung von sog. confusion matrices, in die Verwechslungsklassen und deren Wahrscheinlichkeit eingetragen und mittels mathematischer Verfahren ausgewertet werden. Ein Beispiel dafür findet sich in Cinková et al. (2012, Abschnitt 3). Es ist zu empfehlen, vor dem Einsatz eines Taggers nach einer aktuellen Beschreibung der Entwickler*innen zu suchen, in der diese die Akkuratheit und typische Fehlerkategorien beschreiben (vgl. etwa Schmid und Laws 2008). 4. Herausforderungen bei der automatischen Annotation nichtstandardisierter Schriftlichkeit am Beispiel von Sprachdaten internetbasierter Kommunikation In Abschnitt 2.1 haben wir darauf hingewiesen, dass die Verarbeitung und Annotation von Sprachdaten aus Textsorten und Kommunikationsbereichen mit nicht-standardisierter Schriftlichkeit mit Werkzeugen und Verfahren, die für die Analyse standardnaher Schriftlichkeit konzipiert wurden, zu wenig befriedigenden, d. h. falschen oder wenig akkuraten, Ergebnissen führt. Das wollen wir im Folgenden anhand des Kommunikationsbereichs „Internetbasierte Kommunikation“ 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 270 III Daten – Metadaten – Annotationen veranschaulichen, der in den letzten Jahren – auch im Bereich der Korpuslinguistik (→ Kapitel 26 [Korpora internetbasierter Kommunikation] in diesem Band) – verstärkte Aufmerksamkeit erfährt. Beispiel 6 gibt einen Ausschnitt aus einem WhatsApp-Chatverlauf wieder, in dem A ihren Partner B bittet, ihr mitzuteilen, wann er nach Hause zurückkehre. Die Bahn, mit der B fahren wollte, fällt offenbar aus und er muss auf Ersatzverkehr ausweichen, von dem ihm aber das genaue Ziel nicht bekannt ist. Das letzte Posting in diesem Dialogausschnitt („Ich hab keine ahnubg wo der hinfährr-.-“) wurde über die webbasierte Sprachanalyseplattform WebLicht15 zunächst mithilfe des IMS Tokenizers, eines Werkzeugs für die automatische Segmentierung von Sprachdaten geschriebener Sprache, automatisch in Tokens (Wortformen und Satzzeichen) zerlegt. Das Ergebnis dieses Zerlegungsprozesses, der die Voraussetzung für Verfahren der Wortartenannotation bildet, wurde mit dem IMS TreeTagger, einem stochastischen Werkzeug für die Part-of-speech-Annotation, automatisch klassifiziert und den Part-of-speechKlassen aus dem Stuttgart-Tübingen-Tagset (STTS) zugeordnet. Zudem wurde jedem Token eine Grundform zugeordnet (Lemmatisierung). Das Resultat des Zerlegungs-, Klassifikations- und Lemmatisierungsprozesses ist nachfolgend als Beispiel 6a wiedergegeben. Beispiel 6: Ausschnitt aus einem WhatsAppChat 1 A: Rufst an wenn du köpenick bist! 2 B: Ja 3 B: Wir sehn uns ja gleich 4 A: Jo 5 B: Ersatzverkejr Ich hab keine ahnubg wo der 6 B: hinfährr-.- Beispiel 6a: Resultat der Analyse von Posting 6 aus Beispiel 6 mit dem IMS Tokenizer und dem IMS TreeTagger in WebLicht token ID Tokens POStags16 lemmas t1 t2 t3 t4 t5 t6 t7 Ich Hab Keine Ahnubg Wo Der hinfährr-.- PPER VAIMP PIAT TRUNC PWAV ART TRUNC ich haben kein <unknown> wo d <unknown> Das in Beispiel 6a abgebildete Analyseergebnis zeigt das Problem bei der Verarbeitung von Daten, die in charakteristischer Weise von den grammatischen und orthographischen Normen der geschriebenen Standardsprache abweichen, mit Verfahren, die geschriebene Standardsprache als Gegenstand zugrunde legen: Die Normabweichungen in den Daten führen zu unerwünschten Ergebnissen sowohl auf der Ebene der Segmentierung als auch auf der Ebene der Klassifikation. Wir sprechen hier ganz bewusst von „unerwünschten Zuordnungen“ und nicht von „Fehlern“, da die Daten aus Sicht des Verarbeitungswerkzeugs regulär abgearbeitet werden, insofern die jeweils nächstliegende Segmentierungs- und Klassifikationsmöglichkeit gewählt wird: Wortformen werden an Stellen voneinander getrennt, an denen ein Leerzeichen steht; den Wortformen werden diejenigen Wortartenklassen zugeordnet, die sich mit Blick auf die Klassenzugehörigkeit ihrer Nachbar-Tokens und auf dem Hintergrund syntaktischer Strukturen der Standardsprache als die „plausibelsten“ erweisen. Demgegenüber dürften menschliche Annotator*innen, wenn sie den sequenziellen Kontext und die situativen Rahmenbedingungen kennen, in den das hier präsentierte Posting eingebettet ist, in aller Regel keine oder nur geringe Probleme haben, die damit realisierte sprachliche Äußerung zu verste- 15 https://weblicht.sfs.uni-tuebingen.de/, s. Hinrichs, Zastrow und Hinrichs 2010. 16 Die zugewiesenen STTS-Tags bezeichnen die folgenden Klassen: PPER = (nicht-reflexives) Personalpronomen, VAIMP = Imperativform eines Hilfsverbs, PIAT = attribuierendes Indefinitpronomen, TRUNC = abgetrenntes Kompositions-Erstglied, PWAV = adverbiales w-Pronomen, ART = Artikel, ADJA = Adjektiv in attributiver Verwendung. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 270 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Annotation hen und den Tokens, aus denen sie zusammengesetzt ist, geeignete Tags aus dem STTSTagset zuzuweisen. Automatische Verfahren, deren Arbeit auf einem Training mit einer anderen Art von Daten basiert, sind jedoch damit überfordert. Korrekt nach STTS klassifiziert und auf Grundformen zurückgeführt wurden in Beispiel 6a die Tokens t1, t3 und t5. Fehlerhaft klassifiziert wurde in t2 die Wortform „hab“ als Vorkommen der Imperativform des Hilfsverbs „haben“, dies vermutlich bedingt durch die für konzeptionell mündliche Sprachverwendung charakteristische Schwa-Elision am Wortende (habe > hab), und in t6 die Wortform „der“ als Artikel. Die korrekte Klassifikation von „der“ nach STTS wäre die als substituierendes Demonstrativpronomen (PDS) gewesen. Die Fehlzuordnung dürfte damit zusammenhängen, dass die nachfolgende Wortform „hinfährr-.-“ (fälschlich) als KompositionsErstglied und damit als etwas typischerweise Nominales (vgl. „An-“ in „An- und Abreise“) erkannt wurde. t4 „ahnubg“ und t7 „hinfährr-.-“ wurden vermutlich deshalb als Kompositions-Erstglieder (TRUNC) klassifiziert, weil das Programm aufgrund der Tippfehler in den beiden Wortformen keine plausiblere Zuordnung treffen konnte; auch gehen in beiden Fällen Wörter voraus, die als typischerweise im nominalen Vorfeld auftretende syntaktische Einheiten klassifiziert werden können (Indefinitpronomen und vermeintlicher Artikel), sodass auch der Blick in die syntaktische „Nachbarschaft“ diese Zuordnungen stützt. t7 „hinfährr-.-“ wurde zudem nicht im gewünschten Sinne segmentiert: Der Ausfall des Leerzeichens vor dem Emoticon „-.-“ führt dazu, dass der gesamte Ausdruck vom Tokenizer als eine Wortform konstituiert wird. Fügt man in den Ausgangsdaten (Posting 6 aus Beispiel 6) an dieser Stelle ein Leerzeichen ein und startet den automatischen Zerlegungs- und Klassifikationsprozess erneut, ergibt sich das Resultat in Beispiel 6b. Hier wird das Emoticon „-.-“ nun seinerseits als Kompositions-Erstglied erkannt; dass es nicht als Emoticon klassifiziert wird, ist darauf zurückzuführen, dass in STTS keine Klasse „Emoticon“ vorgesehen ist, weil Emoticons in geschriebener Standardsprache typischerwei- UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 271 271 se nicht vorkommen. Die neu erzeugte Wortform „hinfährr“ wird fälschlich als Adjektiv in attributiver Verwendung klassifiziert – eine Zuordnung, die sich vermutlich auf die vorangehende Wortform t6 „der“ stützt, die als Artikel erkannt wurde, denen in geschriebener Standardsprache häufig attributive Adjektive nachfolgen; auf diesem Hintergrund macht dann die Klassifikation des Emoticons als Kompositions-Erstglied – zumindest in der Logik des automatischen Verfahrens – noch mehr Sinn, ist aber dennoch unter linguistischer Perspektive unsinnig und als Annotationsergebnis unbefriedigend. Beispiel 6b: Resultat der Analyse von Posting 6 aus Beispiel 6 mit dem IMS Tokenizer und dem IMS TreeTagger in WebLicht (nach Einfügung einer zusätzlichen Tokengrenze zwischen <hinfährr> und dem Emoticon <-.->) token ID t1 t2 t3 t4 t5 t6 t7 t8 tokens Ich hab keine ahnubg wo der hinfährr -.- POStags PPER VAIMP PIAT TRUNC PWAV ART ADJA TRUNC lemmas ich haben kein <unknown> wo d <unknown> <unknown> Die Anpassung von Verfahren für die automatische Verarbeitung und Annotation von Sprachdaten auf Sprachdaten nicht-standardisierter Schriftlichkeit ist gegenwärtig ein aktives Forschungsfeld im Bereich der Computerlinguistik und Sprachtechnologie. Dabei spielt auch die Erweiterung von Part-ofspeech-Tagsets eine wichtige Rolle (vgl. die Beiträge in Zinsmeister et al. 2013). Eine Weiterentwicklung von STTS für die Annotation von Sprachdaten aus Genres internetbasierter Kommunikation stellt „STTS 2.0“ dar (Beißwenger et al. 2015). „STTS 2.0“ lag im Jahr 2015 einem Shared-Task-Projekt zugrunde, in dessen Rahmen Entwickler*innen von Sprachverarbeitungswerkzeugen ihre Verfahren unter Verwendung einheitlicher, handannotierter Trainingsdaten auf die Verarbeitung von Daten internetbasierter Kommunikation anpassten, um die Güte der erzielten Ergebnisse anschließend auf einem 24.03.22 11:07 272 III Daten – Metadaten – Annotationen gemeinsamen Evaluationsdatenset zu vergleichen. Die Konzeption dieser Shared Task und die Ergebnisse sind in Beißwenger et al. (2016) beschrieben. Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 5. Fazit Momentan gibt es im Bereich der Annotation eine Zweiteilung. Auf der einen Seite gibt es standardisierte, auf einem einheitlichen und weithin verwendeten Vokabular („Tagset“) basierende Verfahren wie das Part-of-speechTagging. Die automatischen Verfahren sind so effizient, dass sie auf sehr große Textmengen angewendet werden können. Die Ergebnisse sind hinreichend akkurat, sofern Texte in standardnaher Schriftlichkeit annotiert werden. Weicht die verwendete Sprache stärker davon ab, dann ist die Qualität für die weitergehende linguistische Analyse meist nicht ausreichend. Ihre Stärke beweisen diese Verfahren deshalb bei der Analyse großer schriftsprachlicher Korpora. Die Annotation mit Wortart und Grundform, die man bei diesen Korpora typischerweise findet, verbessert die Möglichkeiten bei der Abfrage und Recherche in den Daten, wie wir deutlich gemacht haben. Eine kritische Betrachtung der Annotationen ist ein unabdingbarer Schritt im Forschungsprozess. Sie sollten sich immer fragen, wie eine Annotation entstanden ist (automatisch? händisch korrigiert?) und, wenn Daten automatisch annotiert wurden, Auskünfte über die Akkuratheit der Annotation suchen bzw. verlangen. Eine unzulängliche Annotation kann, wenn Sie darauf bauen und gegen mögliche Fehler keine Vorkehrungen treffen, ihre Forschungsergebnisse im Extremfall wertlos machen. Um ein Beispiel zu nennen: Gelegentlich wird die Wortklasse, für die Sie in Korpora im Rahmen Ihrer Untersuchung Beispiele suchen, in einem standardisierten Tagset nicht vorhanden sein. Sie müssen dann auf eine allgemeinere Klasse zurückgreifen (z. B. auf Adverb, wenn Sie Beispiele für Modaladver- bien suchen) und die Beispiele, die nicht zu der von Ihnen gesuchten Klasse gehören, aus den Ergebnisdaten entfernen. Dies gehört zu Ihren Sorgfaltspflichten als Forschende*r. Auf der anderen Seite gibt es oft im Kontext eines Projektes entwickelte Tagsets, die komplexere linguistische Phänomene abbilden. Diese werden für die meist manuelle Annotation kleiner Korpora verwendet. Die nicht ausreichende Effizienz und Akkuratheit automatischer Verfahren verhindern deren Einsatz in diesen Zusammenhängen in der Regel. Es gehört zur guten wissenschaftlichen Praxis, solche Tagsets und annotierten Korpora zu veröffentlichen, also der Gemeinschaft der Forschenden für die weitere Nutzung zur Verfügung zu stellen. Wenn Sie eine korpusbasierte Studienarbeit planen, lohnt sich auf jeden Fall ein Blick in die einschlägige Literatur oder auf sog. Repositorien, in denen solche Korpora und begleitenden Dokumente üblicherweise hinterlegt werden. Ein Beispiel eines Repositoriums ist das Virtual Language Respository des Projekts CLARIN.17 Es ist natürlich auch möglich, ein eigenes Tagset zu kreieren für Phänomene, die durch etablierte Tagsets nicht abgedeckt werden. Die Entscheidung darüber hängt von den eigenen Forschungsinteressen ab. Sie sollten dann aber den Arbeitsaufwand für das Design und das Testen eines solchen Tagsets und für die Annotierung von Texten mit diesem Tagset einplanen. Dieser Aufwand kann erheblich sein. Es ist deshalb ratsam, an existierende Tagsets anzuknüpfen, zum Beispiel indem Sie Unterklassen zu einzelnen Klassen bilden oder das existierende Tagset durch eigene Klassen ergänzen (z. B. durch eine Klasse für Emojis, die in Protokollen internetbasierter Kommunikation verwendet werden). Mit anderen Worten: Die Wahl eines Tagsets sollte sich so weit wie möglich an De-factoStandards oder an etablierten Praktiken orientieren. Damit werden die Chancen für die Nachnutzung annotierter Daten, in deren Annotation ja ein gewisser Aufwand steckt, erhöht. Andererseits zeigen die Diskussionen um das STTS, die in Zinsmeister et al. (2013) 17 https://www.clarin.eu/content/virtual-language-observatory-vlo. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 272 24.03.22 11:07 Annotation (LREC18) und die davon veröffentlichten Tagungsberichte. Wir halten es für realistisch, dass es mithilfe von Verfahren des maschinellen Lernens gelingen wird, das Niveau der Akkuratheit der automatischen Annotation auch für Sprachen und Genres zu verbessern, für die es wenige oder gar keine handannotierten Trainingsdaten gibt. Das würde die Verwendung von spezialisierten Tagsets für eine Vielzahl spezifischer linguistischer Fragestellungen wesentlich erleichtern. Zum Weiterlesen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. dokumentiert sind, wie schwer es ist, ein etabliertes Tagset zu verändern. Sollten Sie sprachtechnologisch interessiert sein, dann lohnt es sich, einen Blick zu haben für neue Entwicklungen im Bereich des Annotierens, zum Beispiel in Bezug auf das Design von Tagsets, sowie neue Verfahren der automatischen Annotation und der Evaluierung bestehender Verfahren. Das einschlägige Forum hierfür bilden die Tagungen zu „Language Resources and Evaluation“ 273 Ule und Hinrichs 2004 eignen sich gut für einen ersten Überblick über die Praxis des Annotierens von Sprachdaten. Kapitel 4 in Lemnitzer und Zinsmeister 2015 enthält darüber hinaus viele anschauliche Beispiele. Die Beiträge in Zinsmeister et al. 2013 dokumentieren die Probleme, auf die man stoßen kann, wenn man ein etabliertes Tagset auf Daten anwenden möchte, für die dieses Tagset zwar geeignet wäre, aber bisher noch nicht angewendet wurde. Literatur Artstein, Ron und Massimo Poesio (2008): Inter-coder agreement for computational linguistics, in: Computional Linguistics, Bd. 34, H. 4, S. 555–596, [online] https://www.mitpressjournals.org/doi/pdfplus/10.1162/coli.07-034-R2. Beißwenger, Michael, Sabine Bartsch, Stefan Evert und Kay-Michael Würzner (2016): EmpiriST 2015: A Shared Task on the Automatic Linguistic Annotation of Computer-Mediated Communication and Web Corpora, in: Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task, Stroudsburg: Association for Computational Linguistics (ACL Anthology W16-2606), S. 44-56, [online]https://www.aclweb.org/anthology/W162606.pdf. Beißwenger, Michael, Thomas Bartz, Angelika Storrer und Swantje Westpfahl (2015): Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. Guideline document from the Empirikom shared task on automatic linguistic annotation of internet-based communication (EmpiriST 2015), [online] https://ids-pub.bsz-bw. de/frontdoor/deliver/index/docId/5065/file/ Beisswenger_Bartz_Storrer_Tagset_und_Richtlinie_fuer_das_PoS_Tagging_2015.pdf. Benikova, Darina, Chris Biemann und Marc Reznicek (2014): NoSta-D Named Entity Annotation for German. Guidelines and Dataset, in: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), S. 2524-2531, [online] https://www.aclweb.org/anthology/L14-1251/. Bourgonje, Peter und Manfred Stede (2018): The Potsdam Commentary Corpus 2.1 in ANNIS3, in: Proceedings of the 17th International Workshop on Treebanks and Linguistic Theory. Oslo, https://ep.liu.se/ ecp/155/005/ecp18155005.pdf. Cinková, Silvie, Martin Holub und Vincent Kríž (2012): Managing Uncertainty in Semantic Tagging, in: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, S. 840–850, [online] https://dl.acm.org/citation. cfm?id=2380919. Didakowski, Jörg, Alexander Geyken und Thomas Hanneforth (2007): Eigennamenerkennung zwischen morphologischerAnalyse und Part-of-Speech Tagging: ein automatentheoriebasierter Ansatz, in: Zeitschrift für Sprachwissenschaft, Bd. 26, S. 157–186, [online] https://www.degruyter.com/view/j/ zfsw.2007.26.issue-2/zfs.2007.016/zfs.2007.016. xml?lang=de. Gallmann, Peter (2019): Das topologische Satzmodell. Skript, Jena, [online] http://syntax.uni-jena.de/ Dokumente/Vorlesung/Skript/Skript_H.pdf. Giesbrecht, Eugenie und Stefan Evert (2009). Part-ofspeech tagging – a solved task? An evaluation of POS taggers for the Web as corpus, in: Iñaki Aleg- 18 http://www.lrec-conf.org/. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 273 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 274 III Daten – Metadaten – Annotationen ria/Igor Leturia/Serge Sharoff (eds.), Proceedings of the 5th Web as Corpus Workshop (WAC5), San Sebastian, [online] http://www.stefan-evert.de/PUB/ GiesbrechtEvert2009_Tagging.pdf. Heid, Ulrich (2015): Wortannotationen für die digitalen Geisteswissenschaften. Foliensatz, Hildesheim/ Wien, [online] https://www.oeaw.ac.at/fileadmin/Institute/ACDH/pdf/events/ToolGallery12/ACDH_Tool_Gallery_1.2_Praesentation_ Heid.pdf. Hinrichs, Marie, Thomas Zastrow und Erhard Hinrichs (2010): WebLicht: Web-based LRT Services in a Distributed eScience Infrastructure, in: Proceedings of the International Conference on Language Resources and Evaluation, LREC 2010, 17-23 May 2010, Valletta, [online] http://www.lrec-conf.org/proceedings/lrec2010/pdf/270_Paper.pdf . Jiang, Ridong, Rafael E. Banchs und Haizhou Li (2016): Evaluating and Combining Named Entity Recognition Systems in: Proceedings of the Sixth Named Entity Workshop, joint with 54th ACL, Berlin 2016, S. 21– 27, [online] https://www.aclweb.org/anthology/ W16-2703.pdf. Lemnitzer, Lothar und Heike Zinsmeister (2015): Korpuslinguistik. Eine Einführung, 3. Aufl. Tübingen: Narr. Mann, William C. und Sandra A. Thompson (1988): Rhetorical Structure Theory: Toward a Functional Theory of text Organization, in: Text, 8. Jg., H. 3, S. 243–281, [online] https://www.cis.upenn. edu/~nenkova/Courses/cis700-2/rst.pdf. Nozza, Debora, Pikakshi Manchanda, Elisabetta Fersini, Mattei Palmonari und Enza Mesini (2021): Learning To Adapt with word embeddings: Domain adaptation of Named Entity Recognition systems, in: Information Processing & Management, Bd. 58, H. 3. Rehbein, Ines und Josef Ruppenhofer (2010): Proseminar Linguistische Annotation. Foliensatz, Saarbrücken 2010, [online] http://www.coli.uni-saarland. de/courses/linganno/slides/intro.pdf. Schiller, Anne, Simone Teufel und Christine Stöckert (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). Stuttgart, [online] http://www.sfs.uni-tuebingen. de/resources/stts-1999.pdf. Schmid, Helmut und Florian Laws (2008): Estimation of Conditional Probabilities With Decision Trees and an Application to Fine-Grained POS Tagging,in: COLING ‚08: Proceedings of the 22nd International Conference on Computational Linguistics – Volume 1, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 274 S. 777–784, [online] https://www.cis.uni-muenchen.de/~schmid/papers/Schmid-Laws.pdf. Stede, Manfred und Arne Neumann (2014), Potsdam Commentary Corpus 2.0: Annotation for Discourse Research . Proc. of the Language Resources and Evaluation Conference (LREC) (=Potsdam Cognitive Science Series, 8), Reykjavik, [online] http:// www.lrec-conf.org/proceedings/lrec2014/ pdf/579_Paper.pdf. Stede, Manfred (Hrsg.) (2016): Handbuch Textannotation: Potsdamer Kommentarkorpus 2.0. Potsdam: Universitätsverlag Potsdam, [online] https://publishup.uni-potsdam.de/opus4-ubp/frontdoor/ deliver/index/docId/8276/file/pcss8.pdf. Steiner, Petra und Lothar Lemnitzer (1994): Lexical specifications: application to German, in: Calzolari, Nicoletta/Monica Monachini (Hrsg.), Multext. Common Specifications and Notation for Lexicon Encoding. Multext -Document LEX1. Specifications. Version 0.1, [online] http://nl.ijs.si/ME/Vault/V3/msd/ related/msd-multext/. Steiner, Petra (2004): Wortarten und Korpus. Automatische Wortartenklassifikation durch distributionelle und quantitative Verfahren, Düren: Shaker Verlag. Tjong Kim Sang, Erik F. und Fien De Meulder (2003): Introduction to the CoNLL-2003 shared task: Language- independent named entity recognition, in: Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003, 4. Jg, S. 142–147, Edmonton, [online] https://dl.acm.org/citation. cfm?id=1119195. Ule, Tylman und Erhard W. Hinrichs (2004): Linguistische Annotation, in: Lobin, Henning und Lothar Lemnitzer (Hrsg.), Texttechnologien. Perspektiven und Anwendungen, Tübingen: Stauffenburg, S. 217–243. Volk, Martin und Gerold Schneider (1998): Comparing a statistical and a rule-based tagger for German, in: Proceedings of the 4th Conference on Natural Language Processing. KONVENS-98, S. 125–137, [online] https://arxiv.org/abs/cs/9811016. Zinsmeister, Heike, Ulrich Heid und Kathrin Beck (2013): Das Stuttgart-Tübingen Wortarten-Tagset. Stand und Perspektiven, in: Journal for Languge Technology and Computational Linguistics, Bd. 28, H. 1, [online] https://jlcl.org/content/2-allissues/10Heft1-2013/H2013-1.pdf. Die Adressen aller Webseiten und Online-Ressourcen in diesem Beitrag wurden zuletzt auf Aktualität überprüft am 29. Mai 2021. 24.03.22 11:07 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. IV RECHTLICHE UND ETHISCHE ASPEKTE BEIM UMGANG MIT SPRACHDATEN UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 275 24.03.22 11:07 UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 276 24.03.22 11:07 Forschen in der Linguistik, 9783825257118, 2022 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 277 15. Was darf die sprachwissenschaftliche Forschung – Juristische Fragen bei der Arbeit mit Sprachdaten Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Paweł Kamocki, Andreas Witt Sich in der Linguistik mit rechtlichen Themen beschäftigen zu müssen, ist auf den ersten Blick überraschend. Da jedoch in den Sprachwissenschaften empirisch gearbeitet wird und Sprachdaten, insbesondere Texte und Ton- und Videoaufnahmen sowie Transkripte gesprochener Sprache, in den letzten Jahren auch verstärkt Sprachdaten internetbasierter Kommunikation, als Basis für die linguistische Forschung dienen, müssen rechtliche Rahmenbedingungen für jede Art von Datennutzung beachtet werden. Natürlich arbeiten auch andere Wissenschaften, wie z. B. die Astronomie oder die Meteorologie, empirisch. Jedoch gibt es einen grundsätzlichen Unterschied der empirischen Basis: Im Gegensatz zu Temperaturen, die gemessen, oder Konstellationen von Himmelskörpern, die beobachtet werden, basieren Sprachdaten auf schriftlichen, mündlichen oder gebärdeten Äußerungen von Menschen, wodurch sich juristisch begründete Beschränkungen ihrer Nutzung ergeben. 1. Einleitung In diesem Kapitel werden einige grundlegende Konzepte des geistigen Eigentums (Abschnitt 2) und des Datenschutzrechts (Abschnitt 3) vorgestellt, die für die sprachwissenschaftliche Forschung schon während Ihres Studiums relevant werden können. In den folgenden Abschnitten erfahren Sie, wie Sie Daten für Ihre ersten Forschungsprojekte zusammentragen und diese verarbeiten, ohne gegen die gesetzlichen Bestimmungen zu verstoßen, und in welcher Form Sie Ihre Ergebnisse anderen Personen zur Verfügung stellen dürfen. Den Abschnitt zum Schutz des geistigen Eigentums (insbesondere 2.3.–2.5) sollten Sie lesen, wenn Sie für Ihre Forschung eine Sammlung z. B. von Text- oder Audiodaten anlegen oder eine derartige Sammlung von Dritten verwenden möchten. Den Abschnitt zu Open Access und Lizenzmodellen (Abschnitt 2.6) sollten Sie lesen, wenn Sie planen, eine wissenschaftliche Arbeit oder eine selbst erstellte Datensammlung zu veröffentlichen. Der Abschnitt über die Persönlichkeitsrechte (Abschnitt 3) ist relevant für Sie, wenn die von Ihnen erhobenen Daten, z. B. aus einer Befragung oder aus Experimenten, personenbezogene (Meta-)Daten enthalten müssen, UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 277 damit Sie Ihr Forschungsziel erreichen können. 2. Geistiges Eigentum 2.1 Einleitung oder: Warum benötigte Leibniz keinen rechtlichen Schutz seines geistigen Eigentums? Wenn Sie in einer Buchhandlung das Regal der belletristischen Neuerscheinungen durchstöbern, werden Sie viele meist hochwertig produzierte neue Ausgaben von Romanen finden, deren Verkaufspreise in Deutschland und Österreich derzeit meist zwischen 20 € und 25 € liegen. Zweifelsohne hat das haptisch erfahrbare Objekt Buch einen Wert, jedoch sind die Kosten dafür, das Papier zu kaufen, zu bedrucken, zu schneiden, zu binden, auszuliefern etc. meist sehr viel geringer als der Preis des Buches, der in den Buchhandlungen zu zahlen ist. Ein Grund für den höheren Preis ist, dass ein Team von Verlagsangestellten eine beträchtliche Anzahl von Arbeitsstunden aufgewandt hat, die Romane zu lektorieren, zu bewerben und zu vertreiben. Die wichtigste Tätigkeit, die vor der Publikation eines Romans geleistet werden 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 278 IV Rechtliche und ethische Aspekte beim Umgang mit Sprachdaten musste, ist jedoch das Verfassen des Texts. Die Schriftsteller*innen oder die Verfasser*innen der Werke haben meist viel Zeit damit verbracht, die Texte zu schreiben. Ein Buch – oder analog dazu ein Gemälde oder ein Musikstück – hat also einen höheren Wert als der Wert des analogen oder digitalen Mediums, auf dem es gespeichert ist. Das ist grundsätzlich auch beim Handel mit anderen Gütern der Fall. So kostet ein hochwertiges faltbares Fahrrad im Handel erheblich mehr, als seine Herstellung kostet. Ein zentraler Unterschied zwischen schöpferischen Werken und Gebrauchsgütern besteht jedoch darin, dass der Aufwand, eine nutzbare Reproduktion oder Kopie von schöpferischen Werken zu erstellen, wesentlich geringer ist als der Nachbau von Gebrauchsgegenständen. Der Handel mit Wirtschaftsgütern kann entsprechend nur dann sicher und effizient erfolgen, wenn er auf Rechtsvorschriften beruht, wobei Güter, die das Produkt schöpferischer Tätigkeit sind, hierbei besonders geschützt werden müssen. Geschriebene Texte werden als geistiges Eigentum und damit als immaterieller Vermögenswert angesehen. Sie sind das Produkt menschlicher Kreativität und werden durch Gesetze geschützt. Dies war nicht immer der Fall. In den Zeiten von Leibniz (und davor) gab es keinen gesetzlichen Schutz von geistigem Eigentum. Ein Grund hierfür ist darin zu finden, dass es keinen Bedarf für einen derartigen Schutz gab. Da es schlicht sehr teuer war, Bücher herzustellen, war auch das Kopieren von Texten nicht lukrativ. Aus diesem Grund wurde bis zum Ende des 17. Jahrhunderts der eigenständige wirtschaftliche Wert von Inhalten noch nicht gesehen. Erst mit der Entwicklung einer immer effizienteren Druckindustrie veränderte sich diese Lage. In diesem Zusammenhang entstand das Urheberrecht. Einfach ausgedrückt ist das Urheberrecht ein Recht an geistigem Eigentum, das den Urheber*innen eine gewisse Kontrolle über ihre Werke einräumt. Um seine Rolle und seine wachsende Bedeutung für die heutige Wirtschaft vollständig zu verstehen, wird im folgenden Abschnitt kurz die Geschichte des Urheberrechts vorgestellt (Abschnitt 2.2). Anschließend wird der Gegenstand des Urheberrechts erörtert, d. h. die Frage, welche UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 278 Güter eigentlich vom Urheberrecht geschützt werden und welche nicht (Abschnitt 2.3). Zudem wird dargestellt, was es für die Nutzung eines Werkes bedeutet, dass es urheberrechtlich geschützt ist (Abschnitt 2.4). Wie Sie sehen werden, sind die allgemeinen Regeln, die das Urheberrecht formuliert, sehr streng und könnten daher negative Auswirkungen auf die (sprach-)wissenschaftliche Nutzung von Texten und Sprachaufnahmen haben. Um diese negativen Konsequenzen abzuschwächen, hat die Gesetzgebung spezielle Regelungen für die Wissenschaft eingeführt, die in Abschnitt 2.5 vorgestellt werden. Hier erfahren Sie insbesondere, unter welchen Bedingungen die Wissenschaft geschützte Daten auch ohne Erlaubnis der Urheber*innen nutzen darf. Neben dem Urheberrecht ist auch das Verwertungsrecht und damit verbunden das Thema Lizenzen für die Forschung relevant. Wenn Sie einen wissenschaftlichen Artikel schreiben, ein Textkorpus für eine wissenschaftliche Untersuchung zusammenstellen oder eine Software entwickeln, haben Sie, wie erwähnt, unter bestimmten Bedingungen das Urheberrecht daran. Um Ihr Werk für die Community zugänglicher und nützlicher zu machen (und die Wahrscheinlichkeit zu erhöhen, dass Ihre Arbeit bemerkt und zitiert wird), sollten Sie darüber nachdenken, dieses Werk unter einer entsprechenden Lizenz möglichst offen zur Verfügung zu stellen. In Abschnitt 2.6 erhalten Sie hierzu einige grundlegende, praktisch anwendbare Informationen. Das Urheberrecht ist nicht das einzige Recht an geistigem Eigentum, das sich auf die sprachwissenschaftliche Forschung auswirken kann. Abhängig von der Art der Daten, die Sie für Ihre Forschung verwenden wollen, werden Sie möglicherweise mit einer Reihe von verwandten Schutzrechten konfrontiert, die z. B. die Nutzung von Datenbanken oder wissenschaftlichen Ausgaben gemeinfreier Werke regeln. Diese Rechte werden in Abschnitt 2.7 kurz erläutert. 24.03.22 11:07 Juristische Fragen Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 2.2 Ein bisschen Rechtsgeschichte… Um die Druckindustrie vor sogenannten Piraten zu schützen, die lediglich Bücher kopieren und sie kostengünstiger herstellen und verkaufen wollten, wurde 1710 in England das erste Urheberrechtsgesetz verabschiedet. Das Gesetz wurde nach der damaligen Königin benannt und ist als Statute of Anne in die Geschichte eingegangen. Bis Ende des 18. Jahrhunderts wurden in den USA, die weitgehend die Statute of Anne aus England übernommen haben, sowie in Frankreich und in Preußen ebenfalls Urheberrechtsgesetze erlassen. Im Jahr 1886 wurde zudem mit der Berner Übereinkunft erstmals ein Abkommen zur internationalen Anerkennung von Schutzrechten an der Urheberschaft geschlossen. Dieses leitete einen Prozess der internationalen Harmonisierung in diesem Bereich ein, was zum Teil auf die Bemühungen des berühmten französischen Schriftstellers Victor Hugo zurückzuführen war. Die Berner Übereinkunft ist – mit mehreren Überarbeitungen – nach wie vor in Kraft. In der Bundesrepublik Deutschland wurde 1965 das derzeitige Urheberrechtsgesetz in seiner ersten Fassung verabschiedet. Wie alle anderen Rechtsnormen wird auch das Urheberrecht kontinuierlich im Kontext der gesellschaftlichen und technischen Entwicklungen neu bewertet und bei Bedarf weiterentwickelt. In den vergangenen Jahrzehnten gab es bemerkenswert häufig Anstöße zur Reformierung des Regelwerks. Schon in den 1970er Jahren wurde mit Blick auf die Popularisierung von analogen Geräten zur Reproduktion – Bücher wurden mit Kopiergeräten, Musik wurde mit Kassettenrekordern kopiert – ein besserer Schutz der Ansprüche der künstlerisch-schöpferisch tätigen Menschen und ihrer Vertriebspartner (Verlage, Plattenfirmen) gefordert. Da die Herstellung von Analogkopien jedoch mit einem relativ hohen Arbeitsaufwand, hohen Kosten und häufig mit Qualitätseinbußen einherging, wurde das Thema Urheberrecht in Spezialdiskussionen behandelt. Eine breite gesellschaftliche Diskussion über das Urheberrecht begann, als durch digitale Medien eine einfache, verlustfreie Reproduzierbarkeit und, durch das Internet, ein UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 279 279 umfassender Vertrieb der kopierten Text-, Audio- und Videodateien zu einem Massenphänomen wurde. Auf internationaler Ebene wurde mit einem Übereinkommen der Welthandelsorganisation (WTO) über handelsbezogene Aspekte der Rechte des geistigen Eigentums (1995), dem Urheberrechtsvertrag der Weltorganisation für geistiges Eigentum (1996), dem Digital Millenium Copyright Act in den USA (1998) und nicht zuletzt mit der EU-Richtlinie über das Urheberrecht in der Informationsgesellschaft (2001) auf diese Entwicklungen reagiert. Das letztgenannte Dokument löste eine Welle von Reformen des deutschen Urheberrechts (unterteilt in „drei Körbe“) aus, die bis 2014 erfolgten. Anschließend, im Jahr 2017, wurde das deutsche Urheberrecht durch das Gesetz zur Anpassung des Urheberrechts an die aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG) nochmals umfassend neu geregelt, wobei die Regelung der akademischen Nutzungen und die Verwendung neuer Technologien im Zentrum standen. Im Jahr 2019 wurde zudem eine neue EU-Richtlinie über das Urheberrecht im digitalen Binnenmarkt angenommen, die für alle Staaten der EU bindend ist, was bedeutet, dass die Gesetze aller EU-Mitgliedsstaaten diese Richtlinie umsetzen müssen. 2.3 Überblick über das Urheberrecht Es gibt viele falsche Vorstellungen darüber, was urheberrechtlich geschützt ist oder geschützt werden kann. In der folgenden Darstellung des Urheberrechts wird speziell auch auf einige dieser falschen Vorstellungen eingegangen. Das Urheberrecht schützt weder Erfindungen noch Markennamen oder Logos. Erstere können durch Patente geschützt werden, letztere durch das Markenrecht. Das Urheberrecht schützt Werke der Literatur, Wissenschaft und Kunst. Zu dieser Kategorie gehören Sprachwerke, kreative Computerprogramme, Werke der bildenden Künste und Musik sowie Darstellungen wissenschaftlicher oder technischer Art. Der Urheberrechtsschutz entsteht, im Gegensatz zum Schutz durch Patente, automa- 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 280 IV Rechtliche und ethische Aspekte beim Umgang mit Sprachdaten tisch. Es gibt daher keine Formulare, keine Eintragungspflicht oder andere Formen der Anmeldung dieses Rechts. Mit der Schaffung des Werks durch den kreativ tätigen Menschen greift das Urheberrecht. Allerdings muss im Zweifelsfall nachgewiesen werden können, wer das Werk erstellt hat, was nicht immer einfach ist. In der Praxis besteht eine starke Vermutung, dass diejenigen, deren Namen auf dem Werk erscheinen, die eigentlichen Urheber*innen sind. Eine weitverbreitete – jedoch falsche – Annahme über das Urheberrecht betrifft die künstlerische Qualität des geschützten Werks. Der künstlerische Wert der Werke ist unerheblich für einen Urheberrechtsschutz. Die einzige Voraussetzung für den Schutz ist die Originalität. Ein Werk gilt im Sinne des Urheberrechts als originell (oder: individuell), wenn es eine eigene geistige Schöpfung darstellt.1 Das bedeutet, dass alle Werke originell und somit urheberrechtlich geschützt sind, die eine „persönliche Note“ der Urheber*innen tragen, die in der Auswahl und Anordnung der enthaltenen Elemente (Wörter, Töne, Formen, Farben usw.) zum Ausdruck kommt. Jeder Prozess, bei dem kreative Entscheidungen möglich sind (Kurzgeschichte, Essay, aber auch Slogan oder Vertrag), kann daher die Entstehung eines schützenswerten Werks zur Folge haben. Eine praktische Prüfung der Originalität könnte mit Hilfe folgender Fragestellung überprüft werden: Können zwei gleich qualifizierte Personen unabhängig voneinander genau dasselbe Ergebnis erzielen? Es ist äußerst unwahrscheinlich, dass zwei Autor*innen genau denselben Roman schreiben oder zwei Maler*innen dasselbe Gemälde erstellen. Wenn es aber darum geht, einen Slogan zu (er-)finden, liegen die Chancen von zwei Urheber*innen, die gleichen Ergebnisse zu liefern, sehr viel höher. Aus diesem Grund sind kurze Geschichten und Gemälde praktisch immer originell, während beispielswei1 2 se nur sehr wenige Fotos des Eiffelturms in diesem Sinne originell sind. Der Schutz gilt nicht nur für das Werk als Ganzes, sondern auch für seine konstitutiven Teile, solange es sich um Originale handelt, d. h., wenn es unwahrscheinlich ist, dass diese von einer anderen Person unabhängig ebenfalls geschaffen werden. „Ich bin Pastafari, ich glaube an das Spaghettimonster“ ist vermutlich ein unorigineller Satz, Noam Chomskys berühmter Satz „Colorless green ideas sleep furiously“ gilt hingegen wahrscheinlich als originell. Warum „vermutlich“, warum „wahrscheinlich“? In viele Fällen ist die Entscheidung, ob eine bestimmte Wortfolge aus juristischer Sicht als urheberrechtlich schützenswert betrachtet wird oder nicht, schwer vorhersagbar. So entschied das Oberlandesgericht München im Dezember 2019, dass der Satz „Früher war mehr Lametta.“, den der Satiriker Loriot in einem Sketch äußerte, keine hinreichende Schöpfungshöhe für einen Schutz besitze.2 Ganz ähnlich stellt sich die Frage nach dem Werkcharakter von Postings in öffentlichen Chat-Räumen oder anderen Formen internetbasierter Kommunikation: Welchen Grad von Originalität müssen diese aufweisen, damit sie als Werk im Sinne des Urheberrechts betrachtet werden können und somit als schützenswert gelten? Diese Frage ist für empirische Untersuchungen im Bereich der Medienlinguistik und für den Aufbau von Korpora internetbasierter Kommunikation (→ Kapitel 26 [Korpora internetbasierter Kommunikation] in diesem Band) nicht unerheblich (vgl. Beißwenger et al. 2017). Nur der Ausdruck (die Form) eines Werks ist geschützt, nicht aber der Inhalt oder die „Idee“. Das bedeutet, dass Sie zwar keine Kopie eines Harry Potter Bandes von J. K. Rowling verkaufen dürfen. Sehr wohl dürfen Sie jedoch einen Roman über einen Waisenjungen verkaufen, der feststellt, dass er magische Kräfte hat. Tatsächlich gab es solche Geschich- Diese Definition wurde 2009 vom Gerichtshof der Europäischen Union angenommen (Rechtssache C-5/08 Infopaq), mit der das Konzept der Originalität in der gesamten EU harmonisiert wurde. Erwähnenswert ist, dass sie sich nur geringfügig von der traditionellen Definition der Originalität im deutschen Urheberrechtsrecht unterscheidet. OLG München, Urteil vom 20.12.2019, Az. 6 W 927/19. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 280 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Juristische Fragen ten schon lange vor Harry Potter und neue kommen hinzu. Das Urheberrecht schränkt nicht die Kreativität der Kunstschaffenden ein, sondern fördert vielmehr das kreative Schaffen, indem es Urheber*innen ermöglicht, von ihrem Werk zu leben. Zumindest ist das die Grundidee, wobei jedoch immer auch Fragen der Freiheit der Kunst bei rechtlichen Auseinandersetzungen thematisiert werden.3 Darüber hinaus ist es sinnvoll zu verstehen, dass urheberrechtlich geschützte Werke abstrakte, nicht reale Gegenstände sind. Die meisten Werke sind in einem physischen Träger fixiert (als Corpus mechanicum bezeichnet, z. B. auf Papier gedruckt oder in Stein gemeißelt); das Urheberrecht berührt jedoch nicht das Eigentum an diesen Gegenständen. Das Urheberrecht schützt Werke in ihrem abstrakten Sinne: Wenn der materielle Träger einer Skulptur zerstört wird, ist seine „metaphysikalische“ Form nach wie vor urheberrechtlich geschützt (sofern die Schutzdauer nicht abgelaufen ist, wie nachstehend erläutert wird), und nur der Urheber/die Urheberin (und nicht der Eigentümer/die Eigentümerin der physischen Skulptur) kann rechtmäßig eine weitere Kopie davon anfertigen oder die Anfertigung einer solchen Kopie genehmigen. Schließlich ist das Urheberrecht zuerkannte Eigentum – im Gegensatz zu einem Eigentum an materiellen Gegenständen – zeitlich begrenzt. Es gilt in Deutschland für die Lebenszeit der Urheberin oder des Urhebers und weitere siebzig Jahre. Nach Ablauf dieses Zeitraums gelangt das Werk in die Öffentlichkeit und kann frei genutzt werden. Retrospektiv ist eine starke Tendenz der Gesetzgebung beobachtbar, die Dauer des Urheberrechts zu verlängern — interessanterweise sah die Statute of Anne erst nach der Eintragung des Werks einen Schutz von 14 Jahren vor. 3 281 2.4 Praktische Auswirkungen des Urheberrechtsschutzes Wie oben erläutert gewährt die Urheberschaft den Autor*innen Eigentumsrechte an ihren Werken, die als abstrakte, immaterielle Objekte betrachtet werden. Aber was bedeutet es, Exklusivrechte an einem immateriellen Gut wie einem urheberrechtlich geschützten Werk zu haben? Der Zweck der Exklusivrechte an Werken bestand zu Beginn des Urheberrechts darin, die Druckindustrie zu schützen. Daher bestand das Urheberrecht vom ersten Tag an aus dem Exklusivrecht, Kopien eines Werks anzufertigen und diese Kopien an die Öffentlichkeit zu verteilen. Dazu ist die Erlaubnis des Urhebers/der Urheberin erforderlich. Die zwei Grundrechte sind dann das Vervielfältigungsrecht und das Recht der öffentlichen Zugänglichmachung. Ein drittes, traditionell anerkanntes ausschließliches Recht ist das Anpassungsrecht, d. h. das Recht, Anpassungen, Übersetzungen und andere abgeleitete Werke auf der Grundlage des Originalwerks (z. B. ein auf einem Buch basierenden Film) vorzunehmen bzw. zu erstellen. In der digitalisierten Welt wurde es viel komplizierter. Wie Sie sich erinnern, ist ein Werk unabhängig vom Medium, auf dem es dargeboten und gespeichert ist, geschützt: Digitale Werke genießen den gleichen Schutz wie Bücher. Ein Verbot, Kopien von gedruckten Büchern anzufertigen, mag gelegentlich als Unannehmlichkeit angesehen werden. Der Umstand, dass das gleiche Verbot auch für digitale Texte, z. B. E-Books, gilt, hatte gravierende Auswirkungen auf die Gestaltung der digitalen Welt. Alles, was Sie mit digitalen Werken tun – auch wenn Sie sie nur auf Ihrem Bildschirm anzeigen – bedeutet zwangsläufig, dass Sie Kopien davon erstellen, und sei es auch nur temporär im Arbeitsspeicher Ihres Computers. Wenn wir strenge urheberrechtliche Regeln für digitalisierte Werke anwenden, würde dies in der Tat bedeuten, dass buchstäblich nichts ohne Erlaubnis der In einem mehr als 20 Jahren währenden Rechtsstreit zwischen den Musikern Moses Pelham und der Band Kraftwerk ging es im Kern um die Frage, ob (HipHop-)Musiker*innen ungefragt Ausschnitte urheberrechtlich geschützter Werke anderen Musiker*innen für das Sampling verwenden dürfen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 281 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 282 IV Rechtliche und ethische Aspekte beim Umgang mit Sprachdaten Rechteinhaber*innen mit fremden Texten gemacht werden kann. Glücklicherweise gibt es eine Reihe von Ausnahmen (Urheberrechtsschranken) von diesen strengen, allgemeinen Regeln – darunter eine, die es ermöglicht, im Internet zu surfen, ohne ständig Berechtigungen erfragen oder erwerben zu müssen.4 Es gibt auch Ausnahmen für den Einsatz von Texten im Unterricht und in der Forschung, die im nächsten Unterabschnitt vorgestellt werden. Es ist jedoch wichtig zu wissen, dass diese Urheberrechtsausnahmen nur zu eng abgegrenzten Nutzungsformen berechtigen. Wann immer ein digitales Werk auf eine Weise verwendet werden soll, die nicht von einer Ausnahme erfasst wird, muss hierfür eine Erlaubnis der Rechteinhaber*innen eingeholt werden. Neben den Verwertungsrechten für Vervielfältigung, öffentliche Zugänglichmachung und Anpassung haben Autor*innen auch eine Reihe von Persönlichkeitsrechten. Das wichtigste dieser Rechte ist die Anerkennung der Urheberschaft, d. h. das Recht eine Namensnennung einfordern zu dürfen, wenn seine oder ihre Werke zitiert oder anderweitig verwendet werden. Ein weiteres wichtiges Persönlichkeitsrecht ist das Recht, die Entstellung des Werkes zu verhindern (z. B. die Neuordnung von Sätzen in einem Zitat, um dem Autor eine falsche Meinung unterzuschieben). 2.5 Urheberrecht und Wissenschaft: Ausnahmen für Unterricht und Forschung Wie Sie sich vorstellen können, ist der Prozess der Einholung bestimmter Nutzungsrechte bei den Autor*innen nicht nur zeitaufwändig, sondern oft auch faktisch unmöglich. Wenn Linguist*innen mit großen Textsammlungen 4 5 6 7 arbeiten, um z. B. den Sprachwandel zu erforschen, müssten tausende Rechteinhaber* innen, d. h. Autor*innen oder deren Erb*innen, um Erlaubnis gefragt werden. Die Verwendung urheberrechtlich geschützter Werke für Forschungs- und Lehrzwecke wurde lange Zeit aus urheberrechtlicher Sicht als nahezu irrelevant angesehen. In der Tat konnte ein Gelehrter vor der Mitte des 20. Jahrhunderts nur manuell Auszüge von Büchern aus Bibliotheken kopieren und sie dann seinen Schüler*innen vorlesen, eine Aktivität, die die Verlagsbranche nicht störte. Man kann sagen, dass das Urheberrecht und die Wissenschaft friedlich koexistierten. Das änderte sich, als das Kopieren in den Fluren der Schulen, Universitäten und in den Bibliotheken allgegenwärtig wurde. Die Berner Übereinkunft verlieh in ihrer ursprünglichen Fassung von 1886 den nationalen Gesetzgebern, „Befugniß, Auszüge oder Stücke aus Werken der Literatur und Kunst in Veröffentlichungen, welche für den Unterricht bestimmt oder wissenschaftlicher Natur sind, oder in Chrestomathie5 aufzunehmen, vorzusehen.“6 Während der Überarbeitung des Übereinkommens von 1967 geschah etwas ziemlich Überraschendes. Der Verweis auf „wissenschaftliche Natur“ wurde gestrichen, und die Formulierung wurde geändert, um nur Verwendungen „zur Veranschaulichung des Unterrichts“ zuzulassen.7 Als die europäische Gesetzgebung um die Jahrtausendwende an der EU-Richtlinie zum Urheberrecht arbeitete, musste sie den internationalen Verpflichtungen der Mitgliedstaaten nachkommen, die alle an die Berner Übereinkunft gebunden waren. Dies erklärt teilweise die Formulierung der harmonisierten Ausnahme für Forschung und Lehre in dieser 2001 verabschiedeten Richtlinie. Die Richtlinie (genauer gesagt Artikel 5.3 (a)) erlaubt es den EU-Mitgliedstaaten, in ih- Diese Ausnahme wurde im Artikel 5.1 der EU-Urheberrechtsrichtlinie von 2001 formuliert. Diese Ausnahme ist die einzige obligatorische Ausnahme in der Richtlinie, d. h. sie musste von allen EU-Mitgliedstaaten umgesetzt werden. Das heute sehr wenig gebräuchliche Wort Chrestomathie bezeichnet eine Zusammenstellung von Texten zu Lehrzwecken. Artikel 8 der ersten Fassung der Berner Übereinkunft. Artikel 10.2 der aktuellen Fassung der Berner Übereinkunft. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 282 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. Juristische Fragen ren nationalen Rechtsvorschriften Ausnahmen „für die Nutzung ausschließlich zur Veranschaulichung im Unterricht oder für Zwecke der wissenschaftlichen Forschung, sofern – außer in Fällen, in denen sich dies als unmöglich erweist – die Quelle, einschließlich des Namens des Urhebers (…) angegeben wird und soweit dies zur Verfolgung nicht kommerzieller Zwecke gerechtfertigt ist“, zu erlassen. Mit anderen Worten: In den Ländern der EU konnten durch diese Richtlinie Urheberrechtsschranken für nichtkommerzielle Lehre und Forschung beschlossen werden – eine Ausnahme für die kommerzielle Forschung wäre mit dem EU-Recht jedoch unvereinbar. Bemerkenswert ist, dass nichts in der Richtlinie die Größe der Auszüge einschränkt, die verwendet werden können (es könnte theoretisch möglich sein, eine ganze Enzyklopädie zu kopieren und zu teilen, solange dies für nichtkommerzielle Forschungszwecke ist), oder auch die Anzahl der Begünstigten: Akademiker*innen, Student*innen oder auch Bürgerwissenschaftler*innen können hier gemeint sein. In der Praxis entscheiden sich die nationalen Gesetzgeber jedoch meist für relativ restriktive Schrankenregelungen und fügen viele Bedin- 283 gungen hinzu, die in der Richtlinie nicht vorgeschrieben sind. Dies war bis 2018 auch in Deutschland der Fall, wo Forscher*innen nur kleine Teile eines Werkes und Werke geringen Umfangs wie einzelne Gedichte oder Artikel verwenden durften und einer Verwertungsgesellschaft (wie der VG Wort) eine angemessene Vergütung für die Verwendung zu zahlen hatten (die in der Praxis die Verwendung der Ausnahme zur institutionalisierten Forschung reduzierte) und selbst dann die Werke nur mit einem bestimmten abgegrenzten Kreis von Personen teilen konnten8. Es ist unnötig zu erwähnen, dass solche Ausnahmen für Forscher*innen, die digitale Daten verwenden, keinen praktischen Nutzen hatten. In den letzten zehn Jahren wurde die Legislative in vielen Ländern auf die Bedeutung von Technologien wie Data Mining für die Forschung aufmerksam gemacht. Infolgedessen wurden in (ehemaligen) EU-Mitgliedstaaten wie Großbritannien, Frankreich oder Deutschland neue Ausnahmen für das Data Mining zu Forschungszwecken eingeführt. Aus den oben erläuterten Gründen konnten diese Ausnahmen jedoch nur nichtkommerzielle Unterrichts- und Forschungstätigkeiten abdecken. Tab. 1: Urheberrechtsschranken für die Wissenschaften 8 Welche Werke können benutzt werden? Alle Werke; einzige Ausnahme: Es ist nicht erlaubt, während öffentlicher Vorträge, Aufführungen oder Vorführungen eines Werkes diese auf Bildoder Tonträger aufzunehmen und später öffentlich zugänglich zu machen. Wie groß sind die Teile von Werken, die benutzt werden können? • Für eigene Nutzungsformen, zu denen nicht das Teilen zählt: bis zu 75 Prozent eines Werkes • Für eigene Nutzungsformen, zu denen auch das Teilen zählt: bis zu 15% • Vollständig genutzt werden können zudem in Ausnahmefällen: • einzelne Beiträge aus derselben Fachzeitschrift oder wissenschaftlichen Zeitschrift • Werke geringen Umfangs, d. h. einzelne Gedichte, Kurzgeschichten oder andere gedruckte Werke, die kürzer als 25 Seiten sind, Bilder, Fotografien, Ton- oder Videoaufnahmen, die kürzer als 5 Minuten sind • vergriffene Werke Wer kann die Werke oder Teile des Werkes benutzen? Jede*r Zu welchem Zweck? Zum Zweck der nicht-kommerziellen wissenschaftlichen Forschung Mit wem können die Werke oder Teile des Werkes geteilt werden? Nur mit einem bestimmt abgegrenzten Kreis von Personen (z. B. innerhalb eines Forschungsteams) und mit einzelnen Dritten, soweit dies der Überprüfung der Qualität wissenschaftlicher Forschung dient. § 52a UrhG (bis 1. März 2018). UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 283 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP-Adresse 134.155.134.075 aus dem Netz der Mannheim UB 36 am Juni 9, 2023 um 10:35:44 (UTC) heruntergeladen. 284 IV Rechtliche und ethische Aspekte beim Umgang mit Sprachdaten In Deutschland fand die Reform im Jahr 2018 statt, als ein neues Gesetz unter dem vielversprechenden Titel Angleichung des Urheberrechts an die aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG) in Kraft trat. Mit dem UrhWissG wurden eine Reihe neuer Bestimmungen und Änderungen im Urhebergesetz (UrhG) eingeführt, die insbesondere Bereiche wie Unterricht und Lehre (§60a), Lehrmedien (§60b), nicht-kommerzielle Forschung (§60c), Text und Data Mining (§60d) sowie Bibliotheken (§60e) betreffen. Nachfolgend konzentrieren wir uns auf die Paragraphen §60c (Wissenschaftliche Forschung) und §60d (Text und Data Mining). Die erste dieser Schranken ist zwar restriktiver, als es sich die akademische Gemeinschaft gewünscht hatte, hat jedoch den Vorteil, dass sie ziemlich klar formuliert ist (was beim vorherigen Rahmen nicht der Fall war). Sie kann in einer Tabelle dargestellt werden (Tab. 1). Es scheint, dass diese Ausnahme eher traditionelle, ‚konsumierende’ Verwendungen abdeckt, etwa das sog. close reading. ‚Nicht konsumierende’ Verwendungen, wie distant reading, fallen in den Geltungsbereich einer bestimmten Ausnahme (§60d, Text und Data Mining), die in Tabelle 2 zusammengefasst wird. Möglicherweise stellen Sie sich jetzt die Frage, wie Sie zwischen kommerzieller und nichtkommerzieller Forschung unterscheiden können. Das ist in der Tat nicht immer klar zu beantworten.9 Es ist durchaus möglich, dass sich die akademische Community in Kürze auch nicht mehr mit der kommerziellen oder nichtkommerziellen Unterscheidung befassen muss. 2019 wurde eine neue EU-Richtlinie zum Urheberrecht im digitalen Binnenmarkt verabschiedet. Sie verpflichtet die Mitgliedstaaten unter anderem, urheberrechtliche Ausnahmen für das Data Mining für Forschungsarbeiten einzuführen, die an Universitäten und Gedächtnisorganisationen (z. B. Archive, Museen) durchgeführt werden, unabhängig davon, ob es sich um kommerzielle oder nichtkommerzielle Zwecke handelt. Dieser Schritt steht im Einklang mit der Förderung öffentlich-privater Partnerschaften durch die Europäische Kommission. 2.6 Urheberrechtslizenzierung: Creative Commons und die Open Access-Bewegung Vermutlich haben Sie bereits von der Bewegung gehört, die den offenen Zugang (Open Access) zu wissenschaftlichem Material fördert, und Sie fragen sich möglicherweise, wie Tab. 2: Urheberrechtsschranke für das Text und Data Mining 9 Welche Werke können benutzt werden? Alle Werke ohne Einschränkungen Bis zu welchem Umfang können Auszüge benutzt werden? Es gibt keine Einschränkungen, die Werke können vollständig genutzt werden. Wer kann die Werke oder Teile des Werkes benutzen? Jede*r Zu welchem Zweck? Um eine Vielzahl von Werken (Ursprungsmaterial) für die nicht kommerzielle wissenschaftliche Forschung automatisiert auszuwerten. Mit wem können die Werke oder Teile des Werkes geteilt werden? Das Korpus kann mit einem bestimmt abgegrenzten Kreis von Personen (z. B. innerhalb eines Forschungsteams) und mit einzelnen Dritten (’soweit dies der Überprüfung der Qualität wissenschaftlicher Forschung dient’) geteilt werden. WICHTIGE EINSCHRÄNKUNG Das Korpus und die Vervielfältigungen des Ursprungsmaterials sind nach Abschluss der Forschungsarbeiten zu löschen oder den Bibliotheken oder Archiven zur dauerhaften Aufbewahrung zu übermitteln. Für Ihr Studium, für Ihre Bachelor- oder Masterarbeit ist die Situation jedoch eindeutig, Sie müssen sich keine Sorgen machen. UTB_5711_Beißwenger_Forschen_in_der_Linguistik_1.0.indd 284 24.03.22 11:07 Das Weitergeben und Kopieren dieses Dokuments ist nicht zulässig. Forschen in der Linguistik, 9783825257118, 2022 wurde mit IP