Tomáš Kářia Elektronische Sprachkorpora in Wissenschaft und Unterricht DaF/DaZ - einige Vorschläge für die Nutzung der elektronischen Instrumente1 Neue Technologien gewinnen immer mehr an Bedeutung - sogar in solchen Bereichen, die primär keine aufwändige Technik benöligen. Sie setzen sich selbst dort durch, wo man sie vor einigen Jahren noch nicht erwartet hätte. Ein solcher Bereich ist wohl auch die Fremdsprachenvermittlung. In diesem Bettrag möchte ich auf elektronische Sprachkorpora fokussieren, einen Ausschnitt aus der Arbeit mit ihnen präsentieren und so ein Spektrum an Ideen für die Nutzung der Korpora im Bereich DaF/DaZ mit Schwerpunkt auf die Wortschatzarbeit eröffnen. Vor dem Ausflug zu den Korpora und in ihre Daten sollte zuerst kurz; erwähnt werden, welche Bedeutung die Korpuslinguistik in der heutigen Zeit hat und welche Korpora es gibt, die für DaF/DaZ von Bedeutung sind.2 Die Nutzung der elektronischen Sprachkorpora ist in der Fremdsprachen forschung und im Unterricht ein relativ neues Element. Bis heute bedient man sich der traditionellen empirischen Instrumente (vgl. z.B. Muzikant 2007), die auch in Zukunft nicht an Bedeutung verlieren werden. In den letzten Jahren aber ist in vielen Sprachforschungsbereichen (vgl. Pelouäkova 2005) und auch im Sprachunterricht eine Orientierung auf die effektiven Korpusmethoden deutlich sichtbar (Kasova 2006). So basieren beispielsweise die in den letzten jähren erschienenen Grammatiken und Wörterbücher weitestgehend auf Recherchen in elektronischen Korpora (Zifonun et al. 1997; Wermke et al. 2005; Klosa et al. 2001 u.v.a.m.). 1. Korpuslinguistik Die Korpuslinguistik ist jener Teil der Linguistik, der die Sprache systematisch anhand großer Mengen von realisierten sprachlichen Äußerungen (Parole) untersucht Das Ziel des korpuslinguistischen Ansatzes in der modernen Linguistik ist es, die Strukturen und Funktionen der natürlichen Sprache besser und realitätsnäher zu beschreiben (vgl. z.B. Biber et al. 1998). Damit ist die Korpuslinguistik keine neue Theorie der linguistischen Untersuchung, sondern eher eine effektive Methode der Sprachforschung.' 123 Zu Nutznießern der Korpora zählen Philologinnen im weiteren Sinne (auch Lite-raturwissenschaftlerlnnen können elektronische Korpora gut nutzen - z.B. für eine Recherche über typische Kollokationen eines/einer Autors/Autorin), Übersetzerinnen und Dolmetscher und Dolmetscherinnen, Sprachlehrerinnen, Schüler und Schülerinnen, Studenten und Studentinnen und eigentlich alle, die Interesse an dem Phänomen Sprache haben, denn die meisten elektronischen Korpora sind leicht zugänglich und auch für nicht Computergewandte einfach zu nutzen. 1.1. Korpusrecherche vs. traditionelle Datenerhebung Die Vorteile der Arbeit mit elektronischen Korpora sind spätestens dann klar, wenn jemand sich eine (linguistische oder linguistisch bezogene) Frage stellt und die Antwort mit konkreten Beispielen belegen möchte. „Sagen Sie das E-Mail oder die E-Mait? Und wie schreiben Sie das? E-Mail oder E-mail?" Statt einer Umfrage bei Muttersprachlerinnen - was sich für Deutschlernende im Ausland besonders schwierig darstellt - oder statt einer langwierigen Recherche in diversen gedruckten Texten, bietet bereits eines der Korpora eine überwältigende Anzahl von Belegen: 18.090-mal E-Mail und 5.374-mal E-mail hat der Korpusmanager in über 4 Millionen unterschiedlichen Texten (über eine Billion Worter)* binnen 15 Sekunden im Mannheimer Korpus gefunden. Und mit diesen Daten kann man weiter analysieren - z.B. in weichen Texten das E-Mail oder die E-Mail vorkommt Wie lange würde eine manuelle Recherche für dasselbe Ergebnis dauern? 2. Korpustypen Für einen erfolgreichen Datengewinn ist zunächst die Korpuswahl sehr wichtig. Die Überlegung, welche Recherche ich unternehmen will, mündet logischerweise in die Wahl des geeigneten Instruments. Erwähnt werden hier nur für DaF/DaZ relevante Korpora. 2.1. Diachrone und synchrone Korpora Für die historischen Untersuchungen der Sprache gibt es bereits einige Korpora - z.B. die Mittelhochdeutsche Begriffsdatenbank (MHDBDB) an der Salzburger Universität oder Dos digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS), das zwar ausschließlich das Neuhochdeutsche erfasst, sich jedoch wunderbar als Instrument zur Erfassung der (Ver-)Änderungen des Deutschen im vorigen Jahrhundert eignet (Beispiele siehe Kap. 4.1.2.). Zur Betrachtung der heutigen deutschen Sprache sind schon einige Korpora für jeden per Internet zugänglich: z.B. Das Deutsche Referenzkorpus (DeReKo) am IDS-Mannheim, das Korpus Wortschatz erstellt von der Informatik der Universität Leipzig oder das schon erwähnte DWDS, um nur einige zu nennen. 22. Korpora der gesprochenen und geschriebenen Sprache Alle bisher erwähnten Korpora erfassen nur die geschriebene Sprache. Es gibt allerdings einige Korpora der gesprochenen Sprache, z.B. das Deutsche Spracharchiv (DSAv) und die Datenbank Gesprochenes Deutsch (DGD) - beide am IDS-Mannheim. 2.3. Einsprachige und parallele Korpora Parallele (mehrsprachige) Korpora sind viel seltener als einsprachige, weil ihr Aufbau wesentlich komplizierter ist, da die entsprechenden Passagen einander zugeordnet (aligned) werden müssen. (Kafia/PelouSkova 2006b) 2.4. Relevante Korpora für DaF/DaZ Es gibt also mehrere Korpora des geschriebenen und gesprochenen Deutsch, wo die Sprache in ihrer natürlichen Form, also in authentischen Texten, erscheint. Zur Demonstration der Arbeit mit diesen Instrumenten in diesem Beitrag wählte ich die folgenden Korpora: » Das Deutsche Referenzkorpus (DeReKo) am IDS-Mannheim - „die weltweit größte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit"5 • Das digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderls (DWDS)« an der Berlin-Brandenburgischen Akademie der Wissenschaften • Wortschatz am Institut für Informatik der Universität Leipzig7 > Das tschechisch-deutsche Parallelkorpus (CNPK) an der Masaryk- Universität Brünn - das größte Parallelkorpus für Tschechisch und Deutsch' - erwähne ich hier als einen Vertreter der Parallelkorpora. Technische Angaben, sowie die Syntax der Korpusabfrage sind den jeweiligen Dokumentationen (Internetseiten) der Korpora zu entnehmen. 124 125 3. Möglichkeiten der Nutzung von Korpora Elektronische Korpora kann man für die Untersuchung aller Ebenen der Sprache nutzen, wenn auch mit unterschiedlichem Aufwand. Text- und Satzsemantik können aus den bisher raren und nur schwer zugänglichen „geparsten" (syntaktisch annotierten) Korpora schöpfen. Für andere Bereiche eignen sich hingegen viele relativ gut zugängliche und einfach zu bedienende Korpora. Im Phonetikunlerrlcht können Korpora der gesprochenen Sprache von großer Hilfe sein, weil ihre Daten oft auch akustisch abrufbar sind (DSAv und DGD aber auch andere, wie z.B. Bayerisches Archiv für Sprachsig-nale). Grammatik, Orthographie und der Wortschatz lassen sich am besten an Korpora der geschriebenen Sprache eruieren. Diese sind nämlich viel großer als die Korpora der gesprochenen Sprache. 3.1. Grenzen der Möglichkeiten Die Vorteile der Korpusarbeit sind unumstritten. Es ist allerdings auch darauf hinzuweisen, dass die Korpora in einigen Bereichen keine Hilfe sein können. Zu diesen zählen unter anderem: • kontrastive Forschung der gesprochenen Sprache • Untersuchung der im Korpus nicht vorhandenen Texte (z.B. Aufschriften) • literaturwissenschaftliche Arbeiten im engeren Sinne (Interpretationen, Kompara-tistik) • Aufstellung absoluter Urteile über die Sprache Darüber hinaus ist festzuhatten, dass jedes Korpus durch seine Große bzw. Ausgewogenheit der Texte begrenzt ist. Nichtsdestotrotz kann der Beitrag der elektronischen Korpora für die Spracharbeit äußerst ergiebig sein. Das möchte ich am Beispiel der Wortschatzarbeit demonstrieren. 4. Wortschatzarbeit mit den Korpora Die Wortschatzarbeit mit dem Korpus kennt fast keine Grenzen, da auch der Wortschatz einer Sprache nahezu unbegrenzt ist Aufgrund der einfachsten Fragen im Korpusmanager (Wortform, Wottkombination, Lemma und Tag = morphologische Kategorie3) lassen sich die wichtigsten Informationen über das abgefragte Phänomen gewinnen. Im Folgenden möchte ich zeigen, wie zwei Konkurrenzformen in verschiedenen Korpora vertreten sind (4.1.), also wie die Wörter im Wortschatz des 20. Jahrhunderts eingebettet 126 sind Anhand einiger Übungen möchte ich vorführen, welche Möglichkeiten die elektronischen Korpora für die Vermittlung des Deutschen im DaF/DaZ-Unterricht bieten (4.2.). Beide Kapitel setzen sich zum Ziel, das Spektrum der in den Korpora enthaltenen Informationen vorzustellen, die in der vorelektronischen Zeit kaum zu gewinnen waren. 4.1. Fallbeispiel der Korpusarbeit: Tschechien und/oder Tscheche! Die Tschechen, vor allem die Generationen, die den größeren Teil ihres Lebens noch in der Tschechoslowakei erlebt haben, weigern sich oft sich mit der „neuen" Bezeichnung ihres Landes („Česko") zu identifizieren. Diese klingt für tschechische Ohren etwa wie „Tscheche-" im Deutschen. Paradoxerweise wissen aber viele, wie das Land auf Deutsch heißen soll: nämlich Tschechien.10 Ja auf keinen Fall die Tschechen Aus historischen Gründen, selbstverständlich. Fragestellung: Wie, wann und wo werden diese zwei Benennungen in deutschen Texten vervendetf Und wird auf Tschechisch differenziert, wenn im entsprechenden deutschen Text Tschechien oder Tschechei síeřiti* 4.1.1. Synchrone Distribution Den ersten Eindruck über die Häufigkeit der Verwendung liefert das IDS-Korpus DeReKo: Hier überwiegt eindeutig die Form Tschechien (38.500-mal) vor Tschechei (nicht einmal 1.000-mal). Die Anzeige der Treffer in den einzelnen Dokumenten ergibt, dass das Wort Tschechei nur in öffentlich zugänglichen Zeitungstexten und fast ausschließlich in österreichischen, seltener in schweizerischen, jedoch kaum in bundesdeutschen Zeitungen, vorkommt. Die Textsortendistribution ist im IDS-Korpus schwer zu erschließen, denn der Öffentliche Teil des Korpus besteht fast ausschließlich aus Zei-tungs- und Zeitschriftentexten. Die zeitliche Distribution von beiden Wörtern aus der synchronen Sicht ist ungefähr gleich. Beide Worter kommen am häufigsten zwischen den Jahren 1996 und 1998 vor. 4.1.2. Dlachrone Distribution (20. Jahrhundert) Eine wenig überraschende graphische Statistik über den Gebrauch des Wortes Tschechei im ganzen 20. Jahrhundert liefert das DWDS. Das Vorkommen der AJJonyme in den Korpustexten (in absoluten Zahlen) stellt das Instrument nach Dekaden automatisch dar: 127 Verlaufestatistik für .Tschechei' im DWOS-Korpus L i -1 n _ _ ■ ■ ■Gebrauchsllterattir ■ Zeitung ■WHiWschaft O Belletrist* 1900 1910 19Í0 19» WM 1950 1960 19V0 19B0 »90 Grafik 1: Tscheche: Das Wort Tscheche! kommt laut Korpusdaten am 50er (ahren de! 20. Jh. In „GebrauchsteMen" (hellgrau) vor. teil in den 40er und Verfaufcstatlstlk für .Tschechien' im DWDS-Korpus 25 20 15 ■ Gebrauchsliteratur ■Zeitung ■Wissenschaft □ BclletrJtttlt 5 ■ 0 J 1900 »10 1920 1930 1940 1950 1960 19» 1H0 19 90 Grafik 2: Tschechien: Die Form Tschechien ist ersr ra den (meist) publizistischen (dnnkeigrau) Teilen aus den War Jahren vertreten.11 4.1.3. Tschechische Entsprechungen Da wir es hier mit einer lexikalischen Divergenz zu tun haben (Deutsch: Tschechien und Tschechei - zwei Simplexwörten Tschechisch Česko - ein Simplexwort), bietet sich die Frage an, wie die deutsche Dichotomie im Tschechischen gelöst wird. Die Antwort kann das Tschechisch-deutsche Parallelkorpus andeuten: (la) Meine Mutter war ja da noch in der Resttschechoslowakei, Tschechei, denn die Slowakei hat sich ja auch selbständig gemacht, (lb) Maminka potom byla ještě ve „zbytku Československa", tedy v Česku, protože Slovensko vyhlásilo samostatnost. (2a) Oder sie haben sich von daheim von irgendwas die Etiketten rausgetrennt und haben sie in einen neuen Mantel reingenäht, weil in der Tschechei alles billiger war... (2b) Nebo doma z něčeho odpárali Štítky a našili je na nový kabát, protože v Česku bylo všechno laciněji!... (3a) Sind wir wirklich bereit, dem Ski-Tourismus einen der landschaftlich schönsten Winkel in der Tschechel zu opfern? (3b) Jsme připraveni neomezenému lyžováni obětovat ochranu jednoho z nej- vzácnějsích koutů České přírody? Der Form Tschechei (im Korpus allerdings nur 22-mal) entspricht im ČNPK in den meisten Fällen das „neue" Wort Česko, egal ob es sich um das Land zwischen 1938 und 1945 (1), um eine umgangssprachliche Kürzung der Tschechoslowakischen sozialistischen Republik (2) oder um die Tschechische Republik nach 1993 (3) handelt. (Das Adjektiv český (3b) ist allerdings vom Substantiv Čechy [Böhmen] abgeleitet, kann jedoch auch als eine Derivation von Česko betrachtet werden.) Der Eigenname Tschechien (mit 100 Treffern) kommt in den Paralleltexten häufig als česká republika (der offizielle Name des Landes) (4) oder CR (5), oft auch als eine politisch korrekte, inoffizielle Bezeichnung České země („Tschechische Länder", also Böhmen und Mähren) (6), vor. (4a) Gerade in der Gegenwart rücken die osteuropäischen Staaten wie Polen, Ungarn, Tschechien, die Slowakei, Slowenien, Kroatien und Bosnien in das Gesichtsfeld Mitteleuropas. (4b) Právě dnes se státy jako Polsko, Maďarsko, Česká republika. Slovensko, Slovinsko, Chorvatsko či Bosna stávají středem zájmu. (5a) In Tschechien ist es ein einzigartiges Beispiel eines Herrensitzes, der durch französische Architektur aus der Zeit des Königs Louis XVI. inspiriert war. 128 129