ZIELE der Computerlinguistik (50er Jahre) •Erfassung der Sprache (?) –(Sprache = mathematische Formeln) – •Generieren der Sprache (?) • •maschinelle Übersetzung (?) –(Nürnberger Prozess – großes Aufgebot von Dolmetschern) COMPUTERLINGUISTIK • •beschreibt sprachliche Strukturen und Prozesse mithilfe der Datenverarbeitung • •unterstützt die Korpuslinguistik • •erleichtert die Erkundung des Phänomens „Sprache“ COMPUTER- UND KORPUSLINGUISTIK •Computer+Linguistik • •↓ • •Computerlinguistik • •Korpus+Linguistik • •↓ • •Korpuslinguistik (Computer)Korpuslinguistik KORPUSTYPOLOGIE •Welche Kriterien würden Sie erwarten? •Charakterisieren Sie diejenigen Korpora, die Sie kennen. •Welche wird es (kaum jemals) geben? •Welche Korpora würden Sie begrüßen? •Ist das World-Wide-Web auch eine Textdatenbank? • • KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium (Ursprungsmedium) •3. Repräsentativität •4. Größe •5. Sprache • • KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache • •1.1 Synchrone Korpora –DeReKo, Wortschatz-Portal, DWDS, AAC •1.2 Diachrone Korpora –DWDS (20. Jh.), DeReKo (18. – 21. Jh.) •1.3 Historische Korpora –MHDBDB (MHD), Bonner FnhdC (FNHD), AHD?? KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache • •2.1 Korpora der geschriebenen Sprache –DeReKo, DWDS, Leipzig… •2.2 Korpora der gesprochenen Sprache –Bayerisches Archiv für Sprachsignale, DGD (auch Ex Freiburger Korpus) • • KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache •3.1 Stilistisches Kriterium –3.1.1 allgemeine •DeReKo, DWDS –3.1.2 spezifische •MULTEXT-East, FALKO •3.2 Kriterium der Ausgewogenheit –3.2.1 ausgewogene Korpora •DeReKo –3.2.2 opportunistisch gebildete Korpora •Wortschatz-Portal KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache •4.1 große –DeReKo, BNC, ČNK… – •4.2 kleine –DWDS (nicht-authorisierter Teil), Deu-Cze KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache •5.1 monolinguale Korpora •eine Sprache: (Nationalkorpora) •5.2 Bilinguale und Multilinguale Korpora •zwei oder mehrere Sprachen –5.2.1 Vergleichskorpora –5.2.2 Parallelkorpora •OPUS, ČNPK, InterCorp… • VERGLEICHSKORPUS http://ORF.at/ http://Novinky.cz KORPUSTYPOLOGIE osynchron – diachron – historisch §gesprochene – geschriebene Øallgemein – spezifisch / Øausgewogen – opportunistisch vgroß - klein ümonolinguale - multilinguale • • Wo sind die Korpora keine Hilfe? •Kontrastive Forschung der gesprochenen Sprache •Untersuchung der im Korpus nicht vorhandenen Texte (z.B. Aufschriften) •Literaturwissenschaftliche Arbeiten im engeren Sinne (Interpretationen, Komparatistik) •Aufstellung absoluter Urteile über die Sprache • • •Jedes Korpus ist durch seine Größe bzw. Ausgewogenheit der Texte begrenzt! • • KORPORA DES DEUTSCHEN •DWDS •http://www.dwds.de/ • •Wortschatz-Portal •http://wortschatz.uni-leipzig.de/ • •IDS-Mannheim (DeReKo, DGD u.a.) •http://www.ids-mannheim.de/ • •InterCorp •Startseite •Vor der Recherche bitte anmelden unter Login (rechts oben). • Korpora geschriebener Gegenwartssprache des IDS http://www.ids-mannheim.de/kt/projekte/korpora/ Bestand: über 4 Milliarden Token C4 http://chtk.unibas.ch/korpus-c4/search DWDS-Korpus http://www.dwds.de/ Bestand: 1.2 Milliarden Token (intern), 100 Millionen Token (öffentlich) Schweizer Textkorpus http://www.schweizer-textkorpus.ch/ Im Testbetrieb besteht das Korpus nun aus etwa 10 Mio. Token. Im Endausbau sind 20 Mio. Token geplant. Austrian Academy Corpus: http://www.aac.ac.at/index.html http://corpus1.aac.ac.at/brenner/ Südtirol http://search.korpus-suedtirol.it:8089/cqpWeb/mycgi.pl Dortmunder Chatkorpus http://www.chatkorpus.uni-dortmund.de/ Bestand: 1.1 Mio. Token aus 150'000 Chat-Beiträgen. British National Corpus (BNC) http://www.natcorp.ox.ac.uk/ Bestand: über 100 Millionen Token Quelle: www.dr-sagawe.de/lehre/korpus-forschung.ppt