ZIELE der Computerlinguistik (50er Jahre) •Erfassung der Sprache (?) –(Sprache = mathematische Formeln) – •Generieren der Sprache (?) • •maschinelle Übersetzung (?) –(Nürnberger Prozess – großes Aufgebot von Dolmetschern) COMPUTERLINGUISTIK • •beschreibt sprachliche Strukturen und Prozesse mithilfe der Datenverarbeitung • •unterstützt die Korpuslinguistik • •erleichtert die Erkundung des Phänomens „Sprache“ COMPUTER- UND KORPUSLINGUISTIK •Computer+Linguistik • •↓ • •Computerlinguistik • •Korpus+Linguistik • •↓ • •Korpuslinguistik (Computer)Korpuslinguistik KORPUSTYPOLOGIE •Welche Kriterien würden Sie erwarten? •Charakterisieren Sie diejenigen Korpora, die Sie kennen. •Welche wird es (kaum jemals) geben? •Welche Korpora würden Sie begrüßen? •Ist das World-Wide-Web auch eine Textdatenbank? • • KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium (Ursprungsmedium) •3. Repräsentativität •4. Größe •5. Sprache • • KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache • •1.1 Synchrone Korpora –DeReKo, Wortschatz-Portal, DWDS, AAC •1.2 Diachrone Korpora –DWDS (20. Jh.), DeReKo (18. – 21. Jh.) •1.3 Historische Korpora –MHDBDB (MHD), Bonner FnhdC (FNHD), AHD?? KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache • •2.1 Korpora der geschriebenen Sprache –DeReKo, DWDS, Leipzig… •2.2 Korpora der gesprochenen Sprache –Bayerisches Archiv für Sprachsignale, DGD (auch Ex Freiburger Korpus) • • KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache •3.1 Stilistisches Kriterium –3.1.1 allgemeine •DeReKo, DWDS –3.1.2 spezifische •MULTEXT-East, FALKO •3.2 Kriterium der Ausgewogenheit –3.2.1 ausgewogene Korpora •DeReKo –3.2.2 opportunistisch gebildete Korpora •Wortschatz-Portal KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache •4.1 große –DeReKo, BNC, ČNK… – •4.2 kleine –DWDS (nicht-authorisierter Teil), Deu-Cze KORPUSTYPOLOGIE •1. Stadium der gespeicherten Sprache •2. Medium •3. Repräsentativität •4. Größe •5. Sprache •5.1 monolinguale Korpora •eine Sprache: (Nationalkorpora) •5.2 Bilinguale und Multilinguale Korpora •zwei oder mehrere Sprachen –5.2.1 Vergleichskorpora –5.2.2 Parallelkorpora •OPUS, ČNPK, InterCorp… • VERGLEICHSKORPUS http://ORF.at/ http://Novinky.cz KORPUSTYPOLOGIE osynchron – diachron – historisch §gesprochene – geschriebene Øallgemein – spezifisch / Øausgewogen – opportunistisch vgroß - klein ümonolinguale - multilinguale • • KORPORA DES DEUTSCHEN •DWDS •http://www.dwds.de/ • •Wortschatz-Portal •http://wortschatz.uni-leipzig.de/ • •IDS-Mannheim (DeReKo, DGD u.a.) •http://www.ids-mannheim.de/ • •InterCorp •Startseite •Vor der Recherche bitte anmelden unter Login (rechts oben). • Korpora geschriebener Gegenwartssprache des IDS http://www.ids-mannheim.de/kt/projekte/korpora/ Bestand: über 4 Milliarden Token C4 http://chtk.unibas.ch/korpus-c4/search DWDS-Korpus http://www.dwds.de/ Bestand: 1.2 Milliarden Token (intern), 100 Millionen Token (öffentlich) Schweizer Textkorpus http://www.schweizer-textkorpus.ch/ Im Testbetrieb besteht das Korpus nun aus etwa 10 Mio. Token. Im Endausbau sind 20 Mio. Token geplant. Austrian Academy Corpus: http://www.aac.ac.at/index.html http://corpus1.aac.ac.at/brenner/ Südtirol http://search.korpus-suedtirol.it:8089/cqpWeb/mycgi.pl Dortmunder Chatkorpus http://www.chatkorpus.uni-dortmund.de/ Bestand: 1.1 Mio. Token aus 150'000 Chat-Beiträgen. British National Corpus (BNC) http://www.natcorp.ox.ac.uk/ Bestand: über 100 Millionen Token Quelle: www.dr-sagawe.de/lehre/korpus-forschung.ppt