Читать книгу Internetlinguistik - Konstanze Marx - Страница 13
1.4.1 WWW = Korpus?
ОглавлениеKorpora, die natürlichsprachliche Daten enthalten, ermöglichen eine Beobachtung authentischen Sprachverhaltens. Hierbei kann es sich um Sprachmaterial handeln, das mündlich entsteht und verschriftlicht wird (private oder öffentliche Gespräche) oder das bereits schriftlich fixiert vorliegt (Zeitungsartikel, Webtexte).
Ein Korpus zu erstellen, ist eine sehr aufwändige Arbeit, die das zeitliche und finanzielle Budget innerhalb von Forschungsprojekten durchaus übersteigen kann. Führt man sich die Anforderungen, die ein Korpus erfüllen muss, vor Augen, könnte man zu dem Schluss gelangen, dass sich die Erstellung eines umfangreichen Daten-Korpus gar nicht in den Rahmen einer Hausarbeit einpassen ließe.
Korpora sind umfangreiche Sammlungen gesprochener und geschriebener Texte, die
mit Blick auf spezifische Erkenntnisinteressen oder Anwendungsszenarien zusammengestellt wurden, um möglichst alle charakteristischen Eigenschaften des betreffenden Sprachausschnittes abzubilden;
in einer Größenordnung von meist mehreren Millionen Textwörtern vorliegen;
normalerweise elektronisch verfügbar und maschinenlesbar sind;
in der Regel nur sinnvoll unter Einsatz von Computern, typischerweise mittels statistischer Verfahren, untersucht und analysiert werden können. (Paprotté 2002: 366)
Auch Texte, die online erschienen sind, sind inzwischen in Korpora erfasst worden. Das Didi-Korpus beispielsweise (DiDi = „Digital Natives – Digital Immigrants. Schreiben auf Social Network Sites“) basiert auf Datenspenden von 136 Nutzer*innen. Es umfasst etwa 650.000 Tokens und setzt sich aus 11.102 Facebook-Status-Meldungen, 6.507 Pinnwand-Kommentaren und 22.218 Chat-Nachrichten zusammen. Diese sind für Nutzer*innen frei zugänglich, die eine Vertraulichkeitsvereinbarung unterzeichnen.
Das Korpus deWac ist Teil eines Projektes, das unter dem Namen WaCky von Linguist*innen und Fachinformatiker*innen initiiert wurde. Es wurde über Suchanfragen aus Webseiten der de-Domäne zusammengestellt und enthält 1,7 Milliarden Wörter, die nach Wortarten erfasst und gekennzeichnet (POS-tagged) sowie lemmatisiert (verstichwortet) wurden. Das Korpus kann nach einer Anmeldung per E-Mail auf den eigenen Rechner geladen werden. Auch für andere Sprachen sind nach diesem Muster Korpora generiert worden.
Das Dortmunder Chatkorpus beinhaltet Chats aus den Handlungsbereichen Freizeit, Beratung, Medien und Lehr-/Lernkontexten und ist sowohl für linguistische als auch für sprachdidaktische Zwecke geeignet (siehe Beißwenger 2013). Es umfasst 478 Chat-Mitschnitte (140.240 Nutzerbeiträge, 1,06 Millionen Token), die in den Jahren 2002–2008 zusammengestellt und nach Äußerungsbeiträgen, Zuschreibungsbeiträgen und Systemmeldungen annotiert wurden. Die Suche nach Emoticons, Ausdrücken in Asterisken oder @-Adressierungen ist mit Hilfe eines Java-basierten Suchwerkzeuges möglich. Ein Releasekorpus mit 385 Dokumenten (59.876 Chat-Beiträgen bzw. 551.762 lfd. Wortformen) ist frei verfügbar. Die Beiträge sind ebenfalls grob nach inhaltlichen (und technologischen) Kriterien annotiert: Äußerungsbeiträge werden von Zuschreibungsbeiträgen und Systemmeldungen unterschieden. Bei Äußerungsbeiträgen handelt es sich um Eingaben in das Texteingabefeld, wie z. B.: Hallo ruebennase, wieso langweilst du dich?. In Zuschreibungsbeiträgen referieren Chatter*innen zumeist in der 3. Person auf sich selbst oder das Chat-GeschehenChat, indem sie die Eingabe durch ein Codesegment so modifizieren, dass ein Platzhalter für die Namen der Teilnehmer*innen entsteht, der dann durch das System eingesetzt wird, wie z. B. ruebennase langweilt sich immer noch … Systemmeldungen machen technische Funktionen, wie einloggen, ausloggen etc., sichtbar, sie werden vom Server erzeugt, wie z. B. rübennase betritt den Raum. (vgl. zum gesamten Abschnitt Beißwenger 2013a).
Daten aus der Alltagskommunikation mittels elektronischer Kurznachrichten liegen in der MoCoDa (Mobile Communication Database) vor. Die derzeit 2.206 Dialoge (19.224 Nachrichten, 1.063.531 Zeichen) sind im vertrauten mehrfarbigen für mobile Messengerdienste typischen Layout abgebildet. Metadaten wie Alter, Geschlecht, Bildungsgrad, Standort, Tarif, Eingabemodus, Beziehung der Schreiber*innen zueinander, ergänzende Informationen zum Dialog, Eingabeart/-medium und der Modus, wie die Daten eingestellt worden sind, werden zum jeweils aufgerufenen Dialog angezeigt. Besonders benutzerfreundlich ist, dass die Dialoge inhaltlich verstichwortet sind, so dass eine Suche durchgeführt werden kann. Das KorpusKorpus kann für die Forschung und Lehre genutzt werden. Es ist lediglich ein Passwort notwendig, dass via E-Mail bei Wolfgang Imo (Universität Hamburg) erfragt werden kann.
Gerade im Entstehen befindet sich die MoCoDa2. Diese Datenbank ist – wie der Name schon nahelegt – eine Erweiterung der MoCoDa. Ende 2019 verfügte die Datenbank über 367 Chats, 31.811 Nachrichten, 247.587 Tokens und damit 1.021.704 Zeichen. Zu Erweiterung der Datenbasis werden fortlaufend Datenspenden gesammelt. Ein Video zur Anleitung ist unter der folgenden Adresse verfügbar: https://db.mocoda2.de/#/c/home.
Vorstellen möchten wir auch das Projekt What’s up Switzerland. Im Rahmen dieses Projekts wurde 2014 eine große WhatsApp-Datenbasis erstellt (ca. 617 Chats, ca. 750.000 Nachrichten, ca. 5,5Mio. Tokens und 350.000 Emojis). Es gibt auch ein Satellitenprojekt What’s up Deutschland. Aus dem Projekt gingen nicht nur zahlreiche Publikationen hervor. Die Forscher*innen sind derzeit zudem dabei, die Datenbasis für die sprachwissenschaftliche Forschung aufzubereiten, die voraussichtlich ab März 2020 verfügbar sein wird.
Eine Sammlung mit etwa 1.500 SMS von Schülern und Schülerinnen und Studierenden der Universitäten Osnabrück und Hannover kann als pdf-Datei von der Seite mediensprache.net heruntergeladen werden. Dialogische Sequenzen finden sich hier nicht, aber Angaben zum Geschlecht und dem Alter der Autor*innen.
Ein aus neun Teilkorpora bestehendes Wikipedia-Korpus ist über das Portal und Recherchesystem COSMASII des Leibniz-Instituts für Deutsche Sprache Mannheim unter den Bedingungen der CC-BY-SA-Lizenz nutzbar. Es umfasst Artikelseiten aus den Jahren 2013, 2015 und 2017 im Umfang von 3.160.142.331 Textwörtern, Diskussionsseiten der Jahre 2013, 2015 und 2017 im Umfang von 733.809.373 Textwörtern und Nutzerdiskussionen aus den Jahren 2015 und 2017 im Umfang von 612.561.557 Textwörtern.
Weblogs und Kommentare sind in das BBAW-Korpus zum Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS) integriert (Barbaresi/Würzner 2014). Mit Hilfe des Fußballlinguistik-Korpus von Simon Meier (TU Dresden) können 290 Taktikanalysen der Taktikblogs niemalsallein.de und halbfeldflanke.de untersucht werden. Darüber hinaus bietet das Korpus derzeit ein umfangreiches mehrsprachiges vollannotiertes Repertoire an Liveticker-Daten, Spielberichten und Taktikanalysen aus den Jahren 2006 bis 2017 (31,5 Mio. Tokens). Das Korpus kann nach einer unkomplizierten Registrierung kostenlos genutzt werden (Meier 2017).
Unter https://www.youtube.com/user/CLARINGermany kann man sich über die CLARIN-D-Infrastruktur für die sprachbasierte Forschung in den Geistes- und Sozialwissenschaften informieren. Empfohlen seien auch die CLARIN-D-YouTube-Tutorials. In kurzen Videos werden hier Schritt-für-Schritt-Anleitungen zur Nutzung von Korpora, digitalen Werkzeugen und Webservices gegeben.
Mini-Glossar Korpuslinguistik
annotieren: zusätzlich zu den sprachlichen Daten innerhalb einer Datenbank werden sprachwissenschaftlich relevante Daten gespeichert, z. B. Wortarten (‚taggingtagging‘) oder die syntaktische Struktur bei komplexen Äußerungen (‚parsing‘). Das ist ein mühsamer manueller Vorgang, der deshalb häufig von automatischen Verfahren übernommen wird. Diese sind wiederum sehr fehleranfällig, so dass eine manuelle Nachbearbeitung notwendig ist.
lemmatisieren: die einem Lexem zugehörige unflektierte Grundform wird notiert, z. B. für das Lexem ging das Lemma gehen oder für Räume das Lemma Raum.
KonkordanzKonkordanz: Liste von Kotexten für ein Schlüssel-Lexem
Bruchpilot in: „Die Bilanz von Bruchpilot Wowereit“ (n-tv.de, 2013-03-19); „Streicht dem Bruchpiloten Wowereit die Pension“ (berliner-kurier.de, 2012-07-21); „Bruchpilot Wowereit tauft den A380“ (bz.de, 2012-05-22); „Die Nähe zur Partei wurde der Zeitung jedoch spätestens mit dem Grounding der Swissair und ihrer [sic!] freisinnigen Bruchpiloten zum Verhängnis“ (zeit.de, 2010-04-08)
KollokationKollokationen: Ausdruck aus mehreren Wörtern mit (statistisch) starkem Zusammenhalt
auf Nummer sicher gehen in: „Die Flughafenplaner wollen auf Nummer sicher gehen: Die endgültige Entscheidung für den Termin werde der Aufsichtsrat nun voraussichtlich erst im August fällen, erklärte Berlins Regierender Bürgermeister Klaus Wowereit als Chef des Kontrollgremiums.“ (spiegel.de, 2012-06-22)
Part-of-speech-Tagging (POS-tagging): regelbasiertes Etikettieren von Token im KorpusKorpus mit entsprechenden Wortarten
In/PRÄP Berlin/N sprach/VFIN man/PRONINDEF über/PRÄP den/ART Rücktritt/N von/PRÄP Klaus/EIGENN Wowereit/EIGENN1.
TokenToken: Kleinste Einheit in einem Korpus. Über die Anzahl der Tokens wird die Korpusgröße bestimmt.
Von1 Anfang2 an3 war4 der5 massive6 politische7 Einfluss8 von9 Wowereit10 und11 Platzeck12 das13 Todesurteil14 für15 das16 Bauprojekt17 an18 Berlins19 Stadtrand20.
TypeType: Identische Tokens in einem KorpusKorpus. Über die Anzahl der Types wird die Vokabelgröße bestimmt.
Von1 Anfang2 an3 war4 der5 massive6 politische7 Einfluss8 von Wowereit9 und10 Platzeck11 das12 Todesurteil13 für14 das Bauprojekt15 an Berlins16 Stadtrand17.
Ausgewählte Korpora im Überblick
DiDi-Korpus: https://commul.eurac.edu/annis/didi
deWac: http://wacky.sslmit.unibo.it/doku.php?id=corpora
Chat-Korpus: www.chatkorpus.tu-dortmund.de
MoCoDa: https://mocoda.spracheinteraktion.de
MoCoDa2: https://db.mocoda2.de/#/c/home
SMS: www.mediensprache.net/archiv/corpora/sms_os_h.pdf
Wikipedia: https://cosmas2.ids-mannheim.de/cosmas2-web/
Blogs und Webkorpus: www.dwds.de/d/k-spezial#blogs Liveticker und Blogs: https://fussballlinguistik.linguistik.tu-berlin.de
Aufgabe 1-3
Welche Schwierigkeiten können sich bei der Arbeit mit bereits bestehenden Korpora ergeben?
Mit bestehenden, annotierten Korpora zu arbeiten, birgt durchaus Nachteile, insbesondere wenn man die Linguistik als Wissenschaft auffasst, die „regelmäßige Beziehungen zwischen sprachlichen Formen und kommunikativen Funktionen beschreiben will“ (Consten 2014). So können bei der Annotation nicht nur formale Zuordnungsfehler entstehen. Wenn es den Personen, die annotieren, nicht gelingt, eine Äußerung ohne eigene Interpretation, in eine vorgegebene Maske einzupassen, kann das Datenmaterial gar verfälscht werden. Die Interpretation wiederum ist ein natürlicher mit dem Verstehen von Text verbundener Prozess (vgl. Consten 2014 und auch Kapitel 4.3.1). Unter anderem darin liegt die Ursache, dass sich selbst aufwändig generierten und annotierten Korpora keine Antworten auf spezifische Fragen, wie „die Funktion syntaktischer Satzmodi als Marker für Sprechakttypen, die informationsstrukturierende Wirkung von Wortstellungsvariationen, die semantisch-logisch kaum beschreibbare Bedeutung mancher Modalpartikeln [oder] der referenzsemantische Effekt von Definitheit“ (Consten 2014) entnehmen lassen. Auch intentionale Normabweichungen lassen sich z. B. nur schwer von Fehlern abgrenzen. Unmöglich ist es zudem, vom Nicht-Vorkommen eines Phänomens im Korpus auf ein generelles Nicht-Vorkommen im Sprachgebrauch zu schließen (Schlobinski 2011: 133 f.).
Unabhängig davon, ob man nun explorativ vorgehen oder einer Hypothese nachgehen möchte, ist es also durchaus ratsam, selbst Daten zu erheben und zu einem Korpus zusammenzustellen. Nicht zuletzt aus forschungspraktischen Erwägungen (Kosten- und Ressourcenersparnis) drängt sich die Frage auf, inwieweit nicht auch das gesamte WWW als Korpus genutzt und entsprechend ausgewertet werden kann.
Exploratives Vorgehen dient dem Abstecken eines Forschungsfeldes und soll zu Hypothesen führen.
Das World Wide Web verfügt über eine unüberschaubare Datenmenge, die frei verfügbar und leicht zugänglich ist. Zudem entfällt ein mühsames Transkribieren, weil sie bereits in schriftlicher Form vorliegen. Theoretisch kann das WWW also für alle möglichen sprachwissenschaftlichen Forschungsfragen genutzt werden. Die Texte sind jedoch zumeist in Dokumente eingebettet, die weitere Kodierungen aufweisen (Menüführungen, Werbung, sog. Boilerplates usw.), vgl. Schulte im Walde/Zinsmeister (2006).
Boilerplates sind gleichbleibende (Text-)Elemente.
Zudem sind oftmals keine Meta-Informationen verfügbar. Wer ist beispielsweise der*die Autor*in eines Textes? Wie sind seine*ihre Sprachkompetenzen einzuschätzen? Zu berücksichtigen ist auch, welche Sprache im Web vorherrschend ist und ob das Web überhaupt repräsentativ ist für den Sprachgebrauch, den man untersuchen möchte. Damit einher geht die Frage nach den Textsorten, die im Web vorkommen (siehe auch Kapitel 5.4, vgl. auch Bubenhofer 2011). Auch die rechtlichen Grundlagen erschweren die Anwendung des WWW als Korpus.
Aufgabe 1-4
Geben Sie in drei Suchmaschinen Ihrer Wahl das Stichwort Persuasion ein. Welche Ergebnisse erhalten Sie?
Problematisch ist zudem, dass die Suchmaschinen nicht die Funktionalitäten aufweisen, die für sprachwissenschaftliche Zwecke vonnöten sind. Die Defizite im Hinblick auf die Abfragesprache, die Annotationen, die Repräsentativität der erfassten Webseiten und Intransparenz beim Indizieren und Ranking werden bei Bubenhofer (2011) erläutert und werden hier zusammengefasst wiedergegeben:
„beschränkte Abfragesprache: Es ist […] nicht möglich, mit Auslassungszeichen zu arbeiten, also „reguläre Ausdrücke“ zu verwenden. Normalerweise beherrscht eine Abfragesprache (z. B. in Datenbanken) spezielle Zeichen wie *, + oder ?, um einen oder mehrere Buchstaben offen zu lassen. Möchte man z. B. alle Flexionsformen und Komposita des Wortes ‚Hund‘ finden, kann man nicht einfach ‚Hund*‘ eingeben und findet dann auch ‚Hundegebell‘ oder ‚Hunde‘.“
Fehlende Annotationen: „die indizierten Webseiten [sind] nicht linguistisch annotiert. Man kann also nicht einfach so nach Präpositionalphrasen oder nach Adjektiv-Nomen-Konstruktionen suchen.
Repräsentativität der erfassten Webseiten: „[…] eine Suchmaschine [kann] mit ihrem Webcrawler nicht alle verfügbaren Webseiten erfassen. Es bleibt ein sog. ‚deep web‘ […], das aus Webseiten besteht, die von Suchmaschinen aus technischen Gründen nicht gefunden werden können. Dazu gehören z. B. viele Datenbanken […] geschützte oder schlicht nicht verlinkte Seiten. Das […] ‚deep web‘ soll 500 Mal grösser sein [als das für Suchmaschinen sichtbare Web]. Zudem ist es möglich, dass ein Suchmaschinenbetreiber gewisse Seiten absichtlich sperrt, oder dass er aus politischen Gründen dazu gezwungen wird. [Die] Menge der indizierten Seiten [verändert sich] ständig. Möchte man z. B. Trefferzahlen vergleichen, muss das möglichst zum gleichen Zeitpunkt geschehen, da sich ansonsten die Grundgesamtheit der indizierten Dokumente bereits wieder verändert hat.“
Intransparenz im Hinblick auf das Indizieren und Ranking: „Suchmaschinen [legen nicht offen], nach welchen Kriterien die Webseiten genau indiziert werden und wie das Ranking funktioniert.“ (Bubenhofer 2011: Probleme)
Aufgabe 1-5
Für welche Art von sprachwissenschaftlichen Forschungsfragen eignet sich die Recherche im WWW? Formulieren Sie drei Hypothesen.
Linguistische Forschungsbereiche, in denen die Suche im WWW gewinnbringend eingesetzt werden kann, sind z. B. die Lexikographie, Semantik, Syntax, Maschinelle Übersetzung (vgl. Volk 2002, gelistet bei Bubenhofer 2011: Anwendungen) oder Varietätenlinguistik (Bickel 2006). Es kann demnach aufschlussreich sein, im WWW zu prüfen, ob spezifische Lexeme oder Phrasen in verschiedenen deutschsprachigen Domänen (.at vs. .ch vs. .de, vgl. Bickel 2006) vorkommen oder auch in welchen KollokationenKollokationen. Es lassen sich auch Aussagen über die Bedeutung von Mehrwortsequenzen ableiten.
QuantitativeQuantitativ Auswertungen von Daten im WWW sind deshalb nicht sinnvoll, weil die Grundgesamtheit der im WWW existierenden Dokumente nicht bestimmt werden kann. Wenn statistische Aussagen denn unbedingt gewünscht sind, sollte ein Korpus erstellt werden, das aus aus dem WWW geladenen Seiten besteht, und den Vorteil hat, dass ihre Anzahl und die Anzahl spezifischer fokussierter Phänomene genau angegeben werden können (vgl. Korpusintitiative WaCky). Wichtig ist aber, dass bei allen Aussagen über die Korpusdaten deutlich gemacht wird, dass sie nur auf die Daten innerhalb des Korpus zutreffen und nicht allgemeingültig sind.