Читать книгу Internetlinguistik - Konstanze Marx - Страница 7
1.1 Das Internet als Datenpool
ОглавлениеDas World Wide Web (WWWWWW) ist ein für Sprachwissenschaftler*innen geradezu unerschöpflicher Datenpool, der sich zudem kontinuierlich neu generiert. Wissenschaftliche Fachtexte, journalistische Artikel, Kommentare von Leser*innen, virtuelle Plaudereien, Zeugnisse sozialer Kontaktpflege, Blogs oder Tweets sind gerade einmal den sprichwörtlichen Mausklick entfernt. Expert*innen und Lai*innen, Jugendliche und Erwachsene, politisch Motivierte, Spaßorientierte, Gelangweilte oder Wütende geben ihr Wissen und/oder ihre Überzeugungen preis, wollen sich unterhalten oder nutzen das quasi-öffentliche Forum, um ihren Gefühlen Ausdruck zu verleihen.
Bevor sich Web 1.0 und Web 2.0 etablierten, mussten spontan produzierte Sprachdaten mit viel Aufwand erhoben und mühsam transkribiert werden. Insbesondere dank zahlreicher Social-Media-Anwendungen (wie Facebook, YouTube, Twitter, Tumblr, Nutzer- und Diskussionsforen etc.) scheinen sich die Zugänglichkeitsbedingungen für Sprachdaten erheblich verbessert zu haben. Selbst E-Mail-Anbieter binden Kommentarfunktionen in ihre Nachrichtenportale ein. Das heißt, dass das Abfragen der E-Mails nicht nur damit verbunden werden kann, auf schnellem Wege neueste Informationen zu erhalten. Nutzer*innen können sich zudem gleich zu den im Nachrichtenportal präsentierten Inhalten äußern und liefern damit jede Menge sprachliches Material.
Unter Scheinidentität wird hier ein Profil verstanden, das selektive Informationen, wie etwa Interessen, Einstellung etc. enthält, in dem jedoch auf Klarnamen und ein Foto, auf dem der*die Profilurheber*in deutlich zu erkennen ist, verzichtet wird.
Auf diese Weise werden verschiedene Textsorten, wie Artikel, Nachrichtentexte oder Nutzerkommentare, deren Form und Inhalt für spezifische linguistische Fragestellungen relevant sein kann, relativ unproblematisch und mit wenig Zeitaufwand verfügbar. So scheint es unkompliziert, Zugang zu diesen sprachlichen Daten zu erhalten. Dennoch gestaltet sich die Korpusgenerierung schwierig. Das liegt auch daran, dass Nutzer nach wie vor anonym (in Foren oder Nutzerkommentaren) und/oder unter Scheinidentitäten (auf Twitter, Instagram und teilweise auch auf Facebook) agieren. Zwar trägt das sicherlich zum Abbau von Hemmungen bei und begünstigt, dass sprachliche Daten überhaupt entstehen und „veröffentlicht“ werden, es birgt aber auch methodische Nachteile: Erstens, ohne technische Hilfsmittel können die Urheber*innen der Texte kaum ermittelt werden, insbesondere in den Fällen, in denen sich die „Kommentator*innen“ Pseudonyme (vgl. dazu auch den Abschnitt zu Nicknames) geben. Zweitens kann die Situation, in der der Text entstanden ist, nicht kontrolliert werden, so dass keine Aussagen darüber getroffen werden können, ob es sich beispielsweise um eine spontan produzierte Äußerung handelt oder ob der*die Verfasser*in des Kommentars seinen*ihren Text vorformuliert hat bevor er*sie ihn „veröffentlichte“. Eine dritte Schwierigkeit ergibt sich mit der Frage, inwieweit andere (und das schließt (Sprach-)Wissenschaftler*innen ein) überhaupt berechtigt sind, diese Daten für ihre Zwecke zu nutzen.