Читать книгу Internetlinguistik - Konstanze Marx - Страница 14

1.4.2 DIY: Eine Datensammlung selbst generieren

Оглавление

Aufgabe 1-6

Sie haben die Aufgabe, aktuelle Konzeptualisierungen von WISSENSCHAFTSBETRUG am Beispiel von Metaphern zu untersuchen. Erstellen Sie ein Korpus, auf dessen Grundlage Sie Aussagen über die Verwendung von Metaphern mit Bezug auf Plagiatsaffairen in der Internet-Berichterstattung im Zeitraum Februar 2011 bis März 2013 machen können. Beschreiben Sie Ihre Vorüberlegungen. Wie gehen Sie bei der Korpuserstellung vor, wie bereiten Sie Ihre Daten für die Auswertung auf?

Wie könnte man nun beim Anlegen einer Datensammlung vorgehen? Eine altmodische aber doch bewährte Methode, Daten aus dem WWW zusammenzustellen, ist das copy- und paste-Verfahren. Es verlangt schlicht keinerlei informatisches Vorwissen. Hierbei werden die Daten auf der entsprechenden Internetseite markiert, kopiert und in ein Word-Dokument integriert.

Der Vorteil an diesem Verfahren ist, dass die Daten unproblematisch in verschiedenen Formaten abgespeichert werden können. Für manche KonkordanzprogrammeKonkordanz ist beispielsweise die Umwandlung in txt-Dateien nötig. Dabei sollten immer auch die Quelle, von der die Daten stammen, das Datum der Veröffentlichung, das Datum der letzten Aktualisierung der Seite (wenn eruierbar) und das Zugriffsdatum notiert werden. Am unkompliziertesten lassen sich all diese Angaben in einem Bildschirmfoto zusammenfassen, das zusätzlich immer mit abgespeichert werden sollte.

Ein Konkordanzprogramm ist dabei behilflich, spezifische Wörter und deren unmittelbaren Kontext herauszufiltern. Es ermöglicht außerdem die Erstellung von Wortlisten und einfache statistische Rechnungen.

KWiC: Key word in context (Schlüssel-Lexem in einem spezifischen Kontext)

Es gibt eine Reihe derartiger Programme/Werkzeuge, die auch im WWW zur Verfügung stehen, als Beispiele seien hier antconc, Glossanet, NotaBene, Conc 1.8 für Macintosh oder KWiCFinder genannt. Eine ausführliche Beschreibung zur Anwendung von antconc gibt Bubenhofer unter:

www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=eigenes_AntConc.html

Das Abspeichern kompletter Webseiten (mit dem Browser Firefox z. B. spielend leicht zu bewerkstelligen, indem beispielsweise einfach über die geläufige Tasten-Kombination Strg + S unter Dateityp „Webseite, komplett“ gewählt wird) ist eine sinnvolle Ergänzung, wenn die Architektur der Seite für Text-Bildrelationsanalysen nachvollziehbar bleiben soll.

Je nach angestrebter Korpus-Größe und Fragestellung ist für die Datensammlung ein längerer Zeitraum zu veranschlagen. Es ist deshalb wichtig, den Aufbau systematisch anzugehen. Das heißt, dass Worddokumente oder auch Bilddateien mit einem nachvollziehbaren Dateinamen versehen und in einer rekonstruierbaren Ordnerstruktur abgespeichert werden sollten. Auch die Ordner sollten Namen erhalten, deren Sinn sich auch nach Monaten noch erschließt. Als Bestandteile für Dokumentnamen eignen sich ein Kürzel für die Quelle des Belegs, das Erscheinungsdatum, ein Verweis auf die Textsorte und/oder ein inhaltlicher Hinweis.

Angewendet auf die obige Aufgabe wäre es z. B. möglich, das Online-Medien-Spektrum darüber abzudecken, dass Beiträge aus Boulevardzeitungen (bild.de) mit Beiträgen aus Tages- (sueddeutsche.de, faz.net) oder Wochenzeitungen (spiegel.de, zeit.de) verglichen werden. Ebenso können politisch eher links gerichtete (z. B. taz.de), eher konsverative (welt.de) und in etwa neutrale Online-Publikationen (berliner-zeitung.de) ausgewählt werden.

Es liegt nahe, unter den Stichwörtern „Karl Theodor zu Guttenberg“, „Silvana Koch-Mehrin“, „Annette Schavan“ oder „Plagiat“, „Plagiatsaffaire“ usw. nach Artikeln zu suchen, die im Zeitraum Februar 2011 bis März 2013 erschienen sind, diese sind entsprechend abzuspeichern.

Dazu könnten Ordner angelegt werden, die nach den Online-Medien benannt sind. Je nachdem, wieviele Texte gefunden werden, können Unterordner angelegt werden, für die verschiedene Ordnungen vorstellbar sind, z. B. Textsorten (Reportage, Nachricht, Kommentar, Leitartikel, Glosse) oder auch Erscheinungsmonate. Im vorliegenden Fall wäre es auch denkbar, Ordner anzulegen, die entsprechend der Phasen der Aberkennung des Doktortitels bezeichnet sind, beispielsweise: Beginn der öffentlichen Debatte, Prüfverfahren, Aberkennung, Rücktritt. Abhängig von der Länge der Texte ist zu entscheiden, ob ein Textdokument pro Beitrag angelegt werden kann. Es ist nicht sonderlich zweckmäßig, eine Reihe von längeren Artikeln in einem Word-Dokument abzuspeichern. Kommentare von Nutzer*innen sind nicht nur viel kürzer, oftmals referieren Nutzer*innen innerhalb der Kommentarbereiche aufeinander, so dass es hier günstig erscheint, mehrere Kommentare in einem Textdokument zusammenzufassen. Es hat sich bewährt, bereits in die Dokumentennamen auch Nummerierungen aufzunehmen. Der achte Leitartikel (art) in der Sammlung, der beispielsweise in der Berliner Zeitung (bz) am 11.2.2013 erschienen ist und die Nachfolge des Bildungsministerposten zum Thema hat, könnte den Dokumentennamen 8_bz_11.2.13_art_wanka erhalten und würde im Ordner ‚Rücktritt‘ abgelegt.

Möglicherweise eleganter, aber gleichzeitig auch aufwendiger und an mehr informationstechnologisches Vorwissen geknüpft, ist die Eingabe und Verwaltung der Korpusdaten über eine Datenbank. Die einfachste Möglichkeit einen Import in eine Datenbank vorzubereiten ist die systematische Eingabe der Texte in Felder einer (Excel-)Tabelle. Das soll an einem Beispiel veranschaulicht werden (siehe Tabelle 1-1, angelehnt an das Muster auf www.bubenhofer.com).

Text 1 Text 2 Text 3
Quelle www.sueddeutsche.de
Datum 16. Februar 2011
Autor/en Roland Preuß, Tanjev Schultz
Überschrift Plagiatsvorwurf gegen Verteidigungsminister/Guttenberg soll bei Doktorarbeit abgeschrieben haben
Untertitel 1 Verteidigungsminister Guttenberg muss sich gegen Vorwürfe wehren, er habe bei seiner Doktorarbeit getäuscht. Nach SZ-Informationen gibt es in seiner Dissertation einige Passagen, die er ohne Angabe von Quellen wörtlich zitiert. Nach den jüngsten Bundeswehrskandalen wird Dr. Karl-Theodor Freiherr zu Guttenberg nun neue Kämpfe ausfechten müssen.
Untertitel 2 Die Doktorarbeit sei an mehreren Stellen "ein dreistes Plagiat" und "eine Täuschung", sagte der Bremer Juraprofessor Andreas Fischer-Lescano, der die Parallelen mit anderen Texten bei einer Routineprüfung entdeckt hat. Fischer-Lescano lehrt an der Universität Bremen Öffentliches Recht, Europa- und Völkerrecht. […]
Zwischentitel „Ungewöhnliche Verkettung von Glücksfällen“
Text Es war offenbar nicht einfach für Karl-Theodor zu Guttenberg, seine Doktorarbeit zu vollenden, das macht er im Vorwort klar. Günstige Momente zur Fertigstellung habe er "durch freiberufliche wie später parlamentarische 'Ablenkung' versäumt". Der CSU-Politiker verweist auf eine Mischung aus "eherner professoraler Geduld" und "sanftem, aber unerbittlichem familiären Druck", der das Projekt doch noch zum Abschluss führte. "Diese Arbeit entspringt einer ungewöhnlichen Verkettung von Glücksfällen." […]
Rubrik Politik
Quelle www.sueddeutsche.de/politik/plagiatsvorwurf-gegen-verteidigungsminister-guttenberg-soll-bei-doktorarbeit-abgeschrieben-haben-1.1060774

Tab. 1-1:

Vorschlag für eine Systematisierung von Korpustexten in einer Excel-Tabelle

Sind die Daten so gespeichert, lassen sie sich am einfachsten über den Datei-Explorer durchsuchen. Je größer die Datensammlung jedoch wird, desto günstiger ist der Import in geeignete relationale Datenbanksysteme, z. B. Access, Filemaker oder Oracle.

Excel-Tabellen lassen sich unter „speichern unter“ im CSV-Format abspeichern. CSV ist die Abk. für comma separated value, die Werte in der Tabelle werden also in eine Liste übertragen und dadurch importfähig.

Das Grundgerüst der Datenbank kann ähnlich strukturiert sein wie die vorbereitete Tabelle. Um einen Datenimport aus der Excel-Tabelle beispielsweise vornehmen zu können, werden oftmals sogenannte CSV-Dateien eingesetzt, die die Angaben in der Tabelle in einen importfähigen Datensatz übersetzen. Zudem müssen beim Einsatz von Datenbanksystemen Ein- und Ausgabemasken sowie Auswerteprogramme, sog. Reports, programmiert werden – eine Aufgabe, die ohne EDV-Kenntnisse schwer zu bewerkstelligen ist.

Es ist auch möglich, Korpora mit sogenannten Scrapern aufbauen. Grundkenntnisse im Programmieren, z.B. mit Python, sind hierbei von Vorteil.

Für Studierende ist erfahrungsgemäß die Angabe einer Mindestgröße für eine Belegsammlung von großer Bedeutung. Mit Schlobinski (2011: 133) könnte man dieser Frage folgendermaßen begegnen: „Gegenüber Aussagen, die allein auf der Grundlage der Introspektion gewonnen wurden und somit eine Einerstichprobe darstellen, ist jede auch noch so schmale Datenbasis ein Gewinn. Auf der anderen Seite sollte man generell vorsichtig sein, wenn aufgrund weniger Belege Aussagen über Sprachen oder gar Sprachfamilien getroffen werden, die von Hunderten, Tausenden oder gar Hunderttausenden gesprochen werden“ (Schlobinksi 2011: 133). Es gibt aber auch Ansichten wie: „Kein Korpus ist groß genug, um die Diversität der Daten im Hinblick auf Parameter wie Medium, Thematik, Stilebene, Genre, Textsorte, soziale, areale, dialektale Varietäten, gesprochene vs. geschriebene Texte etc. repräsentativ abzubilden. Versuche, das Problem durch Erweiterung der Stichprobe zu lösen, vergrößern nur die Diversität der Daten im Hinblick auf die bekannten (und möglicherweise noch unbekannte) Variabilitätsfaktoren und damit die Inhomogenität“ (Köhler 2005: 5). Kurzum: Wir können hier keine konkreten Zahlen nennen, als Faustregel gilt jedoch, dass genügend Daten vorhanden sind, sobald sich ein Muster finden lässt.

Für wissenschaftliche Hausarbeiten und studentische Forschungsprojekte sollte der Aufwand dabei einerseits überschaubar bleiben, andererseits muss die Datensammlung genügend Belege aufweisen, um Aussagen treffen zu können. QualitativeQualitativ Aussagen lassen sich manchmal auch schon mit einem vergleichsweise kleinen Korpus treffen. Allerdings darf dabei dann kein Anspruch auf Repräsentativität erhoben werden. Die Ergebnisse der Analyse eines kleinen Korpus treffen eben auf genau dieses Korpus zu. Generell ist zu beachten, dass Themen für korpusbasierte BA- oder MA-Projekte schon mit dem Vorlauf festgelegt werden sollten, der für die Generierung eines Korpus kalkuliert wird.

Zwar dürfen Korpora nur mit Zustimmung der Datenurheber*innen veröffentlicht werden, sie sollten jedoch für Ihre*n Prüfer*innen zugänglich sein, z. B. digital in einem geschützten Bereich, für den Sie einzig dem*der Prüfer*in Zugang gewähren.

Internetlinguistik

Подняться наверх