Читать книгу Deutsche Sprachgeschichte - Stefan Hartmann - Страница 11
2.2.2 Authentische Sprachdaten: Korpuslinguistik
ОглавлениеWas ist der Gegenstand der Sprachwissenschaft? Natürlich: Sprache. Da jeder und jede von uns eine Sprache spricht, liegt es nahe, sich in der Auseinandersetzung mit Sprache, gerade mit der eigenen Muttersprache, auf die eigene Intuition zu verlassen. Tatsächlich war diese Art, Sprachwissenschaft zu betreiben, gerade in der zweiten Hälfte des 20. Jahrhunderts weit verbreitet: Weitreichende Theorien wurden anhand selbst erdachter Beispielsätze und ad hoc gefällter Grammatikalitätsurteile erarbeitet. In einigen wenigen Bereichen ist diese Vorgehensweise noch heute verbreitet. Im Allgemeinen aber hat sich die Erkenntnis durchgesetzt, dass die eigene Intuition nicht immer ein guter Ratgeber ist (vgl. Gibbs 2006). Wer heute ernsthaft Sprachwissenschaft betreiben will, muss die eigenen Thesen auf empirische Daten stützen.
Für die historische Sprachwissenschaft war die eigene Intuition ohnehin nie eine wirkliche Option – auch wenn manche versierten Kenner des Alt- oder Mittelhochdeutschen sicherlich eine bemerkenswerte Intuition für frühere Sprachstufen entwickelt haben. Die Kenntnis dieser Sprachstufen musste immer mit Hilfe zeitgenössischer Texte erarbeitet werden. Wenn authentische Texte nach wissenschaftlichen Prinzipien ausgewogen zusammengestellt werden, um ein möglichst repräsentatives Bild einer bestimmten Sprache oder Sprachvarietät zu ermöglichen, spricht man von einem Korpus (übrigens im Neutrum: das Korpus, nicht *der Korpus!).
Ein Korpus ist also zunächst eine Sammlung authentischer Sprachdaten (vgl. Lemnitzer & Zinsmeister 2015). Diese Daten können ganz unterschiedlicher Natur sein, ebenso wie die Prinzipien, nach denen sie zusammengestellt wurden, stark variieren. Korpora des 20. und 21. Jahrhunderts umfassen oftmals nicht nur geschriebenen Text, sondern auch gesprochene Sprache oder Videoaufzeichnungen, sodass auch Informationen etwa zu sprachbegleitender Gestik oder zu Gebärdensprachen der wissenschaftlichen Untersuchung zugänglich werden. Für die Forschung zu älteren Sprachstufen sind wir hingegen ganz auf geschriebene Texte angewiesen.
Die sprachhistorischen Korpora, die für das Deutsche derzeit zur Verfügung stehen, sind gerade im Vergleich zu ihren englischen Pendants wenig umfangreich. Immerhin jedoch können wir im Vergleich zu den meisten Sprachen der Welt, die wenig bis gar nicht dokumentiert sind (vgl. z.B. Hammarström & Nordhoff 2011), auf erfreulich umfangreiche und stetig wachsende Ressourcen zurückgreifen. Eine Übersicht über derzeit verfügbare deutschsprachige Korpora findet sich in Infobox 3. Darüber hinaus ist mit „Deutsch Diachron Digital“ seit einiger Zeit eine ganze Reihe sprachhistorischer Korpora in Arbeit (http://www.deutschdiachrondigital.de/). Zur Zeit der Drucklegung dieses Buches war das Projekt jedoch noch nicht abgeschlossen.
Infobox 3: Diachrone deutschsprachige Korpora
Referenzkorpus Altdeutsch und Referenzkorpus Mittelhochdeutsch. Das Referenzkorpus Altdeutsch (REA) enthält alle überlieferten Textzeugnisse des Ahd. und Altsächischen in linguistisch aufbereiteter Form. Im Dezember 2015 wurde mit dem Referenzkorpus Mittelhochdeutsch (REM) eine weitere bedeutende Lücke in der deutschen Korpuslandschaft geschlossen. Das REM umfasst zum einen das Korpus, das der Mittelhochdeutschen Grammatik (Klein et al. 2009; weitere Bände folgen) zugrundeliegt (MiGraKo). Das MiGraKo wird ergänzt durch Zusatztexte, die unter dem etwas irreführenden Namen „Referenzkorpus Mittelhochdeutsch im engeren Sinn“ zusammengefasst sind (eReM). Wer mit einem ausgewogenen Korpus arbeiten möchte, sollte also MiGraKo nutzen, das 102 Texte mit etwa 1 Million Wortformen umfasst (vgl. Klein & Dipper 2016: 3); wer auf größere Datenmengen angewiesen ist und Abstriche bei der Ausgewogenheit machen kann, kann zusätzlich die Ergänzungstexte heranziehen.
Link: https://korpling.german.hu-berlin.de/annis3/ddd (REA)
https://www.linguistics.rub.de/annis/annis3/REM/ (REM)
Bonner Frühneuhochdeutschkorpus. Das Bonner Frühneuhochdeutschkorpus (kurz FnhdC) ist ein vergleichsweise kleines, aber dafür handannotiertes Korpus – die Probleme und Ungenauigkeiten, die mit maschineller Annotation einhergehen, finden sich hier also nicht. Es umfasst vier Zeitschnitte, die jeweils die zweite Hälfte des 14. bis 17. Jahrhunderts abdecken. Das FnhdC kann online über die Schnittstelle ANNIS durchsucht werden. Achtung: Nur ein Teil der Wörter ist lemmatisiert, also mit der Information zur Grundform des jeweiligen Wortes versehen (s.u. im Abschnitt „Anatomie eines Korpus“), daher sollte man sich nicht auf die Lemma-Annotation verlassen.
Link: https://korpora.zim.uni-due.de/Fnhd/
DWDS-Kernkorpus. Über das digitale Wörterbuch der deutschen Sprache (DWDS) sind u.a. die DWDS-Kernkorpora des 20. und des 21. Jahrhunderts sowie ein Korpus mit Texten der Wochenzeitung DIE ZEIT verfügbar. Weiterhin gibt es als Spezialkorpora z.B. ein DDR-Korpus und ein Filmuntertitelkorpus. Tipp: Die Referenz- und Zeitungskorpora lassen sich auch gemeinsam durchsuchen, indem man in der Korpusauswahl die Option „Referenz- und Zeitungskorpora (aggregiert)“ auswählt.
Link: www.dwds.de
GerManC. Das GerManC-Korpus ist so konzipiert, dass es an das Bonner Frühneuhochdeutschkorpus anknüpft, wobei der letzte Zeitschnitt des FnhdC bewusst mit dem ersten Zeitschnitt des GerManC überlappt: Wenn man beide Korpora heranzieht und in diesem Zeitschnitt deutliche Unterschiede zwischen beiden Korpora findet, kann man dann nämlich davon ausgehen, dass die beobachteten Differenzen nicht (nur) auf Sprachwandel zurückzuführen sind, sondern beispielsweise text- oder textsortenspezifisch oder gar idiosynkratisch sind. Das GerManC-Korpus umfasst etwa 600.000 Tokens aus drei Zeitschnitten von 1650 bis 1800. Das Korpus lässt sich über das Oxford Text Archive (http://ota.ox.ac.uk/desc/2544) in verschiedenen Formaten (Rohtexte und annotierte Texte) herunterladen und mit Tools wie z.B. AntConc explorieren, zudem ist es auch über Cosmas II (s.u. „Deutsches Referenzkorpus“) verfügbar.
Link: http://www.llc.manchester.ac.uk/research/projects/germanc/germancplus/
Deutsches Textarchiv. Das deutsche Textarchiv ist eine noch in Arbeit befindliche Sammlung deutschsprachiger Texte aus dem Zeitraum von 1600 bis 1900. Bei der Textauswahl wurde darauf geachtet, Texte auszuwählen, die überregional wirksam waren, um die „Entwicklung einer überregionalen Umgangssprache im hochdeutschen Sprachraum seit dem Ende der frühneuhochdeutschen Sprachperiode“ zu dokumentieren (vgl. http://deutschestextarchiv.de/doku/textauswahl). Die derzeit 2276 Texte sind vier verschiedenen Textsorten zugeordnet. Allerdings sind die Textsorten „Belletristik“ und „Gebrauchsliteratur“ derzeit noch deutlich überrepräsentiert; auch weisen die einzelnen Texte deutliche Unterschiede in ihrer Länge auf. Jedoch gibt es die Rohdaten auch zum Download, sodass sich prinzipiell aus der Textsammlung ein ausgewogenes Korpus zusammenstellen lässt.
Link: http://deutschestextarchiv.de
Deutsches Referenzkorpus (DeReKo). Das über Cosmas II zugängliche DeReKo ist in unterschiedliche sogenannte „Archive“ untergliedert, wobei aus sprachgeschichtlicher Perspektive insbesondere das HIST-Archiv interessant ist. Dieses umfasst Texte von der Mitte des 17. bis zum 20. Jahrhundert, wobei es einige Überschneidungen mit dem Hauptarchiv W gibt. Jedes Archiv besteht aus mehreren Korpora, aus denen sich bei Bedarf auch eigene, benutzerdefinierte Korpora zusammenstellen lassen.
Link: https://cosmas2.ids-mannheim.de/
Vom Korpus zur Konkordanz
Empirische Forschung beginnt immer mit einer spezifischen Fragestellung. Dabei sind der wissenschaftlichen Neugier prinzipiell keine Grenzen gesetzt: Jede Fragestellung ist grundsätzlich denkbar. Jedoch muss eine wissenschaftliche Fragestellung bestimmte Voraussetzungen erfüllen. Erstens sollte sie konkret genug sein, um anhand der vorliegenden Daten überprüft werden zu können. Zweitens sollte sie sich in eine falsifizierbare Hypothese umformulieren lassen. Eine Fragestellung wie „Essen Wissenschaftler viele Pralinen?“ ist beispielsweise sehr unspezifisch und lässt sich nur dann in eine falsifizierbare Hypothese umformulieren, wenn man sie konkreter fasst, indem man beispielsweise eine Vergleichsgruppe hinzuzieht. Die Hypothese könnte dann lauten: „Wissenschaftler essen im Durchschnitt mehr Pralinen als Romanautoren.“
Die Fragestellung bzw. die Hypothese entscheidet dann über die Wahl der Methode. Ob Wissenschaftler Pralinen essen, lässt sich mit korpuslinguistischen Methoden eher nicht klären. Die Hypothese, dass Süßwaren in wissenschaftlichen Texten häufiger erwähnt werden als in belletristischen, ließe sich hingegen durchaus mit Hilfe von Korpora überprüfen. Hierfür brauchen wir zunächst ein Korpus, das belletristische und wissenschaftliche Texte enthält. Ein solches Korpus ist das DWDS-Kernkorpus des 20. Jahrhunderts, das unter www.dwds.de verfügbar ist.
Wie jedes Korpus ist das DWDS-Kernkorpus zunächst eine Materialsammlung. Man kann es mit einer großen Bibliothek vergleichen: Ehe man sie benutzen kann, muss man sich zunächst mit ihrem Aufbau und ihrer Organisation vertraut machen sowie mit Möglichkeiten, unter den zahllosen Büchern diejenigen zu finden, nach denen man sucht. Beispielsweise wird man wenig Erfolg haben, wenn man das medizinische Nachschlagewerk „Psychrembel“ in der Bereichsbibliothek Theologie sucht. Und auch in einer medizinischen Fachbibliothek findet man es deutlich leichter, wenn man zuvor den Bibliothekskatalog zu Rate gezogen hat, als wenn man auf gut Glück drauflosstöbert.
Auf die Korpuslinguistik übertragen bedeutet dies erstens: Ich muss ein Korpus wählen, das für meine Fragestellung geeignet ist. Diesen Schritt haben wir schon getan, denn wir haben gesehen, dass das DWDS-Kernkorpus, wie es unsere Fragestellung erfordert, nach Textsorten untergliedert ist und dass sich unter diesen Textsorten auch die beiden Typen von Texten, die uns interessieren, befinden, nämlich belletristische und wissenschaftliche Texte. Dies führt uns unmittelbar zum zweiten Aspekt: Um entscheiden zu können, ob ein Korpus für unsere Fragestellung geeignet ist, müssen wir uns mit seinem Aufbau und seiner Organisation vertraut machen. Zu jedem guten Korpus gibt es eine Dokumentation, der wir beispielsweise entnehmen können, nach welchen Prinzipien das Korpus zusammengestellt wurde, welche Textsorten vertreten sind, wie groß die Subkorpora für jede Textsorte oder jeden Zeitschnitt sind, und vieles mehr.
Drittens schließlich muss man wissen, wie man ein Korpus durchsucht. Ebenso wie es im Falle der Bibliothek unerlässlich ist, sich in die Nutzung des (heutzutage meist digitalen) Bibliothekskatalogs einzuarbeiten, ist es in der Korpuslinguistik vonnöten, das jeweilige Abfragesystem kennenzulernen. Es gibt eine ganze Reihe von Abfragesystemen, deren Abfragesyntax sich teilweise unterscheidet. Ein Abfragesystem ist beispielsweise das Corpus Search, Management and Analysis System des Instituts für Deutsche Sprache, kurz COSMAS, das derzeit in der zweiten Generation vorliegt. Tatsächlich wird „COSMAS II“ häufig synonym mit dem Deutschen Referenzkorpus (DeReKo) verwendet, das über diese Schnittstelle zugänglich ist. Ein anderes Abfragesystem ist beispielsweise ANNIS, worüber die schon verfügbaren Texte von „Deutsch Diachron Digital“ zugänglich sind.
Auf die meisten Korpora kann man über web-basierte Schnittstellen zugreifen. Einige Korpusabfrageprogramme lassen sich jedoch auch herunterladen und lokal installieren. Zum Durchsuchen einfacher Textdateien eignet sich beispielsweise AntConc (http://www.laurenceanthony.net/software/antconc/). Dies setzt aber voraus, dass Sie die Textdateien auf Ihrem Rechner verfügbar haben. Viele Korpora gibt es jedoch aus urheberrechtlichen Gründen nicht zum Download, sie lassen sich nur online durchsuchen. Bei sprachhistorischen Korpora sind die urheberrechtlichen Hürden zum Glück oft geringer – das Bonner Frühneuhochdeutschkorpus, das GerManC-Korpus und das Deutsche Textarchiv beispielsweise lassen sich (fast) vollständig herunterladen, was in vielen Fällen flexiblere Suchen ermöglicht.
Kommen wir zu unserem Beispiel zurück, den Begriffen für Süßwaren. Um unsere Fragestellung korpuslinguistisch zu operationalisieren, müssen wir zunächst Begriffe auswählen, nach denen wir suchen wollen. Für unser Beispiel benutzen wir fünf Begriffe aus dem Wortfeld „Süßwaren“; für eine echte Recherche wäre natürlich eine umfassendere Suche notwendig, und man könnte z.B. auf ein Synonymlexikon zurückgreifen, um möglichst viele Lexeme zu finden und das Wortfeld so umfassend wie möglich abzudecken.
Die Lexeme, die wir für unser Beispiel verwenden, sind Süßwaren, Praline, Schokolade, Bonbon und Süßigkeit. Im Abfragefenster von DWDS geben wir ein:
$l=Süßwaren || $l=Praline || $l=Bonbon || $l=Schokolade || $l=Süßigkeit
Mit dem Operator $l geben wir an, dass wir nach dem Lemma unabhängig von der Flexionsform suchen, d.h. neben Bonbon auch nach Pluralformen (die Bonbons) oder Genitivformen (des Bonbons). Der horizontale Strich fungiert in fast allen Abfragesystemen als ODER-Operator; dass man ihn hier doppelt setzen muss, ist ein Spezifikum des DWDS-Abfragesystems.
Eine alternative, etwas effizientere Suchabfrage wäre die folgende, in der die Slashes (/) anzeigen, dass sie von sog. regulären Ausdrücken Gebrauch macht, denen wir in den folgenden Kapiteln noch öfter begegnen werden:
$l=/Süßwaren|Praline|Bonbon|Schokolade|Süßigkeit/
Da hier nicht die DWDS-spezifische Syntax verwendet wird, sondern „normale“ reguläre AusdrückeReguläre Ausdrücke, muss man hier den ODER-Operator nur einmal setzen.
Als Ergebnis erhalten wir eine sog. Konkordanz im Key Word in Context-Format, kurz KWiC. Wie der Name schon sagt, wird dabei der gesuchte Begriff – das Keyword – im Kontext angezeigt:
Belletristik | an manchen Tagen nach Haufen verdorbener | Pralinen | , zuckrigem Fett . |
Belletristik | » Vanille und | Schokolade | , wie du's immer mochtest |
Belletristik | macht sie sich drei verschiedene Sorten | Schokolade | gleichzeitig : |
Belletristik | und legten uns in die Badewanne , aßen | Pralinen | von Aldi , tranken Bananenmilch vom Pennymarkt |
Belletristik | Elke läßt eine | Praline | in den Kaffee sinken |
Solche Konkordanzen kann man in einem Tabellenkalkulationsprogramm wie Excel oder dem kostenlosen Pendant Calc von LibreOffice bearbeiten; nähere Informationen hierzu finden sich in den digitalen Begleitmaterialien. Für unsere Fragestellung jedenfalls zeigt sich, dass Süßwaren in belletristischen Texten deutlich häufiger Erwähnung finden als in wissenschaftlichen (Fig. 5).
Fig. 5: Relative Frequenz von fünf Lexemen aus dem Wortfeld „Süßwaren“ in belletristischen und wissenschaftlichen Texten des DWDS-Kernkorpus des 20. Jahrhunderts.
Anatomie eines Korpus
Die Fragestellungen, die wir mit Hilfe von Korpora untersuchen wollen, gehen jedoch häufig über den einfachen Vergleich von Wortfrequenzen hinaus. Wenn wir beispielsweise syntaktische Fragestellungen untersuchen, kann es hilfreich sein, gezielt nach einzelnen Wortarten zu suchen. Aus diesem Grund sind die meisten Korpora auf Wortarten hin getaggt (Part-of-Speech-Tagging, kurz POS-Tagging). Ebenso wie die Lemmatisierung, der wir in unserem Beispiel im vorigen Abschnitt schon begegnet sind, erfolgt dieses Tagging heutzutage meist automatisch. Wenn wir beispielsweise den ersten Satz dieses Kapitels mit Hilfe des Programms TreeTagger (Schmid 1994) annotieren, erhalten wir Folgendes:
Was | PWS | was |
ist | VAFIN | sein |
der | ART | die |
Gegenstand | NN | Gegenstand |
der | ART | die |
Sprachwissenschaft | NN | Sprachwissenschaft |
? | $. | ? |
In der linken Spalte ist der ursprüngliche Text zu sehen, der anhand der Leerzeichen in einzelne Tokens, also einzelne Wörter, untergliedert wird. Satzzeichen werden dabei ebenfalls als eigene Tokens behandelt. In der mittleren Spalte sehen wir die Part-of-Speech-Tags, rechts die Lemmata, also die unflektierten Grundformen. Neben dem Part-of-Speech-Tagging und der Lemmatisierung sind natürlich noch viele weitere Annotationen möglich. Viele Korpora sind beispielsweise auch syntaktisch geparst und lassen sich somit zum Beispiel nach Nominalphrasen, Verbalphrasen und anderen Einheiten auf syntaktischer Ebene durchsuchen. Fig. 6 zeigt dies am Beispiel der Nominalphrase der Gegenstand der Sprachwissenschaft, wobei die Knotennamen NK und AG für noun kernel (also: Kernelement einer Nominalphrase) und Attribute, Genitive (also: Genitivattribut) stehen.
Fig. 6: Beispiel für syntaktisches Parsing.
Um die Möglichkeiten und Grenzen eines spezifischen Korpus kennenzulernen, ist es daher unerlässlich, sich zunächst in der Dokumentation zu informieren, auf welche Informationen hin es kodiert ist. Sind die einzelnen Korpusdateien öffentlich zugänglich, kann auch ein Blick auf die Rohdaten Aufschluss darüber geben, welche Möglichkeiten ein Korpus bietet.
Über das Tagging der einzelnen Tokens hinaus bieten Korpora in aller Regel auch Metainformationen zu den einzelnen Texten, beispielsweise zu Textsorte, Entstehungsjahr, Autor/in etc. Die Informationen hierzu finden sich ebenfalls in der Dokumentation.
Von der Konkordanz zur Analyse
Die Konkordanz ist natürlich nur der erste Schritt zur Analyse der Daten. Wenn wir nur Wortfrequenzen vergleichen, ist der nächste Schritt die quantitative Auswertung. In aller Regel geht der Auswertung aber noch ein weiterer Schritt voran: die Annotation. In diesem Schritt werden die Belege in der Konkordanz mit zusätzlichen Informationen versehen. Angenommen beispielsweise, wir wollen herausfinden, ob Frauenbezeichnungen in der vom Bonner Frühneuhochdeutschkorpus abgedeckten Zeitspanne eine Pejorisierung, also eine Abwertung, erfahren. Dass Frauenbezeichnungen im Deutschen dafür sehr anfällig sind, ist bekannt: So bezog sich vrouwe im Mittelhochdeutschen auf eine Edeldame, während wîp die unmarkierte Frauenbezeichnung war; heute hingegen ist Weib eindeutig abwertend, und Frau ist die Standardbezeichnung für Menschen weiblichen Geschlechts. Doch lässt sich diese Entwicklung in den Texten des Bonner Frühneuhochdeutschkorpus nachvollziehen?
Um dies zu überprüfen, suchen wir im Bonner Frühneuhochdeutschkorpus (FnhdC) nach Belegen, die dem Lemma Frau bzw. Weib zugeordnet sind. Weil im FnhdC aber auch Komposita wie Jungfrau dem Lemma Frau zugeordnet sind, entfernen wir diese anschließend manuell aus der Konkordanz. Daraufhin entscheiden wir für jeden Beleg anhand des Kontexts, ob der jeweilige Begriff positiv, neutral oder negativ verwendet wird. So geht aus dem Kontext recht eindeutig hervor, dass Weib in Beispiel (5) eher positiv verwendet wird, in (6) hingegen äußerst negativ, in (7) dagegen neutral.
(5) | Ist das du mir den apphel gebist ich wil dir zu kone geben das schonste unde edilste weip das alle Krichenlandt hat (Johannes Rothe: Chronik, 15. Jh.) ‚Wenn du mir den Apfel gibst, will ich dir die schönste und edelste Frau geben, die es in ganz Griechenland gibt‘ |
(6) | Schluͤßlich man wird vil narrischer als jennes alte hirnschellige Weib Acco das mit ihrer Bildnuß in dem Spiegel als mit einer Muhmen reden und conversiren wollen (Gotthard Heidegger: Mythoscopia, spätes 17. Jh.) |
(7) | daß jederman sehen koͤnne daß kein ander Weib noch Kind darunter sey (Hiob Ludolf: Schaubühne, 17. Jh.) |
Bei der Annotation wird allerdings schnell klar, dass nur die wenigsten Fälle so eindeutig sind wie die drei genannten Beispiele. Umso wichtiger ist es, klare Annotationskriterien zu definieren, sich konsequent daran zu halten und sie in der Präsentation der Ergebnisse transparent zu machen. Einige Fragen, die sich im Blick auf die Daten zu Frau/Weib ergeben, sind beispielsweise:
1 Frau kommt häufig in der festen Fügung unsere Frau bzw. unsere liebe Frau vor, die sich auf die Jungfrau Maria bezieht. Werden diese mit einbezogen oder mit der Begründung, dass es sich dabei um stehende Wendungen handelt, die mit der freien Verwendung von Frau nichts zu tun haben, getilgt? Beides ist möglich, doch muss die Entscheidung transparent gemacht und begründet werden. Wenn die Belege berücksichtigt werden, stellt sich die Folgefrage, ob sie grundsätzlich als „positiv“ annotiert werden sollen oder nur dann, wenn ein positives Attribut wie lieb im unmittelbaren Kontext steht.
2 Eine ähnliche Frage stellt sich im Blick auf alle anderen Belege: Kann ein Beleg schon als „positiv“ annotiert werden, wenn über eine Frau gesagt wird, dass sie etwas Gutes, Richtiges, Lobenswertes tut – oder muss im unmittelbaren Kontext eindeutig ein positives Attribut oder Prädikat stehen, z.B. die edle Frau oder diese Frau ist höchst lobenswert? Das gleiche gilt umgekehrt natürlich für die Annotation „negativer“ Verwendungsweisen.
3 Sowohl Frau als auch Weib werden in den Belegen synonym mit ‚Ehefrau‘ verwendet. Sollen diese Belege mit einbezogen, getilgt oder gesondert behandelt werden? Erneut gilt: Alles ist möglich, solange es konsequent umgesetzt, transparent gemacht und gut begründet wird.
4 Was tun mit Belegen, in denen eine eindeutige Interpretation nicht möglich ist – etwa wenn man den Verdacht hat, dass in einem Beleg edles Weib ironisch gebraucht wird, sich aber nicht sicher ist und auch keine Möglichkeit hat, den größeren Kontext zu überprüfen? In solchen Fällen empfiehlt es sich, eine Kategorie „unklar“ einzuführen und ggf. in einer Kommentarspalte zu vermerken, worin die Unklarheit besteht.
Sobald wir Korpusbelege auf semantische Aspekte annotieren, stellen sich solche Fragen immer. Weil hier stets die Gefahr besteht, allzu subjektive Entscheidungen zu treffen, empfiehlt es sich, die Daten nach Möglichkeit von zwei Personen kodieren zu lassen und anschließend die Fälle, in denen keine Übereinstimmung besteht, zu diskutieren (intercoder reliability). Bei Seminar- oder Abschlussarbeiten ist das meist keine Option und wird daher auch in aller Regel nicht erwartet, aber für größer angelegte Studien sollte man, wenn irgend möglich, von dieser Möglichkeit Gebrauch machen. Wenn man die Ergebnisse berichtet, kann man dann angeben, wie hoch die Übereinstimmung war, in wie vielen Fällen nach einer Diskussion der strittigen Punkte Übereinstimmung erzielt wurde und in wie vielen Fällen keine Übereinstimmung erzielt werden konnte; die letztgenannten Fälle sollten in der Analyse nicht berücksichtigt werden.
Zum Weiterlesen
Scherer (2006) bietet eine gut lesbare, knappe Einführung in die Korpuslinguistik. Etwas ausführlicher ist die englischsprachige Einführung von McEnery & Wilson (2001). Lemnitzer & Zinsmeister (2015) gehen in ihrer Einführung auch auf die Geschichte der Korpuslinguistik und auf wissenschaftstheoretische Hintergründe ein. Wie man die Programmiersprache R in der quantitativen Korpuslinguistik fruchtbar einsetzen kann, zeigt Gries (2016).
Wer ernsthaft quantitative Linguistik betreiben möchte, muss sich auch mit Statistik auseinandersetzen. Eine gute deutschsprachige Einführung bietet Meindl (2011). Mit Levshina (2015) liegt eine noch recht neue, gut lesbare Einführung in Grundlagen der Statistik sowie verschiedenste quantitative Methoden vor. Gries (2013) bietet ebenfalls einen guten Einstieg, zumal seine Beispiele zumeist der Korpuslinguistik entstammen; teilweise ist das Buch allerdings etwas unübersichtlich, es gibt keinen Index und die Kapitelüberschriften sind nicht immer aussagekräftig. Das – allerdings recht anspruchsvolle – Standardwerk ist jedoch noch immer Baayen (2008).
Aufgaben
1 Im Begleitmaterial findet sich ein Spreadsheet mit Belegen zu „Weib“ und „Frau“ (weibfrau.csv). Öffnen Sie es mit Calc oder Excel. Achten Sie darauf, dass Sie in Excel unmittelbar nach dem Öffnen zunächst unter Daten > Text in Spalten angeben müssen, dass Tabs als Trennzeichen und einfache Anführungszeichen (’) als Textqualifizierer verwendet werden. In Calc sollte sich zunächst automatisch ein Fenster öffnen, das genau danach fragt. Hier können Sie auch angeben, dass die Datei in UTF-8 kodiert ist. Da Excel standardmäßig die Kodierung ASCII verwendet, kann es sein, dass einige Sonderzeichen nicht richtig angezeigt werden.Filtern Sie die Tabelle nun so, dass nur noch die Belege für die Lemmata „Weib“ und „Frau“ (ohne Komposita) angezeigt werden, und annotieren Sie diese in der ersten leeren Spalte nach der Verwendungsweise im Kontext: „positiv“ vs. „neutral“ vs. „negativ“.Überprüfen Sie, ob sich das Verhältnis zwischen positiven, negativen und neutralen Kontexten für beide Begriffe diachron verschiebt. Informationen dazu, wie Sie aus den Daten auf einfache Weise Tabellen und Grafiken generieren können, finden Sie im Tutorial „Korpuslinguistik mit Excel und Calc“ in den Begleitmaterialien.
2 Die Datei „suesswaren.csv“ im Begleitmaterial enthält die DWDS-Daten, die Fig. 5 zugrunde liegen. Öffnen Sie sie mit Excel oder Calc und erstellen Sie mit Hilfe des Tutorials „Tabellen mit Excel und Calc“ ein Histogramm ähnlich jenem in Fig. 5. Probieren Sie gerne auch weitere Visualisierungsvarianten aus!
Tipps und Tricks: Was macht eine gute Konkordanz aus?
Leider sind die meisten Konkordanzen, die man mit Hilfe der Online-Schnittstellen von Korpora wie dem Deutschen Referenzkorpus exportieren kann, für die Bearbeitung in Tabellenkalkulationsprogrammen nicht unmittelbar geeignet. Im digitalen Begleitmaterial finden sich daher einige Tutorials sowie interaktive Skripte, mit denen sich die Exportdateien in „gute“ Konkordanzen überführen lassen.
Was eine „gute“ Konkordanz ausmacht, lässt sich in drei Schlagworten zusammenfassen:
Eine Zeile = ein Beleg. Jede Zeile enthält genau einen Korpustreffer.
Eine Spalte = eine Kategorie. Jede Spalte enthält eine spezifische Sorte Daten. So gibt es eine Spalte für den linken Kontext, für das Keyword, für den rechten Kontext, ebenso je eine Spalte für Metainformationen wie Textsorte und Jahr.
Eine Zelle = eine Beobachtung. Jede Zelle gibt die Information über die Kategorie, der die Spalte zugeordnet ist, zum Beleg, der in der Zeile erfasst ist, an.
Fig. 7 zeigt ein Beispiel für eine weniger gelungene Konkordanz (die allerdings ungefähr den Exportdateien von COSMAS II entspricht). Textsorte und Jahr nehmen hier eine eigene Zeile in Anspruch, der Grundsatz „eine Zeile = ein Beleg“ wird also verletzt. Auch teilen sich Textsorte und Jahr mit der Nummerierung der Belege eine Spalte, der Grundsatz „eine Spalte = eine Kategorie“ wird also ebenfalls nicht eingehalten. Zudem ist in der zweiten Zeile von unten (leere Zeilen nicht mitgezählt) das Keyword in Spalte B aufgeführt, in allen anderen in Spalte C.
Fig. 7: Beispiel für eine für die quantitative Auswertung wenig geeignete Konkordanz.
Diese Unzulänglichkeiten sind in der Tabelle in Fig. 8 beseitigt, die den oben genannten Faustregeln folgt und die problemlos um eine weitere Spalte etwa mit semantischer Annotation erweitert werden kann.
Fig. 8: Beispiel für eine gute Konkordanz nach den oben genannten Faustregeln.
COWboys im WaCkY Wide Web: Korpuslinguistik im Internet
Durch das Internet haben wir heute Zugriff auf Sprachdaten in einem Ausmaß, das vor einigen Jahrzehnten wohl noch unvorstellbar war – Kilgarriff & Grefenstette (2003: 345) bezeichnen es daher als „a fabulous linguists’ playground“. Insbesondere erlaubt uns die Nutzung von Internetquellen, konzeptionell nähesprachliche Register zu berücksichtigen und dadurch Phänomenen auf den Grund zu gehen, die in lektorierter Zeitungssprache selten bis gar nicht zu finden sind. So sind Kurzformen des Indefinitartikels wie n oder nen für ein(en) in Zeitungstexten eher selten anzutreffen. Beispielsweise untersucht Vogel (2006) das Vorkommen der „erweiterten Kurzform“ nen anstelle von n (in Kontexten wie ich hab da nen kleines Problem) auf Grundlage von Chatdaten, während Schäfer & Sayatz (2014) auf Grundlage eines mehrere Milliarden Wörter umfassenden Webkorpus unter anderem klitisierte Formen des Indefinitartikels wie auf’m oder in’n näher betrachten.
Um die Jahrtausendwende herum erschienen einige linguistische Aufsätze, die Trefferzahlen in kommerziellen Suchmaschinen wie Google als Datenquelle auswerten (vgl. Kilgarriff 2007: 147, der einige Beispiele nennt). Dieses Vorgehen ist jedoch nicht unproblematisch. Selbst wenn man nur an reinen Tokenfrequenzen interessiert ist – viel mehr ist mangels Lemmatisierung und Tagging ohnehin nicht möglich – gilt es unter anderem zu bedenken, dass die Trefferanzahlen in Google keine Tokenfrequenzen darstellen, sondern vielmehr die Anzahl an Seiten, auf denen das Gesuchte gefunden wurde. Das lässt sich an einem einfachen Beispiel illustrieren: Ein Artikel wie der, die, das oder ein Konnektor wie und wird in den allermeisten Texten sicherlich mehr als einmal anzutreffen sein. Hingegen wird man eine Formulierung wie die Terrormiliz „Islamischer Staat“ in vielen Texten nur einmal antreffen, während im weiteren Verlauf des Textes einfach mit der IS auf die islamistische Organisation Bezug genommen wird.
Ein weiteres Problem stellen Duplikate dar: Viele Texte finden sich mehrfach im Netz und werden unter Umständen bei der Google-Anfrage auch mehrfach gefunden. So ist die Wahrscheinlichkeit hoch, dass die Trefferanzahl bei einer beliebigen Suchmaschine für das Kompositum Knabenmorgen-Blütenträume zwar durchaus beträchtlich ist, die meisten Treffer allerdings Seiten sind, die entweder Goethes Gedicht „Prometheus“ enthalten oder aber aus diesem zitieren. Da die Anbieter kommerzieller Suchmaschinen ihre Algorithmen in aller Regel nicht offenlegen, steht man weiterhin vor dem Problem, dass unklar ist, wie genau eigentlich die Ergebnisse zustande kommen. So werden bei Google häufig Ergebnisse, die der Suchanfrage ähnlich sind, mitgefunden und müssten daher mühsam manuell ausgeschlossen werden. Beispielsweise fördert die Suche nach dem fiktionalen Filmcharakter Hedley Lamarr auch den Wikipedia-Eintrag zur Schauspielerin Hedy Lamarr zutage.
Das Ziel von Webkorpora ist es, das Potential, das allein schon die schiere Menge an Internettexten birgt, zu nutzen und die entsprechenden Daten linguistisch zu erschließen, ohne die Einschränkungen, die kommerzielle Suchplattformen mit sich bringen, in Kauf nehmen zu müssen. Fürs Deutsche gibt es derzeit zwei Korpora, die große Mengen an Textdaten aus dem Web in linguistisch aufbereiteter Form zugänglich machen. Das derzeit größte Webkorpus ist DECOW (Schäfer & Bildhauer 2012), derzeit (Stand Ende 2016) verfügbar in der Version DECOW16AX. Aus urheberrechtlichen Gründen enthält es jedoch keine Texte, sondern lediglich Satzsammlungen. Diese sind jedoch linguistisch annotiert, d.h. lemmatisiert und mit Auszeichnungen für die jeweilige Wortart (sog. POS-Tags, für part of speech) versehen. Darüber hinaus gibt es zu jedem Satz den Link zu der Website, auf der er gefunden wurde1, und geographische Daten, die aus den jeweiligen IPs gewonnen wurden. Letztere sind natürlich insofern relativ unzuverlässig, als sie keine Auskunft darüber geben, ob die Person, die den jeweiligen Satz verfasst hat, tatsächlich dort wohnt; und selbst wenn dies der Fall sein sollte, bedeutet es nicht zwangsläufig, dass sie auch dort sozialisiert wurde.2 Im populärwissenschaftlichen, aber sehr empfehlenswerten „Sprachlog“ hat jedoch Susanne Flach gezeigt, dass sich die Geo-IP-Daten durchaus – in begrenztem Maße und mit der gebotenen Vorsicht – für dialektologische Fragestellungen nutzen lassen.3 Ein exemplarischer Vergleich zwischen COW-Daten und Daten aus dem „Atlas der Alltagssprache“, der die regionale Verteilung solcher Alternanzen auf Grundlage von Internetumfragen kartiert, legt nahe, dass sich die geographische Distribution der Korpusdaten zumindest in den beispielhaft untersuchten Fällen ungefähr mit jener, die im Rahmen des AdA-Projekts erhoben wurde, deckt. So zeigen die AdA-Daten, dass im Falle der Alternanz benutzen vs. benützen die umgelautete Form ein Phänomen ist, das sich weit überwiegend im oberdeutschen Sprachraum, also im Süden des deutschen Sprachgebiets, findet. Diese areale Verteilung wird auch in Fig. 9 (links) deutlich, die auf einer Stichprobe aus DECOW14AX beruht. Mit Hilfe des (mittlerweile überholten) Online-Tools Colibri2 (Schäfer 2015) wurden Stichproben von jeweils 10.000 Tokens für benützen und benutzen genommen. Ungefähr ein Drittel der Daten konnte anhand der Geo-IP einem Ort zugeordnet werden (3.514 für benützen, 3.591 für benutzen). Allerdings bildet die Grafik lediglich für jeden in den Daten identifizierbaren Ort den Anteil der umgelauteten Variante ab (dargestellt anhand der Farbintensität: je dunkler, desto mehr benützen), ohne dass die enormen Frequenzunterschiede zwischen den einzelnen Orten berücksichtigt werden. Die weitaus meisten Belege stammen – wenig überraschend – aus Ballungsgebieten wie Berlin (Platz 1 bei benutzen), der Region um Düsseldorf (Höst bei Düsseldorf belegt Rang 2), Nürnberg (Platz 3) oder Hamburg (Platz 4). Damit ist auch zu erklären, dass sich in der Region um Berlin sehr viel häufiger benützen findet als anderswo in der nördlichen Hälfte Deutschlands – die Grundgesamtheit ist schlichtweg höher. Auch für die im Österreichischen verbreitete Variante Aufnahmsprüfung, deren Verteilung die rechte Hälfte von Fig. 9 auf Grundlage von DECOW14AX-Daten zeigt, finden sich in Berlin immerhin 2 Belege. Von den 5.060 Belegen für Aufnahmeprüfung und 77 Belegen für Aufnahmsprüfung, die mit Hilfe von Colibri2 gefunden wurden, können 2.094 bzw. 30 einem Ort zugeordnet werden, wobei sich deutlich die areale Konzentration der Variante mit Fugen-s im österreichischen Raum zeigt. Diese Stichproben lassen den Schluss zu, dass die Daten des COW-Korpus für die Ermittlung der arealen Verteilung sprachlicher Varianten zumindest nicht ganz unbrauchbar sind.
Fig. 9: Links: benutzen vs. benützen in einer Stichprobe aus dem Webkorpus DECOW14AX. Rechts: Aufnahmeprüfung vs. Aufnahmsprüfung in einer Stichprobe aus DECOW14AX.
Ein zweites Webkorpus ist WaCkY, dessen deutsches Subkorpus deWAC 1,7 Milliarden Tokens umfasst. Ein wesentlicher Vorteil von WaCkY ist, dass es derzeit ohne vorherige Anmeldung genutzt werden kann4, während für DECOW eine Freischaltung erforderlich ist. Bei der Erarbeitung von WaCkY wurde ähnlich vorgegangen wie bei der Zusammenstellung der COW-Korpora: Um sicherzustellen, dass das Korpus im Hinblick auf Genre und Register möglichst breit gefächert ist, wurden zufällig generierte Paare aus zufällig ausgewählten Wörtern (fürs Deutsche u.a. mittelfrequente Wörter aus der „Süddeutschen Zeitung“) als sog. „Seeds“ gewählt, nach denen dann mit Hilfe einer Suchmaschine gesucht wurde (vgl. Baroni et al. 2009). Nach dem sog. „Crawlen“ wurde dann der Boilerplate-Text, also standardisierte, immer wieder verwendete Textelemente, entfernt (z.B. die Navigationsleiste einer Homepage, vgl. Schäfer & Bildhauer 2013: 47f.). Dadurch wird vermieden, dass bestimmte Wörter und Wortkombinationen wie etwa „Zur Startseite“ in den Daten überrepräsentiert sind.
Zum Weiterlesen
Passend zu den verwegenen Namen der Korpora, ist das Gebiet „Web als Korpus“ noch immer eines, auf dem viel Pioniergeist herrscht – deshalb gibt es derzeit auch wenig Literatur, die „Best Practice“-Empfehlungen zum Umgang mit den Massen an Daten gebündelt präsentieren könnte. Lemnitzer & Zinsmeister (2015) gehen kurz und eher kritisch auf Webkorpora ein; ansonsten empfiehlt es sich, einige Aufsätze zu lesen, die von den Korpora Gebrauch machen – auf corporafromtheweb.org gibt es eine Übersicht.
Auf der Suche nach dem perfekten Korpus
Welches Korpus ist das richtige? Lohnt es sich, ein eigenes Korpus zusammenzustellen, oder sollte man auf ein bestehendes Korpus zurückgreifen? Die Antwort auf diese Fragen hängt immer von der jeweiligen Fragestellung ab. Daher gilt stets das Prinzip: Zuerst die Fragestellung – dann die Methode.
Die Vielfalt der Abfragesysteme und die jeweiligen Einschränkungen bezüglich Abfrage- und Exportmöglichkeiten schaffen leider teilweise unnötige Hürden bei der Korpusnutzung. Das liegt zum Teil auch am derzeit noch sehr restriktiven deutschen Urheberrecht, das leider dazu führt, dass ernstzunehmende Korpuslinguistik in Deutschland teilweise nur in rechtlichen Grauzonen möglich ist. Zum Beispiel machen die Zugangsbeschränkungen des Abfragesystems COSMAS II das größte Korpus der deutschen Gegenwartssprache, das DeReKo, für viele quantitativ basierte korpuslinguistische Methoden faktisch unbrauchbar. Die folgenden Anmerkungen werden wahrscheinlich für die meisten Studierenden irrelevant sein, können sich aber ggf. für Promovierende als hilfreich erweisen, die in etwas größerem Rahmen ein eigenes Korpus erstellen. Wer in die Verlegenheit kommt, ein eigenes Korpus zu erstellen und zu publizieren, sollte aus Rücksicht auf spätere Benutzer idealerweise
1 sofern es die urheberrechtliche Lage zulässt, die Daten vollständig in einem programm- und plattformunabhängigen Dateiformat (z.B. .txt-Dateien für einfache, unannotierte Texte; XML für Text und Annotationen; keine proprietären Formate wie z.B. .doc(x) oder .xls(x)!) der Forschungsöffentlichkeit zugänglich machen. In vielen Fällen ist das nicht möglich, weil die Rechteinhaber nicht möchten, dass ihre Texte vollständig zugänglich sind. In diesem Fall ist der nächste Punkt umso wichtiger – aber auch unabhängig davon, ob man die Rohdaten zur Verfügung stellen kann oder nicht, sollte man idealerweise
2 das Korpus über eine benutzerfreundliche Schnittstelle zugänglich machen, die reguläre AusdrückeReguläre Ausdrücke unterstützt und den Export möglichst vieler Belege im Key Word in Context-Format (KWIC) erlaubt. Ein gutes Vorbild sind hier die COW-Korpora: Sie machen von der quelloffenen NoSketchEngine Gebrauch, in der man die recht intuitive und einfach zu lernende CQP-Syntax verwenden kann. Auch lassen sich bis zu 100.000 Belege im KWIC-Format exportieren, was im Vergleich zu anderen Korpora eine erfreulich hohe Zahl ist. Erfreuliche Entwicklungen sind auch beim DWDS und bei den „Deutsch Diachron Digital“-Korpora zu verzeichnen. Das DWDS hat zwar eine m.E. etwas weniger intuitive, aber ähnlich mächtige Suchabfragesprache und verfügt seit kurzem über sehr nützliche und bedienerfreundliche Exportoptionen. Die Referenzkorpora Altdeutsch und Mittelhochdeutsch nutzen das Korpusabfragesystem ANNIS, das sich für Korpora mit komplexer Mehrebenenannotation anbietet. Erfreulicherweise steht hier neben einer Reihe anderer Exporter mit teils sehr simplem, teils sehr komplexem Output seit kurzem auch die Möglichkeit des KWIC-Exports zur Verfügung (mit dem TextColumnExporter ab Version 3.5; im Referenzkorpus Altdeutsch bereits implementiert, im Referenzkorpus Mittelhochdeutsch – Stand September 2017 – noch nicht).
Infobox 4: Handwerkszeug – Software für korpuslinguistische Studien
Wer Korpuslinguistik betreiben möchte, darf keine Angst davor haben, sich mit neuer Software und idealerweise mit Programmiersprachen vertraut zu machen. Für AnfängerInnen ist die Hemmschwelle oft hoch, aber die Tutorials im Begleitmaterial versuchen, Ihnen den Umgang mit Korpora und die Auswertung von Korpusdaten so einfach wie möglich zu machen. Ebenfalls sehr empfehlenswert zum Einstieg ins korpuslinguistische Arbeiten ist die Website von Noah Bubenhofer (http://www.bubenhofer.com/korpuslinguistik/kurs/, zuletzt abgerufen am 20.09.2017).
Folgende Programme sollten Sie auf jeden Fall installieren, wenn Sie korpuslinguistisch arbeiten möchten:
einen guten Texteditor. Die bei Windows und Mac nativ vorhandenen Texteditoren sind für korpuslinguistische Zwecke suboptimal. Ich empfehle Notepad++ für Windows und TextWrangler für Mac, für Linux gibt es z.B. Notepadqq. Alle drei sind kostenlos erhältlich.
ein Tabellenkalkulationsprogramm. Die meisten von Ihnen werden mit Microsoft Excel vertraut sein; eine gute freie Alternative ist LibreOffice Calc. Während Letzteres nicht alle Funktionen von Excel umfasst, hat es den Vorteil, dass es etwas besser mit Unicode-Sonderzeichen umgehen kann, denen wir bei der Arbeit mit historischen Textdaten häufig begegnen.
Das Statistikprogramm R ist mittlerweile in der (quantitativen) Korpuslinguistik zum Standard geworden, wenn es um die Auswertung von Daten geht. Aber auch für die Aufbereitung von Daten eignet es sich hervorragend, auch wenn man relativ viel Zeit braucht, um sich einzuarbeiten, wenn man noch keine Programmiererfahrung hat. Als grafische Benutzeroberfläche empfehle ich RStudio, ebenfalls kostenlos erhältlich. Die Skripte im digitalen Begleitmaterial lassen sich allesamt weitgehend ohne jegliche Vorkenntnisse benutzen. Wer sich tiefer einarbeiten möchte, kann z.B. zu Gries (2016) greifen.
Infobox 5: Best Practice – Wie berichte ich eine Korpusrecherche?
Daten zu sammeln und auszuwerten, ist immer nur der erste Schritt im Forschungsprozess. Ebenso wichtig ist das Berichten der Ergebnisse. Dabei sollten die Ergebnisse so aufbereitet werden, dass die für die jeweilige Fragestellung relevanten Befunde (und nur diese) konzise, zugleich aber maximal informativ präsentiert werden. Folgende Prinzipien sollten dabei beachtet werden:
1 Ergebnisorientierung. Der Weg von der Hypothese zur Korpusrecherche und ihrer Analyse ist oft kein geradliniger: So kann es vorkommen, dass verschiedene Suchanfragen oder verschiedene Annotationsvarianten ausprobiert und wieder verworfen werden. Dieser Prozess ist in vielen Fällen zwar nicht uninteressant, für die Leserin aber in aller Regel nicht relevant. Stattdessen sollten konzise und an der Fragestellung orientiert die wichtigsten W-Fragen beantwortet werden: Was wurde untersucht? Warum wurde es untersucht (Motivation, Fragestellung)? Wie genau wurde dabei vorgegangen? Welche Ergebnisse wurden erzielt? Was sagen uns diese Ergebnisse?
2 Nachvollziehbarkeit. Die Durchführung und die Ergebnisse sollten so berichtet werden, dass der Leser sie nachvollziehen und ggf. auch selbst replizieren kann. Um die Replizierbarkeit zu gewährleisten, muss auf jeden Fall präzise angegeben werden, mit welchem Korpus gearbeitet wurde und wonach genau in dem Korpus gesucht wurde. Um sicherzustellen, dass der Leser die Ergebnisse auch nachvollziehen kann, ohne die Studie gleich selbst replizieren zu müssen, ist es unter anderem wichtig, stets Grundgesamtheiten zu nennen (wie groß ist mein Korpus / meine Stichprobe), anstatt nur mit relativen Frequenzen zu arbeiten. So ändert sich die Aussagekraft eines Befunds wie „Das Wort Weib wird im Korpus in 40 % der Fälle neutral gebraucht und in 60 % der Fälle mit negativer Konnotation“ drastisch, je nachdem, ob zehn Belege oder tausend Belege analysiert wurden.
3 Leserfreundlichkeit. Die Ergebnispräsentation sollte einerseits so vollständig wie möglich sein, andererseits jedoch sollte gleichsam die für die Fragestellung relevante „Essenz“ der Befunde leserfreundlich aufgezeigt werden. Dies gelingt am besten über die graphische Aufbereitung der Resultate. So zeigt das Balkendiagramm in Fig. 5 auf einen Blick den Unterschied zwischen den beiden Textsorten hinsichtlich der Erwähnung von Begriffen aus dem Wortfeld „Süßwaren“ und ist somit sehr viel leserfreundlicher als beispielsweise eine Liste an Frequenzen oder Prozentwerten, die gerade bei zahlreichen Analysen auch sehr ermüdend sein kann.
4 Reproduzierbarkeit. Die Korpusrecherche sollte für den Leser oder die Leserin nicht nur nachvollziehbar sein, sondern er oder sie sollte auch in die Lage versetzt werden, sie selbst durchzuführen. Daher setzt sich immer mehr die Praxis durch, sämtliche Daten, die einer Studie zugrundeliegen, öffentlich zugänglich zu machen. Dadurch wird sichergestellt, dass zum einen die Richtigkeit einer Korpusanalyse überprüft werden kann und zum anderen neue Methoden und Analyseansätze auf bestehende Daten angewandt werden können. Für linguistische Datensätze gibt es mittlerweile auch spezialisierte Repositorien wie das Tromsø Repository for Language and Linguistics (https://opendata.uit.no/dataverse/trolling). Viele Linguistinnen und Linguisten nutzen auch nicht spezifisch sprachwissenschaftliche Repositorien wie Figshare oder GitHub.