Читать книгу Korpusgestützte Textanalyse - Manfred Stede - Страница 19

На сайте Литреса книга снята с продажи.

2.5 Korpusuntersuchungen zu Kohäsion und Kohärenz

Einige der in Abschnitt 2.2.1 genannten kohäsiven Mittel lassen sich auch in nicht oder nur geringfügig annotierten Korpora unmittelbar recherchieren. Hierzu zählen Pronomina und Konnektoren, denn bei ihnen handelt es sich um geschlossene Wortklassen von relativ überschaubarem Umfang.1 Eine zweite Gruppe, repräsentiert durch die Ellipsen, ist prinzipiell zunächst nicht suchbar, weil das Phänomen eben durch die Abwesenheit einer eigentlich erwarteten lexikalischen Form charakterisiert ist. Um hierzu Korpusuntersuchungen anzustellen, bedarf es daher zuvor einer manuellen Annotation. Die dritte Gruppe schließlich bilden Kohäsionsmittel, die für den Menschen leicht beobachtbar, für die Maschine aber schwer erkennbar sind. Dazu zählt die Substitution: Um die kohäsive Relation in Weil Paul die Buche im sumpfigen Boden pflanzte, gedieh der Baum nur schlecht zu identifizieren, ist lexikalisches Wissen erforderlich; genauer: eine Ressource, die Hypo- und Hyperonyme sowie Synonyme zu einem gegebenen Wort liefert. Für viele Sprachen sind diese, mit unterschiedlichem Umfang, in maschinenlesbarer Form verfügbar, vor allem WordNet2 für Englisch (Miller, 1995), sowie GermaNet3 für Deutsch (Hamp u. Feldweg, 1997, Henrich u. Hinrichs, 2010). Mit ihrer Hilfe lassen sich Programme schreiben, die versuchen, die genannten lexikalischen Relationen in Texten zu identifizieren und damit Substitutionen zu erfassen.

Textkorpora, in denen gezielt die kohäsionsstiftenen Mittel annotiert wurden, sind bisher rar. Eine interessante Ausnahme bildet das GECCoGECCo Korpus Projekt (Kunz u.a., 2017), das sich einerseits für eine translationswissenschaftliche Fragestellung (wie unterscheiden sich Kohäsionsphänomene im Deutschen und Englischen) und andererseits für Unterschiede zwischen verschiedenen Arten von Texten interessiert hat. Dazu wurde ein Korpus aus deutschen und englischen Dokumenten zusammengestellt: Transkriptionen von Interviews und akademischen Vorträgen sowie eine Reihe schriftlicher Textklassen wie etwa fiktionale Texte, politische Essays oder Bedienungsanweisungen.

Eingebettet in die Software der Corpus Workbench4 wurden die Texte automatisch mit morphosyntaktischer Information versehen und dann teilautomatisch mit den folgenden Kohäsionsmerkmalen annotiert:

Koreferenz (Verweis auf denselben Diskursgegenstand);

One-anaphora und Ellipsen (Verweis auf dieselbe Klasse von Diskursgegenständen);

komparative Verweise, z.B.: Wir können einen Spaziergang machen. Eine noch bessere Möglichkeit wäre ein Fußballspiel;

Konnektoren;

einige lexikalische Relationen wie Hyperonymie oder Meronymie (allerdings nur teilweise behandelt).

Durch statistische Analysen auf den annotierten Daten konnten Kunz u.a. (2017) beispielsweise herausfinden, dass die deutschen gesprochensprachlichen Texte signifikant mehr Kohäsionsmittel einsetzen als die englischen, während der Unterschied bei geschriebenen Texten nur gering ist. Die häufigsten Mittel sind generell die Koreferenz und Konnektoren. Innerhalb der deutschen Texte variiert der Anteil von Kohäsionsmitteln (gemessen an der Zahl der token des Texts) zwischen 4,84 % (Bedienungsanweisungen) und 15,25 % (Interviews), und es lässt sich im Deutschen auch eine größere Differenzierung der kohäsiven Mittel zwischen den Textklassen nachweisen als im Englischen. Dadurch ist es mit recht guter Zuverlässigkeit möglich, für einen gegebenen Text seine Klasse nur anhand der Verteilung der Kohäsionsmittel automatisch zu ermitteln (für die Unterscheidung zwischen gesprochen und geschrieben sogar sehr zuverlässig).

Ein durchaus häufig in Korpora annotiertes Phänomen ist die Koreferenz, die wir in Kapitel 4 vertieft behandeln werden. Auch für den Phänomenereich der durch Diskursrelationen gestifteten Kohärenz gibt es eine Reihe verfügbarer Datensätze; darauf gehen wir später in Kapitel 10 ein.

Weiterführende Literatur

Die hier nur sehr kurz angedeutete geschichtliche Entwicklung der Textlinguistik im deutschsprachigen Raum wird ausführlicher dargestellt im ersten Kapitel von (Adamzik, 2004).

Der auch heute noch sehr lesenswerte „Klassiker“ zu den Themen Kohäsion und Kohärenz ist das ursprünglich 1976 erschienene Cohesion in English (Halliday u. Hasan, 1989). Dieses Buch bespricht die Themen Referenz, Substitution, Ellipse, Konjunktion und lexikalische Kohäsion am Beispiel des Englischen mit bemerkenswerter Gründlichkeit. Zu beachten ist, dass die Untersuchungen der englischen Phänomene sich nicht ganz einfach auf das Deutsche übertragen lassen; zudem ist wichtig, dass Halliday und Hasan – anders als wir es hier getan haben – terminologisch nicht zwischen ‚Kohäsion‘ und ‚Kohärenz‘ unterscheiden; sie verwenden den Begriff cohesion in einem allumfassenden Sinn.

Die oben nur angerissenen Schwierigkeiten der Kategorisierung von lexikalischen Assoziationen werden von (Hoey, 1991) gründlich anhand von Beispieltexten besprochen; der Autor schlägt u.a. Flussdiagramme vor, die die Einordnung von Wortpaaren zur Kategorien der lexikalischen Kohäsion erleichtern.

Stärker auf den auch von uns verwendeten Kohärenz-Begriff zugeschnitten ist die Untersuchung Coherence, Reference, and the Theory of Grammar (Kehler, 2002), die eine Theorie der Kohärenzrelationen entwirft und damit einige linguistische Phänomene der Referenz und Elision behandelt. Eine kurze Zusammenfassung der zentralen Aspekte dieser Arbeit liefert Kehler (2004).

Подняться наверх