Читать книгу Deep Learning illustriert - Jon Krohn - Страница 34
2.3Elemente der natürlichen menschlichen Sprache
ОглавлениеWir haben bisher nur ein Element der natürlichen menschlichen Sprache betrachtet: das Wort. Wörter bestehen jedoch aus einzelnen Sprachelementen. Und dann sind Wörter wiederum die Komponenten abstrakterer, komplexerer Sprachelemente. Wir beginnen mit den Sprachelementen, die die Wörter bilden, und bauen auf diesen auf, wie das Schema in Abbildung 2–9 zeigt. Für jedes Element diskutieren wir, wie es üblicherweise aus der traditionellen Machine-Learning-Perspektive kodiert wird, sowie wie dies aus Sicht des Deep Learning erfolgt. Beachten Sie, wenn wir diese Elemente durcharbeiten, dass die verteilten Deep-Learning-Repräsentationen fließende und flexible Vektoren sind, während die traditionellen ML-Darstellungen lokal und starr sind (Tabelle 2–2).
Abb. 2–9Die Beziehungen zwischen den Elementen natürlicher menschlicher Sprache. Die links stehenden Elemente sind Bausteine der weiter rechts stehenden Elemente. Je weiter wir uns in der Grafik nach rechts bewegen, umso abstrakter werden die Elemente und umso komplexer wird es, sie in einer NLP-Anwendung zu modellieren.
Die Phonologie befasst sich mit der Art und Weise, wie Sprache klingt, wenn sie gesprochen wird. Jede Sprache besitzt einen spezifischen Satz an Phonemen (Klängen), aus denen die Wörter gebildet werden. Der traditionelle ML-Ansatz sieht vor, Segmente aus auditiven Eingaben als spezifische Phoneme aus dem Vorrat der Sprache an verfügbaren Phonemen zu kodieren. Bei Deep Learning trainieren wir ein Modell, Phoneme aus Features vorherzusagen, die automatisch aus auditiven Eingaben erlernt wurden, und diese Phoneme dann in einem Vektorraum darzustellen. In diesem Buch arbeiten wir nur mit natürlicher Sprache im Textformat. Allerdings lassen sich die behandelten Techniken direkt auf Sprachdaten anwenden, falls Sie das einmal ausprobieren wollen.
Die Morphologie befasst sich mit der Form der Wörter. Neben Phonemen besitzt jede Sprache auch ihren spezifischen Satz an Morphemen. Dabei handelt es sich um die kleinsten Elemente der Sprache, die eine Bedeutung enthalten. So lassen sich etwa die drei Morpheme out, go und ing zu dem Wort outgoing kombinieren. Das traditionelle ML-Vorgehen besteht darin, die Morpheme im Text aus einer Liste aller Morpheme einer bestimmten Sprache zu identifizieren. Bei Deep Learning trainieren wir ein Modell, das Auftreten bestimmter Morpheme vorherzusagen. Hierarchisch tiefer gelegene Schichten künstlicher Neuronen können dann mehrere Vektoren (z.B. die drei, die out, go und ing repräsentieren) miteinander zu einem einzigen Vektor kombinieren, der ein Wort darstellt.
Tab. 2–2 Traditionelle Machine-Learning- und Deep-Learning-Repräsentationen nach den Elementen der natürlichen Sprache
Phoneme (wenn man Audio betrachtet) und Morpheme (wenn man Text betrachtet) werden kombiniert, um Wörter zu bilden. Immer wenn wir in diesem Buch mit Daten aus natürlicher Sprache arbeiten, tun wir das auf der Wortebene. Dafür gibt es vier Gründe. Erstens ist es einfach zu definieren, was ein Wort ist, und wir alle sind damit vertraut. Zweitens ist es einfach, natürliche Sprache über einen Prozess namens Tokenisierung21 in Wörter zu zerlegen. Wir werden uns in Kapitel 11 näher mit diesem Vorgang beschäftigen. Drittens sind Wörter die am meisten untersuchte Ebene der natürlichen Sprache, vor allem in Bezug auf das Deep Learning, sodass wir die neuesten Techniken auf sie anwenden können. Viertens, und das ist vielleicht der wichtigste Grund, funktionieren Wortvektoren für die NLP-Modelle, die wir bauen, einfach wirklich gut: Sie erweisen sich als funktional, effizient und akkurat. Im vorigen Abschnitt sprachen wir über die Nachteile der lokalistischen 1-aus-n-Repräsentationen, die im traditionellen ML vorherrschen, im Vergleich zu den Wortvektoren der Deep-Learning-Modelle.
Wörter werden kombiniert und generieren eine Syntax. Syntax und Morphologie bilden gemeinsam die Gesamtheit der Grammatik einer Sprache. Syntax ist die Anordnung von Wörtern zu Phrasen und von Phrasen zu Sätzen, um auf eine Art und Weise Bedeutung zu transportieren, die bei allen Anwendern einer bestimmten Sprache konsistent ist. Im traditionellen ML-Ansatz werden Phrasen zu diskreten, formellen linguistischen Kategorien zusammengefasst.22 Bei Deep Learning setzen wir (Überraschung!) Vektoren ein. Jedes Wort und jede Phrase in einem Textabschnitt kann durch einen Vektor in einem n-dimensionalen Raum repräsentiert werden, wobei Schichten aus künstlichen Neuronen die Wörter zu Phrasen kombinieren.
Semantik ist das abstrakteste der Elemente der natürlichen Sprache in Abbildung 2–9 und Tabelle 2–2. Sie befasst sich mit der Bedeutung von Sätzen. Diese Bedeutung wird aus all den zugrunde liegenden Sprachelementen wie Wörtern und Phrasen sowie aus dem übergreifenden Kontext, in dem ein Stück Text auftaucht, geschlossen oder abgeleitet. Der Rückschluss auf eine Bedeutung ist komplex, weil zum Beispiel die Frage, ob eine Passage wörtlich genommen werden oder als lustige oder sarkastische Bemerkung gelten soll, von feinen kontextuellen Unterschieden und wandelbaren kulturellen Normen abhängt. Das traditionelle ML, das nicht in der Lage ist, die Unschärfe von Sprache (z.B. die Ähnlichkeit verwandter Wörter oder Phrasen) abzubilden, kann die semantische Bedeutung nur begrenzt erfassen. Bei Deep Learning kommen uns wieder die Vektoren zu Hilfe. Vektoren können nicht nur jedes Wort und jede Phrase eines Textes darstellen, sondern auch jeden logischen Ausdruck. Wie bei den Sprachelementen, die wir bereits behandelt haben, können Schichten aus künstlichen Neuronen Vektoren aus einzelnen Elementen neu kombinieren – in diesem Fall, um über die nichtlineare Kombination aus Phrasenvektoren semantische Vektoren zu berechnen.