Читать книгу Deep Learning illustriert - Jon Krohn - Страница 29
2.2.11-aus-n-Repräsentationen von Wörtern
ОглавлениеDas traditionelle Vorgehen zum numerischen Kodieren natürlicher Sprache für die Verarbeitung mit einer Maschine ist die 1-aus-n-Kodierung (auch: One-Hot-Kodierung; Abbildung 2–4). Dabei werden die Wörter der natürlichen Sprache in einem Satz (z.B. »the«, »bat«, »sat«, »on«, »the« und »cat«) durch die Spalten einer Matrix dargestellt. Jede Zeile in der Matrix wiederum repräsentiert ein einziges eindeutiges Wort. Wenn es 100 eindeutige Wörter im Textkorpus der Dokumente gibt, die Sie in Ihren Sprachalgorithmus eingeben, muss Ihre Matrix aus 1-aus-n-kodierten Wörtern 100 Zeilen besitzen. Besteht Ihr Korpus5 aus 1.000 eindeutigen Wörtern, gibt es 1.000 Zeilen in der Matrix usw.
Abb. 2–4Solche 1-aus-n-Kodierungen von Wörtern sind beim traditionellen Machine-Learning-Ansatz zur Verarbeitung natürlicher Sprache vorherrschend.
Die Zellen in 1-aus-n-Matrizen bestehen aus Binärwerten, das heißt, sie sind entweder 0 oder 1. Jede Spalte besteht aus höchstens einer 1 und ansonsten aus Nullen. 1-aus-n-Matrizen sind also dünn besetzt6. Werte von 1 zeigen das Vorhandensein eines bestimmten Wortes (Zeile) an einer bestimmten Position (Spalte) innerhalb des Textkorpus an. In Abbildung 2–4 enthält unser gesamter Textkorpus nur sechs Wörter, von denen fünf einzigartig sind. Eine entsprechende 1-aus-n-Darstellung der Wörter in unserem Korpus hat deshalb sechs Spalten und fünf Zeilen. Das erste einzigartige Wort – the – tritt an der ersten und der fünften Position auf, wie die Zellen anzeigen, die in der ersten Zeile der Matrix eine 1 enthalten. Das zweite eindeutige Wort in unserem winzigen Korpus ist bat, das nur an der zweiten Position auftaucht und daher durch den Wert 1 in der zweiten Zeile der zweiten Spalte repräsentiert wird. 1-aus-n-Darstellungen wie diese sind ziemlich einfach und direkt und bilden ein akzeptables Format für die Eingabe in ein Deep-Learning-Modell (oder auch andere Machine-Learning-Modelle). Wie Sie allerdings gleich sehen werden, sind die Einfachheit und Spärlichkeit von 1-aus-n-Darstellungen ein recht einschränkender Faktor, wenn man sie in Sprachanwendungen einsetzt.