Читать книгу Deep Learning illustriert - Jon Krohn - Страница 32

2.2.4word2viz

Оглавление

Um Ihre intuitive Wertschätzung für Wortvektoren weiterzuentwickeln, besuchen Sie bitte https://lamyiowce.github.io/word2viz/. In Abbildung 2–8 sehen Sie die Standardansicht des Programms word2viz zum interaktiven Erkunden von Wortvektoren. Wählen Sie im Dropdown-Menü oben rechts »Gender analogies« und versuchen Sie dann, unter der Überschrift »Modify words« Paare aus neuen Wörtern einzugeben. Wenn Sie Paare aus zusammengehörenden geschlechtsspezifischen Wörtern wie princess und prince, duchess und duke sowie businesswoman und businessman eingeben, werden Sie feststellen, dass diese an sehr aufschlussreichen Orten landen.

Die Entwicklerin von word2viz, Julia Bazińska, komprimierte einen 50-dimensionalen Wortvektorraum in zwei Dimensionen, um die Vektoren in einem xy-Koordinatensystem zu visualisieren.15 Bazińska skalierte die x-Achse von den Wörtern she bis he als Referenzpunkt für das Geschlecht, während die y-Achse vom gemeinen Volk an der Basis zur königlichen Spitze verlief, also von woman bis queen. Die dargestellten Wörter, die über ein Training auf einem natürlichsprachigen Datensatz aus 6 Milliarden Instanzen aus 400.000 einzigartigen Wörtern16 in den Vektorraum gelangten, sitzen je nach Bedeutung relativ zu den beiden Achsen. Je majestätischer (queen) die Wörter waren, umso höher gelangten sie in die Darstellung; die weiblichen (she) Begriffe liegen dabei links von ihren männlichen (he) Gegenstücken.

Abb. 2–8 Die Standardansicht von »word2viz«, einem Programm zum interaktiven Erkunden von Wortvektoren

Wenn Sie lange genug mit der »Gender analogies«-Ansicht von word2viz herumgespielt haben, können Sie mit anderen Perspektiven des Wortvektorraums experimentieren. Mit »Adjectives analogies« aus dem Dropdown-Menü »What do you want to see?« könnten Sie zum Beispiel die Wörter small und smallest hinzufügen. Anschließend könnten Sie die Beschriftungen der x-Achse auf nice und nicer ändern und dann wieder auf small und big. Wenn Sie zu »Numbers saywrite analogies« umschalten, könnten Sie damit herumspielen, die x-Achse auf 3 und 7 zu ändern.

Mit der Ansicht »Empty« können Sie Ihren völlig eigenen word2viz-Plot herstellen. Die (Wortvektor-)Welt steht Ihnen offen, aber vielleicht erkunden Sie zuerst einmal die Land-Hauptstadt-Beziehungen, die wir beim Betrachten von Abbildung 2–6 erwähnt haben. Setzen Sie dazu die x-Achse auf den Bereich von west bis east und die y-Achse auf den Bereich von city bis country. Wortpaare, die ganz ordentlich in diesen Plot passen, sind london–england, paris–france, berlin– germany und beijing–china.


word2viz ist zwar einerseits eine amüsante Methode, um ein allgemeines Verständnis für Wortvektoren zu entwickeln, andererseits eignet sich das Programm aber auch hervorragend dafür, um Einblicke in die speziellen Stärken oder Schwächen eines bestimmten Wortvektorraums zu gewinnen. Laden Sie zum Beispiel einmal die Ansicht »Verb tenses« im Dropdown-Menü »What do you want to see?«, und fügen Sie dann die Wörter lead und led hinzu. Es wird offenbar, dass die Koordinaten, denen Wörter in diesem Vektorraum zugewiesen wurden, die gängigen Geschlechtsstereotypen widerspiegeln, die in den natürlichsprachigen Daten vorhanden waren, mit denen der Vektorraum trainiert wurde. Wenn Sie zur »Jobs«-Ansicht umschalten, wird diese Tendenz noch offensichtlicher. Man kann wahrscheinlich mit einer gewissen Sicherheit behaupten, dass jeder große natürlichsprachige Datensatz bestimmte Verzerrungen enthalten wird, ob nun absichtlich oder nicht. Die Entwicklung von Techniken zum Reduzieren von Verzerrungen in Wortvektoren ist ein aktives Forschungsfeld.17 Wenn Sie sich bewusst sind, dass diese Verzerrungen in Ihren Daten existieren können, ist es am sichersten, wenn Sie Ihre NLP-Anwendung in einer Vielzahl von Situationen testen, die eine mannigfaltige Nutzerbasis widerspiegeln. Und natürlich müssen Sie überprüfen, dass die Ergebnisse angemessen sind.

Deep Learning illustriert

Подняться наверх