Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 13
Schlüsselbegriffe zu tabellarischen Daten
ОглавлениеData Frame
Tabellarische Daten (wie ein Tabellenkalkulationsblatt) sind die grundlegende Datenstruktur für statistische und maschinelle Lernmodelle.
Merkmal
Eine Spalte innerhalb einer Tabelle wird allgemein als Merkmal (engl. Feature) bezeichnet.
Synonyme
Attribut, Eingabe, Prädiktorvariable, Prädiktor, unabhängige Variable
Ergebnis
Viele datenwissenschaftliche Projekte zielen auf die Vorhersage eines Ergebnisses (engl. Outcome) ab – oft in Form eines Ja-oder-Nein-Ergebnisses (ob beispielsweise in Tabelle 1-1 eine »Auktion umkämpft war oder nicht«). Die Merkmale werden manchmal verwendet, um das Ergebnis eines statistischen Versuchs oder einer Studie vorherzusagen..
Synonyme
Ergebnisvariable, abhängige Variable, Antwortvariable, Zielgröße, Ausgabe, Responsevariable
Eintrag
Eine Zeile innerhalb einer Tabelle wird allgemein als Eintrag (engl. Record) bezeichnet.
Synonyme
Fall, Beispiel, Instanz, Beobachtung
Tabelle 1-1: Ein typisches Data-Frame-Format
In Tabelle 1-1 gibt es eine Kombination aus Mess- oder Zähldaten (z.B. Dauer und Preis) und kategorialen Daten (z.B. Kategorie und Währung). Wie bereits erwähnt, ist eine besondere Form der kategorialen Variablen eine binäre Variable (ja/nein oder 0/1), wie in der Spalte ganz rechts in Tabelle 1-1 – eine Indikatorvariable, die angibt, ob eine Auktion umkämpft war (mehrere Bieter hatte) oder nicht. Diese Indikatorvariable ist zufällig auch eine Ergebnisvariable, wenn das Modell vorhersagen soll, ob eine Auktion umkämpft sein wird oder nicht.