Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 13

Schlüsselbegriffe zu tabellarischen Daten

Оглавление

Data Frame

Tabellarische Daten (wie ein Tabellenkalkulationsblatt) sind die grundlegende Datenstruktur für statistische und maschinelle Lernmodelle.

Merkmal

Eine Spalte innerhalb einer Tabelle wird allgemein als Merkmal (engl. Feature) bezeichnet.

Synonyme

Attribut, Eingabe, Prädiktorvariable, Prädiktor, unabhängige Variable

Ergebnis

Viele datenwissenschaftliche Projekte zielen auf die Vorhersage eines Ergebnisses (engl. Outcome) ab – oft in Form eines Ja-oder-Nein-Ergebnisses (ob beispielsweise in Tabelle 1-1 eine »Auktion umkämpft war oder nicht«). Die Merkmale werden manchmal verwendet, um das Ergebnis eines statistischen Versuchs oder einer Studie vorherzusagen..

Synonyme

Ergebnisvariable, abhängige Variable, Antwortvariable, Zielgröße, Ausgabe, Responsevariable

Eintrag

Eine Zeile innerhalb einer Tabelle wird allgemein als Eintrag (engl. Record) bezeichnet.

Synonyme

Fall, Beispiel, Instanz, Beobachtung

Tabelle 1-1: Ein typisches Data-Frame-Format


In Tabelle 1-1 gibt es eine Kombination aus Mess- oder Zähldaten (z.B. Dauer und Preis) und kategorialen Daten (z.B. Kategorie und Währung). Wie bereits erwähnt, ist eine besondere Form der kategorialen Variablen eine binäre Variable (ja/nein oder 0/1), wie in der Spalte ganz rechts in Tabelle 1-1 – eine Indikatorvariable, die angibt, ob eine Auktion umkämpft war (mehrere Bieter hatte) oder nicht. Diese Indikatorvariable ist zufällig auch eine Ergebnisvariable, wenn das Modell vorhersagen soll, ob eine Auktion umkämpft sein wird oder nicht.

Praktische Statistik für Data Scientists

Подняться наверх