Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 9

Schlüsselbegriffe zu Datentypen

Оглавление

Numerisch

Daten, die auf einer numerischen Skala abgebildet sind.

Kontinuierlich

Daten, die innerhalb eines Intervalls einen beliebigen Wert annehmen können.

Synonyme

intervallskaliert, Gleitkommazahl, numerisch

Diskret

Daten, die nur ganzzahlige Werte annehmen können, wie z. B. Häufigkeiten bzw. Zählungen.

Synonyme

Ganzzahl, Zählwert

Kategorial

Daten, die nur einen bestimmten Satz von Werten annehmen können, die wiederum einen Satz von möglichen Kategorien repräsentieren.

Synonyme

Aufzählungstyp, Faktor, faktoriell, nominal

Binär

Ein Spezialfall des kategorialen Datentyps mit nur zwei möglichen Ausprägungen, z.B. 0/1, wahr/falsch.

Synonyme

dichotom, logisch, Indikatorvariable, boolesche Variable

Ordinalskaliert

Kategoriale Daten, die eine eindeutige Reihenfolge bzw. Rangordnung haben.

Synonym

geordneter Faktor

Softwareingenieure und Datenbankprogrammierer fragen sich vielleicht, warum wir überhaupt den Begriff der kategorialen und ordinalskalierten Daten für unsere Analyse benötigen. Schließlich sind Kategorien lediglich eine Sammlung von Text- (oder numerischen) Werten, und die zugrunde liegende Datenbank übernimmt automatisch die interne Darstellung. Die explizite Bestimmung von Daten als kategoriale Daten im Vergleich zu Textdaten bietet jedoch einige Vorteile:

 Die Kenntnis, dass Daten kategorial sind, kann als Signal dienen, durch das ein Softwareprogramm erkennen kann, wie sich statistische Verfahren wie die Erstellung eines Diagramms oder die Anpassung eines Modells verhalten sollen. Insbesondere ordinalskalierte Daten können als ordered.factor in R angegeben werden, wodurch eine benutzerdefinierte Ordnung in Diagrammen, Tabellen und Modellen erhalten bleibt. In Python unterstützt scikit-learn ordinalskalierte Daten mit der Methode sklearn.preprocessing.OrdinalEncoder.

 Das Speichern und Indizieren kann optimiert werden (wie in einer relationalen Datenbank).

 Die möglichen Werte, die eine gegebene kategoriale Variable annehmen kann, werden in dem Softwareprogramm erzwungen (wie bei einer Aufzählung).

Der dritte »Vorteil« kann zu unbeabsichtigtem bzw. unerwartetem Verhalten führen: Das Standardverhalten von Datenimportfunktionen in R (z.B. read.csv) besteht darin, eine Textspalte automatisch in einen factor umzuwandeln. Bei nachfolgenden Operationen auf dieser Spalte wird davon ausgegangen, dass die einzigen zulässigen Werte für diese Spalte die ursprünglich importierten sind und die Zuweisung eines neuen Textwerts eine Warnung verursacht sowie einen Eintrag mit dem Wert NA (ein fehlender Wert) erzeugt. Das pandas-Paket in Python nimmt diese Umwandlung nicht automatisch vor. Sie können jedoch in der Funktion read_csv eine Spalte explizit als kategorial spezifizieren.

Praktische Statistik für Data Scientists

Подняться наверх