Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 14

Data Frames und Tabellen

Оглавление

Klassische Datenbanktabellen haben eine oder mehrere Spalten, die als Index bezeichnet werden und im Wesentlichen eine Zeilennummer darstellen. Dies kann die Effizienz bestimmter Datenbankabfragen erheblich verbessern. In Pythons pandas-Bibliothek wird die grundlegende tabellarische Datenstruktur durch ein Data-Frame-Objekt umgesetzt. Standardmäßig wird automatisch ein ganzzahliger Index für ein Data-Frame-Objekt basierend auf der Reihenfolge der Zeilen erstellt. In pandas ist es auch möglich, mehrstufige bzw. hierarchische Indizes festzulegen, um die Effizienz bestimmter Operationen zu verbessern.

In R ist die grundlegende tabellarische Datenstruktur mittels eines data.frame-Objekts implementiert. Ein data.frame hat auch einen impliziten ganzzahligen Index, der auf der Zeilenreihenfolge basiert. Der standardmäßige data.frame in R unterstützt keine benutzerdefinierten oder mehrstufigen Indizes. Jedoch kann über das Argument row.names ein benutzerdefinierter Schlüssel erstellt werden. Um diesem Problem zu begegnen, werden immer häufiger zwei neuere Pakete eingesetzt: data.table und dplyr. Beide unterstützen mehrstufige Indizes und bieten erhebliche Beschleunigungen bei der Arbeit mit einem data.frame.

Unterschiede in der Terminologie Die Terminologie bei tabellarischen Daten kann verwirrend sein. Statistiker und Data Scientists verwenden oftmals unterschiedliche Begriffe für ein und denselben Sachverhalt. Statistiker nutzen in einem Modell Prädiktorvariablen, um eine Antwortvariable (engl. Response) oder eine abhängige Variable vorherzusagen. Ein Datenwissenschaftler spricht von Merkmalen (engl. Features), um eine Zielgröße (engl. Target) vorherzusagen. Ein Synonym ist besonders verwirrend: Informatiker verwenden den Begriff Stichprobe (engl. Sample) für eine einzelne Datenzeile, für einen Statistiker ist eine Stichprobe hingegen eine Sammlung von Datenzeilen.
Praktische Statistik für Data Scientists

Подняться наверх