Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 12
Tabellarische Daten
ОглавлениеDer typische Bezugsrahmen für eine Analyse in der Data Science ist ein tabellarisches Datenobjekt (engl. Rectangular Data Object), wie eine Tabellenkalkulation oder eine Datenbanktabelle.
»Tabellarische Daten« ist der allgemeine Begriff für eine zweidimensionale Matrix mit Zeilen für die Beobachtungen (Fälle) und Spalten für die Merkmale (Variablen); in R und Python wird dies als Data Frame bezeichnet. Die Daten sind zu Beginn nicht immer in dieser Form vorhanden: Unstrukturierte Daten (z.B. Text) müssen zunächst so verarbeitet und aufbereitet werden, dass sie als eine Reihe von Merkmalen in tabellarischer Struktur dargestellt werden können (siehe »Strukturierte Datentypen« auf Seite 2). Daten in relationalen Datenbanken müssen für die meisten Datenanalyse- und Modellierungsaufgaben extrahiert und in eine einzelne Tabelle überführt werden.