Читать книгу R für Data Science - Hadley Wickham - Страница 50

nycflights13

Оглавление

Um die grundlegenden Manipulationsverben von dplyr zu untersuchen, verwenden wir nycflights13::flights. Dieser Dataframe enthält alle 336.776 Flüge, die 2013 von New York City abgegangen sind. Die Daten stammen vom US Bureau of Transportation Statistics (http://bit.ly/transstats) und sind in ?flights dokumentiert:

flights

#> # A tibble: 336,776 × 19

#> year month day dep_time sched_dep_time dep_delay

#> <int> <int> <int> <int> <int> <dbl>

#> 1 2013 1 1 517 515 2

#> 2 2013 1 1 533 529 4

#> 3 2013 1 1 542 540 2

#> 4 2013 1 1 544 545 -1

#> 5 2013 1 1 554 600 -6

#> 6 2013 1 1 554 558 -4

#> # ... with 336,776 more rows, and 13 more variables:

#> # arr_time <int>, sched_arr_time <int>, arr_delay <dbl>,

#> # carrier <chr>, flight <int>, tailnum <chr>, origin <chr>,

#> # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,

#> # minute <dbl>, time_hour <dttm>

Vielleicht ist Ihnen aufgefallen, dass dieser Dataframe etwas anders ausgegeben wird als andere Dataframes, die Sie bisher verwendet haben: Es sind nur die ersten Zeilen zu sehen und nur so viele Spalten, wie auf eine Bildschirmseite passen. (Das gesamte Datenset können Sie mit View(flights) anzeigen, wobei das Datenset im RStudio-Viewer geöffnet wird.) Die Darstellung weicht von anderen ab, weil es sich um ein Tibble handelt. Tibbles sind Dataframes, allerdings mit leichten Anpassungen, damit sie für das Tidyverse besser geeignet sind. Momentan brauchen Sie sich um die Unterschiede nicht zu kümmern. Teil II behandelt Tibbles ausführlicher.

In der Ausgabe des Dataframes ist auch eine Zeile mit drei- oder vierbuchstabigen Abkürzungen unter den Spaltennamen zu sehen. Sie beschreiben den Typ der jeweiligen Variablen:

 int steht für Ganzzahlen (Integer).

 dbl steht für Realzahlen (Double).

 chr steht für Zeichenvektoren oder Strings (Character).

 dttm steht für Datums-/Zeitwerte (bestehend aus Datum und Uhrzeit).

Es gibt drei andere gebräuchliche Variablentypen, die zwar in diesem Datenset nicht verwendet werden, die Sie aber später im Buch noch kennenlernen werden:

 lgl steht für logische Typen, das heißt Vektoren, die nur TRUE oder FALSE enthalten.

 fctr steht für Faktoren, mit denen R kategoriale Variablen mit festen möglichen Werten darstellt.

 date steht für Datumswerte.

R für Data Science

Подняться наверх