Читать книгу R für Data Science - Hadley Wickham - Страница 52

Zeilen mit filter() filtern

Оглавление

Die Funktion filter() erlaubt es, Teilmengen von Beobachtungen basierend auf ihren Werten zu bilden. Das erste Argument ist der Name des Dataframes. Die darauffolgenden Argumente sind die Ausdrücke, die den Dataframe filtern. So lassen sich mit der folgenden Anweisung alle Flüge vom 1. Januar auswählen:

filter(flights, month == 1, day == 1)

#> # A tibble: 842 × 19

#> year month day dep_time sched_dep_time dep_delay

#> <int> <int> <int> <int> <int> <dbl>

#> 1 2013 1 1 517 515 2

#> 2 2013 1 1 533 529 4

#> 3 2013 1 1 542 540 2

#> 4 2013 1 1 544 545 -1

#> 5 2013 1 1 554 600 -6

#> 6 2013 1 1 554 558 -4

#> # ... with 836 more rows, and 13 more variables:

#> # arr_time <int>, sched_arr_time <int>, arr_delay <dbl>,

#> # carrier <chr>, flight <int>, tailnum <chr>,origin <chr>,

#> # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,

#> # minute <dbl>, time_hour <dttm>

Wenn Sie diese Codezeile ausführen, ruft dplyr die Filteroperation auf und gibt einen neuen Dataframe zurück. Da die dplyr-Funktionen niemals ihre Eingaben modifizieren, müssen Sie den Zuweisungsoperator <- verwenden, wenn Sie das Ergebnis speichern wollen:

jan1 <- filter(flights, month == 1, day == 1)

R gibt die Ergebnisse entweder aus oder speichert sie in einer Variablen. Wenn Sie beides haben möchten, setzen Sie die Zuweisung in Klammern:

(dec25 <- filter(flights, month == 12, day == 25))

#> # A tibble: 719 × 19

#> year month day dep_time sched_dep_time dep_delay

#> <int> <int> <int> <int> <int> <dbl>

#> 1 2013 12 25 456 500 -4

#> 2 2013 12 25 524 515 9

#> 3 2013 12 25 542 540 2

#> 4 2013 12 25 546 550 -4

#> 5 2013 12 25 556 600 -4

#> 6 2013 12 25 557 600 -3

#> # ... with 713 more rows, and 13 more variables:

#> # arr_time <int>, sched_arr_time <int>, arr_delay <dbl>,

#> # carrier <chr>, flight <int>, tailnum <chr>,origin <chr>,

#> # dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,

#> # minute <dbl>, time_hour <dttm>

R für Data Science

Подняться наверх