Читать книгу R für Data Science - Hadley Wickham - Страница 61

Neue Variablen mit mutate() hinzufügen

Оглавление

Neben der Auswahl existierender Spalten ist es oftmals zweckmäßig, neue Spalten als Funktionen vorhandener Spalten hinzuzufügen. Das ist die Aufgabe von mutate().

Da die Funktion mutate() neue Spalten immer am Ende des Datensets anfügt, verkürzen wir zunächst unser Datenset, damit die neuen Variablen zu sehen sind. Wie Sie bereits wissen, ist es in RStudio mit View() am einfachsten, alle Spalten anzuzeigen:

flights_sml <- select(flights,

year:day,

ends_with("delay"),

distance,

air_time

)

mutate(flights_sml,

gain = arr_delay - dep_delay,

speed = distance / air_time * 60

)

#> # A tibble: 336,776 × 9

#> year month day dep_delay arr_delay distance air_time

#> <int> <int> <int> <dbl> <dbl> <dbl> <dbl>

#> 1 2013 1 1 2 11 1400 227

#> 2 2013 1 1 4 20 1416 227

#> 3 2013 1 1 2 33 1089 160

#> 4 2013 1 1 -1 -18 1576 183

#> 5 2013 1 1 -6 -25 762 116

#> 6 2013 1 1 -4 12 719 150

#> # ... with 3.368e+05 more rows, and 2 more variables:

#> # gain <dbl>, speed <dbl>

Auch auf Spalten, die Sie eben erst erstellt haben, können Sie verweisen:

mutate(flights_sml,

gain = arr_delay - dep_delay,

hours = air_time / 60,

gain_per_hour = gain / hours

)

#> # A tibble: 336,776 × 10

#> year month day dep_delay arr_delay distance air_time

#> <int> <int> <int> <dbl> <dbl> <dbl> <dbl>

#> 1 2013 1 1 2 11 1400 227

#> 2 2013 1 1 4 20 1416 227

#> 3 2013 1 1 2 33 1089 160

#> 4 2013 1 1 -1 -18 1576 183

#> 5 2013 1 1 -6 -25 762 116

#> 6 2013 1 1 -4 12 719 150

#> # ... with 3.368e+05 more rows, and 3 more variables:

#> # gain <dbl>, hours <dbl>, gain_per_hour <dbl>

Wenn Sie nur die neuen Variablen behalten wollen, verwenden Sie transmute():

transmute(flights,

gain = arr_delay - dep_delay,

hours = air_time / 60,

gain_per_hour = gain / hours

)

#> # A tibble: 336,776 × 3

#> gain hours gain_per_hour

#> <dbl> <dbl> <dbl>

#> 1 9 3.78 2.38

#> 2 16 3.78 4.23

#> 3 31 2.67 11.62

#> 4 -17 3.05 -5.57

#> 5 -19 1.93 -9.83

#> 6 16 2.50 6.40

#> # ... with 3.368e+05 more rows

R für Data Science

Подняться наверх