Читать книгу R für Data Science - Hadley Wickham - Страница 71
Übungen
Оглавление1 Denken Sie sich mindesten fünf verschiedene Wege aus, um die typischen Verspätungseigenschaften einer Gruppe von Flügen zu bewerten. Betrachten Sie die folgenden Szenarios:–Ein Flug findet zu 50% der Zeit 15 Minuten zu früh statt und zu 50% der Zeit 15 Minuten zu spät.–Ein Flug findet immer 10 Minuten zu spät statt.–Ein Flug findet zu 50% der Zeit 30 Minuten zu früh und zu 50% der Zeit 30 Minuten zu spät statt.–Ein Flug ist zu 99% der Zeit pünktlich und zu 1% der Zeit 2 Stunden zu spät.
Was ist wichtiger: Verspätung bei Ankunft oder Verspätung bei Abflug?
1 2.Entwickeln Sie einen anderen Ansatz, der die gleiche Ausgabe wie not_cancelled %>% count(dest) und not_cancelled %>% count(tailnum, wt = distance) liefert (ohne count() zu verwenden).
2 3.Unsere Definition von stornierten Flügen (is.na(dep_delay) | is.na(arr_delay)) ist etwas suboptimal. Warum? Welche der Spalten ist die wichtigste?
3 4.Sehen Sie sich die Anzahl der stornierten Flüge pro Tag an. Ist ein Muster zu erkennen? Steht der Anteil von stornierten Flügen in einer Beziehung zur durchschnittlichen Verspätung?
4 5.Welche Fluggesellschaft (carrier) hat die schlimmsten Verspätungen? Problem: Können Sie die Wirkungen schlechter Flughäfen gegenüber schlechten Fluggesellschaften entflechten? Warum/warum nicht? (Hinweis: Denken Sie an flights %>% group_by(carrier, dest) %>% summarize(n()).)
5 6.Zählen Sie für jedes Flugzeug die Anzahl der Flüge, bevor die erste Verspätung von mehr als 1 Stunde aufgetreten ist.
6 7.Was bewirkt das Argument sort im Aufruf von count()? Wann würden Sie es verwenden?