Читать книгу R für Data Science - Hadley Wickham - Страница 10
Big Data
ОглавлениеDieses Buch konzentriert sich stolz auf kleine, speicherresidente Datenmengen. Das ist der richtige Ort für den Einstieg, weil Sie große Datenmengen (sprich: Big Data) erst dann beherrschen, wenn Sie genügend Erfahrungen mit kleineren Datenmengen gesammelt haben. Die Tools, die Sie in diesem Buch kennenlernen, verarbeiten problemlos Hunderte MB Daten, und mit etwas Sorgfalt können Sie sie normalerweise auch für 1 bis 2 GB Daten verwenden. Wenn Sie regelmäßig mit größeren Datenmengen (sagen wir 10 bis 100 GB) arbeiten, sollten Sie mehr über data.table lernen (http://bit.ly/Rdatatable). Dieses Buch geht nicht auf data.table ein, weil es eine recht spartanische Benutzeroberfläche hat, die es schwieriger macht zu lernen, weil es weniger linguistische Anhaltspunkte gibt. Doch wenn Sie mit großen Datenmengen arbeiten, gleicht der Leistungsgewinn den zusätzlich erforderlichen Lernaufwand bei Weitem aus.
Wenn Ihre Daten noch größer als diese sind, sollten Sie sorgfältig untersuchen, ob Ihr Big-Data-Problem eigentlich ein verkapptes Problem mit geringem Datenumfang ist. Während die vollständigen Daten sehr umfangreich sein können, haben die Daten, die für die Beantwortung einer spezifischen Frage erforderlich sind, oftmals nur einen geringen Umfang. Vielleicht finden Sie eine Teilmenge, eine Stichprobe oder eine Zusammenfassung, die in den Hauptspeicher passt und es trotzdem noch erlaubt, die Frage zu beantworten, an der Sie interessiert sind. Die Herausforderung ist hier, den geringst möglichen Datenumfang zu finden, was oftmals eine ganze Menge Iterationen verlangt. Eine andere Möglichkeit ist, dass Ihr Problem mit Big Data eigentlich aus sehr vielen Problemen mit kleinen Datenmengen besteht. Jedes einzelne Problem passt vielleicht in den Hauptspeicher, doch Sie haben Millionen von ihnen. Zum Beispiel könnte es sein, dass Sie ein Modell an jede Person in Ihrer Datenbank anpassen möchten. Die Aufgabe wäre trivial, wenn Sie lediglich zehn oder hundert Personen gespeichert hätten, doch stattdessen haben Sie eine Million. Erfreulicherweise ist jedes einzelne Problem unabhängig von den anderen (eine Einrichtung, die manchmal als hochgradig parallel bezeichnet wird), sodass Sie ein System (wie Hadoop oder Spark) brauchen, mit dem Sie verschiedene Datenmengen an verschiedene Computer zur Verarbeitung schicken können. Nachdem Sie herausgefunden haben, wie die Frage für eine einzelne Teilmenge mithilfe der Tools, die in diesem Buch beschrieben werden, zu beantworten ist, lernen Sie neue Tools wie zum Beispiel sparklyr, rhipe und ddr kennen, um das Problem für die vollständige Datenmenge zu lösen.