Smart Data statt Big Data
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Schmidt Jutta. Smart Data statt Big Data
Über den Autor
Einführung
Was mache ich hier?
Eine brauchbare Definition von Data Science
Was hat es denn mit Big Data auf sich?
Wer bin ich?
Wer sind Sie?
Nichts geht über eine Tabellenkalkulation
Aber Tabellenkalkulationen sind doch aus der Mode!
Verwenden Sie Excel oder LibreOffice
Konventionen
Los geht’s
Kapitel 1. Alles, was Sie jemals über Tabellenkalkulationen wissen wollen, sich aber nicht zu fragen getraut haben
1.1 Beispieldaten
1.2 Sich schnell mit der Steuerungstaste bewegen
1.3 Formeln und Daten schnell kopieren
1.4 Zellen formatieren
1.5 Inhalte einfügen
1.6 Diagramme hinzufügen
1.7 Die Menüs »Suchen« und »Ersetzen«
1.8 Formeln für das Auffinden und Entnehmen von Werten
1.9 SVERWEIS verwenden, um Daten zusammenzuführen
1.10 Filtern und sortieren
1.11 Pivot-Tabellen verwenden
1.12 Array-Formeln verwenden
1.13 Probleme mit dem Solver lösen
1.14 OpenSolver: Ich wünschte, wir würden ihn nicht benötigen. Dem ist aber nicht so
1.15 Zusammenfassung
Kapitel 2. Clusteranalyse Teil I: Die Kundenbasis mit k-Means aufteilen
2.1 Mädchen tanzen mit Mädchen, und Jungens kratzen sich am Kopf
2.2 Es wird ernst: k-Means-Clusterbildung bei Abonnenten eines E-Mail-Marketings
2.2.1. Joey Bag O’ Donuts Weinhandel
2.2.2. Die Ausgangsdaten
2.2.3. Festlegen, was zu bewerten ist
2.2.4. Mit vier Clustern beginnen
2.2.5. Euklidischer Abstand: Abstandsmessung auf kürzestem Weg
2.2.6. Abstände und Clusterzuweisungen für jedermann
2.2.7. Clusterzentren bestimmen
2.2.8. Aus den Ergebnissen schlau werden
2.2.9. Die Top-Verkäufe je Cluster erhalten
2.2.10. Die Silhouette: Ein guter Weg, um es unterschiedliche k-Werte unter sich ausfechten zu lassen
2.2.11. Was halten Sie von fünf Clustern?
2.2.12. Eine Lösung für fünf Cluster
2.2.13. Die Top-Verkäufe der fünf Cluster erhalten
2.2.14. Die Silhouette für die 5-Means-Clusterbildung berechnen
2.3 K-Medians-Clusterbildung und asymmetrische Abstandsmessungen
2.3.1. Die k-Medians-Clusterbildung
2.3.2. Eine geeignetere Abstandsmetrik erhalten
2.3.3. Bringen Sie das alles in Excel unter
2.3.4. Die Top-Verkäufe der 5-Medians-Cluster
2.4 Zusammenfassung
Kapitel 3. Naives Bayes und wie unglaublich leicht es ist, ein Idiot zu sein
3.1 Wenn Sie ein Produkt »Mandrill« nennen, erhalten Sie Signale und Nebengeräusche
3.2 Die kürzeste Einführung in die Wahrscheinlichkeitsrechnung der Welt
3.2.1. Bedingte Wahrscheinlichkeiten summieren
3.2.2. Die Verbundwahrscheinlichkeit, die Kettenregel und die Unabhängigkeit
3.2.3. Was geschieht in einer abhängigen Situation?
3.2.4. Die Bayes-Regel
3.3 Die Bayes-Regel verwenden, um ein KI-Modell zu erstellen
3.3.1. Klassenwahrscheinlichkeiten auf hohem Niveau werden oft miteinander gleichgesetzt
3.3.2. Und noch ein paar Kleinigkeiten
3.4 Auf geht’s mit Excel
3.4.1. Für die Sache irrelevante Interpunktion entfernen
3.4.2. An Leerzeichen auftrennen
3.4.3. Token zählen und Wahrscheinlichkeiten berechnen
3.4.4. Wir haben ein Modell! Nutzen wir es!
3.5 Zusammenfassung
Kapitel 4. Optimierungsmodellierung: Weil der »frisch gepresste« Orangensaft sich nicht selbst herstellt
4.1 Warum sollten Data Scientists wissen, was Optimierung bedeutet?
4.2 Mit einem einfachen Zielkonflikt geht es los
4.2.1. Das Problem als Polytop darstellen
4.2.2. Lösen durch Verschieben der Niveaumenge
4.2.3. Das Simplex-Verfahren: in den Ecken herumstöbern
4.2.4. Mit Excel arbeiten
4.2.5. Am Ende dieses Kapitels wartet ein Monster
4.3 Frisch vom Baum in Ihr Glas … mit einem kurzen Boxenstopp fürs Mischen
4.3.1. Sie verwenden für das Mischen ein Modell
4.3.2. Beginnen wir mit ein paar Spezifikationen
4.3.3. Zurück zum gleichbleibenden Geschmack
4.3.4. Die Daten in Excel eintragen
4.3.5. Das Problem in Solver eingeben
4.3.6. Die Standards herabsetzen
4.3.7. Ein totes Eichhörnchen loswerden: der Minimax-Ansatz
4.3.8. Wenn-Dann- und die Big-M-Bedingung
4.3.9. Variablen vervielfachen: das Volumen bis auf 11 hochtreiben
4.4 Modellierungsrisiko
4.4.1. Normal verteilte Daten
4.5 Zusammenfassung
Kapitel 5. Clusteranalyse Teil II: Netzwerkdiagramme und die Entdeckung der Community
5.1 Was ist ein Netzwerkdiagramm?
5.2 Einen einfachen Graphen darstellen
5.3 Eine kurze Einführung in Gephi
5.3.1. Die Installation von Gephi und die Vorbereitung der Dateien
5.3.2. Den Graphen gestalten
5.3.3. Rangfolge von Knoten
5.3.4. Drucken
5.3.5. Dem Graphen an die Daten gehen
5.4 Aus den Daten des Weinhandels einen Graphen bilden
5.4.1. Eine Kosinus-Ähnlichkeitsmatrix erstellen
5.4.2. Einen r-Nachbarschaftsgraphen entwickeln
5.5 Wie viel ist eine Kante wert? Normale Punkte und Penaltys bei der Modularität von Graphen
5.5.1. Was ist ein Punkt und woraus besteht ein Penalty?
5.5.2. Das Arbeitsblatt für die Bewertungen einrichten
5.6 Lassen Sie uns Cluster bilden!
5.6.1. Aufteilung Nummer 1
5.6.2. Aufteilung 2: Electric Boogaloo
5.6.3. Und … Aufteilung 3: Aufteilung mit Vergeltung
5.6.4. Die Communitys decodieren und analysieren
5.7 Einmal hin und wieder zurück: eine Gephi-Tabelle
5.8 Zusammenfassung
Kapitel 6. Der Großvater der betreuten künstlichen Intelligenz – die Regression
6.1 He, was bist du? Schwanger?
6.2 Machen Sie sich nicht selbst verrückt
6.3 Die Schwangerschaft von Kundinnen bei RetailMart mithilfe der linearen Regression vorhersagen
6.3.1. Welche Funktionen benötigt werden
6.3.2. Die Trainingsdaten zusammenstellen
6.3.3. Dummy-Variablen erzeugen
6.3.4. Backen wir uns unsere eigene lineare Regression
6.3.5. Statistiken und lineare Regression: R-Quadrat, F-Test und t-Tests
6.3.6. Vorhersagen anhand neuer Daten tätigen und die Leistungsfähigkeit messen
6.4 Mit einer logistischen Regression Schwangerschaften in Kundenhaushalten vorhersagen
6.4.1. Als Erstes benötigen Sie eine Verknüpfungsfunktion
6.4.2. Die logistische Funktion einbinden und alles neu optimieren
6.4.3. Eine echte logistische Regression zusammenbauen
6.4.4. Modellauswahl – die Leistungsfähigkeit des linearen mit der des logistischen Modells vergleichen
6.5 Wenn Sie mehr wissen wollen
6.6 Zusammenfassung
Kapitel 7. Ensemble-Modelle: eine Menge mieser Pizza
7.1 Die Daten aus Kapitel 6 verwenden
7.2 Bagging: zufällig anordnen, trainieren, wiederholen
7.2.1. Decision Stump ist keine sehr sexy Bezeichnung für eine blöde Vorhersage
7.2.2. Das sieht für mich gar nicht mal so dumm aus!
7.2.3. Das Modell untersuchen
7.3 Boosting: Wenn das Ergebnis falsch ist, verstärken Sie es und versuchen es auf ein Neues
7.3.1. Das Modell trainieren – jedes Merkmal wird angesprochen
7.3.2. Das verstärkte Modell auswerten
7.4 Zusammenfassung
Kapitel 8. Prognosen: Atmen Sie tief durch, Sie können nicht gewinnen
8.1 Der Handel mit Schwertern stottert
8.2 Mit Zeitreihen vertraut werden
8.3 Langsam Fahrt aufnehmen mit einer einfachen exponentiellen Glättung
8.3.1. Prognosen mit der einfachen exponentiellen Glättung einrichten
8.4 Es könnte ein Trend vorliegen
8.5 Die lineare exponentielle Glättung nach Holt
8.5.1. Die lineare exponentielle Glättung nach Holt in einem Arbeitsblatt einrichten
8.5.2. Sind Sie nun fertig? Einen Blick auf Autokorrelationen werfen
8.6 Die multiplikative Glättung nach Holt-Winters
8.6.1. Die Anfangswerte für Niveau, Trend und Saisonabhängigkeit festlegen
8.6.2. Die Prognose ins Rollen bringen
8.6.3. Optimieren!
8.6.4. Bestätigen Sie mir jetzt bitte, dass wir fertig sind
8.6.5. Um die Prognose einen Vorhersagebereich legen
8.6.6. Für die Galerie: Ein Fan-Chart anlegen
8.7 Zusammenfassung
Kapitel 9. Die Entdeckung von Ausreißern: Nur weil sie sonderbar sind, heißt das nicht, dass sie auch unwichtig sind
9.1 Auch Ausreißer sind nur (schlechte?) Menschen
9.2 Der faszinierende Fall von Hadlum gegen Hadlum
9.2.1. Tukey-Begrenzungen
9.2.2. Tukey-Begrenzungen in einem Arbeitsblatt anwenden
9.2.3. Die Grenzen dieser einfachen Vorgehensweise
9.3 In nichts wirklich schlecht, aber auch nirgends wirklich gut
9.3.1. Daten für einen Graphen vorbereiten
9.3.2. Einen Graphen erstellen
9.3.3. Die k nächsten Nachbarn erhalten
9.3.4. Methode 1 zum Entdecken von Ausreißern in einem Graphen: Verwenden Sie einfach den Indegree
9.3.5. Methode 2 zum Entdecken von Ausreißern in einem Graphen: Differenzierte Ergebnisse mit k-Abstand erhalten
9.3.6. Methode 3 zum Entdecken von Ausreißern in einem Graphen: Local Outlier Factors sind dort, wo die Musik spielt
9.4 Zusammenfassung
Kapitel 10. Von der Tabellenkalkulation zu R wechseln
10.1 Mit R loslegen
10.1.1. Ein paar einfache Fingerübungen
10.1.2. Daten in R einlesen
10.2 Sich aktiv mit Data Science beschäftigen
10.2.1. Ein paar Zeilen sphärisches k-Means für Wein-Daten
10.3 Mit den Schwangerschaftsdaten ein KI-Modell entwickeln
10.3.1. Prognosen in R tätigen
10.3.2. Sich um das Entdecken von Ausreißern kümmern
10.4 Zusammenfassung
Отрывок из книги
John W. Foreman ist der Chief Data Scientist von MailChimp.com. Davor hat er als Managementberater nicht nur in großen Unternehmen (wie Coca-Cola, Royal Caribbean, Intercontinental Hotels), sondern auch für die US-Regierung (wie das Verteidigungsministerium, die Bundessteuerbehörde, das Ministerium für innere Sicherheit DHS und das FBI) als Analytiker gearbeitet. John W. Foreman ist ein gern gehörter Redner, wenn es darum geht, über die Möglichkeiten und Probleme zu informieren, die die Einrichtung von Analysesoftware in Unternehmen mit sich bringen kann.
Wenn er nicht gerade mit Daten herumspielt, verbringt er seine Zeit mit Wandern, dem Abhängen vor dem Fernseher, dem Verputzen richtig ungesunder Nahrungsmittel und dem Aufziehen von drei prima Jungen.
.....
Wenn Sie komplexere Sortierungen vornehmen wollen, als das automatische Filtern anbietet, gibt es in Excel das Dialogfeld SORTIEREN. Wenn Sie diese Funktion nutzen wollen, markieren Sie die Daten, die sortiert werden sollen, (schnappen Sie sich wieder die Spalten A bis F) und klicken Sie in Excel auf der Registerkarte DATEN auf die Schaltfläche SORTIEREN. Dies öffnet das Dialogfeld SORTIEREN. Um auf dem Mac an dieses Fenster zu gelangen, müssen Sie im SORTIEREN-Menü auf den nach unten zeigenden Pfeil klicken und die benutzerdefinierte Sortierung auswählen.
Falls Ihre Spalten Überschriften haben, werden diese im Dialogfeld SORTIEREN angezeigt (siehe Abbildung 1.16). Wenn das wie in unserem Beispiel der Fall ist, können Sie anhand der Namen die Spalten auswählen, die sortiert werden sollen.
.....