Читать книгу Praktische Statistik für Data Scientists - Peter Bruce - Страница 49

Schlüsselbegriffe zur Korrelation

Оглавление

Korrelationskoeffizient

Eine Metrik, die angibt, wie eng numerische Variablen miteinander in Beziehung stehen (reicht von –1 bis +1).

Korrelationsmatrix

Eine Tabelle, in der die Variablen sowohl in den Zeilen als auch in den Spalten abgebildet sind und die Zellwerte die Korrelationen zwischen den Variablen darstellen.

Streudiagramm

Eine Visualisierung, bei der die x-Achse den Wert einer Variablen und die y-Achse den Wert einer anderen angibt (engl. Scatterplot).

Betrachten Sie diese beiden Variablen, die insofern perfekt miteinander korreliert sind, dass beide – von niedrigen Werten ausgehend – kontinuierlich ansteigen:

 v1: {1, 2, 3}

 v2: {4, 5, 6}

Das Skalarprodukt beider Vektoren, auch inneres Produkt oder Punktprodukt genannt (engl. Dot Product bzw. Vector Sum of Products), ergibt 1 · 4 + 2 · 5 + 3 · 6 = 32. Versuchen Sie nun, einen von beiden Vektoren neu anzuordnen und das Skalarprodukt erneut zu berechnen – das Skalarprodukt wird niemals höher als 32 sein. Das Skalarprodukt könnte also als ein Maß verwendet werden, d.h., die ermittelte Summe von 32 könnte mit vielen zufälligen anderen Kombinationen verglichen werden (tatsächlich bezieht sich diese Idee auf einen Schätzer, der auf einer Resampling-Verteilung basiert; siehe »Permutationstest« auf Seite 101). Die mit diesem Maß erzeugten Werte sind jedoch nicht so aussagekräftig, außer in Bezug auf die Resampling-Verteilung (d.h., aus den gegebenen Daten werden wiederholt Stichproben gezogen).

Von größerem Nutzen ist die standardisierte Variante: der Korrelationskoeffizient, der einen Schätzer der Korrelation zwischen zwei Variablen darstellt, der immer auf derselben Skala liegt. Um den pearsonschen Korrelationskoeffizienten zu berechnen, multiplizieren wir jeweils die Abweichungen vom Mittelwert der Elemente von Variable 1 mit denen von Variable 2, bilden die Summe dieser Produkte und dividieren das Ergebnis durch das Produkt der Standardabweichungen:


Beachten Sie, dass wir durch n – 1 statt n dividieren (siehe »Die Anzahl der Freiheitsgrade und die Frage, ob n oder n – 1?« auf Seite 16 für weitere Erläuterungen). Der Korrelationskoeffizient liegt immer zwischen +1 (perfekte positive Korrelation) und –1 (perfekte negative Korrelation); 0 bedeutet, dass die Variablen unkorreliert sind.

Variablen können in einem nicht linearen Zusammenhang zueinander stehen. In diesem Fall ist der Korrelationskoeffizient möglicherweise keine brauchbare Metrik. Ein Beispiel hierfür ist der Zusammenhang zwischen den Steuersätzen und den erhobenen Steuereinnahmen: Wenn die Steuersätze – ausgehend von null – steigen, steigen auch die erhobenen Einnahmen. Sobald die Steuersätze jedoch ein gewisses hohes Niveau erreichen und sich einem Satz von 100% nähern, nimmt die Steuerumgehung zu, und die Steuereinnahmen sinken sogar.

Tabelle 1-7, die als Korrelationsmatrix bezeichnet wird, zeigt die Korrelation zwischen den Tagesrenditen von Aktien der Telekommunikationsbranche von Juli 2012 bis Juni 2015. Aus der Tabelle können Sie ersehen, dass Verizon (VZ) und ATT (T) am stärksten korreliert sind. Level 3 (LVLT), bei dem es sich um ein Infrastrukturunternehmen handelt, weist die geringste Korrelation zu den anderen auf. Beachten Sie, dass sich auf der Diagonalen nur Einsen befinden (die Korrelation einer Aktie mit sich selbst ist 1) und dass die Informationen oberhalb und unterhalb der Diagonalen redundant sind.

Tabelle 1-7: Korrelation zwischen den Tagesrenditen von Aktien der Telekommunikationsbranche


Korrelationstabellen wie Tabelle 1-7 werden üblicherweise visualisiert, um die Beziehung zwischen mehreren Variablen anschaulicher darzustellen. Abbildung 1-6 zeigt die Korrelation der Tagesrenditen der wichtigsten börsengehandelten Indexfonds (ETFs). In R können wir dies leicht mit dem Paket corrplot umsetzen:

etfs <- sp500_px[row.names(sp500_px) > '2012-07-01',

sp500_sym[sp500_sym$sector == 'etf', 'symbol']]

library(corrplot)

corrplot(cor(etfs), method='ellipse')

Es ist möglich, das gleiche Diagramm in Python zu erstellen. Es gibt jedoch leider keine Implementierung in einem der gängigen Pakete. Die meisten unterstützen allerdings die Visualisierung von Korrelationsmatrizen mithilfe von Heatmaps. Der folgende Code zeigt Ihnen die Umsetzung mithilfe des Moduls seaborn.heatmap. Im GitHub-Repository des Buchs stellen wir Ihnen zusätzlich eine Python-Implementierung der umfassenderen Visualisierung zur Verfügung:

etfs = sp500_px.loc[sp500_px.index > '2012-07-01',

sp500_sym[sp500_sym['sector'] == 'etf']['symbol']]

sns.heatmap(etfs.corr(), vmin=-1, vmax=1,

cmap=sns.diverging_palette(20, 220, as_cmap=True))

Die ETFs für den S&P 500 (SPY) und den Dow-Jones-Index (DIA) weisen eine hohe Korrelation auf. In ähnlichem Maße sind der QQQ und der XLK, die hauptsächlich aus Technologieunternehmen bestehen, positiv korreliert. Defensive ETFs, wie z.B. diejenigen, die den Goldpreis (GLD), den Ölpreis (USO) oder die Marktvolatilität (VXX) abbilden, neigen dazu, nur schwach oder negativ mit den anderen ETFs korreliert zu sein. Die Ausrichtung der Ellipsen zeigt an, ob zwei Variablen positiv (Ellipse zeigt nach rechts oben) oder negativ korreliert sind (Ellipse zeigt nach links oben). Die Schattierung und die Breite der Ellipsen zeigen die Stärke der Korrelation an: Dünnere und dunklere Ellipsen bilden einen stärkeren Zusammenhang ab.

Abbildung 1-6: Die Korrelation zwischen ETF-Renditen

Wie der Mittelwert und die Standardabweichung ist auch der Korrelationskoeffizient empfindlich gegenüber Ausreißern in den Daten. Die Softwarepakete bieten robuste Alternativen zum herkömmlichen Korrelationskoeffizienten. Beispielsweise verwendet das R-Paket robust (https://oreil.ly/isORz) die Funktion covRob zur Berechnung eines robusten Korrelationsmaßes. Die Methoden im scikit-learn-Modul sklearn.covariance (https://oreil.ly/su7wi) implementieren eine Vielzahl von Ansätzen.

Weitere Korrelationsmaße Bereits vor langer Zeit schlugen Statistiker andere Korrelationskoeffizienten vor, wie z.B. das Spearman’sche Rho oder das Kendall’sche Tau. Diese Korrelationskoeffizienten basieren auf dem Rang der Daten. Da sie mit Rängen und nicht mit den Werten arbeiten, sind diese Maße robust gegenüber Ausreißern und können mit bestimmten Arten von Nichtlinearitäten umgehen. Data Scientists können sich bei explorativen Analysen jedoch im Allgemeinen an dem Korrelationskoeffizienten nach Pearson und seinen robusten Alternativen orientieren. Rangbasierte Maße eignen sich vor allem bei kleineren Datensätzen und bestimmten Hypothesentests.
Praktische Statistik für Data Scientists

Подняться наверх