Index
 
Einleitung
Univariate Statistik
Wahrscheinlichkeit
Statistische Tests
Signale
Fouriertransformation
Korrelation
Signifikanz der Korrelation
Korrelierte Variablen
Kalibration
Regression
Datensätze

Signifikanz des Korrelationskoeffizienten

Frage
Angenommen Sie messen zwei Variablen jeweils 20 mal, dabei stellt sich heraus, dass die beiden Variablen eine Korrelation von 0.7 aufweisen. Hat diese Korrelation eine Bedeutung (= ist sie statistisch signifikant)?

 

Antwort

Um eine Antwort auf diese Frage zu bekommen, müssen wir die Verteilung des Korrelationskoeffizienten in Abhängigkeit der tatsächlichen Korrelation und der Zahl der Beobachtungen in der Stichprobe bestimmen. Dazu kann man bequemerweise die t-Verteilung einsetzen und damit die Signifikanz auf einfache Weise bestimmen (vgl. Test des Korrelationskoeffizienten).

Eine intuitive Abschätzung, ob die Korrelation signifikant ist, kann man auch durch eine einfache Simulation machen. Dazu wird angenommen, dass man aus einer Datenquelle jeweils zwei Werte x und y bezieht, die per definitionem unkorreliert sind (der Korrelationskoeffizient r(x,y) wird also umso mehr gegen null gehen, je mehr Proben man zieht). Fasst man nun jeweils N Wertepaare zusammen und bestimmt für diese N Wertepaare jeweils die Korrelation, so wird man für jede Stichprobe eine unterschiedliche Korrelation bekommen, die im Wesentlichen um den Nullpunkt pendeln wird.

Führt man dieses Experiment konkret mit 20 Wertepaaren pro Stichprobe durch, so bekommt man folgende Verteilung des Korrleationskoeffizienten:

Man sieht also, dass der größte Teil der gemessenen Korrelationen im Bereich zwischen -0.6 und +0.6 liegt. Die Wahrscheinlichkeit, dass eine Korrelation von größer als 0.7 zufällig auftritt, liegt bei 0.03 % (also einmal bei ca. 3000 Stichproben). Wir können also mit Fug und Recht behaupten, dass ein Korrelationskoeffizient von 0.7 bei 20 Objekten in einer Stichprobe sehr wohl eine Bedeutung hat, da die Chance, dass dieser Befund zufällig auftritt sehr gering ist.

Hinweis: Ein Beispiel mit exakter Überprüfung der Signifikanz des Korrelationskoeffizienten finden Sie hier.

 

Anleitung
Laden Sie vom VIAS-Webserver das Programm zur Simulation der Verteilung des Korrelationskoeffizienten. Stellen Sie die Zahl der Beobachtungen auf 20 und den erwarteten Korrelationskoeffizienten auf 0.0. Klicken Sie auf "Start" und warten Sie einige Sekunden, bis die Verteilung stabil ist.

Die Wahrscheinlichkeit in einem unkorrelierten Prozess (r = 0) eine Stichprobe zu ziehen, deren Korrelation zufällig größer als 0.7 ist, können Sie nun aus dem Flächenverhältnis zwischen der Verteilung oberhalb von 0.7 und der Gesamtfläche der Verteilung abschätzen.