Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Korrelation und Kausalität

Author: Hans Lohninger

Eine Korrelation zwischen zwei Variablen a und b zu beobachten, kann dazu verleiten, eine kausale Beziehung zwischen diesen Variablen zu sehen. In den meisten Fällen ist aber eine direkte kausale Beziehung nicht vorhanden. Grundsätzlich kann man Korrelationen bzgl. Kausalität folgendermaßen interpretieren:

  1. a beeinflusst b
  2. b beeinflusst a
  3. a und b werden von einer dritten Variablen beeinflusst
  4. a und b beeinflussen sich wechselseitig
  5. a und b beeinflussen sich überhaupt nicht, die Korrelation ist nur zufällig bedingt

Der dritte Punkte dürfte in der Praxis am häufigsten auftreten. Punkt 5 ist vor allem bei kleinen Objektzahlen von größerer Bedeutung, da der Korrelationskoeffizient für kleine Objektzahlen ein großes Konfidenzintervall aufweist.

 

Die folgende Zusammenfassung gibt einen Überblick zu den wichtigsten Aspekten zur Entstehung von akausalen Korrelationen (sog. Scheinkorrelationen):
Korrelation durch formale Mittelwerte Wenn zwei unabhängige Variablen X und Y durch eine Variable Z, die entweder mit X oder Y korreliert ist, dividiert werden, sind die resultierenden Variablen X' und Y' korreliert. Dasselbe gilt für Variablen, die auf eine Summe von 100 % normalisiert sind (wie es oft z.B. bei Nährwerttabellen der Fall ist). Solche Variablen zeigen immer eine negative Korrelation.

Korrelation durch Inhomogenität Ist die Verteilung der Daten inhomogen, tritt leicht eine Korrelation auf. Es ist deshalb ratsam, die Variablen gegeneinander aufzutragen (Streudiagramm von X gegen Y).

Beispiel: Die Schuhgröße ist mit dem Einkommen korreliert. Je größer die Schuhgröße, desto höher das Einkommen. (Lösung: Frauen verdienen weniger Geld als Männer. Beide Gruppen zeigen keine interne Korrelation, aber wenn beide Gruppen zusammengelegt werden, ergibt sich eine "Korrelation".)

Je länger ein Student braucht sein Studium zu beenden, desto höher ist sein späteres Einkommen. (Lösung: Die Zeit, die notwendig ist, einen Abschluss zu erzielen, hängt vom Studium ab, z.B. ist die Durchschnittsstudiendauer für Philosophie geringer als die für Chemie. Bei den Chemiestudenten steigt das Einkommen mit der kürzeren Studiendauer aber wieder: Daten zusammenzulegen, erschafft Inhomogenität und führt zu den beschriebenen Korrelationen.)

Zusätzliche (versteckte) Variablen Die Variablen X und Y sind korreliert, aber tatsächlich ist eine dritte Variable Z, die nicht im Datensatz enthalten ist, zu X und Y korreliert. Dies kann teilweise schwer zu entdecken sein, da die Variable Z auch unbekannt sein kann. Eine wichtige Unterklasse dieser Art von Korrelation sind Zeitserien, bei denen die Zeit die gemeinsame Variable ist. Wenn beide, X und Y, einen Trend mit der Zeit zeigen, wird auch immer eine Korrelation zwischen X und Y beobachtet werden können.

Beispiel: Beispiel: Die Schuhgröße ist zum Kalziumgehalt der Knochen korreliert. (Lösung: Kinder haben weniger Kalzium in den Knochen als Erwachsene, natürlich ist die Schuhgröße von Kindern auch kleiner als die von Erwachsenen.)

Ausreißer in den Daten Ausreißer verursachen eine hohe Korrelation, wenn sie weit genug vom Rest der Daten entfernt liegen.

Beispiel: Ein gemeinsamer Spike in den Signalen eines analytischen Instruments kann eine hohe Korrelation zwischen diesen Signalen hervorrufen. (Bemerkung: Spikes sind ein häufiges Problem in den Laboratorien; sie können zum Beispiel durch Schaltvorgänge von Kühlschränken verursacht werden).

Als wichtige Konsequenz können wir feststellen, dass mathematische Korrelation kein Beweis für Kausalität ist. Korrelationen dürfen also ohne Zusatzinformation nicht kausal interpretiert werden.

 




Last Update: 2012-10-08