Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Chi-Quadrat-Test

Author: Hans Lohninger


Viele statistische Tests setzen voraus, dass die Daten normalverteilt sind, was aber nicht immer der Fall ist. Also brauchen wir eine Methode, um festzustellen, ob die Annahmen über die Verteilung der Daten korrekt sind.

Der einfachste Weg, um Verteilungen zu vergleichen, ist der visuelle. Wir legen das Histogramm der Daten und die theoretische Verteilungskurve übereinander und vergleichen die beiden optisch. Natürlich fehlt bei dieser Vorgangsweise jede statistische Rechtfertigung. Eine solide Methode, um empirische und bekannte (parametrische) Verteilungen zu vergleichen, ist der χ2-Test.

Ein häufiges Problem dabei ist, dass die parametrischen Verteilungsfunktionen primär Wahrscheinlichkeiten und nicht Häufigkeiten angeben. Um die empirische und die theoretische Verteilung zu vergleichen, müssen wir die zu erwartenden Häufigkeiten durch Multiplizieren der theoretischen Wahrscheinlichkeiten mit der Anzahl der Proben abschätzen.

 


Die Wahrscheinlichkeit, dass die Variable in ein Intervall [ai,ai+1] fällt, ergibt sich aus der Differenz der Wahrscheinlichkeiten für x kleiner ai und x < ai+1:

p(ai < x < ai+1) = p(x < ai+1) - p(x < ai)

Für jedes Intervall wird die quadrierte Differenz der Häufigkeiten der empirischen und der theoretischen Verteilung berechnet und durch die zu erwartenden Häufigkeiten dividiert. Die Summe dieser relativen oder gewichteten quadrierten Differenzen ist die χ2-Testgröße. Als Nullhypothese wird angenommen, dass die zwei Verteilungen gleich und die Differenzen auf zufällige Fehler zurückzuführen sind.

 

Anmerkung: Ein anderer wichtiger Punkt, den man nicht vergessen sollte, ist, dass die theoretischen Wahrscheinlichkeiten normalerweise für standardisierte Verteilungen tabelliert sind, d.h. Mittelwert gleich null und Standardabweichung gleich eins für die Normalverteilung. Also müssen wir für den χ2-Test entweder das Histogramm standardisieren oder die Verteilungswahrscheinlichkeiten in Häufigkeiten umrechnen. Die Anzahl der geschätzten Parameter k hat einen Einfluss auf die Freiheitsgrade, die im χ2-Test verwendet werden.




Last Update: 2012-10-08