Fundamentals of Statistics contains material of various lectures and courses of H. Lohninger on statistics, data analysis and chemometrics......click here for more.

Runs Test

Obwohl der Begriff "Zufall" in der Statistik eine zentrale Rolle spielt, ist es nicht einfach zu entscheiden, ob eine bestimmte Zahlenfolge zufällig ist oder nicht. Hier spielt eine Vielzahl von Aspekten eine Rolle, von denen die wichtigsten kurz aufgezählt seien:

  • Art der Verteilung der Zufallszahlen
  • Zyklische Wiederholungen in der Folge (Pseudozufallszahlen)
  • Autokorrelationsfunktion einer Folge
  • Verteilung der Differenzen einer Folge
  • Iterationslängen in binären oder dichotomisierten Folgen

Betrachtet man eine Folge von binären Zufallszahlen (z.B. 00101110110111000100110) so kann man die Frage stellen, wie viele "Runs" (also Teilfolgen gleicher Werte) in einer Folge mit einer bestimmten Zahl an Nullen und Einsen normalerweise auftreten. Zu wenige Runs deuten auf zu geringe Durchmischung hin, zu viele auf eine zu starke Durchmischung. Weicht die Zahl der tatsächlich gefundenen Runs von der erwarteten Häufigkeit ab, so liegt der Verdacht nahe, dass die Folge nicht zufällig entstanden ist.

Die obige Beispielsfolge lässt sich also in folgende Runs unterteilen:

00 | 1 | 0 | 111 | 0 | 11 | 0 | 111 | 000 | 1 | 00 | 11 | 0

Die Zufallsfolge enthält 13 Runs bei 23 Zufallszahlen (11 mal null, 12 mal eins). Um nun zu entscheiden, ob die Zahl der gefundenen Runs unwahrscheinlich ist (also die Wahrscheinlichkeit, dass diese Zahl von Runs auftritt, kleiner als das Signifikanzniveau ist) muss man zuerst die Verteilung der Runs in Abhängigkeit der Zahl der beiden Zufallszahlen kennen.

Diese Verteilung lässt sich aus kombinatorischen Überlegungen ableiten. Daraus ergibt sich die Wahrscheinlichkeit, dass bei gegebenem n1 und n2 genau r Runs beobachtet werden, nach folgendem Zusammenhang:

Mit n1, n2 gegen unendlich geht die Verteilung in eine Normalverteilung mit dem Mittelwert μr und der Standardabweichung σr über:

In der Praxis benützt man diese Tatsache um für Stichproben mit n1 und n2 > 20 die Wahrscheinlichkeiten nicht mehr exakt berechnen zu müssen, sondern durch die Normalverteilung approximieren zu können, was bei den dann auftretenden großen Binomialkoeffizienten rechentechnische Vorteile mit sich bringt. Allerdings weisen nur wenige Autoren auf die beträchtlichen Abweichungen dieser Approximation bei ungleichem n1 und n2 hin.(1)

Anwendungen des Runs-Tests
Der Runs-Test (auch Wald-Wolfowitz-Test genannt) wird primär zur Überprüfung der Zufälligkeit einer Zufallsfolge eingesetzt. Hier wäre die Überprüfung der Residuen auf Unkorreliertheit bei der linearen Regression zu nennen: Ist die Folge der Residuen nicht zufällig, so erklärt die mit Hilfe der Regression parametrisierte Funktion die Daten nicht vollständig.

Er kann aber auch dazu verwendet werden, zwei Verteilungen auf Gleichheit zu überprüfen. Die Idee dahinter ist folgende: Fasst man die Stichproben A und B, die aus zwei Verteilungen stammen, zusammen und sortiert sie, so wird die Abfolge der Werte aus A und B zufällig sein, falls die beiden Verteilungen in allen Parametern gleich sind. Anderfalls werden sich Werte aus zumindest einer der beiden Verteilungen in bestimmten Bereichen häufen, was zu längeren und zu einer geringeren Zahl an Runs führt als man für eine zufällige Folge erwarten würde. So ist klar, dass es z.B. bei ungleicher Varianz zu Häufungen der Werte einer Verteilung an den Rändern der Folge kommen muss. Dieser Test ist ein sogenannter Omnibus-Test, der die beiden Verteilungen in allen Aspekten vergleicht.

 

Hinweis: Der Iterationstest nach Wald und Wolfowitz lässt sich auf Folgen von zumindest ordinal skalierten Zahlen ausdehnen, in dem man die Zahlenfolge mit dem Median dichotomisiert. Man berechnet also den Median und gibt allen Zufallszahlen die größer als der Median sind, den Wert 1 und allen, die darunter sind den Wert 0. Werten, die exakt auf dem Median liegen, wird zufällig 0 oder 1 zugeordnet. Weicht die Zahl der gefunden Runs signifikant von der Zahl der erwarteten Runs ab, so ist das ein Indiz, dass die Zufallsfolge nicht zufällig ist.



(1) Die Approximation durch eine Normalverteilung ist nur bei etwa gleichem n1 und n2 brauchbar. Ist eine der beiden Zustände (0 oder 1) deutlich in der Überzahl, so ist die Approximation durch die Normalverteilung selbst bei sehr großen Stichproben deutlich falsch, da eine geradzahlige Zahl an Runs eine deutlich niedrigere Wahrscheinlichkeit aufweist als eine ungeradzahlige Zahl. Der Grund dafür liegt darin, dass eine gerade Zahl nur möglich ist, wenn die Stichprobenfolge mit dem selteneren Zustand beginnt.

Last Update: 2012-10-08