Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Variance Inflation Factor

Author: Hans Lohninger

Der Variance Inflation Factor (VIF) dient als Hilfsmittel um Multikollinearitäten zwischen den unabhängigen Variablen eines Modells zu entdecken. Die grundlegende Idee besteht darin, dass man versucht eine bestimmte Variable xk durch ein lineares Modell aller anderen unabhängigen Variablen auszudrücken. Gelingt dies gut (ist also das Bestimmtheitsmaß hoch), so kann man annehmen, dass die geprüfte Variable xk zu einer oder mehreren Variablen (multi)kollinear ist.

Im Allgemeinen berechnet man den VIF für alle unabhängigen Variablen und versucht dann die Variablen mit den höchsten Werten aus dem Modell zu entfernen. Als Faustregel gilt, dass in einem linearen Modell die VIF-Werte der unabhängigen Variablen kleiner als 10 sein sollen, um Probleme mit der Interpretierbarkeit der Koeffizienten zu vermeiden.

Mathematisch betrachtet, misst der VIF den Anstieg der Varianz im Vergleich zu einer orthogonalen Basis. Der VIF der k-ten Variable ist definiert durch folgende Formel:

VIFk= 1/(1-rk2),

wobei rk2 das Bestimmtheitsmaß des linearen Modells für xk basierend auf den übrigen x-Variablen ist.

Beispiel: Das folgende Beispiel zeigt die Interpretation und Anwendung des VIF. Angenommen wir möchten den Siedepunkt chemischer Substanzen aus verschiedenen Strukturparametern schätzen. Dazu haben wir sechs Parameter als unabhängige Variablen ausgewählt und die zugehörigen VIF-Werte berechnet:

Parameter VIF
O-Atoms 9.792
S-Atoms 59.085
JHET 2.533
n-Branch 1.561
Randic-Ix 122.933
RandicToz 138.540


Wie man aus der Tabelle leicht erkennen kann, sind zumindest drei der Parameter nicht linear unabhängig von den anderen Variablen. Entfernt man nun die Variable mit dem höchten VIF ("RandicToz"), so ergeben sich die neuen VIF-Werte wie folgt:

Parameter VIF
O-Atoms 7.218
S-Atoms 7.698
JHET 2.548
n-Branch 1.346
Randic-Ix 1.024


Das Entfernen der Variablen "RandicToz" hat die Multikollinearitäten vollständig aufgelöst. Ganz offensichtlich lässt sich diese Variable durch "S-Atoms" und "Randic-Ix" ausdrücken, da deren VIF-Wert ebenfalls entsprechend gesunken ist.


Last Update: 2012-10-08