Fundamentals of Statistics contains material of various lectures and courses of H. Lohninger on statistics, data analysis and chemometrics......click here for more.

Logistisc Regression

Versucht man ein Regressionmodell zu erstellen, dessen abhängige Variable (Zielvariable) binär ist (also nur zwei Werte kennt, z.B. tot/lebendig, oder ja/nein), so kann dies mit der linearen Regression schon aus formalen Gründen nicht funktionieren, falls die unabhängigen Variablen metrisch skaliert sind (was meist der Fall ist):

Bei metrisch skalierten xi würde y klarerweise mehr als zwei diskrete Werte (0 und 1) annehmen. Zusätzlich ergeben sich noch Probleme mit zwei grundlegenden Annahmen der linearen Regression: die Residuen sind nicht normalverteilt und die Varianz der abhängigen Variablen ist nicht konstant.

In solchen Fällen kann man versuchen, statt der (binären) Zielvariable die Wahrscheinlichkeit des Auftretens eines der beiden möglichen Werte der Zielvariable mit Hilfe der logistischen Regression abzuschätzen. Die logistische Regression schätzt also die Chancen, dass einer der beiden Zustände eintritt (und nicht den jeweiligen Zustandswert).

Die Abschätzung der Parameter erfolgt mit Hilfe der Maximum Likelihood-Methode, die eine Verallgemeinerung der Methode der kleinsten Quadrate darstellt (und für den Fall, dass die Deskriptoren normalverteilt sind, in diese übergeht).

Zentraler Gedanke bei der Ermittlung der Parameter ist der Einsatz der Logit-Funktion als Transformation der Wahrscheinlichkeiten:

Vergleich zur LDA: Man erstellt also kein Modell (wie bei der LDA), das die Zielvariable direkt abschätzt, sondern man schätzt die Wahrscheinlichkeit ab, einen Wert von 1 zu bekommen.

Last Update: 2012-10-08