Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Fehlende Werte

Author: Hans Lohninger

Ein häufiges Problem bei der Datenanalyse sind fehlende Werte. Bei fehlenden Werten ergeben sich teilweise leere Datenmatrizen, die nur schwer zu interpretieren sind und möglichst vermieden werden sollten. Dennoch gibt es einige Methoden, um mit fehlenden Werten zu arbeiten.

Die Stimme eines Experten:

"Ordentlicher (d.h. flexibler) Umgang mit fehlenden Werten ist für jedes Datenanalysepaket, das seinen Namen verdient, unumgänglich."
Mark Myatt, Brixton Health, UK, Newsgroup sci.stat.consult, Dezember 1996

Möglichkeiten, mit fehlenden Werten umzugehen:
  • Nur Verwendung von Zeilen (oder Spalten), die keine fehlenden Werte aufweisen.
  • Ergänzung von fehlenden Werten durch die entspechenden Zeilen- bzw. (Spalten-)Durchschnittswerte.
  • Ergänzung von fehlenden Werten durch Werte, die mit Regression geschätzt wurden.
  • Abschätzung der fehlenden Wert durch "Multiple Imputation"
  • Nützen Sie Ihr Wissen über die Datenquelle, um fehlende Werte zu schätzen.
  • Manche Pakete bieten zwar keine Möglichkeit zur Ergänzung, schöpfen aber alle interaktiven Grafikmittel aus, um fehlende Werte einzuschließen.
  • Manchmal können fehlende Daten etwas aussagen (z.B. in soziologischen Studien, wo keine Antwort auf eine Frage auch eine Antwort sein kann).

Das Ergebnis eines Modells oder einer Analyse sollte immer mit und ohne fehlenden Daten überprüft werden. Gibt es markante Unterschiede, so sollte man Erklärungen dafür finden. Mehr Informationen zu diesem Thema sind aus dem Buch über fehlende Daten von Rubin erhältlich.

Markieren Sie ergänzte Daten immer. Sonst könnten Sie sie später mit realen Daten verwechseln.


Last Update: 2012-10-08