Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Validierung von Modellen

Author: Hans Lohninger

Wenn man neue Modelle aus einer begrenzten Anzahl von Daten erschafft, ist immer ein (geringes) Risiko gegeben, dass das Modell die zugrunde liegende Beziehung nicht reflektiert, sondern von zufälligen Effekten geschaffen wurde. Das Risiko, ein ungültiges Modell zu erhalten, steigt mit einer geringer werdenden Anzahl von Messungen und einer steigenden Zahl von Variablen. Das hat zu der Daumenregel geführt (die besonders bei nicht linearen Methoden oft nicht ausreichend greift), dass die Anzahl der Messungen mindestens dreimal so groß wie die Zahl der Variablen in dem Modell sein muss.

Manche (lineare) multivariate Methoden bieten das theoretische Fundament für die Abschätzung der Zuverlässigkeit eines solchen Modells. Wenn man anspruchsvollere Methoden oder nicht lineare Methoden betrachtet, müssen die resultierenden Modelle mit einer heuristischen Vorgangsweise validiert werden. Im Prinzip gibt es einige Methoden, um das auszuführen, wobei manche dieser Methoden auf ein spezifisches Modell zugeschnitten sind.

Eine sehr gut und universell einsatzbare Vorgangsweise für die Validierung, ist die so genannte Kreuzvalidierung (engl. full cross validation). Die Kreuzvalidierung erlaubt die Bestimmung eines Maßes für den Vorhersagefehler, den so genannten PRESS (prediction error sum of squares). Ein anderes, aber weniger oft genütztes Validierungsverfahren ist die Addition von Rauschen zu den Daten.



Last Update: 2012-10-08