Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


PCA - Ordnung eines Modells

Author: Hans Lohninger

Nach der Eigenanalyse der Streu-, Kovarianz- oder Korrelationsmatrix erhält man einen Satz von Hauptkomponenten (PCs) mit sinkenden systematischen Streuungen und steigenden nicht systematischen Streuungen (Rauschen). Um ein Modell zu entwickeln, das auf Hauptkomponenten basiert, muss man eine Grenze zwischen nützlicher Information und Rauschen festlegen. Wenn zu viele PCs eingeschlossen werden, resultiert das in einer Überanpassung, die Verwendung von zu wenigen Komponenten verfälscht das Modell (bzw. vereinfacht es zu sehr).

Grundsätzlich gibt es zwei Methoden, um die optimale Anzahl an PCs zu finden:

(1) Darstellung der Eigenvektoren: Wenn wir die Eigenwerte (die ja absteigend geordnet sind) gegen ihre Nummer auftragen, erhalten wir ein Diagramm, das man auch als "Scree Plot" bezeichnet.

Die Eigenwerte fallen zuerst stark ab und bleiben dann mehr oder minder auf dem selben (niedrigen) Niveau. Diese Zahl der wichtigen Eigenwerte (meist jene, die größer als 1 sind) lässt den Rang der Matrix erkennen oder mit anderen Worten die Ordnung des Modells. Eigenvektoren die keinen Informationsbeitrag liefern (also sehr kleine Eigenwerte besitzen) sollten weggelassen werden, da sie gewöhnlich das Rauschen der Daten enthalten.

(2) Darstellung des PRESS-Werts eines rekonstruierten Modells: Wenn die Zahl der ausgewählten Eigenvektoren angemessen ist, können die Daten aus dem gewählten Satz der Eigenvektoren rekonstruiert werden. Die Qualität der rekonstruierten Daten kann zum Beispiel durch die Berechnung des PRESS gemessen werden, abhängig von der Zahl der Eigenvektoren, die für das Modell verwendet wurden. Diese Kurve zeigt deutlich, wie viele Eigenvektoren nötig sind, um ein verlässliches Modell mit einem Minimum an Rauschen zu erstellen.




Last Update: 2012-10-08