Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


PCA - verschiedene Arten

Author: Hans Lohninger

Die Hauptkomponenten können mit Hilfe der Eigenanalyse einer der drei folgenden Matrizen berechnet werden:

  • Streumatrix: Sie ist das Produkt von ATA und beinhaltet keine Skalierung.
  • Varianz-Kovarianzmatrix: Sie ist gleich der Streumatrix, nachdem die Daten um den Mittelwert zentriert wurden.
  • Korrelationsmatrix: Sie ist gleich der Streumatrix, nachdem die Daten standardisiert wurden (Mittelwert = 0, Standardabweichung = 1).

Welche Methode gewählt wird, um eine PCA durchzuführen, hängt von der jeweiligen Problemstellung ab. Meistens werden die besten Ergebnisse durch Versuche mit allen drei Ansätzen erzielt. Die Auswahl der Matrix wird bestimmt durch die Wichtigkeit der absoluten Zahlen der Daten (Streumatrix) oder durch die Zusammenhänge zwischen den Variablen (Korrelationsmatrix). Wenn ein festgelegter Mittelwert der Variablen Probleme verursacht, kann die Kovarianzmatrix eingesetzt werden. Details über diese Matrizen erfahren Sie auf einer extra Seite.

Um die Auswirkungen unterschiedlicher Skalierungen zu sehen, wählen Sie den Datensatz WORLDPOP, der demografische Daten über alle Länder der Welt (von 1988) enthält. Es ist verständlich, dass die absoluten Zahlen in diesem Fall von Bedeutung sind. Gehen Sie daher ins  DataLab  und betrachten Sie die ersten zwei Hauptkomponenten unter Verwendung der drei unterschiedlichen Matrizen. Für diesen Datensatz macht die Standardisierung vor der PCA keinen Sinn und resultiert in schlecht differenzierten Hauptkomponentendarstellungen. Bedenken Sie aber, dass dies möglicherweise für andere Datensätze zutreffend sein kann.

Ein weiterer guter Ansatz ist die 3-D-Rotationsdarstellung unter Verwendung der ersten drei Hauptkomponenten. (Starten Sie die PCA, kopieren Sie dann die Werte in die Datenmatrix und betrachten Sie die ersten drei PCs durch den Befehl "3-D Rotation".)




Last Update: 2012-10-08