Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Hauptkomponentenanalyse (PCA)

Author: Hans Lohninger

Die Hauptkomponentenanalyse (engl. principal component analysis, PCA) ist eine vielseitige Methode, die es nicht nur gestattet, einen Blick in hochdimensionale Datensätze (mit mehr als drei Variablen) zu machen, sondern auch einige mathematische Besonderheiten aufweist, die es ermöglichen herkömmliche lineare Modelle zu berechnen, selbst wenn z.B. die bei der MLR geforderte Unkorreliertheit der Variablen nicht gewährleistet ist.

Eines der größten Probleme bei multivariaten Daten ist, dass sie nicht zweidimensional dargestellt werden können, also auf nicht auf Papier oder auf dem Computerbildschirm veranschaulicht werden können. Je mehr Variablen (Dimensionen) ein Datensatz hat, umso komplizierter und undurchschaubarer wird die Situation. Dies führt dazu, dass man eventuell bestehende Zusammenhänge nicht mehr erkennt.

Die zentrale Idee der Hauptkomponentenanalyse ist nun, die Daten so auf eine zweidimensionale Ebene zu projizieren, dass die gesuchten Zusammenhänge sichtbar werden. Die sichtbar werdende Struktur der projizierten Daten hängt von der Richtung der Projektion ab. Es stellt sich nun die Frage, wie eine Rotation der Daten (oder der Achsen - was für diese Zwecke dasselbe ist) gefunden werden kann, die ein Maximum an Information im projizierten Bild darstellt.

Wenn wir davon ausgehen, dass aus den Daten nur dann Informationen gewonnen werden können, wenn die Streuung entlang einer Achse ein Maximum ist, müssen wir die Richtung der maximalen Streuung der Daten finden. Darüber hinaus sollten diese neuen Achsen wiederum orthogonal zueinander stehen.

Der Prozess der Erzeugung dieses rotierten Achsensystems geschieht nach folgendem Schema: Es wird im ersten Schritt die Richtung der maximalen Streuung gesucht. Diese Richtung definiert die Richtung der ersten Achse. Danach erzeugt man eine weitere Achse, die normal auf die erste steht, und so lange um die erste Achse rotiert wird, bis die Streuung entlang der neuen Achse maximal ist. Dann fügen wir eine dritte Achse hinzu, wiederum orthogonal auf die anderen zwei und in Richtung der verbleibenden Maximalstreuung. Dieser Vorgang wird so oft wiederholt, bis alle Dimensionen "aufgebraucht" sind.

Der oben beschriebene Prozess wird als Hauptkomponentenanalyse bezeichnet und resultiert in einer Rotation des Koordinatensystems in einer Art und Weise, dass die Achsen ein Maximum an Streuung entlang ihrer Richtung aufweisen. Diese vereinfachte Darstellung kann mathematisch als sogenanntes Eigenwertproblem aufgefasst werden. Die Eigenvektoren der Kovarianzmatrix bilden die Hauptkomponenten. Die korrespondierenden Eigenwerte weisen darauf hin, wie viel Information in den einzelnen Komponenten enthalten ist.

Das folgende interaktive Beispiel zeigt einen dreidimensionalen Datensatz und die korrespondierenden Hauptkomponenten. Beachten Sie, dass die Hauptkomponenten orthogonal zueinander sind und die Korrelation zwischen zwei beliebigen Komponenten immer null ist.

Buchstabensalat - Hauptkomponentenanalyse zur linguistischen Analyse.




Last Update: 2012-11-12