Mahalanobis-Distanz

Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.

Home Multivariate Daten Grundlagen Mahalanobis-Distanz


Search the VIAS Library \| Index
Mahalanobis-Distanz Author: Hans Lohninger Betrachtet man die Distanz in mehrdimensionalen Räumen, so stellt man fest, dass die "klassische" euklidische Distanz irreführend sein kann. Dazu ein kleines Experiment: Nehmen wir an, dass wir einen zweidimensionalen Raum mit bivariat normalverteilten Daten füllen, wobei die Standardabweichungen der beiden Raumrichtungen unterschiedlich sind und die Daten korreliert sind (r = 0.8). Die folgende Abbildung zeigt eine Stichprobe von 500 Daten: Zieht man einen Kreis um den Mittelpunkt M der Datenwolke, so entspricht dieser Kreis einem konstanten euklidischen Abstand vom Mittelpunkt. Misst man die Datendichten (und damit die Wahrscheinlichkeit des Auftretens dieser Daten) an den Punkten P₁, P₂ und P₃, so sieht man, dass diese nicht gleich sind, obwohl die Punkte alle denselben Abstand vom Mittelpunkt der Wolke aufweisen. Ganz offensichtlich liegt also der Punkt P₁ - gemessen in Standardabweichungen der Verteilung - viel weiter vom Zentrum entfernt als der Punkt P₂. Betrachtet man die Schnitte durch die Verteilung entlang der Geraden P₁M und P₂M so sieht man ganz deutlich, dass der Punkt P₁ wesentlich weiter außen liegt (bezogen auf die Wahrscheinlichkeitsverteilung) als der Punkt P₂. Die Wahrscheinlichkeit, dass an der Stelle P₁ ein Datenpunkt auftritt, liegt bei 0.1%, an der Stelle P₂ liegt sie in diesem Beispiel bei ca. 4%. Man kann nun Kurven gleicher Wahrscheinlichkeit einzeichnen (Ellipsen), so dass Punkte entlang einer solchen Ellipse die selbe Auftrittswahrscheinlichkeit aufweisen. Oder anders formuliert: In "multivariaten Standardabweichung" gemessen, haben die Punkte auf der Ellipse alle den selben Abstand vom Mittelpunkt. Die Ellipsen konstanter Wahrscheinlichkeit entsprechen einer konstanten Mahalanobis-Distanz. Die Mahalanobis-Distanz berücksichtig die unterschiedlichen Standardabweichungen entlang der Achsen des n-dimensionalen Raumes und auch die Korrelationen zwischen den einzelnen Achsen. Zur Berechnung der Mahalanobis-Distanz d_ij zwischen den Punkten P_i und P_j muss die Kovarianzmatrix des betreffenden Datenraumes bekannt sein: mit p_i, p_j ..... Ortsvektoren der Punkte P_i und P_j, C^-1 .... inverse Kovarianzmatrix. Ist die Kovarianzmatrix C gleich der Einheitsmatrix, dann sind die Daten nicht korreliert und weisen gleiche Standardabweichungen auf. Für diesen Fall wird die Mahalanobis-Distanz gleich der euklidischen Distanz. Man könnte dies auch so interpretieren, dass durch korrelierte Daten der Raum in einer gewissen Weise verzerrt wird, so dass die euklischen Abstände von der Raumrichtung abhängen. Mathematisch formuliert, misst die Mahalanobis-Distanz den Abstand zweier Punkte unter Berücksichtigung der Varianzen und Kovarianzen der beteiligten Variablen.
Home Multivariate Daten Grundlagen Mahalanobis-Distanz

Last Update: 2013-02-20