Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Distanzmaße

Author: Hans Lohninger

Abstände zwischen Objekten im multidimensionalen Raum bilden die Grundlage vieler multivariater Methoden der Datenanalyse. Unterschiedliche Methoden zur Berechnung der Abstände zu verwenden, kann die Ergebnisse einer Methode beträchtlich beeinflussen. Die Ähnlichkeiten von Objekten und deren Abstände sind nahe miteinander verwandt und werden oft verwechselt. Während der Ausdruck "Abstand" präziser und im mathematischen Sinn verwendet wird, hängt die genaue Bedeutung des Begriffs "Ähnlichkeit" oft von den Umständen und dem Gebiet der Anwendung ab.

Allgemein kann der Abstand dij zwischen zwei Punkten im n-dimensionalen Raum durch die Gleichung von Minkowski berechnet werden:

mit k als dem Index der Koordinaten und p für die Art des Abstands.

Es gibt drei Spezialfälle des Minkowski-Abstands:

  • p = 1: dieses Abstandsmaß wird oft City-Block-Distanz oder auch Manhattan-Distanz genannt.
  • p = 1, bei binären Daten: Hamming-Distanz. Die Hamming-Distanz definiert die Anzahl gemeinsamer "1"-Bits von zwei binären Werten.
  • p = 2: wenn p gleich 2 ist, wird die Minkowski-Distanz zur euklidischen Distanz.


Die verschiedenen Formen der Minkowski-Distanz tragen aber unterschiedlichen Skalierungen der individuellen Koordinaten nicht Rechnung. Wenn die Koordinaten verschiedene Bereiche umfassen, wird die Koordinate mit dem größten Bereich das Ergebnis dominieren. Deshalb müssen die Daten vor der Berechnung der Distanzen skaliert werden. Darüber hinaus verzerren Korrelationen zwischen den Variablen (Koordinaten) auch die Distanzen. Um diesen Nachteil zu überwinden, sollte man die Mahalanobis-Distanz (), die die Korrelation und verschiedene Skalierungen berücksichtigt, berechnen.

Die Mahalanobis-Distanz ist mit der euklidischen Distanz verwandt; für unkorrelierte, standardisierte Daten sind die beiden gleich. Sie kann leicht durch Einbeziehen der inversen Kovarianzmatrix C-1 in die Distanzberechnung errechnet werden:

Ein anderes Abstandsmaß, das eher ein Maß für die Ähnlichkeit zwischen zwei Objekten ist, wurde von Jaccard () vorgeschlagen (es wird manchmal auch Tanimoto-Koeffizient genannt):

,

mit (x.y), als inneres Produkt der zwei Vektoren x und y. Man beachte, dass der Jaccard-Koeffizient für Objekte ohne Abstand gleich 1,0 wird. Außerdem kann der Tanimoto-Koeffizient auch auf binäre Daten angewendet werden:

T = Nxy / (Nx + Ny - Nxy)

mit Nx, Ny.... Zahl der 1-Bits in den Vektoren x und y und
Nxy... Zahl der 1-Bits, die in den Vektoren x und y jeweils an der gleichen Stelle auftreten.



Last Update: 2013-02-18