Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Skalierung von Daten

Author: Hans Lohninger

Die Skalierung von Daten kann unter bestimmten Umständen nützlich und/oder notwendig sein (z.B. wenn die Variablen verschiedene Bereiche umfassen). Es gibt verschiedene Arten der Skalierung, von denen die wichtigsten unten aufgelistet sind. Skalierungsverfahren können auf die gesamte Datenmatrix oder auch nur auf Teile der Matrix (z.B. spaltenweise) angewandt werden.

Bereichsskalierung

Die Bereichsskalierung transformiert die Werte in einen anderen Bereich. Dies beinhaltet normalerweise sowohl eine Verschiebung als auch eine Maßstabsänderung der Skala (Vergrößerung oder Verkleinerung). Die Daten werden nach der folgenden Gleichung transformiert:


Das Zentrieren des Mittelwerts

Wird der Mittelwert von den Daten subtrahiert, wird dies oft als "Mittelwert-Zentrieren" (engl. mean centering) bezeichnet. Das resultiert in einer Verschiebung der Daten gegen den Mittelwert. Der Mittelwert der transformierten Daten ist danach gleich null:

Y = X - μ

Standardisierung

Standardisierung (manchmal auch Autoskalierung, oder z-Transformation genannt) ist das Skalierungsverfahren, das in einem Mittelwert von null und einer Varianz von eins resultiert. Für jeden Datenwert muss der Mittelwert µ subtrahiert und das Ergebnis dann durch die Standardabweichung σ dividiert werden (beachten Sie, dass die Reihenfolge dieser zwei Operationen nicht umgedreht werden darf):

Y = ( X - μ) / σ




Last Update: 2012-10-08