Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Indikatorvariable

Author: Hans Lohninger

Unter einer Indikatorvariable versteht man eine binäre Variable, die durch die Werte 0 und 1 (oder -1 und +1) anzeigt, ob das jeweilige Objekt eine bestimmte Eigenschaft aufweist oder nicht. Indikatorvariablen können sowohl direkt erhoben werden (z.B. das Geschlecht einer Versuchsperson) als auch aus anderen Variablen errechnet bzw. erzeugt werden.

Für den zweiten Fall gibt es im Wesentlichen zwei Szenarien, die in der Praxis wichtig sind:

Dichotomisierung einer kontinuierlichen Variablen: Bei manchen Untersuchungen wird zwar ein kontinuierlicher Wert erhoben, für die spätere Analyse ist aber nur entscheidend, ob diese Variable einen bestimmten Wert überschreitet oder unterschreitet. Man interessiert sich also nur für zwei Zustände (Überschreitung der Grenze, ja oder nein). Die daraus resultierende Variable nennt man eine dichotome oder binäre Variable. Die Grenze für die Dichotomisierung wird klarerweise durch die jeweilige Fragestellung vorgegeben. Es ist also denkbar, dass man aus einer kontinuierlichen Variable mehr als eine Indikatorvariable ableitet.

Beispiel: Ein Beispiel wäre die Geschwindigkeit eines Fahrzeugs, die in km/h gemessen wird (also mit kontinuierlichen Werten), von der aber für eine bestimmte Untersuchung nur interessant ist, ob die erlaubte Höchstgeschwindigkeit überschritten wird oder nicht. Man wird also aus der Geschwindigkeit eine Indikatorvariable erzeugen, die den Wert null besitzt falls die Höchstgeschwindigkeit nicht überschritten wurde, und den Wert eins falls dies der Fall ist.

Aufspaltung von nominalen bzw. ordinalen Variablen: Enthält eine Variable die Beschreibung mehrerer Zustände, in dem jedem Zustand z.B. eine Nummer zugeordnet wird, so ist diese Variable zum direkten Einsatz in statistischen Modellen mehr oder minder unbrauchbar, da im Fall einer nominal skalierten Variable diese nicht direkt in einem Modell eingesetzt werden kann und selbst bei ordinal skalierten Variablen der Einsatz in statistischen Modellen stark eingeschränkt sein kann. Man hilft sich in solchen Fällen, in dem man die verschiedenen Zustände einer solchen Variablen in eine entsprechende Zahl an Indikatorvariablen aufspaltet. Dabei enthält jede Indikatorvariable jeweils 1 oder 0, je nach dem, ob der jeweilige Zustand auftritt oder nicht.

Beispiel: Betrachten wir als Beispiel eine Variable, die eine Pflanzenspezies beschreibt. Angenommen, es sind bestimmte Eigenschaften von Pflanzen untersucht worden, wobei die untersuchten Pflanzen drei Unterarten zugeordnet werden können (wie z.B. der berühmte Datensatz von R.A. Fisher, der Blattlängen dreier verschiedenen Iris-Arten beschreibt - I. setosa, I. virginica und I. versicolor ). Die Variable "Art" enthält also die jeweilige Bezeichnung der Spezies. Die Aufspaltung in drei Indikatorvariablen erfolgt nun in der Weise, dass für jedes Objekt (=jede Pflanze) in jeder Indikatorvariable der Wert 1 eingetragen wird, falls die Pflanze zur entsprechenden Art gehört, andernfalls wird der Wert 0 eingetragen.




Last Update: 2012-10-18