Fundamentals of Statistics contains material of various lectures and courses of H. Lohninger on statistics, data analysis and chemometrics......click here for more.

Indicator Variable

An indicator variable is a binary variable (values 0 and 1, or -1 and +1) which tells us whether an object exhibits a particular property or not. Indicator variables can be either collected directly (e.g. the gender of a person) or calculated from other variables. In the case of calculating indicator variables we have to distinguish two scenarios:

Dichotomization of a continuous variable: Bei manchen Untersuchungen wird zwar ein kontinuierlicher Wert erhoben, für die spätere Analyse ist aber nur entscheidend, ob diese Variable einen bestimmten Wert überschreitet oder unterschreitet. Man interessiert sich also nur für zwei Zustände (Überschreitung der Grenze, ja oder nein). Die daraus resultierende Variable nennt man eine dichotome oder binäre Variable. Die Grenze für die Dichotomisierung wird klarerweise durch die jeweilige Fragestellung vorgegeben. Es ist also denkbar, dass man aus einer kontinuierlichen Variable mehr als eine Indikatorvariable ableitet.

Ein Beispiel wäre die Geschwindigkeit eines Fahrzeugs, die in km/h gemessen wird (also mit kontinuierlichen Werten), von der aber für eine bestimmte Untersuchung nur interessant ist, ob die erlaubte Höchstgeschwindigkeit überschritten wird oder nicht. Man wird also aus der Geschwindigkeit eine Indikatorvariable erzeugen, die den Wert null besitzt falls die Höchstgeschwindigkeit nicht überschritten wurde, und den Wert eins falls dies der Fall ist.

Aufspaltung von nominalen bzw. ordinalen Variablen: Enthält eine Variable die Beschreibung mehrerer Zustände, in dem jedem Zustand z.B. eine Nummer zugeordnet wird, so ist diese Variable zum direkten Einsatz in statistischen Modellen mehr oder minder unbrauchbar, da im Fall einer nominal skalierten Variable diese nicht direkt in einem Modell eingesetzt werden kann und selbst bei ordinal skalierten Variablen der Einsatz in statistischen Modellen stark eingeschränkt sein kann. Man hilft sich in solchen Fällen, in dem man die verschiedenen Zustände einer solchen Variablen in eine entsprechende Zahl an Indikatorvariablen aufspaltet. Dabei enthält jede Indikatorvariable jeweils 1 oder 0, je nach dem, ob der jeweilige Zustand auftritt oder nicht.

Betrachten wir als Beispiel eine Variable, die eine Pflanzenspezies beschreibt. Angenommen, es sind bestimmte Eigenschaften von Pflanzen untersucht worden, wobei die untersuchten Pflanzen drei Unterarten zugeordnet werden können (wie z.B. der berühmte Datensatz von R.A. Fisher, der Blattlängen dreier verschiedenen Iris-Arten beschreibt - I. setosa, I. virginica und I. versicolor ). Die Variable "Art" enthält also die jeweilige Bezeichnung der Spezies. Die Aufspaltung in drei Indikatorvariablen erfolgt nun in der Weise, dass für jedes Objekt (=jede Pflanze) in jeder Indikatorvariable der Wert 1 eingetragen wird, falls die Pflanze zur entsprechenden Art gehört, andernfalls wird der Wert 0 eingetragen.

Last Update: 2012-10-08