Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Klasseninformation

Author: Hans Lohninger

Eine häufige Aufgabe in der Datenanalyse ist die Klassierung (Kategorisierung) von Beobachtungen und die Interpretation von klassierten Daten. Die Klassierung beruht im einfachsten Fall auf der Zuweisung einer Klassennummer (oder ganz allgemein einer Klasseneigenschaft) zu jeder Beobachtung. Dazu muss in der Datenmatrix für jede Beobachtung diese Klassenkennzeichnung mit abgespeichert werden.

Klasseneigenschaften werden im Allgemeinen entweder ordinal oder nominal skaliert sein.

Neben der Möglichkeit die Klasseninformation in einem eigenen Vektor (roter Bereich in der Abbildung oben) zu speichern, wird in manchen Fällen diese als Teil der Datenmatrix abgespeichert. Dies hat den Vorteil, dass man mit der Klasseninformation auch rechnen kann und dass man je nach Bedarf unterschiedliche Klassierungen verwenden kann (z.B. durch Einfärben der Daten entsprechend der Werte einer Spalte). Der Nachteil dieser Vorgangsweise ist, dass man leichter den Überblick verliert und manchmal Spalten mit Klasseninformationen "im Weg stehen" und diese vor einer weiteren Bearbeitung der Daten entfernt werden müssen.

Darstellung klassierter Daten

Bei der Darstellung klassierter Daten kann man drei Grundtypen unterscheiden:

  • die Darstellung von Zähldaten als Histogramm oder Tortendiagramm
  • die Darstellung der Werte einer Variablen in Abhängigkeit der jeweiligen Klasse
  • die Markierung eines Diagramms mit zusätzlicher Klasseninformation
Die erste Darstellungsvariante enthält am wenigsten Detailinformation und wird gerne für Zusammenfassungen verwendet. Die folgende Abbildung zeigt als Beispiel für den zweiten Typ die Abhängigkeit des Prolingehalts (eine Aminosäure) dreier italienischer Rotweinsorten in Abhängigkeit der Weinsorte. Auf der x-Achse ist die Klasseninformation (die Sorte) aufgetragen, auf der y-Achse der Prolingehalt.

Als Beispiel für die zusätzliche Markierung eines Diagramms mit Klasseninformation sei die Einfärbung eines Diagramms mit der Klasseninformation gezeigt. Beim untenstehenden Diagramm sind die Weinsorten der selben Rotweine durch Farben markiert (rot = Barbera, grün = Grignolino, blau = Barolo). Durch die Einfärbung der Daten mit der Klasseninformation gewinnt man eine zusätzliche Dimension, die zur Darstellung von weiteren Details genützt werden kann. So können in diesem Beispiel die Cluster der drei Weine deutlicher erkannt werden.


Last Update: 2012-10-08