Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Struktur der gemessenen Daten

Author: Hans Lohninger

Um verschiedene Methoden der Datenanalyse anzuwenden, muss die Struktur der Daten klar sein. Abhängig von der Art der Analyse (Klassifikation oder Kalibration), sollte man auf einige Eigenschaften des Datensatzes achten.

Klassifikation

Bei Klassifikationsproblemen sollte man folgende Unterscheidung vornehmen:

  • Datensätze mit linear separierbaren Klassen
  • Daten mit nicht linear separierbaren Klassen
  • Klassen, die nicht separierbar sind

Der Benutzer sollte sich bei allen drei Fällen bewusst sein, dass es im multidimensionellen Fall keine leichte Aufgabe ist, zu unterscheiden, um welche Art von Problem es sich handelt. Außerdem hängt das Verfahren wie man die am besten geeigneten Prediktoren findet, stark von diesen Aspekten ab. Also sollte man zunächst mit den Daten experimentieren und "spielen", bevor man mit der Erstellung eines Klassifikators beginnt.

Kalibration

Bei Kalibrationsproblemen gibt es zwei Fragen, die man sich stellen sollte, ehe man ein Modell erzeugt:

  • Ist ein lineares Modell ausreichend, um die Beziehung zwischen Prediktoren und Zielvariablen zu beschreiben?
  • Ist ein nicht lineares Modell notwendig?

Diese Entscheidung ist im Allgemeinen schwer zu treffen. Dies wird auch durch Rauschen in den Daten noch komplizierter. Durch extensives Rauschen wird möglicherweise eine nicht lineare Beziehung verdeckt; deshalb ist es unmöglich, ein nicht lineares Modell zu entwerfen.




Last Update: 2012-10-16