Gütemaße für Klassifikatoren

Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.

Home

Multivariate Daten

Modellbildung

Klassifizierung und Diskriminierung

Gütemaße für Klassifikatoren

Siehe auch: Diskrimination und Klassifikation, Predictive Ability, ROC-Kurve

Search the VIAS Library | Index

Gütemaße für Klassifikatoren

Author: Hans Lohninger

Die Überprüfung der Güte eines Klassifikators hängt hauptsächlich vom Typ des Klassifikators ab. Im einfachsten und am häufigsten auftretenden Fall arbeitet man mit binären Klassifikatoren, die nur zwei Ergebnisse erzeugen. Während die Methoden für die Evaluierung binärer Klassifikatoren gut eingeführt und unkompliziert sind, ist die Situation bei Mehrklassen-Verfahren deutlich diffiziler. Die Situation kann außerdem durch die Kombination mehrerer Klassifikatoren noch zusätzlich verkompliziert werden. Die folgende Einführung beschränkt sich daher auf binäre Klassifikatoren.

Für binäre Klassifikatoren gilt, dass jede Beobachtung A auf einen von zwei Zuständen abgebildet wird (z.B. JA und NEIN, oder 0 und 1, oder gesund und krank). Die binäre Antwort des Klassifikators kann nun in Bezug auf die (unbekannte) Realität entweder korrekt oder falsch sein. Die Ergebnisse der Klassifikation werden in einer Klassifikationstabelle oder Wahrheitsmatrix (engl. confusion matrix) zusammengefasst; diese enthält die Anzahl aller Beobachtungen in den vier möglichen Kombinationen aus Klassifizierungsergebnis und Wirklichkeit. Falls das Klassifikationsergebnis richtig ist, spricht man von "richtig positiv" und "richtig negativ", abhängig davon zu welcher Klasse die Beobachtung tatsächlich gehört. Falls der Klassifikator eine falsche Antwort liefert, spricht man von einer "falsch positiven" bzw. "falsch negativen" Entscheidung:

Korrekte Klassifikationsergebnisse stehen in der Tabelle in der Hauptdiagonale (grüne Bereiche), fehlerhafte Ergebnisse in der Nebendiagonale (rote Bereiche).

Einige Klassifikationsmodelle (wie z.B. die Diskriminanzanalyse) erzeugen primär kontinuierliche Schätzwerte, die mit einer Klassifikationsgrenze verglichen werden um das binäre Endergebnis zu bekommen. Im Fall eines kontinuierlichen Klassifikationsergebnisses kann man die Klassifikationstabelle visualisieren, in dem man den kontinuierlichen Output des Klassifikators auf einer Achse plottet und die tatsächliche Klasse (die "Wirklichkeit") auf der anderen Achse. Die Klassifikationsgrenze wird durch eine strichlierte Linie angezeigt:

Dieses Diagramm erlaubt es, die Verlässlichkeit eines Klassifikators visuell zu überprüfen, in dem man auf die Distanz und die Datendichte jener Beobachtungen schaut, die nahe der Entscheidungsgrenze liegen.

Um die Klassifikatorgüte auf eine formalere und quantitative Ebene zu führen, wurden mehrere Maßzahlen definiert. Die Tabelle unten bedient sich folgender Notation:

N .... Gesamtzahl der Beobachtungen
TP ... Zahl der richtig positiven Klassifikationen
FP ... Zahl der falsch positiven Klassifikationen
TN ... Zahl der richtig negativen Klassifikationen
FN ... Zahl der falsch negativen Klassifikationen

Richtig-Positiv-Rate
(Recall, Trefferquote, Empfindlichkeit, Sensitivität) Die Richtig-Positiv-Rate ist durch das Verhältnis von richtig positiven Entscheidungen zur Gesamtzahl der tatsächlich positiven Beobachtungen gegeben:

Beispiel: Anteil der Kranken bei denen die Krankheit auch erkannt wurde.

Falsch-Positiv-Rate
(falscher Alarm) Die Falsch-Positiv-Rate ist durch das Verhältnis von falsch positiven Entscheidungen zur Gesamtzahl der tatsächlich negativen Beobachtungen gegeben:

Beispiel: Anteil der als krank eingestuften, tatsächlich aber gesunden Personen (Wahrscheinlichkeit für einen falschen Alarm).

Relevanz
(Wirksamkeit, positiver Vorhersagewert, PPV = positive predictive value) Die Relevanz ist das Verhältnis von richtig-positiven Entscheidungen zur Gesamtzahl aller positiven Entscheidungen:

Beispiel: Anteil der tatsächlich kranken Personen, bei denen die Krankheit festgestellt wurde.

Spezifität Die Spezifität gibt den Anteil der zurecht negativ beurteilten Beobachtungen an der Gesamtzahl der in Wirklichkeit negativen Beobachtungen an:

Beispiel: Anteil der als gesund eingestuften Personen an den tatsächlich Gesunden.

negativer Vorhersagewert
(Segreganz, Trennfähigkeit, NPV = negative predictive value) Der negativer Vorhersagewert gibt das Verhältnis der zurecht als negativ beurteilten Beobachtungen an allen als negativ beurteilten Beobachtungen:

Beispiel: Der Anteil der tatsächlich gesunden Personen bei denen keine Krankheit diagnostiziert wurde.

Richtigkeit
(Korrektklassifikationsrate) Die Richtigkeit gibt den Anteil der korrekt klassifizierten Fälle an der Gesamtzahl aller Beobachtungen an:

Prävalenz Die Prävalenz gibt den Anteil der tatsächlich positiven Beobachtungen an der Gesamtzahl aller Beobachtungen an:

Beipiel: Der Anteil der Kranken an der Gesamtbevölkerung.

Positives Likelihood-Verhältnis Das positive Likelihood-Verhältnis berechnet das Verhältnis der Wahrscheinlichkeit einer positiven Klassifizierung unter den allen tatsächlich positiven Beobachtungen zur Wahrscheinlichkeit einer positiven Klassifizierung unter den tatsächlich negativen Beobachtungen.

Beispiel: Ein positives Likelihood-Verhältnis von z.B. 50 besagt, dass die Wahrscheinlichkeit einen Kranken unter den tatsächlich Kranken zu finden 50mal so hoch ist wie die Wahrscheinlichkeit unter den Gesunden einen (vermeintlich) Kranken zu finden.

Negatives Likelihood-Verhältnis Das negative Likelihood-Verhältnis berechnet das Verhältnis der Wahrscheinlichkeit einer irrtümlichen negativen Klassifizierung unter den allen tatsächlich positiven Beobachtungen zur Wahrscheinlichkeit einer negativen Klassifizierung unter den tatsächlich negativen Beobachtungen.

Beispiel: Ein negatives Likelihood-Verhältnis von 0.01 besagt, dass die Wahrscheinlichkeit unter den Kranken eine Person als (vermeintlich) gesund einzustufen 100 mal kleiner ist (1/0.01) als unter den Gesunden eine Person als gesund einzustufen.

Receiver Operating Characteristics Receiver Operating Characteristics (ROC) ist eine graphische Methode um den Kompromiss zwischen den Vorteilen (richtig positive Klassifizierung) und den Kosten (falsch positive Klassifizierung) darzustellen. Das ROC eines bestimmten Klassifikators wird in einem Diagramm eingetragen in dem die Richtig-Positiv-Rate gegen die Falsch-Positiv-Rate aufgetragen wird.

Home

Multivariate Daten

Modellbildung

Klassifizierung und Diskriminierung

Gütemaße für Klassifikatoren

Last Update: 2016-12-12