Index
 
Einleitung
Univariate Statistik
Wahrscheinlichkeit
Statistische Tests
Signale
Fouriertransformation
Korrelation
Kalibration
Regression
Bestimmtheitsmaß
Eichung eines Thermoelements
Datensätze

Bestimmtheitsmaß

Frage
Reicht bei der linearen Regression ein hohes Bestimmtheitsmaß (r2 > 0.999) für eine "brauchbare" Regression aus?

 

Antwort

Das Bestimmtheitsmaß wird oft falsch interpretiert, meist wird ihm zu viel Bedeutung zugeschrieben. Im Folgenden ein Beispiel, das zeigt, dass man selbst bei einem sehr hohen Bestimmtheitsmaß eventuell keine befriedigenden Ergebnisse bekommen kann:

Nehmen wir an, wir müssen ein Massenspektrometer kalibrieren, dessen Eichkurve durch eine parabolische Regression zwischen Magnetfeld B und der Masse m bestimmt ist. Einzelne Werte der Eichkurve wurden wie folgt gemessen. Die erste Spalte enthält die Magnetfeldwerte, die zweite Spalte die korrekten Massenwerte, und die dritte Spalte fehlerhafte Massenwerte:

   B        m-correct       m-error
  133.0        68.998        68.998
  186.6        92.995        92.995
  201.0        99.994        99.994
  237.4       118.992       118.992
  259.1       130.992       130.992
  279.7       142.992       142.992
  321.8       168.989       168.989
  340.0       180.989       180.989
  357.7       192.989       192.989
  374.8       204.989       204.989
  394.1       218.986       218.986
  410.2       230.986       230.986
  426.0       242.986       242.986
  441.4       254.986       254.986
  458.7       268.982       267.982
  473.3       280.982       278.982
  487.6       292.982       290.982
  531.1       330.979       328.979
  544.2       342.979       342.979
  584.6       380.976       380.976
  596.9       392.976       392.976
  646.3       442.973       442.973
  657.7       454.973       454.973
  669.0       466.973       466.973
  682.1       480.970       480.970
Berechnet man die parabolische Eichkurve mit Hilfe der linearen Regression, so bekommt man für die fehlerhaften Massenwerte ein Bestimmtheitsmaß von 0.99997, was vordergründig betrachtet ein exzellentes Ergebnis ist. Allerdings sieht man bei der Betrachtung der Residuen, dass die Genauigkeit der Regression auf ca. 2 Masseneinheiten (-0.5 bis +1.5) begrenzt ist, was für den Betrieb des Spektrometers gänzlich unbrauchbar ist, da ein gut kalibriertes Gerät die Massen auf etwa 0.1 Einheiten genau messen muss.

Die Daten in der Eichtabelle wurden bewusst manipuliert um diesen Effekt und die Unbrauchbarkeit des Bestimmtheitsmaßes zu zeigen. Nimmt man die korrekten Eichwerte, so ergibt sich nach wie vor ein sehr hohes Bestimmtheitsmaß (0.99999986), allerdings sind die Residuen nun um den Faktor 10 besser (Abweichungen im Bereich von +/-0.1 Einheiten).

 

Anleitung
Starten Sie DataLab und laden Sie die entsprechenden Daten. Klicken Sie dann auf Mathematik/Einfache Regression... und wählen Sie für die x-Achse die Variable "B" und für die y-Achse die Variable "m/e [error]". Drücken Sie nun den Knopf Parabolisch. Sie sollten nun folgendes Fenster sehen:

Wie man klar erkennen kann, ist die Regression sehr gut, das Bestimmtheitsmaß wird mit 1.0000 gerundet ausgegeben (der exakte Wert wäre 0.99997). Schalten Sie nun auf die Residuen um (Reiter Residuen oberhalb der Grafik). Sie erkennen in dieser Darstellung, dass die Abweichung der Schätzwerte der Funktion von den tatsächlichen Werten an manchen Stellen bis zu 1.5 Massen groß ist - was für ein Massenspektrometer eindeutig zu schlecht ist.

Wiederholen Sie nun die obige Vorgangsweise und nehmen Sie die korrekten Massenwerte. Nun ergibt sich wieder ein Bestimmtheitsmaß von nahezu 1.0, allerdings sind die Residuen über einen Faktor 10 kleiner - damit wird nun die Kalibration brauchbar.