Fundamentals of Statistics contains material of various lectures and courses of H. Lohninger on statistics, data analysis and chemometrics......click here for more.

Censored Data

Unter zensierten Daten versteht man Daten, von denen ein Teil nur unvollständig bekannt ist (von denen man z.B. weiß, dass sie größer als ein bestimmter Grenzwert sind, aber die genauen Werte unbekannt sind). Zensierte Daten können entstehen, wenn bestimmte Beobachtungen nicht gemacht werden können (weil z.B. ein Teil der Probanden frühzeitig aus der Untersuchung ausscheidet).

Man unterscheidet folgende Arten der Zensierung:

  • rechtszensierte Daten: die genauen Werte von Daten, die größer als eine bestimmte Schwelle sind, sind unbekannt
  • linkszensierte Daten: die genauen Werte von Daten, die kleiner als eine bestimmte Schwelle sind, sind unbekannt
  • intervallzensierte Daten: die Daten außerhalb eines Intervalls sind unbekannt

Beispiel 1: Eine Überlebenszeitstudie von Krebspatienten über 10 Jahre. Von den 120 teilnehmenden Patienten sind 34 am Ende der Studie noch am Leben. Die Überlebenszeit ist also rechtszensiert, da man von den 34 Patienten nur weiß, dass sie zumindest 10 Jahre überlebt haben. Man kann in diesem Fall den Median der Überlebenszeit berechnen, da man ja von mehr als der Hälfte der Patienten die Überlebenszeit kennt (den Mittelwert kann man aber nicht berechnen, dazu wären die Überlebenszeiten aller 120 Patienten notwendig).

Beispiel 2: Bei einer chemischen Analyse des Strontiumgehalts von Pilzen werden folgende Werte gemessen (mg/kg Trockensubstanz): 2.2, 23.2, 18.1, 7.9, <0.1, 2.5, 1.9, 0.4, <0.1, 11.6. Da Werte unterhalb von 0.1 mg/kg nicht nachgewiesen werden konnten (Nachweisgrenze 0.1 mg/kg) sind die Daten linkszensiert.

Wie geht man nun in der Praxis mit zensierten Daten um? Da für viele praktische Fragestellungen spezialisierte Vorgangsweisen zur Interpretation von zensierten Daten - wie Kaplan-Meier-Kurven oder Logrank-Tests - wenig Bedeutung haben, versucht man zensierte Daten z.B. für die Bildung von Modellen in Zahlen umzuformen, mit denen dann die Modelle gerechnet werden können.

Für diese Umformung in Zahlen gibt es im wesentlichen vier Möglichkeiten:

  • Im einfachsten Fall, wenn Daten als unterhalb der Nachweisgrenze gekennzeichnet sind, werden diese durch die halbe Nachweisgrenze ersetzt.
  • Man versucht ein Modell der Verteilung der Daten im zensierten Bereich zu berechnen und ersetzt die zensierten Werte durch zufällig ausgewählte Werte aus dieser Verteilung.
  • Man versucht zensierte Werte durch multiple Regression aus allen anderen Variablen abzuschätzen
  • Denkbar ist in vielen Fällen auch Multiple Imputation, eine Technik die versucht durch wiederholtes Einsetzen von plausiblen Werten, die zensierten Werte abzuschätzen.
Keine dieser vier Möglichkeiten ist optimal, in den meisten Fällen wird man deshalb die Methode mit dem geringsten Aufwand nehmen.

Hinweis: Die Begriffe "zensierte" und "gestutzte" Daten werden manchmal synonym verwendet - was aber falsch ist, da bei gestutzten Daten die Werte außerhalb der Grenzwerte einfach weggelassen werden, während bei zensierten Daten die genauen Werte zwar unbekannt sind, die Tatsache, dass diese Werte außerhalb der Grenzwerte liegen aber sehr wohl bekannt ist und auch beachtet wird.

Last Update: 2012-10-08