Grundlagen der Statistik enthält Materialien verschiedener Vorlesungen und Kurse von H. Lohninger zur Statistik, Datenanalyse und Chemometrie .....mehr dazu.


Übung - Schätzung von Siedepunkten chemischer Strukturen

Author: Hans Lohninger

Um quantitative Struktur-Eigenschafts-Beziehungen (engl. quantitative structure property relationships, QSPR) aufzustellen, berechnet man viele numerische Deskriptoren. Auch in der Chemie werden bei der Untersuchung chemischer Strukturen viele numerische Deskriptoren berechnet. Diese Deskriptoren können einfache Gegebenheiten darstellen, wie die Zahl der Kohlenstoffatome in der Struktur, oder anspruchsvollere Eigenschaften beschreiben, wie die Deskriptoren, die aus graphentheoretischen Berechnungen abgeleitet werden. Nachdem diese Deskriptoren berechnet wurden, erhält man eine Matrix, die diese Zahlen und eine zusätzliche Spalte mit der zu modellierenden chemisch/physikalischen Eigenschaft (z.B. dem Siedepunkt) enthält. Man kann dann versuchen, einen passenden Satz an Variablen zu finden und ein multivariates Regressionsmodell anzusetzen.

Verwenden Sie den Datensatz BOILPTS und gehen Sie zum  DataLab , um den Siedepunkt anhand der gegebenen Strukturdeskriptoren zu modellieren. Versuchen Sie, verschiedene Deskriptoren zu kombinieren, um eine optimale Kombination zu finden (ein Hinweis: Das resultierende Modell sollte eine Standardabweichung der Residuen von unter 8, ein Bestimmtheitsmaß von ca. 0,97 und einen F-Wert von ungefähr 2300 aufweisen). Versuchen Sie, die folgenden Fragen zu beantworten:

  • Wie rechtfertigen Sie Ihre Auswahl der Variablen?
  • Sind die MLR-Ergebnisse mit denen der PCR vergleichbar?
  • Haben Sie eine Idee, wie man die verbliebene Nichtlinearität meistern kann?



Last Update: 2012-10-08