Statistische Berichte

In diesem Bild stehen verschiedene Sets detaillierter Auswertungsberichte für das aktuelle Modell zur Verfügung. Je nachdem, mit welchem Modelltyp Sie arbeiten, handelt es sich dabei um folgende Berichte:

  • Beschreibende Statistik (Klassifikation/Regression, Clustering)
  • Modell-Performance (Klassifikation/Regression, Clustering)
  • Clusterdetails (nur Clustering)
  • Expertenauswertung (Klassifikation/Regression, Clustering)
  • Performance-Indikatoren
  • Zyklische Variablen (Zeitreihen)
Beschreibende Statistik
Variablen

Für jede Variable:

  • Name (Variable)
  • Werttyp (Wert)
  • Speichertyp (Speicher)
  • Anzahl der fehlenden Werte im Trainingsdatenset (Anzahl der fehlenden Werte)
  • Rolle bei der Modellierung (Rolle)
Häufigkeiten der Kategorie

Für jede Variable:

  • Kategorien
  • Anteil der einzelnen Kategorien innerhalb des gesamten Datensets
Stetige Variablen

Für jede stetige Variable in jedem Datenset ("Schätzung", "Validierung", "Test"):

  • Min
  • Max
  • Mittelwert
  • Varianz (Maß für die Streuung)
  • Standardabweichung (Maß für den Grad der Streuung von Werten rund um den Durchschnittswert; die Quadratwurzel der Varianz)

Kreuzstatistik mit Ziel(en)

Kreuzstatistik für nominale(s) Ziel(e)

Kreuzstatistik zwischen Eingabevariablen und nominalen Zielvariablen, d.h. für die Kreuztabellierung jeder Variable mit jedem nominalen Ziel:

  • die Variablenkategorien
  • der Anteil der Nicht-Zielkategorie am ausgewählten Ziel in der Variablenkategorie
  • der Anteil der Zielkategorie am ausgewählten Ziel in der Variablenkategorie
  • die Häufigkeit der aktuellen Kategorie im Datenset
Kreuzstatistik für stetige(s) Ziel(e)

Kreuzstatistik zwischen Eingabevariablen und stetigen Zielvariablen, d.h. für die Kreuztabellierung jeder Variable mit jedem stetigen Ziel:

  • die Variablenkategorien
  • der Zielmittelwert für jede Kategorie
  • die Zielvarianz für jede Kategorie
Modell-Performance
Prognostische Trennschärfe & Prognosekonfidenz

Für jede Zielvariable in jedem Datenset ("Schätzung", "Validierung", "Test"):

  • Name der Variablen
  • Wert "Prognostische Trennschärfe"
  • Wer "Prognosekonfidenz"
Intelligenter Variablenhöchstbeitrag

Für jede Zielvariable:

  • Eingabevariablen
  • Beitrag der einzelnen Eingabevariablen
Weitere Performance-Indikatoren

Für jede Zielvariable in jedem Datenset ("Schätzung", "Validierung", "Test"):

  • der mittlere absolute Fehler (die mittlere absolute Fehlerabweichung) (L1)
  • der mittlere quadratische Fehler (L2)
  • der maximale Fehler (LInf)
  • der Fehlermittelwert
  • die Standardfehlerabweichung
  • die Klassifikationsrate
Clusterdetails
Clusterstatistik für nominale Variable(n) Standard-Cluster-Kreuzstatistik mit den nominalen Variablen

Clusterstatistik für nominale Variable(n)

(normalisiert)

Normalisierte Cluster-Kreuzstatistik mit den nominalen Variablen
Clusterstatistik für stetige Variable(n) Cluster-Kreuzstatistik mit den stetigen Variablen
Cluster-KL-Divergenzen

Für jeden Cluster:

  • der Wert für die Kullback-Leibler-Divergenz zwischen der Clusterpopulation und der Gesamtpopulation für jede Eingabevariable
    • Die Kullback-Leibler-Divergenz (KL) ist ein Maß für die Unterschiedlichkeit zweier Verteilungen. Je höher die KL, umso stärker unterscheiden sich die Verteilungen voneinander.
    • Für einen bestimmten Cluster und eine bestimmte Dimension (oder Variable) wird die KL anhand der folgenden Formel berechnet:
    • Hierbei gilt:
    • N ist die Anzahl der Kategorien für diese Dimension.
    • p i (bzw. q i) ist der Anteil der i-ten Kategorie (der betroffenen Dimension) innerhalb der Clusterpopulation (bzw. der Gesamtpopulation). Der Anteil einer bestimmten Kategorie stellt deren Gewichtung bezogen auf die Gesamtgewichtung des betroffenen Sets dar (entweder Cluster- oder Gesamtpopulation).
    • Die KL wird bei der Kreuzstatistik-Clusterauswertung verwendet, um Variablen in absteigender Reihenfolge zu sortieren.
  • der Wert für das Chi-Quadrat zwischen der Clusterpopulation und der Gesamtpopulation für jede Eingabevariable
    • Das Chi-Quadrat ist ein weiteres Maß für die Divergenz zwischen der Clusterverteilung und der Populationsverteilung für diese Dimension. Genauer gesagt repräsentiert dieser Wert den Konfidenzgrad der Aussage, dass sich die zwei Verteilungen wesentlich voneinander unterscheiden.
    • Im Gegensatz zur KL gibt dieser Wert jedoch nicht an, wie groß der Abstand zwischen den Verteilungen ist. Stattdessen liefert ein Wert nahe 1 die Gewissheit, dass die beiden Verteilungen unterschiedlich sind. In diesem Fall kann die betreffende Dimension für den vorliegenden Cluster als wirklich diskriminativ betrachtet werden. Ein Wert von 0 dagegen legt nahe, dass die beiden Verteilungen für die Dimension möglicherweise identisch sind. Diese Aussage kann jedoch nicht mit Sicherheit getroffen werden.
Häufigkeit der Cluster

Für jede Zielvariable in jedem Cluster:

  • Anteil der einzelnen Clusterelemente innerhalb des gesamten Datensets
  • Anteil des erwarteten Zielwerts im Cluster oder Zielmittelwert im Cluster
  • SQL-Ausdrücke der Cluster

Für jede Zielvariable:

  • SQL-Ausdruck des Clusters (sofern verfügbar)
Expertenauswertung
Gruppenstatistik (nominales Ziel)

Für jede Variable in Bezug auf jede nominale Zielvariable:

  • Kategoriegruppen
  • Anteil jeder Kategorie des Ziels für jede Gruppe der ausgewählten Variable
  • Anteil jeder Gruppe innerhalb des gesamten Datensets
Gruppen-ID

Für jede Variable in Bezug auf jede Zielvariable:

  • Kategorien

Index der Gruppe, die die aktuelle Kategorie enthält.

Wenn der Gruppenindex fehlt, bedeutet dies, dass die Kategorie nicht gruppiert ist.

Wahrscheinlichkeit der Abweichung

Für jede Variable und jedes Datenset:

  • Wahrscheinlichkeit der Abweichung der Variable in Bezug auf deren Wert im Datenset "Schätzung"
Wahrscheinlichkeit der Zielabweichung

Für jede Variable in jedem Datenset in Bezug auf jede Zielvariable:

  • Wahrscheinlichkeit der Abweichung der Zielvariablenverteilung in Bezug auf deren Wert im Datenset "Schätzung"
Performance-Indikatoren weiterer Variablen

Für jede Variable in jedem Datenset in Bezug auf jede Zielvariable:

  • die KS-Statistik (KS)
  • die Fläche unter der ROC-Kurve (AUC)
  • der GINI-Koeffizient (GINI)
Stetige Kodierung

Für jede Kategorie jeder Variable in Bezug auf jede Zielvariable:

  • der Kategoriewert
  • die entsprechende Kodierung
Datensetgröße Anzahl der Datensätze in den einzelnen Datensets ("Schätzung", "Validierung", "Test")
Performance-Indikatoren (für KTS)
Bereich Zeigt an
Prognosefehlerbalken

Für jedes Datenset:

  • die anhand des mittleren quadratischen Fehlers (L2) berechneten Prognosefehlerbalken
Prognoseeffizienz

Für jede Prognose und jedes Datenset:

  • die Prognoseeffizienz, berechnet anhand des quadratischen Pearson (P2), der die Qualität der Verknüpfung zwischen Prädiktor und Signal beschreibt. Der Wert 1 repräsentiert eine perfekte Verknüpfung zwischen Prädiktor und Signal und somit einen perfekten Prädiktor.
Weitere Performance-Indikatoren

Für jede Prognose und jedes Datenset:

  • der Qualitätskoeffizient (U2) (das Verhältnis zwischen der Prädiktor-Residualvarianz und der Signalvarianz), der beschreibt, ob das Modell dem Signal entspricht. Ein Wert von 1 bedeutet, dass das Modell perfekt mit dem Signal übereinstimmt.
  • der Fehlermittelwert
  • die Standardfehlerabweichung
Zyklische Variablen

Analyse der Saisonalitäten und Zyklizitäten:

Für jede im Modell gefundene periodische Variable zeigt das Diagramm einen Zyklus dieser Variable an.

Hinweis

Eine periodische Variable ist jeweils nach dem entsprechenden Zyklus benannt. Eine Variable mit dem Namen "monthOfYear" (Monat des Jahres) entspricht beispielsweise dem Zyklus der Monate des Jahres, eine Variable mit dem Namen "52" entspricht einem Zyklus von 52 Einheiten (wobei die Einheit vom Signal abhängig ist).