Modelle mit nominalem Ziel

Graphanzeige

Die x-Achse zeigt einen Prozentanteil der initialen Population; die y-Achse bildet den Prozentanteil des maximal erwarteten Gewinns (einschließlich aller im Bild "Gewinnstrategie" festgelegten Kosten-/Gewinnhypothesen) ab.

Sie haben die Möglichkeit, nur die Validierungskurve (Standard) oder die Kurven aus allen drei Teildatensets anzuzeigen. Über die Drucktaste Alle Datensets anzeigen können Sie Kurven aus den Teildatensets "Schätzung", "Validierung" und "Test" auswählen.

Über das Aktionsmenü Modelle können Sie auswählen, für welche Zielvariable die Kurven angezeigt werden sollen.

Die Symbolleiste unterhalb des Titels bietet Optionen zum Kopieren der Koordinaten in die Zwischenablage, zum Drucken des Diagramms und zum Sichern des Diagramms im PNG-Format.

  • Die grüne Kurve zeigt den maximal möglichen Gewinn (zur Ermittlung wird die Zielvariable selbst als Modell verwendet). Wenn beispielsweise 25 % Ihrer Population die Zielkategorie der Zielvariable aufwiesen, würde das beste Modell die gesamten 25 % der Zielkategorie korrekt mit 25 % der Population klassifizieren.
  • Die rote Kurve zeigt den minimalen Gewinn (zur Ermittlung wird ein Zufallsmodell verwendet). Anhand zufällig ausgewählter 50 % der Population würden Sie beispielsweise 50 % der Zielkategorie der Zielvariable identifizieren.
  • Die blaue Kurve zeigt den generierten Gewinn (zur Ermittlung wird das Modell auf das Validierungsdatenset angewendet). Diese Kurve würde beispielsweise den Lift der auf dem Modell basierenden Zufallskurve anzeigen.
Standardmodellgraphen

Über das Aktionsmenü Auswertungstyp können Sie auswählen, welche Art von Diagramm angezeigt werden soll. Bei Auswahl von Beobachtet (Standard) wird die normale Gewinnkurve angezeigt, bei Auswahl von Standardisiert eine Gewinnkurve mit einem Mittelwert von 0. Mit Lift können Sie den Unterschied zwischen einem perfekten Modell und einem Zufallsmodell sowie zwischen einem von SAP Predictive Analytics generierten Modell und einem Zufallsmodell untersuchen.

Die Benutzerdefinierte Gewinnkurve ermöglicht die Angabe einer Kostenposition für die Nicht-Zielkategorie (z.B. Mailing-Kosten für einen Nicht-Reagierer) und einer Gewinnposition für die Zielkategorie (z.B. Kauf durch einen Reagierer).

Erweiterte Modellgraphen

Neben den oben aufgeführten Standardmodellgraphen werden eine Reihe erweiterter Modellgraphen bereitgestellt:

  • Der ROC-Graph stammt ursprünglich aus der Signalentdeckungstheorie.

    Der Graph stellt dar, wie gut ein Modell bei Änderung der Erkennungsschwelle hinsichtlich des Kompromisses zwischen Sensitivität und Spezifizität bzw. eigentlich zwischen richtiger und falscher Erkennung unterscheidet.

    Die Sensitivität, die auf der y-Achse angezeigt wird, ist der Anteil der gefundenen RICHTIG identifizierten Signale (wahr positive Signale) an allen wahr positiven Signalen im Validierungsdatenset.

    Die [1-Spezifizität], die auf der x-Achse angezeigt wird, ist der Anteil der erfolgten FALSCHEN Zuordnungen zu der Signalklasse (falsch positive Signale) an allen falsch positiven Signalen im Validierungsdatenset. (Die Spezifizität ist im Gegensatz zu der [1-Spezifizität] der Anteil der RICHTIGEN Zuordnungen zu der Klasse der NICHT-SIGNALE, d.h. der wahr negativen Signale.)

  • Der Graph Lorenz "Gut" zeigt den kumulativen Anteil nicht entdeckter Signale (falsch negativer Signale), die von den Datensätzen, die den unteren x % der Modellpunktwerte entsprechen, beigetragen werden.

    Die y-Achse misst die [1-Sensitivität], d.h. [1 - den Anteil der richtig positiven Signale], die dem Anteil der nicht entdeckten Signale oder verlorenen Chancen entspricht. Da die Daten so angeordnet sind, dass die Datensätze, die mit geringster Wahrscheinlichkeit Signale darstellen, ganz links, und die Datensätze, die mit höchster Wahrscheinlichkeit Signale darstellen, ganz rechts angezeigt werden, gilt: Je langsamer der Anstieg, umso höher die Sensitivität des Modells in Bezug auf das Entdecken von Signalen (oder Reagierern). Die Assistentenlinie steigt auf der x-Achse ausgehend von dem Punkt an, der dem Anteil der Nicht-Signale im Validierungsdatenset entspricht.

  • Der Graph Lorenz "Schlecht" zeigt den kumulativen Anteil wahr negativer Signale (Spezifizität), die von den unteren x % der Modellpunktwerte beigetragen werden. Hier gilt: Je schneller der Anstieg, umso geringer die Häufigkeit einer falschen Erkennung.
  • Die Dichtekurven zeigen die Dichtefunktion der Variable "Punktwert" im Set "Ereignisse" (Kurvendichte "Gut") und im Set "Nicht-Ereignisse" (Kurvendichte "Schlecht") an. Diese Kurven können auch als "Ableitung" von Lorenz-Kurven betrachtet werden (die Dichtefunktion ist laut Definition die Ableitung der kumulativen Dichtefunktion).

    Die geschätzte Dichtefunktion in einem Selektionsgrad oder Intervall ist gleich:

    (Anzahl der Ereignisse im Intervall/Gesamtanzahl der Ereignisse)/Länge des Intervalls
    • Die Kurve Dichte "Gut" zeigt die Verteilung der Modellpunktwerte für Reagierer/Signale.
    • Die Kurve Dichte "Schlecht" zeigt die Verteilung der Modellpunktwerte für Nicht-Reagierer/Nicht-Signale.
    • Die Kurve Dichte "Alle" zeigt die Verteilung der Modellpunktwerte für Reagierer/Signale UND für Nicht-Reagierer/Nicht-Signale. So können Sie die beiden Verteilungen innerhalb desselben Graphs vergleichen.
  • Die Risikokurven zeigen den Risikopunktwert, die Dichte der Population und das Chancenverhältnis an. Dieses Verhältnis wird wie folgt berechnet:

    (1 - Risikowahrscheinlichkeit)/Risikowahrscheinlichkeit
    • Die Kurve Populationsdichte zeigt die Anzahl der Datensätze in jedem Risikopunktwert-Selektionsgrad (standardmäßig 20) an.
    • Die Kurve Risikowahrscheinlichkeit zeigt die Verteilung der Risikowahrscheinlichkeit für den Risikopunktwert an.
    • Die Kurve Gut/Schlecht-Chancen zeigt die Verteilung des Risikopunktwerts für das Chancenverhältnis an.
    • Die Kurve Log(Good/Bad Odds) zeigt die Verteilung des Risikopunktwerts für das Chancenverhältnis mit einer logarithmischen y-Achse an.
    • Die Kurve Risiko "Alle" zeigt alle drei Risikokurven innerhalb eines Graphs an.
      Hinweis

      Die y-Achse der Wahrscheinlichkeitskurve befindet sich auf der rechten Seite. Die y-Achse der Populationsdichte und der Gut/Schlecht-Chancen befindet sich auf der linken Seite.

Formeln

Der Normalgewinn kann für die binären Ziele anhand der folgenden Formel berechnet werden, wenn h1 die Häufigkeit der seltensten Zielklasse ZK1 (und h2 = 1 - h1 die Wahrscheinlichkeit der häufigsten Zielklasse ZK2) ist. In diesem Fall "verbinden" wir die seltenste Zielklasse mit einem Gewinn gleich h2 und die häufigste Zielklasse mit einem Gewinn gleich -h1. Diese normalisierten Gewinne werden wie folgt ausgewählt: profit(TC1) * proba(TC1) + profit(TC2) * proba(TC2) = 0

Anschließend können wir folgende Berechnung durchführen: normalProfit(C) = Profit(TC2) * P(TC2|C) + Profit(TC1) * P(TC1|C)