Die x-Achse zeigt einen Prozentanteil der initialen Population; die y-Achse bildet den Prozentanteil des maximal erwarteten Gewinns (einschließlich aller im Bild "Gewinnstrategie" festgelegten Kosten-/Gewinnhypothesen) ab.
Sie haben die Möglichkeit, nur die Validierungskurve (Standard) oder die Kurven aus allen drei Teildatensets anzuzeigen. Über die Drucktaste Alle Datensets anzeigen können Sie Kurven aus den Teildatensets "Schätzung", "Validierung" und "Test" auswählen.
Über das Aktionsmenü Modelle können Sie auswählen, für welche Zielvariable die Kurven angezeigt werden sollen.
Die Symbolleiste unterhalb des Titels bietet Optionen zum Kopieren der Koordinaten in die Zwischenablage, zum Drucken des Diagramms und zum Sichern des Diagramms im PNG-Format.
Über das Aktionsmenü Auswertungstyp können Sie auswählen, welche Art von Diagramm angezeigt werden soll. Bei Auswahl von Beobachtet (Standard) wird die normale Gewinnkurve angezeigt, bei Auswahl von Standardisiert eine Gewinnkurve mit einem Mittelwert von 0. Mit Lift können Sie den Unterschied zwischen einem perfekten Modell und einem Zufallsmodell sowie zwischen einem von SAP Predictive Analytics generierten Modell und einem Zufallsmodell untersuchen.
Die Benutzerdefinierte Gewinnkurve ermöglicht die Angabe einer Kostenposition für die Nicht-Zielkategorie (z.B. Mailing-Kosten für einen Nicht-Reagierer) und einer Gewinnposition für die Zielkategorie (z.B. Kauf durch einen Reagierer).
Neben den oben aufgeführten Standardmodellgraphen werden eine Reihe erweiterter Modellgraphen bereitgestellt:
Der ROC-Graph stammt ursprünglich aus der Signalentdeckungstheorie.
Der Graph stellt dar, wie gut ein Modell bei Änderung der Erkennungsschwelle hinsichtlich des Kompromisses zwischen Sensitivität und Spezifizität bzw. eigentlich zwischen richtiger und falscher Erkennung unterscheidet.
Die Sensitivität, die auf der y-Achse angezeigt wird, ist der Anteil der gefundenen RICHTIG identifizierten Signale (wahr positive Signale) an allen wahr positiven Signalen im Validierungsdatenset.
Die [1-Spezifizität], die auf der x-Achse angezeigt wird, ist der Anteil der erfolgten FALSCHEN Zuordnungen zu der Signalklasse (falsch positive Signale) an allen falsch positiven Signalen im Validierungsdatenset. (Die Spezifizität ist im Gegensatz zu der [1-Spezifizität] der Anteil der RICHTIGEN Zuordnungen zu der Klasse der NICHT-SIGNALE, d.h. der wahr negativen Signale.)
Der Graph Lorenz "Gut" zeigt den kumulativen Anteil nicht entdeckter Signale (falsch negativer Signale), die von den Datensätzen, die den unteren x % der Modellpunktwerte entsprechen, beigetragen werden.
Die y-Achse misst die [1-Sensitivität], d.h. [1 - den Anteil der richtig positiven Signale], die dem Anteil der nicht entdeckten Signale oder verlorenen Chancen entspricht. Da die Daten so angeordnet sind, dass die Datensätze, die mit geringster Wahrscheinlichkeit Signale darstellen, ganz links, und die Datensätze, die mit höchster Wahrscheinlichkeit Signale darstellen, ganz rechts angezeigt werden, gilt: Je langsamer der Anstieg, umso höher die Sensitivität des Modells in Bezug auf das Entdecken von Signalen (oder Reagierern). Die Assistentenlinie steigt auf der x-Achse ausgehend von dem Punkt an, der dem Anteil der Nicht-Signale im Validierungsdatenset entspricht.
Die Dichtekurven zeigen die Dichtefunktion der Variable "Punktwert" im Set "Ereignisse" (Kurvendichte "Gut") und im Set "Nicht-Ereignisse" (Kurvendichte "Schlecht") an. Diese Kurven können auch als "Ableitung" von Lorenz-Kurven betrachtet werden (die Dichtefunktion ist laut Definition die Ableitung der kumulativen Dichtefunktion).
Die geschätzte Dichtefunktion in einem Selektionsgrad oder Intervall ist gleich:
Die Risikokurven zeigen den Risikopunktwert, die Dichte der Population und das Chancenverhältnis an. Dieses Verhältnis wird wie folgt berechnet:
Die y-Achse der Wahrscheinlichkeitskurve befindet sich auf der rechten Seite. Die y-Achse der Populationsdichte und der Gut/Schlecht-Chancen befindet sich auf der linken Seite.
Der Normalgewinn kann für die binären Ziele anhand der folgenden Formel berechnet werden, wenn h1 die Häufigkeit der seltensten Zielklasse ZK1 (und h2 = 1 - h1 die Wahrscheinlichkeit der häufigsten Zielklasse ZK2) ist. In diesem Fall "verbinden" wir die seltenste Zielklasse mit einem Gewinn gleich h2 und die häufigste Zielklasse mit einem Gewinn gleich -h1. Diese normalisierten Gewinne werden wie folgt ausgewählt: profit(TC1) * proba(TC1) + profit(TC2) * proba(TC2) = 0
Anschließend können wir folgende Berechnung durchführen: normalProfit(C) = Profit(TC2) * P(TC2|C) + Profit(TC1) * P(TC1|C)