Mit Automated Analytics Modeler – Regression/Klassifikation erstellte Modelle stellen polynomielle Ausdrücke der Eingaben dar. Die Modelle erzeugen eine Zielvariablenschätzung als Funktion der Eingabevariablen X1, X2 ... Xn. Die Ordnung ist der in einem solchen Ausdruck erlaubte Höchstgrad.
Der einzige für das Modell verfügbare Parameter ist die Polynomordnung. In der Regel wird mit einem Modell der Ordnung 1 begonnen und dann mit einem Modell einer höheren Ordnung fortgefahren. Die Polynomordnung ist durch Folgendes beschränkt:
Ein Polynom kann den Grad 1, 2, 3 oder höher besitzen. Durch die Definition des Polynomgrads legen Sie den Komplexitätsgrad des Modells fest.
Y = a1.X1 + ... + an.Xn
Y = A1.X1 + ... + An.Xn +
B1.X1.X1 + B2.X2.X2+ ...Bk.Xn.Xn +
C1.X1.X2 + ... + Cm.X[n-1].Xn
Im größten Teil der Fälle ist ein Polynom des ersten Grads ausreichend, um ein aussagekräftiges und robustes Modell zu erstellen. Bei Verwendung eines Polynoms eines höheren Grads ist nicht immer gewährleistet, dass dadurch bessere Ergebnisse erzielt werden als mit einem Polynom des ersten Grads. Darüber hinaus gilt: Je höher der gewählte Polynomgrad,
Die Auswahl des geeigneten Polynomgrads ist von der Art der zu analysierenden Daten abhängig. Die empfohlene Vorgehensweise lautet wie folgt:
Mit dieser Option können Sie die Anzahl der Selektionsgrade definieren, die für den Punktwert angelegt werden sollen. Der festgelegte Wert muss zwischen 20 und 100 liegen, da eine niedrigere oder höhere Anzahl Selektionsgrade eine mangelhafte Modellqualität zur Folge hätte.
Mit dieser Option können Sie Variablen mit einer bestimmten Prognosekonfidenz (KR) ausschließen. Automated Analytics entscheidet anhand eines intern berechneten Schwellenwerts, ob eine Variable eine niedrige Prognosekonfidenz besitzt. Dieser Schwellenwert ist hauptsächlich von der Datensetgröße und der Zielverteilung abhängig.
Die Option, Variablen mit niedriger Prognosekonfidenz automatisch auszuschließen, ist standardmäßig deaktiviert. Wenn Sie diese Funktion nicht aktivieren, wird keine Variable aufgrund ihrer Prognosekonfidenz ausgeschlossen.
Durch Auswahl einer Gewichtungsvariable können Sie das Gewichtungsquantum festlegen.
Der Aspekt des Gewichtungsquantums wurde hinzugefügt, damit ein Schwellenwert definiert werden kann, unterhalb dessen eine Kategorie KxOther zugeordnet wird.
Die Statistischen Berichte umfassen jetzt unter Beschreibende Statistik zu Variablen und unter Datensetgröße Informationen zu den Gewichtungen.
In diesem Abschnitt können Sie die Parameter für den Auswertungsbereich Korrelation festlegen. Das heißt, Sie können auswählen, wie viele Korrelationen in diesem Bereich angezeigt werden sollen.
Damit Variablen als korreliert bezeichnet werden können, muss jede der betreffenden Variablen eine bestimmte Menge identischer Informationen zur Zielvariable beitragen. Eine Korrelation enthält jeweils zwei Variablen und eine Korrelationsrate. Wenn Sie die Anzahl der anzuzeigenden Korrelationen ändern, schließt die Engine die Korrelationen mit der niedrigsten Korrelationsrate aus und behält nur die signifikanteren Korrelationen bei.
In diesem Abschnitt können Sie einige Regressionsparameter für drei verschiedene Regressionsstrategien festlegen. Diese Option kann nur aktiviert werden, wenn das Modell mindestens eine stetige Zielvariable enthält.
Die Beschreibung dieser Strategien und ein Beispiel der Performance-Kurve für die einzelnen Strategien finden Sie in der folgenden Tabelle.
Regressionsstrategie
|
Beschreibung |
Beispiel der Performance-Kurve |
|---|---|---|
| Ohne Nachbearbeitung | Die erste Strategie besteht darin, die Regressionsnachbearbeitung während der Lernphase des Modells zu deaktivieren, um eine Regression zu erzeugen, die derjenigen ähnelt, die in den Versionen vor 3.3.2 verwendet wurde. In diesem Fall wird eine Standardregression durchgeführt. Es erfolgt keine besondere Verbesserung der endgültigen Punktwerte. Es werden die ursprünglichen Zielwerte verwendet, und als Ausgabe werden Roh-Punktwerte erzeugt. |
![]() |
| Mit ursprünglicher Zielkodierung | Die zweite Strategie, die auf Regressionen mit Nachbearbeitung angewendet wird, besteht darin, während der Lernphase des Modells den ursprünglichen Zielwert zur Berechnung der Regressionskoeffizienten zu verwenden. Das Ergebnis der Regression wird anschließend so transformiert, dass in der Nachbearbeitungsphase die Zielsegment-Mittelwerte und die Punktwertsegment-Mittelwerte aneinander angepasst werden. Hinweis: Dies ist die in Automated Analytics verwendete Standardstrategie. |
![]() |
| Mit einheitlicher Zielkodierung | Die letzte Strategie, die auf Regressionen mit Nachbearbeitung angewendet wird, besteht darin, während der Lernphase des Modells zunächst einen kodierten Zielwert anstelle des ursprünglichen Zielwerts zu verwenden, um eine einheitliche Verteilung zu erhalten: Es handelt sich hierbei um die Vorverarbeitungsphase. In der Nachbearbeitungsphase werden dann die Regressionskoeffizienten berechnet und die Punktwerte im ursprünglichen Zielraum transformiert. Hinweis: Diese Strategie ist vorzuziehen, wenn die Standardstrategie keine Modelle mit ausreichender Qualität erzeugt. Dies ist häufig der Fall bei stark asymmetrischen Zielverteilungen.
|
![]() |
Bei deaktivierter Nachbearbeitung ist es nicht möglich, die Zielkodierungsstrategie zu ändern.
Im Abschnitt Zielschlüsselwert festlegen sind die im Bild Auswahl von Variablen ausgewählten Zielvariablen aufgelistet. Hier ist die Auswahl des entsprechenden Schlüsselwerts möglich. Um den Schlüsselwert für die Zielvariablen auszuwählen, geben Sie den Wert in das zum jeweiligen Ziel gehörende Feld Zielschlüssel ein. Der Schlüsselwert wird standardmäßig automatisch auf die seltenste Kategorie der Zielvariable festgelegt.