Besondere Einstellungen für die
Regressionsanalyse
Bei dem Funktionstyp Lineare Regression, trainiert das System die Scoring-Funktion auf Daten mit bekannten Zielgrößen. Sie müssen den Wertetyp der Zielgröße als stetig festlegen. Mindestens eines der übrigen Modellfelder muss ebenfalls stetig sein. Für jede Kombination von Werten diskreter Modellfelder, die in den Trainingsdaten vorkommen, definiert das System eine eigene lineare Funktion. Wenn das Modell neben stetigen Feldern z. B. die diskreten Felder „Geschlecht“ und „Region“ besitzt, die in den Trainingsdaten die Werte „m“/“w“, oder „Norden“/„Mitte“/„Süden“ annehmen, dann wird für jede der Kombinationen (m, Norden), (m, Mitte), (m, Süden), (w, Norden), (w, Mitte), (w, Süden), für die Daten in der Trainingsmenge vorkommen, eine eigene lineare Funktion definiert. Um Kombinationen mit nur wenigen Datensätzen auszuschließen, können Sie den Modellparameter Mindestanzahl der Sätze nutzen. Wenn Sie diesen Parameter z. B. auf 100 setzen und 200 Trainingsdatensätze mit (m, Norden) und 50 mit (m, Mitte) existieren, dann wird nur für (m, Norden) aber nicht für (m, Mitte) eine lineare Regression durchgeführt, da letztere unter der Mindestanzahl liegt. Alle Datensätze mit (m, Mitte) liegen dann außerhalb des Definitionsbereiches (der Domäne) der trainierten Funktion. Wenn Sie das Kennzeichen Daten außerhalb der trainierten Domäne ignorieren markieren, dann wird für solche Datensätze kein Scorewert berechnet. Andernfalls wird ihnen der Standard-Scorewert zugewiesen
Bei den Parametern der Modellfelder können Sie für diskrete Felder festlegen, ob nur spezielle Werte, die häufigsten oder alle Werte berücksichtigt werden sollen. Für stetige Felder können Sie die beiden Grenzen eines Wertebereiches explizit festlegen oder durch Wahl der Option Gesamter Datenbereich automatisch festlegen lassen. Im letzten Fall werden die Grenzen durch Aufrundung des Maximums und Abrundung des Minimums der Werte des Feldes in den Trainingsdaten bestimmt. Bei einer Anwendung der Funktion auf andere Daten können also auch Werte außerhalb dieses Bereiches auftreten. Diese werden dann als Ausreißer behandelt.
Beim Funktionstyp Nichtlineare Regression (realisiert über multilineare Splines) wird für jede Kombination von Werten diskreter Modellfelder, die in den Trainingsdaten vorkommen, eine eigene multilineare Spline-Funktion definiert.
Wie bei der linearen Regression müssen Sie den Wertetyp der Zielgröße und mindestens eines weiteren Modellfeldes als stetig festlegen. Um eine Überanpassung der Funktion in Bereichen mit geringer Datendichte der Trainingsmenge zu vermeiden, können Sie den Modellparameter Glättungsfaktor anwenden. Je größer der Glättungsfaktor ist, desto stärker wird die Funktion in Bereichen mit geringer Datendichte geglättet.
Wie bei der linearen Regression können Sie für diskrete Modellfelder festlegen, ob das System nur spezielle Werte, die häufigsten oder alle Werte berücksichtigen soll. Die Wertebereiche von stetigen Modellfeldern müssen Sie in Intervalle aufteilen. Hierzu können Sie die beiden äußersten Intervallgrenzen wie bei der linearen Regression automatisch bestimmen lassen oder explizit angeben. In diesen äußeren Grenzen können Sie dann die gewünschte Anzahl von gleich großen Intervallen festlegen. Alternativ können Sie die Intervallgrenzen in diesen äußeren Grenzen explizit eingeben.
Mit der Anzahl der Intervalle nimmt die Fähigkeit der Funktion zu, sich an nichtlineare Daten anzupassen. Gleichzeitig bedeutet eine höhere Anzahl der Intervalle auch einen erhöhten Rechenaufwand. Mit der Zahl der Modellfelder wächst die Komplexität der Berechnung wesentlich stärker als bei der linearen Regression. Daher sind der Anwendung der nichtlinearen Regression engere Grenzen gesetzt.