Auswählen von Variablen

Um mit in den Modellierungsprozess eingeschlossen zu werden, muss einer Variable eine der unten beschriebenen Rollen zugeordnet werden. Standardmäßig sind die Variablen erklärend, es sei denn, Sie ordnen ihnen eine Ziel- oder Gewichtungsrolle zu, oder Sie schließen sie aus.

Tabelle 1: Rollen der Variablen im Modellierungsprozess
Variablenrolle Definition
Erklärende Variable

Erklärende Variable, die zur Berechnung des Modells verwendet wird

Zielvariable

Variable, die Sie erklären oder für die Sie die Werte in einem Anwendungsdatenset prognostizieren wollen

Gewichtungsvariable

Ordnet allen Zeilen eine relative Gewichtung zu und erlaubt Ihnen, die Trainingsphase des Modellierungsprozesses aktiv auszurichten. Wenn Sie eine Gewichtungsvariable deklarieren, legen Sie proportional zu jedem durch die initiale Variable beschriebenen Wert eine neue Zeile an.

Beispiel: Sie haben ein Datenset, das Bestellungen mit der Anzahl gekaufter Positionen enthält. Wenn ein Kunde ein Hemd und drei Röcke kauft, wird die Zeile mit dem Hemd als einzelnes Vorkommen betrachtet; die Zeile für den Kauf der Röcke wird allerdings dupliziert, um drei Zeilen anstatt einer zu erhalten. Hierdurch erhält die Bestellung der Röcke eine Gewichtung, die deren relative Signifikanz im Datenset realistischer darstellt, als das vorherige einzelne Vorkommen.

Beachten Sie, dass die Anwendung die Zeile verwirft, wenn der Wert für die Gewichtungsvariable fehlt. Die Anwendung erlaubt nicht, eine Variable zu verwenden, bei der mehrere Werte fehlen.
Ausgeschlossene Variable

Variablen können aus dem Modellierungsprozess ausgeschlossen werden. Das Ausschließen von Spalten, die keinen Einfluss auf die Zielvariablen haben (z.B. "Kontonummer"), kann den Prozess beschleunigen. Solche Spalten einzubeziehen beeinträchtigt den Modellierungsprozess jedoch nicht.

Sie müssen Variablen ausschließen, die direkt mit den Zielvariablen verbunden sind, z.B. Transformationen der Zielvariablen und Variablen, die indirekt dieselben Informationen wie die Zielvariable enthalten. Wenn ein Datenset beispielsweise die Variable "Hat das Produkt gekauft Ja/Nein" enthält, müssen Sie die Variable "Rechnungsbetrag" ausschließen, wenn sie die Kosten für das Produkt enthält.