Auswählen der korrelierten Variablen

Damit Variablen als korreliert bezeichnet werden können, muss ein gewisser Grad an Redundanz vorliegen, d.h., jede der betreffenden Variablen muss eine bestimmte Menge identischer Informationen zur Zielvariable beitragen. Zwei als hochgradig korreliert bezeichnete Variablen beschreiben in einem noch größeren Umfang dieselben Informationen oder dasselbe Konzept.

Wenn zwei Variablen (A und B) hochgradig korreliert sind, gilt Folgendes:

  • Variable A, deren Beitrag in Bezug auf die Zielvariable größer ist als der Beitrag von B, wird zur "primären Variable": Sie ist in der Variablenliste an erster Stelle aufgeführt.
  • Variable B, deren Beitrag in Bezug auf die Zielvariable kleiner ist als der Beitrag von A, wird zur "sekundären Variable": In der Spalte Höchstbeitrag wird nur ihr marginaler Beitrag angezeigt.

Möglicherweise möchten Sie jedoch selbst bestimmen, welche der korrelierten Variablen beibehalten werden soll. Dies kann aus unterschiedlichen Gründen erforderlich sein (schwieriger Zugriff auf eine der Variablen, Kosten der Daten usw.). Nachdem die Variablen über die Intelligente Auswahl ausgewählt wurden, können Sie erkennen, ob einige der Variablen mit anderen Variablen korreliert sind. Anschließend können Sie festlegen, welche Variable beibehalten werden soll.

  • Beizubehaltende korrelierte Variable auswählen
    1. Doppelklicken Sie in der Spalte r auf das hervorgehobene Symbol für die korrelierte Variable. Im Fenster Variablenkorrelationen werden die korrelierten Variablen zu der aktuellen Variable angezeigt. Die aktuelle Variable ist deutlich erkennbar mit einem Korrelationskoeffizienten von 1,0 aufgeführt, die übrigen mit dieser Variable korrelierten Variablen sind in absteigender Reihenfolge nach ihrem Korrelationskoeffizienten aufgelistet.
    2. Wenn Sie anstelle der aktuellen Variable lieber eine andere Variable verwenden möchten, markieren Sie das Ankreuzfeld Auswahl für diese Variable, und entmarkieren Sie das Ankreuzfeld für die aktuelle Variable.
    3. Sie können auch mehrere Variablen auswählen und festlegen, dass eine dieser Variablen während des Modellierungsprozesses bevorzugt verwendet werden soll. Dazu markieren Sie das Ankreuzfeld Erhöhte Priorität für die betreffende Variable.
      Hinweis

      Eine Variable mit erhöhter Priorität ist in der Variablenliste durch ein rotes +-Zeichen über dem Korrelationssymbol gekennzeichnet.