Decir que las variables están correlacionadas implica un cierto nivel de redundancia, que cada una aporta una parte de la misma información respecto a la variable de destino. Dos variables altamente correlacionadas describirían la misma información, o el mismo concepto, en un grado aún superior.
Cuando dos variables A y B están altamente correlacionadas:
- La variable A, con una contribución superior que la B respecto a la variable de destino, se convierte en la "variable primaria": aparece primero en la lista de variables.
- La variable B, con una contribución inferior que la A respecto a la variable de destino, se convierte en la "variable secundaria": solo se visualiza su contribución marginal en la columna Contribución máxima.
Sin embargo, por diferentes motivos (difícil acceso a una de las variables, coste de los datos, etc.), es posible que desee elegir cuál de las variables correlacionadas debe mantenerse. Una vez seleccionadas las variables con la Selección inteligente, puede ver si algunas de las variables seleccionadas está correlacionadas con otras y, a continuación, seleccionar qué variable mantener.
- Para seleccionar la variable correlacionada a mantener
- En la columna r, haga doble clic en el icono destacado correspondiente a la variable correlacionada. Se abre la ventana Correlaciones de variables, que visualiza las variables correlacionadas correspondientes a la variable actual. Obviamente, la variable actual se encuentra en la lista con un coeficiente de correlación de 1.0; el resto de variables correlacionadas con esta variable están listadas en orden descendiente de su coeficiente de correlación.
- Si prefiere utilizar otra variable distinta a la actual, seleccione la casilla Selección correspondiente a la variable que desee y deseleccione la casilla correspondiente a la variable actual.
- También puede seleccionar más de una variable, pero potenciar el uso de una por encima de las otras durante el proceso de modelación seleccionando la casilla Prioridad aumentada.
Nota Una variable con prioridad aumentada está señalizada en la lista de variables con un signo + rojo encima del icono de correlación.