Dire que des variables sont corrélées signifie qu'elles sont en partie redondantes, qu'elles apportent partiellement la même information par rapport à la variable cible. Deux variables dites hautement corrélées décriraient la même information, ou le même concept, à un degré encore plus élevé.
Quand deux variables A et B sont fortement corrélées :
- La variable A, avec une contribution supérieure à la variable B par rapport à la variable cible, devient la "variable primaire" : elle apparait en premier dans la liste des variables.
- La variable B, avec une contribution inférieure à la variable A par rapport à la variable cible, devient la "variable secondaire" : seule sa contribution marginale est affichée dans la colonne Contribution max.
Cependant, plusieurs raisons, telles que la difficulté d'obtenir certaines variables ou le prix d'achat des données, peuvent vous pousser à choisir quelle variable doit être considérée comme la variable primaire. Une fois que les variables les plus importantes ont été sélectionnées à l'aide de la sélection intelligente, vous pouvez choisir parmi les variables corrélées à celles sélectionnées celles à conserver.
- Pour sélectionner les variables corrélées à utiliser :
- Dans la colonne r, cliquez deux fois sur l'icône colorée correspondant à la variable. La fenêtre Corrélations s'ouvre affichant une liste des variables corrélées à la variable en cours. La variable en cours est visiblement répertoriée avec un coefficient de corrélation de 1.0, les autres variables corrélées à cette variable sont listées par ordre décroissant du coefficient de corrélation.
- Si vous préférez utiliser une autre variable que celle en cours, cochez la case Sélection correspondant à cette variable et décochez celle pour la variable en cours.
- Vous pouvez également sélectionner plusieurs variables mais privilégier l'utilisation de l'une par rapport à l'autre lors de la modélisation en cochant la case Priorité augmentée.
Remarque La priorité augmentée est signalée dans la liste des variables par un + rouge sur l'icône de corrélation.