Sélection de variables

Pour être incluse dans un processus de modelage, une variable doit être affectée à un des rôles décrit ci-dessous. Les variables sont explicatives par défaut sauf si vous les affectez à une cible ou un rôle de poids ou que vous choisissez de les exclure.

Table 1 : Rôles des variables dans le processus de modelage
Rôle de la variable Définition
Variable explicative

Une variable explicative est utilisée pour calculer le modèle.

Variables cible

La variable cible est celle que vous cherchez à expliquer ou dont vous voulez prédire les valeurs dans un jeu de données d'application.

Variable de poids

Une variable de poids attribue un poids relatif à chaque ligne qu'il décrit et permet d'orienter activement la phase d'entraînement du processus de modélisation. Lorsque vous déclarez une variable de poids, vous créez une nouvelle ligne proportionnelle à chaque valeur décrite par la valeur initiale.

Par exemple, dans un jeu de données contenant les commandes d'achat avec indication de la quantité d'articles achetés, si un client achète une blouse et trois jupes, la ligne contenant la blouse est traitée comme occurrence simple, mais la ligne concernant l'achat des jupes est dupliquée pour créer trois lignes au lieu d'une. Cela donne à la commande d'achat des jupes un poids reflétant son importance relative dans le jeu de données de manière plus réaliste que son occurrence simple précédente.

Vous remarquerez que lorsque la valeur pour la variable de poids est manquante, l'application ignore la ligne. L'application ne permet pas d'utiliser une variable pour laquelle les valeurs multiples sont manquantes.
Variables exclues

Vous pouvez choisir d'exclure certaines variables de la phase de modélisation. L'exclusion des colonnes qui n'ont pas d'influence sur les variables cible, comme un numéro de compte, peut accélérer l'exécution tout en les conservant. Cela n'interfère pas avec le processus de modélisation.

Cependant, vous devez exclure les variables qui sont directement liées aux variables cible, telles que les transformations de variables cible et les variables contenant indirectement les mêmes informations que la variable cible. Par exemple, si un jeu de données contient la variable "a acheté le produit Oui/Non", vous devez exclure la variable "Montant de la facture" si elle contient le prix du produit.