Les modèles construits par Automated Analytics Modeler - Régression/Classement sont des expressions polynomiales des données d'entrée. Les modèles produisent une estimation de variable cible comme fonction des variables d'entrée X1,X2,...Xn. L'ordre est le degré maximum autorisé dans une telle expression.
Le seul paramètre disponible pour le modèle est l'ordre du polynôme. On commence généralement par un modèle d'ordre 1, puis on avance vers des modèles d'ordre plus élevé. L'ordre du polynôme est limité par :
Un polynôme peut être de degré 1, 2, 3 ou plus. En définissant l'ordre du polynôme, vous définissez le degré de complexité du modèle.
Y = a1.X1 + ... + an.Xn
Y = A1.X1 + ... + An.Xn +
B1.X1.X1 + B2.X2.X2+ ...Bk.Xn.Xn +
C1.X1.X2 + ... + Cm.X[n-1].Xn
Dans la majorité des cas, un polynôme de degré 1 est suffisant pour générer un modèle pertinent et robuste. Utiliser un polynôme de degré plus élevé ne garantit pas forcément de meilleurs résultats que ceux obtenus par un polynôme de degré 1. De plus, plus le degré du polynôme est élevé :
La sélection de l'un ou l'autre des degrés du polynôme dépend de la nature des données à analyser. La méthode recommandée est la suivante :
Cette option vous permet de définir le nombre de classes à créer pour la variable score. La valeur saisie doit être entre 20 et 100 ; en effet un nombre de classe inférieur ou supérieur nuirait à la qualité du modèle.
Cette option vous permet d'activer l'exclusion de variables en fonction de la valeur de leur reproductibilité (KR). Pour déterminer si une variable présente une faible reproductibilité, Automated Analytics utilise un seuil calculé en interne qui dépend principalement de la taille du jeu de données et de la distribution de la cible.
L'exclusion automatique des variables à faible reproductibilité est désactivée par défaut. Si vous n'activez pas cette fonctionnalité, aucune variable ne sera exclue à cause de la valeur de sa reproductibilité.
La sélection d'une variable de poids vous permet d'utiliser l'option Poids de référence.
La notion de Poids de référence a été ajoutée afin de définir un seuil en dessous duquel une catégorie sera associée à KxOther.
Les rapports statistiques incluent maintenant les informations sur les poids dans les statistiques descriptives et la taille des jeux de données.
Cette option vous permet de paramétrer le nombre de corrélations à afficher dans le panneau de débriefing Corrélations. Autrement dit de choisir combien de corrélations devront être affichées dans ce panneau.
Deux variables hautement corrélées contiennent les mêmes informations par rapport à la variable cible. À chaque corrélation correspondent donc deux variables et un taux de corrélation. Lorsque vous modifiez le nombre de corrélations à afficher, le moteur supprime celles dont le taux de corrélation est le moins élevé, conservant ainsi uniquement les plus significatives.
Cette section vous permet de paramétrer la régression selon trois stratégies. Cette option ne peut être activée que si le modèle contient au moins une variable cible continue.
Le tableau ci-dessous fournit la description de ces stratégies et un exemple de courbe de performance pour chaque stratégie.
Stratégie de régression
|
Description |
Exemple de courbe de performances |
|---|---|---|
| Pas de post-traitement | La première stratégie consiste à désactiver le post-traitement de la régression au cours de la phase du modèle d'apprentissage afin de créer une régression similaire à celle utilisée dans les versions antérieures à 3.3.2. Dans ce cas, une régression standard est exécutée. Aucune optimisation spécifique n'est appliquée aux scores finaux. Les valeurs cible d'origine sont utilisées et les valeurs de score brutes sont générées en sortie. |
![]() |
| Codage original de la cible | La seconde consiste à activer la phase de redressement des prédictions et à utiliser la valeur de la cible directement lors de l'apprentissage du modèle pour calculer les coefficients de régression. Pendant la phase de post-traitement, le résultat de la régression est ensuite transformé afin d'aligner les moyennes des segments du score à celles de la variable cible. Remarque : C'est la stratégie utilisée par défaut dans Automated Analytics. |
![]() |
| Codage uniforme de la cible | La dernière stratégie qui s'applique aux régressions utilisant un post-traitement consiste à utiliser d'abord une valeur cible codée à la place de la valeur cible d'origine lors de la phase d'apprentissage du modèle afin d'obtenir une distribution uniforme : c'est la phase de prétraitement. Ensuite, les coefficients de régression sont calculés et les scores sont convertis dans l'espace d'origine de la cible au cours de la phase de post-traitement. Remarque : Cette stratégie est à privilégier lorsque la stratégie par défaut ne produit pas des modèles de qualité satisfaisante, ce qui est souvent le cas avec des distributions dissymétriques des valeurs de cible.
|
![]() |
Il est impossible de modifier la stratégie de codage cible lorsque le post-traitement est désactivé.
La section Définir la valeur des clés cible énumère les variables cible sélectionnées dans l'écran Sélection des variables et permet de choisir leur valeur clé. Pour sélectionner la valeur clé des variables cible, saisissez la valeur dans le champ Clé cible correspondant à chaque cible. Par défaut, la valeur clé paramétrée automatiquement est la catégorie la moins fréquente de la variable cible.