Général

Ordre du polynôme

Les modèles construits par Automated Analytics Modeler - Régression/Classement sont des expressions polynomiales des données d'entrée. Les modèles produisent une estimation de variable cible comme fonction des variables d'entrée X1,X2,...Xn. L'ordre est le degré maximum autorisé dans une telle expression.

Le seul paramètre disponible pour le modèle est l'ordre du polynôme. On commence généralement par un modèle d'ordre 1, puis on avance vers des modèles d'ordre plus élevé. L'ordre du polynôme est limité par :

  • le nombre de variables d'entrée ;
  • la capacité mémoire de l'ordinateur ;
  • le temps accordé à la phase de modélisation.
Description du polynôme

Un polynôme peut être de degré 1, 2, 3 ou plus. En définissant l'ordre du polynôme, vous définissez le degré de complexité du modèle.

Exemples de polynômes
  • Un polynôme de degré 1 a la forme :

    Y = a1.X1 + ... + an.Xn

  • Un polynôme de degré 2 a la forme :

    Y = A1.X1 + ... + An.Xn +

    B1.X1.X1 + B2.X2.X2+ ...Bk.Xn.Xn +

    C1.X1.X2 + ... + Cm.X[n-1].Xn

Méthodologie

Dans la majorité des cas, un polynôme de degré 1 est suffisant pour générer un modèle pertinent et robuste. Utiliser un polynôme de degré plus élevé ne garantit pas forcément de meilleurs résultats que ceux obtenus par un polynôme de degré 1. De plus, plus le degré du polynôme est élevé :

  • plus le modèle correspondant est long à générer ;
  • plus l'application du modèle à de nouveaux jeux de données va prendre de temps ;
  • plus il est difficile d'interpréter les résultats de la modélisation.

La sélection de l'un ou l'autre des degrés du polynôme dépend de la nature des données à analyser. La méthode recommandée est la suivante :

  1. Commencez par créer un modèle avec un degré d'ordre. Dans la grande majorité des cas, ce degré d'ordre sera suffisant pour garantir un modèle pertinent et robuste.
  2. Testez ensuite les résultats ainsi obtenus avec un modèle de degré plus élevé si les performances du modèle de degré 1 semblent insuffisantes.
Nombre de classes pour la variable de score

Cette option vous permet de définir le nombre de classes à créer pour la variable score. La valeur saisie doit être entre 20 et 100 ; en effet un nombre de classe inférieur ou supérieur nuirait à la qualité du modèle.

Exclusion des variables à faible KR

Cette option vous permet d'activer l'exclusion de variables en fonction de la valeur de leur reproductibilité (KR). Pour déterminer si une variable présente une faible reproductibilité, Automated Analytics utilise un seuil calculé en interne qui dépend principalement de la taille du jeu de données et de la distribution de la cible.

L'exclusion automatique des variables à faible reproductibilité est désactivée par défaut. Si vous n'activez pas cette fonctionnalité, aucune variable ne sera exclue à cause de la valeur de sa reproductibilité.

  • Pour exclure automatiquement les variables à faible reproductibilité :
    • Cochez l'option Exclusion des variables à faible reproductibilité.
Poids de référence

La sélection d'une variable de poids vous permet d'utiliser l'option Poids de référence.

La notion de Poids de référence a été ajoutée afin de définir un seuil en dessous duquel une catégorie sera associée à KxOther.

Les rapports statistiques incluent maintenant les informations sur les poids dans les statistiques descriptives et la taille des jeux de données.

  • Pour définir un Poids de référence :
    1. Cochez la case Poids de référence.
    2. Entrez une valeur pour le seuil. La valeur par défaut est 1.
Paramètres des corrélations

Cette option vous permet de paramétrer le nombre de corrélations à afficher dans le panneau de débriefing Corrélations. Autrement dit de choisir combien de corrélations devront être affichées dans ce panneau.

Deux variables hautement corrélées contiennent les mêmes informations par rapport à la variable cible. À chaque corrélation correspondent donc deux variables et un taux de corrélation. Lorsque vous modifiez le nombre de corrélations à afficher, le moteur supprime celles dont le taux de corrélation est le moins élevé, conservant ainsi uniquement les plus significatives.

Post-traitement

Cette section vous permet de paramétrer la régression selon trois stratégies. Cette option ne peut être activée que si le modèle contient au moins une variable cible continue.

Le tableau ci-dessous fournit la description de ces stratégies et un exemple de courbe de performance pour chaque stratégie.

Stratégie de régression

Description

Exemple de courbe de performances

Pas de post-traitement

La première stratégie consiste à désactiver le post-traitement de la régression au cours de la phase du modèle d'apprentissage afin de créer une régression similaire à celle utilisée dans les versions antérieures à 3.3.2.

Dans ce cas, une régression standard est exécutée. Aucune optimisation spécifique n'est appliquée aux scores finaux. Les valeurs cible d'origine sont utilisées et les valeurs de score brutes sont générées en sortie.

Codage original de la cible

La seconde consiste à activer la phase de redressement des prédictions et à utiliser la valeur de la cible directement lors de l'apprentissage du modèle pour calculer les coefficients de régression. Pendant la phase de post-traitement, le résultat de la régression est ensuite transformé afin d'aligner les moyennes des segments du score à celles de la variable cible.

Remarque : C'est la stratégie utilisée par défaut dans Automated Analytics.

Codage uniforme de la cible

La dernière stratégie qui s'applique aux régressions utilisant un post-traitement consiste à utiliser d'abord une valeur cible codée à la place de la valeur cible d'origine lors de la phase d'apprentissage du modèle afin d'obtenir une distribution uniforme : c'est la phase de prétraitement. Ensuite, les coefficients de régression sont calculés et les scores sont convertis dans l'espace d'origine de la cible au cours de la phase de post-traitement.

Remarque : Cette stratégie est à privilégier lorsque la stratégie par défaut ne produit pas des modèles de qualité satisfaisante, ce qui est souvent le cas avec des distributions dissymétriques des valeurs de cible.

  • Régression sans post-traitement
    • Décochez la case Activer le post-traitement.
      Remarque

      Il est impossible de modifier la stratégie de codage cible lorsque le post-traitement est désactivé.

  • Régression utilisant des valeurs cible d'origine
    1. Cochez la case Activer le post-traitement.
    2. Sélectionnez la case d'option Codage d'origine de la cible.
  • Régression utilisant le codage uniforme de la cible
    1. Cochez la case Activer le post-traitement.
    2. Sélectionnez la case d'option Codage uniforme de la cible.
Paramètres des clés cible

La section Définir la valeur des clés cible énumère les variables cible sélectionnées dans l'écran Sélection des variables et permet de choisir leur valeur clé. Pour sélectionner la valeur clé des variables cible, saisissez la valeur dans le champ Clé cible correspondant à chaque cible. Par défaut, la valeur clé paramétrée automatiquement est la catégorie la moins fréquente de la variable cible.