Rapports statistiques

Cet écran vous permet de visualiser des tableaux d'analyse détaillés du modèle selon le type de modèle que vous avez généré :

  • Statistiques descriptives (classement/régression, mise en cluster)
  • Performances du modèle (classement/régression, mise en cluster)
  • Détails des clusters (mise en cluster uniquement)
  • Analyse avancée (classement/régression, mise en cluster)
  • Indicateurs de performance (série temporelle)
  • Variables cycliques (série temporelle)
Statistiques descriptives
Variables

Pour chaque variable :

  • son nom (Variable)
  • son type de valeur (Valeur)
  • son type de stockage (Stockage)
  • le nombre de valeurs manquantes dans le jeu de données d'entraînement (Nombre de valeurs manquantes)
  • son rôle dans la modélisation (Rôle)
Fréquence des catégories

Pour chaque variable :

  • Catégories
  • Proportion de chaque catégorie dans le jeu de données complet
Variables continues

Pour chaque variable continue dans chacun des jeux de données :

  • Min
  • Max
  • Moyenne
  • Variance (mesure de la dispersion)
  • Écart-type (mesure de l'étendue de la dispersion des nombres autour de leur moyenne, c'est-à-dire la racine carrée de la variance)

Statistiques croisées avec la cible

Statistiques croisées avec cibles nominales

Statistiques croisées entres les variables d'entrée et les variables cible nominales. C'est à dire, pour chaque variable croisée avec chaque cible nominale :

  • les catégories de variable
  • la proportion de la catégorie non attendue de la variable cible sélectionnée dans chaque catégorie de la variable en cours
  • la proportion de la catégorie cible de la variable cible dans chaque catégorie de la variable en cours
  • la fréquence de chaque catégorie de la variable en cours dans le jeu de données
Statistiques croisées avec cibles continues

Statistiques croisées entre les variables d'entrée et les variables cible continues. C'est à dire, pour chaque variable croisée avec chaque variable cible continue :

  • les catégories de variable
  • la moyenne de la variable cible pour chaque catégorie de la variable en cours
  • la variance de la variable cible pour chaque catégorie de la variable en cours
Performances du modèle
Capacité prédictive et reproductibilité

Pour chaque variable cible dans chacun des jeux de données (estimation, validation, test) :

  • Nom de la variable
  • Valeur de la capacité prédictive
  • Valeur de reproductibilité
Contribution maximale intelligente des variables

Pour chaque variable cible :

  • Variables d'entrée
  • Contribution de chaque variable d'entrée
Autres indicateurs de performance

Pour chaque variable cible dans chacun des jeux de données (estimation, validation, test) :

  • erreur absolue moyenne (L1)
  • erreur quadratique moyenne (L2)
  • erreur maximale (LInf)
  • erreur moyenne (ErrorMean)
  • écart-type de l'erreur (ErrorStdDev)
  • taux de classement (ClassificationRate)
Détails des clusters
Statistiques des clusters pour variables nominales Statistiques croisés standard des clusters avec les variables nominales

Statistiques des clusters pour variables nominales

(normalisées)

Statistiques croisées normalisées des clusters avec les variables nominales
Statistiques des clusters pour variables continues Statistiques croisées des clusters avec les variables continues
Indicateurs KL des clusters

Pour chaque cluster :

  • mesure de Kullback-Leibler entre la population du cluster et la population totale.
    • Le KL (Kullback-Leibler) mesure la différence entre deux distributions. Plus le KL est élevé, plus les distributions sont différentes.
    • Pour un cluster et une dimension (ou variable) donnés, le KL est calculé grâce à la formule suivante :
    • où :
    • N est le nombre de catégories de cette dimension,
    • p i (par rapport à q i) est la proportion dans le cluster par rapport à la population totale de la ième catégorie de la dimension concernée. La proportion d'une catégorie donnée représente son poids dans le poids total du jeu de données concerné (soit le cluster soit la population globale).
    • Le KL est utilisé dans les statistiques croisées pour trier les variables par ordre décroissant.
  • Mesure Khi carré pour chaque variable d'entrée entre la population du cluster et la population totale.
    • Le khi carré est un autre indicateur de la divergence entre la distribution du cluster et la distribution de la population pour cette dimension. Sa valeur représente le niveau de confiance que l'on peut avoir dans l'affirmation selon laquelle les deux distributions sont très différentes.
    • À la différence du KL, il ne fournit pas d'indication sur l'ampleur des différences entre ces distributions. Il permet toutefois d'être sûr que les deux distributions sont différentes lorsque sa valeur est proche de 1. Dans ce cas, nous pouvons considérer que la dimension concernée est réellement discriminative pour ce cluster. Au contraire, une valeur égale à 0 suggère que les deux distributions sont probablement identiques, mais cela reste une probabilité.
Fréquence des clusters

Pour chaque variable cible dans chaque cluster :

  • proportion d'éléments du cluster dans le jeu de données entier
  • proportion dans le cluster de la valeur attendue de la cible ou moyenne de la cible
  • Expressions SQL des clusters

Pour chaque variable cible :

  • expression SQL des clusters, si elle est disponible
Analyse Avancée
Groupes de catégories

Pour chaque variable par rapport à chaque variable cible :

  • Groupes de catégories
  • Proportion de chaque catégorie de la cible pour chaque groupe de la variable
  • Proportion de chaque groupe dans le jeu de données complet
Identifiant des groupes

Pour chaque variable par rapport à chaque variable cible :

  • Catégories

Index du groupe contenant la catégorie actuelle

L'absence d'index signifie que la catégorie n'est pas groupée.

Probabilité d'écart

Pour chaque variable dans chacun des jeux de données :

  • Probabilité d'écart de la variable par rapport à sa valeur dans le jeu de donnée d'estimation
Probabilité d'écart par rapport à la cible

Pour chaque variable dans chacun des jeux de données par rapport à chaque variable cible :

  • Probabilité d'écart de la distribution de la variable par rapport à sa valeur dans le jeu de données d'estimation
Autres indicateurs de performance des variables

Pour chaque variable dans chacun des jeux de données par rapport à chaque variable cible :

  • le K-S (Ks)
  • l'aire sous la courbe ROC (AUC)
  • le coefficient de GINI (GINI)
Codage continu

Pour chaque catégorie de chaque variable par rapport à chacune des variables cible :

  • la valeur de la catégorie
  • la valeur codée correspondante
Taille des jeux de données Nombre d'enregistrements dans chacun des jeux de données (estimation, validation et test)
Indicateurs de performance (pour InfiniteInsight® Modeler/Séries temporelles)
Le panneau... affiche...
Intervalle de prédiction de la prévision

Pour chaque jeu de données :

  • l'intervalle de prédiction de chaque prévision calculée sur l'erreur quadratique (L2).
Efficacité de la prévision

Pour chaque prévision et chaque jeu de donnée :

  • l'efficacité de la prévision calculée sur Pearson au carré (P2), qui décrit la qualité du lien entre le prédicteur et le signal. Une valeur de 1 représente un lien parfait et donc un prédicteur parfait.
Autres indicateurs de performance

Pour chaque prévision et chaque jeu de donnée :

  • le coefficient de qualité (U2) (ratio entre la variance des résidus du prédicteur et la variance du signal) décrit la qualité d'ajustement du modèle au signal. Lorsque sa valeur est égale à 1, l'ajustement est parfait.
  • l'erreur moyenne,
  • l'écart-type de l'erreur.
Variables cycliques

Cycliques et saisonnales :

Pour chaque variable périodique trouvée par le modèle, le graphique affiche un cycle de cette variable.

Remarque

Le nom d'une variable périodique correspond à son cycle. Par exemple, une variable nommée monthOfYear correspond au cycle des mois dans l'année alors qu'une variable nommée 52 correspond à un cycle de 52 unités (l'unité dépendant du signal).