Options de génération

En fonction de votre sélection dans la liste Générer, les données générées contiendront (en plus de toutes les variables clés) les éléments ci-dessous :

Classement/Régression
Si vous choisissez l'option... les données générées contiendront dans chaque ligne...
Valeur prédite Uniquement la valeur prédite des observations (rr_TargetVariableName)
Probabilité
  • la valeur prédite
  • la probabilité (proba_rr_TargetVariableName)
  • les intervalles de prédiction (bar_rr_TargetVariableName)
Contributions individuelles
  • la valeur prédite
  • la probabilité
  • l'intervalle de prédiction
  • les contributions des variables (contrib_VariableName_rr_TargetVariableName)
Décision
  • la valeur prédite
  • la décision (decision_rr_TargetVariableName)
  • la probabilité de la décision (proba_decision_rr_TargetVariableName)
  • la probabilité

En sélectionnant l'option Décision dans la liste déroulante Générer, vous pouvez spécifier le nombre d'observations que le modèle doit détecter après l'application du nouveau jeu de données.

Paramètres avancés Cette option vous permet de sélectionner les données de sortie qui figureront dans le fichier de résultats.
Utiliser l'application directe dans la base de données Lorsque cette option est cochée, le mode optimisé Application in-database sera utilisé et les données seront générées directement dans la base de données.
Ajouter un écart de score Cette option vous permet de vérifier, pour chaque variable et chaque catégorie de variable, les écarts entre le modèle et le jeu de données d'entrée utilisé pour l'application du modèle.

Mode Application in-database

Ce mode optimisé permet d'appliquer le modèle directement dans la base de données. Cela évite d'avoir à extraire les données de la base de données et accélère le processus d'écriture des données de sortie du modèle. Ce mode peut être utilisé si toutes les conditions suivantes sont remplies :

  • Le jeu de données d'application (table, vue, requête, manipulation de données) et les résultats du jeu de données sont des tables provenant de la même base de données.
  • Le jeu de données d'apprentissage utilisé pour créer le modèle contient au moins une variable déclarée comme clé.
  • Le mode Application in-database est activé.
  • Vous avez les droits de lecture et d'écriture dans la base de données.
  • Vous possédez une licence de générateur de codes valide pour la base de données.
  • Aucune erreur ne s'est produite.

Lorsque vous cochez l'option Utiliser l'application directe dans la base de données, l'option Ajouter les scores d'écart est automatiquement cochée.

Mise en cluster
Si vous choisissez l'option... les données générées contiendront dans chaque ligne...
Valeur prédite
  • la valeur de la cible
  • le numéro du cluster contenant l'observation actuelle
Codage disjonctif des numéros de clusters
  • la valeur de la cible
  • le numéro du cluster contenant l'observation actuelle

le codage disjonctif des numéros de clusters,

c'est-à-dire que pour chaque cluster une variable booléenne indiquant si l'observation appartient à ce cluster (valeur 1) ou non (valeur 0) est créée.

Codage disjonctif et recopie des var. explicatives
  • la valeur de la cible
  • le numéro du cluster contenant l'observation actuelle

le codage disjonctif des numéros de clusters (voir ci-dessus)

c'est-à-dire que pour chaque cluster une variable booléenne indiquant si l'observation appartient à ce cluster (valeur 1) ou non (valeur 0) est créée.

  • le numéro du segment contenant l'observation courante
Moyenne de la cible pour les clusters
  • la valeur de la cible
  • le numéro du cluster contenant l'observation actuelle
  • la moyenne de la cible pour le cluster contenant l'observation actuelle
Codage textuel
Si vous choisissez l'option... les données générées contiendront dans chaque ligne...
Codage vectoriel

Toutes les colonnes présentes dans le jeu de données d'origine.

Et pour chaque champ textuel :

  • une colonne est créée pour chaque racine identifiée par le modèle. Si la racine est présente dans l'enregistrement, la valeur de la colonne est 1, sinon elle est de 0.
  • une colonne indique le nombre d'éléments reconnus par l'encodage textuel dans cet enregistrement,
  • une colonne indique le nombre de racines distinctes trouvées dans l'enregistrement.
Reconnaissance de la langue

Pour chaque champ textuel :

  • une colonne indique la langue reconnue par l'encodage textuel pour cet enregistrement. Elle contient le code ISO de la langue ou est vide si aucune langue n'est reconnue.
Mode transactionnel
  • une colonne pour chaque racine identifiée
  • une colonne contenant la clé de l'enregistrement original
  • une colonne contenant l'indice de la racine actuelle dans le champ textuel
  • une colonne indiquant de quel champ textuel la racine est extraite
  • une colonne contenant la racine actuelle

Ce mode transforme chaque enregistrement en une série de transactions, créant ainsi un jeu de données utilisable dans l'analyseur de séquences.

Générer seulement les racines

Pour chaque champ textuel :

  • une colonne est créée pour chaque racine identifiée par le modèle. Si la racine est présente dans l'enregistrement, la valeur de la colonne est 1, sinon elle est de 0.
  • une colonne indique le nombre d'éléments reconnus par l'encodage textuel dans cet enregistrement,
  • une colonne indique le nombre de racines distinctes trouvées dans l'enregistrement.
Pour un modèle Social

Options de génération

Si vous choisissez l'option... les données générées contiendront dans chaque nœud...
Mode par défaut
  • toutes les informations disponibles au niveau du nœud et de ses voisins
Mode cercle
  • le nombre de voisins
  • des informations supplémentaires sur les voisins si elles sont disponibles
  • la moyenne des attributs des voisins
Mode centralité
  • une évaluation de la centralité du nœud en analysant sa mise en cluster locale et le nombre de ses voisins
Mode voisinage
  • une liste de tous les voisins du nœud et des informations supplémentaires sur eux
Mode description
  • la liste des informations disponibles pour ce nœud
Mode communauté
  • des informations sur la communauté à laquelle le nœud appartient et sur son rôle
Mode appariement
  • des informations sur sa présences dans les graphes et sur ses voisins (nombre de voisins, rapport common_neighbors/average_neighbors_count)
Paramètres avancés
  • des informations sélectionnées par l'utilisateur (classe du nœud, nombre de triangles, informations sur les voisins, index de la communauté, rôle du nœud dans la communauté, etc.).

Note sur le jeu de données d'application

Pour pouvoir appliquer un modèle social sur un jeu de données, celui-ci doit contenir les variables suivantes :

  • une variable pour chaque population, par exemple une pour les clients et une pour les produits.
  • la variable kxComIndex contenant les identifiants de communautés. Il doit s'agir d'un entier nominal.

    Cette variable vous permet d'appliquer le modèle sur les graphes de communautés (détection des communautés voisines, liste des nœuds d'une communauté, statistiques agrégées, ...) Vous pouvez utiliser cette colonne pour fournir une liste d'identifiants de communautés pour lesquelles vous souhaitez effectuer des calculs. Si vous n'appliquez pas le modèle sur un graphe de communauté, cette variable ne sera pas utilisée, vous pouvez donc laissez cette colonne vide ou, dans le cas d'une base de données, utiliser une valeur factice.

Utilisez la fonctionnalité de correspondance disponible dans le panneau Appliquer le modèle pour garantir la cohérence des jeux de données.

Mode Application in-database

Ce mode optimisé permet d'appliquer le modèle directement dans la base de données. Cela évite d'avoir à extraire les données de la base de données et accélère le processus d'écriture des données de sortie du modèle. Ce mode peut être utilisé si toutes les conditions suivantes sont remplies :

  • Le jeu de données d'application (table, vue, requête, manipulation de données) et les résultats du jeu de données sont des tables provenant de la même base de données.
  • Le jeu de données d'apprentissage utilisé pour créer le modèle contient au moins une variable déclarée comme clé.
  • Le mode Application in-database est activé.
  • Vous avez les droits de lecture et d'écriture dans la base de données.
  • Vous possédez une licence de générateur de codes valide pour la base de données.
  • Aucune erreur ne s'est produite.
  • Le modèle a été enregistré dans la même base de données que les jeux de données d'application.
    Remarque

    Si le modèle n'a pas été enregistré, un avertissement est affiché et Automated Analytics passe automatiquement au processus d'application standard.

Modèle de règles d'association
Si vous choisissez l'option... les données générées contiendront dans chaque ligne...
Valeur prédite

les données de sortie simplifiées :

  • l'identifiant de session,
  • l'identifiant de la règle utilisée pour trouver le conséquent
  • le conséquent
Conséquents optimisés par KI

les données de sortie simplifiées

Si plusieurs règles indiquent le même conséquent pour une session, la règle présentant la meilleure capacité prédictive (KI) sera sélectionnée.

Conséquents optimisés par confiance

les données de sortie simplifiées

Si plus d'une règle indiquent le même conséquent pour une session, la règle pour laquelle l'indice de confiance est le plus élevé sera sélectionnée.

Valeur prédite avec description complète des règles

les données de sortie complètes

  • l'identifiant de session,
  • l'identifiant de la règle utilisée pour trouver le conséquent
  • le conséquent
  • l'antécédent
  • la capacité prédictive (KI)
  • l'indice de confiance
  • le support de la règle
Conséquents optimisés par KI avec description complète des règles

les données de sortie complètes

Si plusieurs règles indiquent le même conséquent pour une session, la règle présentant la meilleure capacité prédictive (KI) sera sélectionnée.

Conséquents optimisés par confiance avec description complète des règles

les données de sortie complètes

Si plus d'une règle indiquent le même conséquent pour une session, la règle pour laquelle l'indice de confiance est le plus élevé sera sélectionnée.

Modèle de série temporelle
Si vous sélectionnez l'option... Le fichier de résultat contiendra...
Valeur prédite
  • toutes les variables d'entrée
  • les variables prévues, c'est-à-dire les prévisions pour chaque date du jeu de données d'entraînement
les prévisions avec leurs composantes
  • toutes les variables d'entrée
  • les variables prévues, c'est-à-dire les prévisions pour chaque date du jeu de données d'entraînement
  • la valeur de chaque composante (tendance, cycles, fluctuation) pour chaque prévision
les prévisions avec leurs composantes et leurs résidus
  • toutes les variables d'entrée
  • les variables prévues, c'est-à-dire les prévisions pour chaque date du jeu de données d'entraînement
  • la valeur de chaque composante (tendance, cycles, fluctuation) pour chaque prévision
  • les valeurs résiduelles obtenues après extraction des composantes pour chaque prévision
uniquement la première colonne des prévisions avec leurs intervalles de prédiction
  • toutes les variables d'entrée
  • la première valeur prévue, c'est-à-dire la première prévision pour chaque date du jeu de données d'entraînement
  • les intervalles de prédiction pour la valeur prédite