Vues

L'onglet Vues vous permet de consulter les données et le SQL généré, ainsi que de définir les options.

Champs

Cet onglet affiche les champs existant et vous permet d'ajouter vous propres champs.

Les champs existants peuvent être modifiés grâce aux opérations suivantes :

  • Modifier l'alias d'un champ.
  • Préciser la visibilité d'un champ, autrement dit indiquer si le champ sera visible dans la table d'analyse ou non. Les champs indiqués comme non visibles n'apparaissent pas dans l'onglet Aperçu mais peuvent être utilisés dans une jointure ou un filtre par exemple.
  • Ajouter une Description.
  • Modifier les informations d'un champ (uniquement dans le cas d'un champ créé par l'utilisateur).

Lorsque vous créez un champ, vous avez le choix entre les types ci-dessous :

  • Fonction, utilisant des opérateurs mathématiques ou logiques, des manipulations de chaînes de caractères, des fonctions mathématiques, des manipulations de date.
  • Agrégat, qui vous permet de joindre les informations d'une table de référence avec les informations d'une table d'historique, qui seront automatiquement agrégées par période de temps.
  • Agrégat glissant, c'est-à-dire un agrégat qui est répété dans le temps.
  • Condition, utilisant des opérateurs tels que Débuter, Plus grand que, Non, Est nul, Est dans l'intervalle ...
  • Table de recherche, c'est-à-dire un dictionnaire qui vous permet de transformer des valeurs d'identifiants en chaînes ou de regrouper des valeurs représentant des distinctions précises en un nombre plus petit de classes générales.
  • Normalisation, c'est-à-dire une transformation linéaire par morceau dont la variable résultante varie généralement entre 0 et 1.
  • Expression SQL, c'est-à-dire une expression SQL définie par l'utilisateur.
  • Expression libre, c'est-à-dire une expression logique définie par l'utilisateur.
  • Pour créer un champ calculé
    1. Cliquez sur le bouton + Nouveau.
    2. Sélectionnez le type de champ que vous voulez créer.
    3. Définissez les paramètres de champ en fonction du type de champ que vous avez sélectionné. Le champ créé apparaît dans la liste avec les champs d'origine de la table source.
Données et statistiques

Cette option affiche les données extraites de la base de données quand cette manipulation de données est exécutée. Elle fournit aussi certaines statistiques relatives à ces données. Il vous permet de vérifier si les résultats correspondent à votre attente.

Vous pouvez trier la table en cliquant sur l'en-tête de la colonne correspondante.

SQL généré

Cet onglet affiche la requête SQL correspondant à la table d'analyse en cours de création.

Documentation

L'onglet Documentation vous permet d'accéder à une synthèse de votre manipulation de données. Il contient toutes les options sélectionnées pour votre manipulation de données comme Filtres, Jointure, Invites ou Expressions.

Cet écran présente :

  • Aperçu graphique
  • Champs visibles/non visibles
  • Invite
  • Expressions
  • Filtres

L'aperçu graphique présente :

  • la liste des tables incluses dans votre manipulation de données, et comment ces dernières ont été créées (avec des jointures et agrégats par exemple)
  • les champs conservés pour votre manipulation de données, connus en tant que Champs visibles.

Le lien Champs visibles présente un tableau les colonnes des champs visibles etc.

Vous pouvez personnaliser cet aperçu dans les options de paramétrage.

  • Paramètres des sections
  • Paramètres des champs

Les paramètres de synthèse vous permettent de choisir le format de la synthèse, à la fois l'affichage et pour l'exportation . Le fichier généré peut être enregistré aux formats de fichier txt, .htm et .rtf.

Infos

Le bouton Infos vous permet d'afficher les informations techniques relatives à la base de données qui héberge vos données. Les informations suivantes sont disponibles :

  • le nom de la base de données, son numéro de version et le numéro de version du driver
  • la taille maximale autorisée pour les noms de tables et de colonnes
  • le nombre maximal de colonnes autorisé dans les tables et les requêtes
  • la taille maximale autorisée pour une requête
  • le nombre maximal de tables autorisé dans une requête
Options
Options Description Valeurs/Défaut
Optimiser les expressions utilisées plusieurs fois

Dans une manipulation de données, deux stratégies peuvent être utilisées lorsqu'un champ calculé ou une expression est référencé plusieurs fois :

  • La stratégie standard, dans laquelle chaque référence est remplacée par la définition SQL complète du champ calculé en question, le calcul étant ainsi effectué plusieurs fois.
  • La stratégie optimisée, dans laquelle une colonne temporaire utilisant la définition SQL du champ est calculée une seule fois. Ensuite chaque référence suivante à ce champ est remplacée par une référence à cette nouvelle colonne.

Automatique (par défaut) : la stratégie est sélectionnée automatiquement par le système. Par défaut, si un champ est référencé plus d'une fois, la stratégie optimisée est utilisée.

Activé : la stratégie optimisée est utilisée.

Désactivé : la stratégie standard est utilisée.

Nombre d'utilisations max. de l'expression avant optimisation

Lorsque l'option Optimiser les expressions utilisées plusieurs fois est activée, cette option vous permet de spécifier à partir de combien de références à un champ la stratégie optimisée doit être utilisée.

Par défaut ce seuil est de 2, ce qui signifie que la stratégie optimisée est utilisée dès qu'un champ est référencé plus d'une fois.
Générer des requêtes multiples

Cette option vous permet de forcer ou de désactiver la décomposition d'une manipulation de données en étapes intermédiaires (définies automatiquement par le système).

Automatique (par défaut) : selon la complexité relative de la manipulation de données, le système décide d'activer ou non la décomposition.

Activé : la manipulation de données est décomposée en étapes intermédiaires, quelle que soit sa complexité.

Désactivé : la manipulation de données n'est jamais décomposée en étapes intermédiaires, quelle que soit sa complexité. Cette valeur doit être sélectionnée avec précaution.

Générer les agrégats standard en tant que tables corrélées Cette option vous permet de paramétrer l'utilisation de tables corrélées plutôt que de sous-requêtes de type SELECT lors de la génération des agrégats standards (min, max, count, average).

Automatique (par défaut) : le système sélectionne automatiquement le type de génération d'agrégats utilisé.

Activé : la forme Tables corrélées est générée lorsque le système de gestion de base de données relationnelle le permet.

Désactivé : la forme Sous-requête est générée lorsque le système de gestion de base de données relationnelle le permet.

Certaines bases de données ignorent ces options lorsqu'elles ne prennent en charge qu'une seule des deux formes. Ainsi, MySQL prend uniquement en charge les sous-requêtes SELECT alors que Teradata ne peut traiter que les tables corrélées.

Les formes SQL prises en charge par les différentes bases de données sont répertoriées dans la section Formes SQL des agrégats prises en charges par les bases de données.

Générer les agrégats 'First/Last' en tant que tables corrélées Cette option vous permet de paramétrer l'utilisation de tables corrélées plutôt que de sous-requêtes de type SELECT lors de la génération des agrégats de type 'First/Last'.
Générer les agrégats 'Exists' en tant que tables corrélées Cette option vous permet de paramétrer l'utilisation de tables corrélées plutôt que de sous-requêtes de type SELECT lors de la génération des agrégats de type 'Exists'.
Générer les conditions de jointure après chaque requête

Par souci de clarté, la notation (T1,T2) sera utilisée pour représenter l'opération de jointure externe gauche entre la table T1 et T2.

Dans une longue séquence de jointures de tables, par exemple ((T1,(T2,T4)), (T3,T4)), certaines conditions de jointure peuvent être générées soit directement après la jointure, soit à la fin de la requête sans que cela n'impacte l'ensemble des lignes obtenues comme résultat. Cependant dans certains cas, la position des conditions en fin de requête peut impacter négativement les performances du SQL généré. Cette option vous permet de forcer la position des conditions de jointure.

Automatique (par défaut) : le système sélectionne automatiquement la forme préférée en fonction des expériences effectuées sur la base de données concernée.

Activé : les conditions de jointure sont générées immédiatement après l'opération de jointure.

Désactivé : les conditions de jointure sont générées à la "fin" de la séquence de jointure.

Matérialiser les populations estampillées Dans un environnement opérationnel, les tables d'analyse d'Automated Analytics génèrent du code SQL complexe que certains optimiseurs de systèmes de gestion de base de données relationnelle (SGBDR) peuvent parfois ne pas analyser correctement. Cela a pu être observé en particulier lorsque des populations estampillées filtrées sont concernées. Pour contourner cela, la matérialisation de la population estampillée aide l'optimiseur à prendre de meilleures décisions pour le plan d'exécution. Cette option vous permet de paramétrer ce comportement.

Automatique (par défaut) : le système utilise des règles spécifiques pour décider automatiquement d'appliquer ou non la matérialisation. Actuellement, toutes les populations estampillées filtrées sont matérialisées.

Activé : toutes les populations estampillées sont matérialisées.

Désactivé : les populations estampillées ne sont jamais matérialisées.

Grouper les agrégats avec pivots (par valeur de pivot)

Dans des bases de données telles que Teradata, Oracle, et DB2, les agrégats sont formulés en tant qu'expressions de tables corrélées ou dérivées. Chacune de ces tables rassemble les agrégats générés sur le même ensemble de lignes. L'ensemble de ligne est défini d'une part par les colonnes clés et d'autre part par la condition de filtrage. Le filtre comprend les spécifications de la fenêtre de temps (lorsqu'elle est spécifiée) ainsi qu'un prédicat supplémentaire.

Cette option vous permet de générer ce prédicat afin qu'il soit pris en compte sans avoir d'impact négatif sur la condition de filtrage. Cela implique de générer les agrégats avec pivots dans des tables différentes.

Automatique (par défaut) : le système décide d'ajouter ou non le prédicat supplémentaire à la condition de filtrage en fonction du nombre d'agrégats associés. Le nombre seuil d'agrégats peut être défini grâce à l'option Seuil de groupement des filtres et pivots similaires décrite ci-dessous.

Activé : le prédicat supplémentaire ne fera jamais partie de l'expression de filtre.

Désactivé : le prédicat supplémentaire fera toujours partie de l'expression de filtre.

Seuil de groupement des filtres et pivots similaires Lorsque l'option Grouper les agrégats avec pivots (par valeur de pivot) a la valeur Automatique, les agrégats ayant la même fenêtre de temps mais ayant des conditions de filtrage différentes sont regroupés si leur nombre dépasse un certain seuil. Cette option permet de paramétrer ce seuil. Le seuil par défaut est 5.
Nombre d'agrégats avec pivots par groupement Lorsque l'option Grouper les agrégats avec pivots (par valeur de pivot) a la valeur Automatique, les agrégats ayant la même fenêtre de temps mais ayant des conditions de filtrage différentes sont regroupés. Ce paramètre vous permet de définir le nombre maximal d'agrégats pouvant constituer un groupe. Le seuil par défaut est 7.
Pré-filtrage des agrégats

Les expressions de tables regroupant des agrégats avec pivots peuvent filtrer les lignes vues par ces agrégats.

Ce pré-filtrage concerne souvent des colonnes non-indexées, ce qui conduit à des balayages complets. Lorsque toutes les colonnes utilisées dans les filtres d'agrégats ou dans les conditions de jointure sont identifiées comme étant indexées, activer le pré-filtrage peut avoir un impact positif sur les performances.

Chaque agrégat traitant uniquement les lignes correspondantes, ce pré-filtrage peut être laissé désactivé.

Par défaut, cette option est désactivée.
Champs toujours visibles Les objets de données analytiques, tels que les entités ou les populations estampillées, sont configurés pour n'exposer que certains champs. Cette option vous permet de spécifier si d'autres champs doivent être également visibles aux utilisateurs de la manipulation de données.

Par défaut les champs KxTarget et KxWeight sont visibles.

Pour ajouter des champs supplémentaires, saisissez leurs noms séparés par un point-virgule.

Remplacer les champs constants par leurs valeurs À des fins d'optimisation, lorsqu'une manipulation de données doit exposer un champ de valeur constante, la valeur réelle est propagée et les manipulations de données supérieures sont informées que le champ concerné est constant et que sa valeur doit donc être utilisée là où le nom du champ est référencé. Cela permet à certaines manipulations de données d'être exécutées 10 fois plus vite. Cette option est activée par défaut. Pour la désactiver, décochez la case.
Optimiser les expressions utilisant les champs d'une sous-manipulation de données

Dans une manipulation de données, les expressions référencées plusieurs fois sont factorisées par souci d'efficacité. Cependant, lorsque ces expressions utilisent certains champs issus d'une jointure ou d'une sous manipulation de données, le système peut ne pas les factoriser correctement. Cette option vous permet d'exclure ces expressions de la factorisation.

Remarque : Cette option n'est utilisée que si les options Optimiser les expressions utilisées plusieurs fois et Nombre d'utilisations max. de l'expression avant optimisation sont activées.

Cette option est désactivée par défaut. Pour l'activer, cochez la case.
Ne pas exclure les clés hors-jointure des optimisations intermédiaires

Par souci d'optimisation, la factorisation d'expressions référencées plusieurs fois n'est effectuée que lorsque la table sur laquelle elle est calculée contient des colonnes clés.

Dans les manipulations de données à plusieurs niveaux, pour éviter de violer les contraintes de non-nullité et d'unicité des clés physiques, le système applique des règles spécifiques supprimant les clés qui ne sont pas utilisées dans les tables intermédiaires. De ce fait, certaines expressions référencées plusieurs fois peuvent ne pas être factorisées.

Cette option permet de forcer le système à ne pas exclure des tables intermédiaires les colonnes clés pouvant être utilisées pour l'optimisation.

Cette option est activée par défaut. Pour la désactiver, décochez la case.
Formes SQL des agrégats prises en charges
Standard First/Last Exists
Accès Sous-requête uniquement Sous-requête uniquement Sous-requête uniquement
SQLServer Tables corrélées par défaut Tables corrélées par défaut Sous-requête uniquement
Oracle Tables corrélées par défaut Tables corrélées uniquement Sous-requête uniquement
Teradata Tables corrélées uniquement Tables corrélées uniquement Tables corrélées uniquement
DB2 Sous-requête uniquement Tables corrélées uniquement Sous-requête uniquement
MySQL Sous-requête uniquement Sous-requête uniquement Sous-requête uniquement
PostgreSQL Tables corrélées par défaut Tables corrélées uniquement Tables corrélées uniquement
SybaseIQ Tables corrélées uniquement Tables corrélées uniquement Tables corrélées uniquement
Vertica Tables corrélées uniquement Tables corrélées uniquement Tables corrélées uniquement
Netezza Tables corrélées uniquement Tables corrélées par défaut Tables corrélées par défaut

Légende :

  • Sous-requête uniquement : dans cette base de données, les agrégats sont générés en utilisant uniquement des sous-requêtes.
  • Tables corrélées uniquement : dans cette base de données, les agrégats sont générés en utilisant uniquement des tables corrélées.
  • Tables corrélées par défaut : dans cette base de données, des tables corrélées sont générées par défaut mais la génération de sous-requêtes SELECT peut aussi être forcée lorsque cela est possible.