Description de vos données

Les métadonnées peuvent être chargées au format texte délimité par des tabulations ou des virgules, extraites d'une source ODBC, ou encore être dans un format propriétaire. Il existe deux façons de décrire les données :

  • Analyser : les cent premières lignes de données sont analysées et une première détermination de la description du fichier de données est fournie à l'utilisateur. Pour les fichiers texte, il est bon d'avoir une première ligne d'en-tête contenant les noms des variables. Une fois le fichier de description créé, le bouton Enregistrer la description permet de l'enregistrer dans le sous-dossier indiqué dans la case Dossier. Le nom du fichier de description peut être entré dans la case Description.
  • Ouvrir une description : permet de charger un fichier de description enregistré auparavant.
  • Aperçu des données : vous permet d'afficher les cent premières lignes du fichier de données pour vous aider à valider la description.

Chaque variable ou attribut est décrit par les informations suivantes :

  • Nom : nom de la variable (ne peut être modifié)
  • Stockage : type de valeurs enregistrées dans cette variable
    • Nombre : contient uniquement des nombres "calculables" (attention : les numéros de téléphone ou de compte ne doivent pas être considérés comme des nombres).
    • Chaîne : la variable contient des chaînes de caractères.
    • Date et heure : la variable contient des dates et heures.
    • Date : la variable contient des dates.
  • Valeur : décrit le type de valeur
    • Continue : variable numérique à partir de laquelle une moyenne, une variance, etc. peuvent être calculées
    • Nominale : variable de catégorie (seule valeur possible pour une chaîne)
    • Ordinale : variable numérique discrète dont l'ordre relatif est important
  • Clé : variable clé ou identifiant pour l'enregistrement (0 : la variable n'est pas un identifiant, 1 : identifiant primaire, 2 : identifiant secondaire...)
  • Ordre  : indique si cette variable représente un ordre naturel (0 : la variable ne représente pas un ordre naturel ; 1 : la variable représente un ordre naturel). Si la valeur est 1, la variable est utilisée dans les expressions SQL dans une condition "ORDER BY".

    Attention : définir une variable comme variable d'ordre aura une incidence sur le choix d'une stratégie de découpage. Seules les stratégies séquentielles peuvent être utilisées avec une variable d'ordre.

  • Manquante : chaîne utilisée dans les données pour représenter une valeur manquante (par exemple, "999" ou "#Empty", à entrer sans les guillemets).
  • Groupe : indique le nom du groupe auquel appartient cette variable. Les variables d'un même groupe contiennent une même information et donc ne seront pas croisées pour les modèles d'un degré supérieur à 1. Ce paramètre sera utilisable dans une version future.

Description : étiquette de description supplémentaire pour la variable