Échantillonnage

Le jeu de données d'entraînement peut être échantillonné pour toutes les stratégies de découpage, à l'exception de la stratégie personnalisée. Cliquez sur le bouton (Paramètres avancés) pour afficher l'écran Échantillonnage.

L'échantillonnage peut être réalisé de la façon suivante :

  • Sélection d'une première ligne et d'une dernière ligne spécifiques dans les données originales.
  • Sélection aléatoire d'une proportion des données originales. Une graine aléatoire permet de sélectionner les mêmes enregistrements dans les données originales lors de l'échantillonnage.
  • Utilisation simultanée de la sélection de ligne et de l'échantillonnage aléatoire.
  • Pour paramétrer un échantillonnage aléatoire
    1. Cochez l'option Sélection aléatoire.
    2. Dans la section Sélection aléatoire, utilisez le curseur Proportion pour sélectionner le pourcentage de données originales que vous souhaitez conserver.
    3. Dans le champ Graine aléatoire, saisissez une valeur pour l'échantillonnage. La valeur par défaut de la graine est 1960.
    4. Dans la partie Proportion, utilisez le curseur pour sélectionner la proportion de l'observation qui doit apparaître dans le jeu de données. La sélection aléatoire génère un index aléatoire pour chaque ligne du jeu de données basé sur la graine. Une même graine pour un même index.

      Vous pouvez affiner la sélection en cochant l'option Avancé. Le curseur est remplacé par deux champs qui vous permettent d'indiquer un intervalle correspondant aux index à conserver. Par exemple, si vous sélectionnez [0, 20 %], vous sélectionnez les lignes avec un index compris entre 0 et 0,2. Ainsi [0, 20 %] ne présente pas les mêmes lignes que [80 %, 100 %](index compris entre 0,8 et 1). En réalité, si vous souhaitez apprendre sur 80 % de votre jeu de données, appliquer sur les 20 % restants et effectuer un échantillonnage aléatoire, c'est la seule méthode. Vous pouvez alors créer deux jeux de données complémentaires en conservant les mêmes paramètres de curseur et de graine et en sélectionnant deux intervalles complémentaires.

  • Pour paramétrer une sélection par lignes
    1. Cochez l'option Sélection par lignes.
    2. Dans le champ Première ligne, saisissez le numéro de la ligne par laquelle commencera le jeu de données échantillonné.
    3. Dans le champ Dernière ligne, saisissez le numéro de la ligne par laquelle finira le jeu de données échantillonné.
    4. Une fois l'échantillonnage spécifié, cliquez sur OK pour enregistrer les paramètres et fermer la fenêtre Paramètres.