Stratégie de découpage dans Data Manager

Les fonctionnalités SAP Predictive Analytics utilisent trois ensembles de données pour effectuer leur modélisation :

  • Estimation : utilisé pour l'entraînement des modèles.
  • Validation : utilisé pour garantir la cohérence (robustesse) des modèles.
  • Un ensemble de test (facultatif), sur lequel seront calculés certains estimateurs de qualité du modèle.

Vous disposez de neuf stratégies de découpage pour générer vos modèles :

  • Une stratégie de découpage personnalisée pour laquelle chaque ensemble de données peut être indiqué explicitement.
  • Huit stratégies de découpage automatiques :
    • Séquentielle : les trois ensembles seront générés séquentiellement à partir des données originales (3/5 pour l'estimation, 1/5 pour la validation et 1/5 pour le test). Il s'agit de la stratégie de découpage la plus rapide.
    • Périodique : les données originales sont distribuées périodiquement dans les ensembles de données par groupes de cinq enregistrements : les trois premiers pour l'estimation, le quatrième pour la validation et le cinquième pour le test. Cette stratégie est recommandée si l'ordre des données originales doit être ignoré.
    • Aléatoire : les données du jeu de données initial sont distribuées de manière aléatoire dans les trois ensembles. Cette stratégie est recommandée si les données sont triées selon une variable telle que l'âge ou selon la variable cible.
    • Périodique avec test à la fin : stratégie de découpage périodique terminée par un test.
    • Aléatoire avec test à la fin : stratégie de découpage aléatoire terminée par un test.
    • Séquentielle sans test : stratégie de découpage séquentielle où seuls les ensembles d'estimation et de validation sont générés.
    • Périodique sans test : stratégie de découpage périodique où seuls les ensembles d'estimation et de validation sont générés.
    • Aléatoire sans test (Par défaut) : stratégie de découpage aléatoire où seuls les ensembles d'estimation et de validation sont générés.
  • Pour sélectionner une stratégie de découpage automatique
    1. Cochez l'option Prédéfinie.
    2. Dans la liste, sélectionnez la stratégie de découpage que vous souhaitez utiliser.
    3. Cliquez sur le bouton Suivant. Le panneau Données à modéliser est affiché.
  • Pour sélectionner la stratégie de découpage personnalisée
    1. Cochez l'option Personnalisée.
    2. Utilisez le bouton Parcourir correspondant au champ Estimation pour sélectionner le jeu de données à utiliser comme jeu de données d'estimation.
    3. Utilisez le bouton Parcourir correspondant au champ Validation pour sélectionner le jeu de données à utiliser comme jeu de données de validation.
    4. Si vous souhaitez utiliser un jeu de données de test, utilisez le bouton Parcourir correspondant au champ Test pour sélectionner le jeu de données à utiliser. Sinon laissez ce champ vide.
    5. Cliquez sur le bouton Suivant. Le panneau Données à modéliser est affiché.