Statistiques croisées

L'option Calculer les statistiques croisées vous permet de visualiser le profil de chaque variable explicative pour chaque cluster, par rapport à leur profil pour le jeu de données entier.

Différence entre statistiques croisées classiques et expressions SQL

La segmentation créée avec les expressions SQL est différente de celle créée sans. La raison d'être des expressions SQL est de proposer des segments faciles à comprendre et à appliquer. Les expressions SQL doivent se rapprocher au plus près des segments de base (c'est-à-dire ceux que vous obtenez sans calculer les expressions SQL). Les expressions SQL peuvent être utilisées pour avoir une meilleure définition/compréhension des clusters et les déployer dans la base de données complète ou sur de nouvelles données (ce qui n'est généralement pas anodin avec les autres techniques).

L'utilisation de graphes permet de mieux comprendre la différence entre les clusters créés à partir de centroïdes et ceux créés à partir d'expressions SQL.

Schéma Explication
Ce schéma représente un ensemble d'observations issues d'un jeu de données.

Pour créer un cluster, Automated Analytics Modeler - Segmentation/Mise en cluster utilise l'approche centroïde. Les centroïdes sont le résultat d'un algorithme de mise en cluster. Ils représentent ainsi le barycentre des points dont ils sont le plus proche. Quand on applique Clustering sur ce jeu de données, les observations sont regroupées en fonction de leur distance par rapport à chaque centroïde.

Ce graphe représente le jeu de données regroupé en quatre clusters.

Ce schéma est connu sous le nom de diagramme de Voronoï.

Pour créer les expressions SQL qui définissent les clusters, Clustering utilise ce qu'on appelle la longueur minimum de description (Minimum Description Length ou MDL). Cela signifie que les clusters initiaux créés à partir de l'approche centroïde sont retravaillés pour correspondre à l'expression la plus simple possible essayant ainsi de trouver le meilleur compromis entre la taille de l'expression et la perte d'information.

Ce graphe représente les expressions SQL des clusters (en rouge) comparées aux centroïdes.

Sur ce graphe vous pouvez voir que :

  • certaines observations qui se trouvaient dans un cluster avec l'approche centroïde se retrouvent dans un autre quand on utilise les expressions SQL.
  • d'autres observations ne peuvent être décrites par les expressions SQL et sont donc laissées hors des clusters. Elles sont appelées observations non assignées.
  • certaines observations peuvent être décrites par deux expressions SQL distinctes et donc apparaître dans deux clusters différents. Cela s'appelle le chevauchement.

Ce graphe représente le résultat final obtenu avec les expressions SQL.

Une observation ne peut pas apparaître dans deux clusters différents, donc lorsque deux clusters se recoupent, l'observation concernée est attribuée au premier cluster créé. Le second cluster qui contenait également l'observation est redéfini de manière à l'exclure. Dans ce schéma, les nombres correspondent à l'ordre de création des clusters.

Vous constatez que les observations, qui se trouvaient dans deux clusters, sont conservées dans un seul cluster. Le choix du cluster dans lequel les observations seront conservées dépend de l'ordre dans lequel les règles SQL sont appliquées. Dans ce cas, la règle définissant le cluster 2 a été appliquée avant celles définissant les clusters 1 et 3.

Légende des schémas
Comment choisir le type de segmentation le plus adapté ?

Grâce à la segmentation supervisée, Automated Analytics Modeler - Segmentation/Mise en cluster vous propose des indicateurs de performance : la capacité prédictive (KI) et la reproductibilité (KR). Le KI vous permet de comparer les deux segmentations (principalement parce que le nombre de segments est identique). Si le KI ne change pas de manière significative, la segmentation SQL est à privilégier car elle est plus simple à appréhender. Si le KI baisse, il vaut mieux en rester à la segmentation de base.

La capacité prédictive n'est pas forcément ce que vous voulez optimiser pour une segmentation. Vous pouvez visualiser le profil cible de chaque segment dans l'interface graphique. Parmi les quatre clusters, un ou deux peuvent être particulièrement intéressants. Dans ce cas, il vaut mieux se concentrer sur ces segments et étudier leur évolution lors de la génération des expressions SQL.