Seleccionar la opción Calcular estadísticas cruzadas le permite visualizar el perfil de cada variable explicativa para cada clúster respecto al perfil de todo el conjunto de datos.
La segmentación final con expresiones SQL es diferente que sin ellas. El objetivo de SQL es tener segmentos fáciles de comprender y de aplicar. Las expresiones SQL se crean para describir tanto como sea posible los segmentos básicos (es decir, los que obtiene cuando no pide SQL). SQL puede utilizarse para obtener una mejor definición/comprensión de los clústeres y para desplegarlos en la base de datos completa o en nuevos datos (lo que no suele ser habitual con otras técnicas).
La mejor manera de comprender la diferencia entre los clústeres basados en centroide y los basados en reglas es utilizar grafos.
| Diagrama | Explicación |
|---|---|
![]() |
Este diagrama representa un conjunto de observaciones de un conjunto de datos. |
![]() |
Para crear clústeres, el motor de Automated Analytics Modeler - Segmentación/Agrupación en clústeres utiliza el enfoque de centroide. Los centroides son los resultados de un algoritmo de agrupación en clústeres, lo que significa que son el baricentro de los puntos más cercanos a estos. Al aplicar la agrupación en clústeres en este conjunto de datos, las observaciones se agrupan en función de su distancia con cada centroide. Este grafo representa las observaciones del conjunto de datos anteriores agrupadas en cuatro clústeres. El diagrama se conoce como diagrama Voronoï. |
![]() |
Para crear las expresiones SQL que definen los clústeres, la agrupación en clústeres utiliza lo que se llama longitud mínima de descripción (MDL). Esto significa que después de crear los clústeres iniciales a partir del enfoque de centroide, se modifica su forma, se recortan para que encajen en la expresión más pequeña posible, intentando encontrar un equilibrio entre longitud de la expresión y pérdida de información. Este grafo representa las expresiones SQL de los clústeres (en rojo) en comparación con los centroides. En este grafo, puede ver que:
|
![]() |
Este grafo presenta el resultado final obtenido con expresiones SQL. Una observación no puede aparecer en dos clústeres diferentes, así que cuando se produce un solapamiento entre clústeres, la observación en la que se ha producido el solapamiento se mantiene en el primer clúster creado. El segundo clúster que también contiene la observación se redefine para excluirla. En este esquema, los números corresponden al orden de creación de los clústeres. Puede ver que las observaciones que estaban en dos clústeres se mantienen solo en uno de ellos. La elección del clúster en el que mantener las observaciones solapadas depende del orden en el que se apliquen las reglas SQL. En este caso, la regla que define el clúster 2 se ha aplicado antes de las reglas que definen los clústeres 1 y 3. |
![]() |
Clave de esquema |
Como efecto secundario de la supervisión, Automated Analytics Modeler - Segmentación/Agrupación en clústeres le proporciona un poder predictivo (KI) y confianza de predicción (KR). KI se puede utilizar para comparar las dos segmentaciones (especialmente porque el número de segmentos es el mismo). Si KI no cambia significativamente, puede que la de SQL sea preferible, porque es más fácil de entender. Si KI falla, es posible que desee optar por la segmentación básica.
Puede que el poder predictivo no sea lo que busca para optimizar la segmentación. El perfil de destino de cada segmento está disponible en la GUI. Entre los cuatro clústeres, tal vez uno o dos sean de interés real. En tal caso, debe centrarse en esos segmentos interesantes y ver cómo evolucionan con la generación SQL.