Durch Auswahl der Option Kreuzstatistik berechnen können Sie das Profil der einzelnen erklärenden Variablen für den jeweiligen Cluster in Bezug auf das Profil für das gesamte Datenset visualisieren.
Wenn Sie SQL-Ausdrücke anfordern, unterscheidet sich die endgültige Segmentierung von der Segmentierung ohne SQL-Ausdrücke. Das Ziel von SQL besteht darin, leicht zu verstehende und einfach anzuwendende Segmente zu erhalten. SQL-Ausdrücke werden erstellt, um die Basissegmente (also die Segmente, die Sie erhalten, wenn Sie SQL nicht anfordern) bestmöglich zu beschreiben. Mithilfe von SQL kann eine bessere Definition/ein besseres Verständnis der Cluster erreicht werden. Zudem können die Cluster in der gesamten Datenbank oder für neue Daten bereitgestellt werden (dies ist mit anderen Verfahren in der Regel nicht einfach).
Die beste Möglichkeit, den Unterschied zwischen auf Schwerpunkten basierenden Clustern und auf Regeln basierenden Clustern zu verstehen, ist die Verwendung von Graphen.
| Diagramm | Erläuterung |
|---|---|
![]() |
Dieses Diagramm stellt eine Reihe von Beobachtungen aus einem Datenset dar. |
![]() |
Zum Anlegen von Clustern verwendet "Automated Analytics Modeler – Segmentierung/Clustering" den Ansatz mit Schwerpunkten. Bei Schwerpunkten handelt es sich um die Ergebnisse eines Clustering-Algorithmus, das heißt, sie bilden das Zentrum der am dichtesten gelegenen Punkte. Beim Anwenden von Clustering auf dieses Datenset werden die Beobachtungen in Abhängigkeit von ihrer Distanz mit dem jeweiligen Schwerpunkt gruppiert. Dieser Graph stellt die vorherigen Datensetbeobachtungen gruppiert zu vier Clustern dar. Dieses Diagramm wird als Voronoï-Diagramm bezeichnet. |
![]() |
Zum Anlegen der SQL-Ausdrücke, die die Cluster definieren, verwendet das Clustering die sogenannte Minimum Description Length (MDL). Das heißt, nach dem Anlegen der anfänglichen Cluster über den Ansatz mit Schwerpunkten werden sie neu geformt, also abgeschnitten, sodass sie in den kleinstmöglichen Ausdruck passen. Auf diese Weise soll der beste Kompromiss zwischen der Länge des Ausdrucks und dem Informationsverlust gefunden werden. Dieser Graph stellt die SQL-Ausdrücke der Cluster (in Rot) im Vergleich zu den Schwerpunkten dar. In diesem Graphen können Sie Folgendes sehen:
|
![]() |
Dieser Graph zeigt das mit SQL-Ausdrücken erhaltene Endergebnis. Eine Beobachtung kann nicht in zwei verschiedenen Clustern vorkommen. Wenn also eine Überschneidung zwischen Clustern auftritt, wird die von der Überschneidung betroffene Beobachtung im ersten angelegten Cluster beibehalten. Der zweite Cluster, der die Beobachtung ebenfalls enthielt, wird neu definiert, um sie auszuschließen. In diesem Schema entsprechen die Zahlen der Reihenfolge, in der die Cluster angelegt wurden. Sie sehen, dass die Beobachtungen, die in zwei Clustern enthalten waren, nur in einem Cluster beibehalten werden. Die Auswahl des Clusters, in dem die sich überschneidenden Beobachtungen beibehalten werden, ist von der Reihenfolge abhängig, in der die SQL-Regeln angewendet werden. In diesem Fall wurde die Regel, die Cluster 2 definiert, vor den Regeln angewendet, die die Cluster 1 und 3 definieren. |
![]() |
Schemaschlüssel |
Als Nebeneffekt der Überwachung enthält "Automated Analytics Modeler – Segmentierung/Clustering" Angaben zur prognostischen Trennschärfe (KI) und zur Prognosekonfidenz (KR). Anhand des KI können die beiden Segmentierungen verglichen werden (insbesondere weil die Anzahl der Segmente gleich ist). Wenn sich der KI nicht deutlich ändert, ist möglicherweise die Segmentierung mit SQL vorzuziehen, da sie einfacher zu verstehen ist. Wenn der KI abfällt, können Sie bei der Basissegmentierung bleiben.
Möglicherweise möchten Sie die prognostische Trennschärfe nicht für die Segmentierung optimieren. Das Zielprofil des jeweiligen Segments ist in der GUI verfügbar. Von den vier Clustern sind vielleicht ein oder zwei wirklich von Interesse. In diesem Fall müssen Sie sich auf diese interessanten Segmente konzentrieren und sehen, wie sie sich mit der SQL-Generierung entwickeln.