При выборе опции Рассчитать перекрестную проверку можно визуализировать профиль каждой объяснительной переменной для каждого кластера относительно их профиля для всего набора данных.
При запросе выражений SQL заключительная сегментация отличается от сегментов без SQL. Целью SQL является наличие сегментов, которые легко анализировать и применять. Выражения SQL созданы для наиболее подробного описания основных сегментов (сегменты без запроса SQL). SQL могут быть использованы для лучшего определения/понимания кластеров и их развертывания в полной базе данных или новых данных (что зачастую присутствуют в других технологиях).
Наилучший способ анализа разницы между кластерами на основе центроида и кластерами на основе правила является использование графов.
| Диаграмма | Пояснение |
|---|---|
![]() |
Эта диаграмма представляет набор наблюдений из набора данных. |
![]() |
Для создания кластеров Automated Analytics Modeler - "Сегментация/кластеризация" использует подход центроида. Центроиды являются результатом алгоритма кластеризации; это означает, что они являются центром тяжести наиболее ближайших к ним точек. Если кластеризация применяется в этом наборе данных, наблюдения объединяются в зависимости от их расстояния с каждым центроидом. В этом графе представлены предыдущие наблюдения набора данных, сгруппированные в четыре кластера. Эта диаграмма известна как диаграмма Вороного. |
![]() |
Для создания выражений SQL, которые определяют кластеры, кластеризация использует принцип минимальной длины описания (MDL). Это означает, что после создания из подхода центроида начальные кластеры изменяют свою форму, получают размер наименьшего возможного выражения, то есть пытаются найти наилучший компромисс между длиной выражения и потерей информации. В этой графе представлены выражения SQL кластеров (красным) в сравнении с центроидами. В этой графе можно просмотреть, что:
|
![]() |
В этой графе представлены окончательные результаты, полученные с выражениями SQL. Наблюдение не появляется в двух различных кластерах, поэтому при перекрытии между двумя кластерами наблюдение в перекрытии сохраняется в первом созданном кластере. Второй кластер, который также содержал наблюдение, определяется заново для его исключения. В этой схеме числа соответствуют порядку создания кластеров. Можно убедиться, что наблюдения, которые содержались в двух кластерах, сохраняются только в одном. Выбор кластеров, в которых сохраняются наблюдения перекрытия, зависит от порядка, в котором были применены правила SQL. В этом случае правило, определяющее кластер 2, применено до определения правилами кластеров 1 и 3. |
![]() |
Ключ схемы |
В качестве побочного эффекта контроля Automated Analytics Modeler "Сегментация/кластеризация" предоставляет прогностическую силу (KI) и достоверность прогноза (KR). KI можно использовать для сравнения двух сегментаций (в особенности по причине того, что число сегментов одинаково). Если KI существенно не изменяется, то сегментация с SQL может быть предпочтительна, поскольку ее легче анализировать. При сокращении KI может быть необходимо придерживаться основной сегментации.
Может не потребоваться оптимизация прогностической силы для сегментации. Целевой профиль каждого сегмента доступен в GUI. Подлинный интерес могут представлять один или два из четырех кластеров. В этом случае следует сконцентрировать внимание на сегментах, представляющих интерес, и пронаблюдать, как они развиваются с генерацией SQL.