HANA DBSCAN

Свойства, которые можно настроить для алгоритма HANA DB Scan.

Синтаксис

HANA DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — это плотностный алгоритм кластеризации данных. Он находит число кластеров, начиная с оценочного распределения плотности соответствующих узлов.

DBSCAN требует двух параметров: радиус сканирования (eps) и минимальное число точек, требуемых для формирования кластера (minPts). Алгоритм запускается с произвольной непосещенной начальной точки. Извлекается eps-окрестность этой точки, и если содержащееся в ней число точек равно или больше значения minPts, формируется кластер. В противном случае точка помечается как шум. Эти два параметра очень важны и обычно определяются пользователем.

PAL предоставляет метод для автоматического определения этих двух параметров. Пользователь может указать параметры вручную или выбрать их автоматическое определение.

Свойства HANA DBSCAN
Таблица 1: Свойства алгоритма
Свойство Описание
Режим вывода Выберите режим, в котором требуется использовать выходные данные этого алгоритма.
Определить параметры автоматически Чтобы включить автоматическое определение значений минимального числа точек и радиуса, выберите True; в противном случае — False.
Функции Выберите столбцы ввода, для которых будет выполняться анализ.
Расчет кластеризации Установите этот параметр для вычисления значений кластеризации. Значение показывает качество кластеризации: 1 — хорошая кластеризация, 0 — плохая.
Имя кластера Введите имя нового столбца, который содержит номера кластеров для указанного набора данных (кластера).
Отсутствующие значения Выберите способ обработки отсутствующих значений.
Возможные способы:
  • Игнорировать: алгоритм пропускает записи независимых или зависимых столбцов, содержащие отсутствующие значения.
  • Сохранять: при вычислении алгоритма сохраняются записи, содержащие отсутствующие значения.
Показатель расстояния Установите этот параметр для расчета расстояния между элементами и центром кластера.
Число потоков Введите число потоков, которые алгоритм будет использовать при выполнении. По умолчанию это значение равно 1.