Свойства, которые можно настроить для алгоритма HANA DB Scan.
HANA DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — это плотностный алгоритм кластеризации данных. Он находит число кластеров, начиная с оценочного распределения плотности соответствующих узлов.
DBSCAN требует двух параметров: радиус сканирования (eps) и минимальное число точек, требуемых для формирования кластера (minPts). Алгоритм запускается с произвольной непосещенной начальной точки. Извлекается eps-окрестность этой точки, и если содержащееся в ней число точек равно или больше значения minPts, формируется кластер. В противном случае точка помечается как шум. Эти два параметра очень важны и обычно определяются пользователем.
PAL предоставляет метод для автоматического определения этих двух параметров. Пользователь может указать параметры вручную или выбрать их автоматическое определение.
| Свойство | Описание |
|---|---|
| Режим вывода | Выберите режим, в котором требуется использовать выходные данные этого алгоритма. |
| Определить параметры автоматически | Чтобы включить автоматическое определение значений минимального числа точек и радиуса, выберите True; в противном случае — False. |
| Функции | Выберите столбцы ввода, для которых будет выполняться анализ. |
| Расчет кластеризации | Установите этот параметр для вычисления значений кластеризации. Значение показывает качество кластеризации: 1 — хорошая кластеризация, 0 — плохая. |
| Имя кластера | Введите имя нового столбца, который содержит номера кластеров для указанного набора данных (кластера). |
| Отсутствующие значения | Выберите способ обработки отсутствующих значений. Возможные способы:
|
| Показатель расстояния | Установите этот параметр для расчета расстояния между элементами и центром кластера. |
| Число потоков | Введите число потоков, которые алгоритм будет использовать при выполнении. По умолчанию это значение равно 1. |