HANA DB Scan

可为 HANA DB Scan 算法进行配置的属性。

语法

HANA DB Scan(基于密度的考虑噪音的应用程序空间聚类)是一种基于密度的数据聚类算法。该算法可从对应节点的估计密度分布开始查找簇。

DB Scan 需要两个参数:扫描半径(eps)和构成簇所需的最小点数(minPts)。该算法从任意一个尚未访问过的起始点开始,随后将会获取这一点的 eps 邻域。如果该邻域内包含的点数大于或等于 minPts,则会开始聚类。否则,这一点将标记为噪音。这两个参数非常重要,并且通常由用户确定。

PAL 提供了一种自动确定这两个参数的方式。用户可以自行指定这些参数,也可以选择让系统来确定它们。

HANA DB Scan 属性
表 1: 算法属性
属性 说明
输出模式 选择希望使用的算法输出模式。
自动定义参数 要让算法自动确定最小点数和半径参数,请选择“真”;否则,请选择“假”。
功能 选择希望用于执行分析的输入列。
计算轮廓 选择此选项可计算轮廓值。轮廓表示聚类的质量。轮廓值为 1 表示聚类的质量较好,为 0 表示聚类的质量较差。
簇名称 输入新列的名称,此新列包含给定数据集(簇)的簇数。
缺少值 选择处理缺少值的方法。
可能的方法:
  • 忽略:算法会跳过独立列或从属列中包含缺少值的记录。
  • 保留:算法保留计算期间包含缺少值的记录。
距离度量 选择用于计算项目与簇中心之间的距离的选项。
线程数 输入算法应在执行时使用的线程数。默认值为 1。