可为 HANA DB Scan 算法进行配置的属性。
HANA DB Scan(基于密度的考虑噪音的应用程序空间聚类)是一种基于密度的数据聚类算法。该算法可从对应节点的估计密度分布开始查找簇。
DB Scan 需要两个参数:扫描半径(eps)和构成簇所需的最小点数(minPts)。该算法从任意一个尚未访问过的起始点开始,随后将会获取这一点的 eps 邻域。如果该邻域内包含的点数大于或等于 minPts,则会开始聚类。否则,这一点将标记为噪音。这两个参数非常重要,并且通常由用户确定。
PAL 提供了一种自动确定这两个参数的方式。用户可以自行指定这些参数,也可以选择让系统来确定它们。
| 属性 | 说明 |
|---|---|
| 输出模式 | 选择希望使用的算法输出模式。 |
| 自动定义参数 | 要让算法自动确定最小点数和半径参数,请选择“真”;否则,请选择“假”。 |
| 功能 | 选择希望用于执行分析的输入列。 |
| 计算轮廓 | 选择此选项可计算轮廓值。轮廓表示聚类的质量。轮廓值为 1 表示聚类的质量较好,为 0 表示聚类的质量较差。 |
| 簇名称 | 输入新列的名称,此新列包含给定数据集(簇)的簇数。 |
| 缺少值 | 选择处理缺少值的方法。 可能的方法:
|
| 距离度量 | 选择用于计算项目与簇中心之间的距离的选项。 |
| 线程数 | 输入算法应在执行时使用的线程数。默认值为 1。 |