HANA K-Means

可为 HANA K-Means 算法进行配置的属性。

语法 在事先不知道观测之间关系的情况下,使用此算法可将观测按其相关性聚类为几组相关的观测。该算法将观测聚类为 k 个组,k 作为输入参数提供。然后,该算法根据观测与簇平均值之间的邻近程度将每个观测分配到簇。这种处理将持续到簇收敛。
注意
  • 每次执行 HANA K-Means 算法时,您可能获得针对每个簇的不同的簇编号。但是,每个簇中的观测都保持不变。
  • 不支持使用 HANA K-Means 算法创建模型。
HANA K-Means 属性
表 1: 算法属性
属性 说明
输出模式 选择希望使用的算法输出模式。
功能 选择希望用于执行分析的输入列。
类别列 选择希望视作类别列的输入列。
类别权重 输入类别权重。
计算轮廓 选择此选项可计算轮廓值。轮廓表示聚类的质量。轮廓值为 1 表示聚类的质量较好,为 0 表示聚类的质量较差。
缺少值 选择处理缺少值的方法。
可能的方法:
  • 忽略:算法会跳过独立列或从属列中包含缺少值的记录。
  • 保留:算法保留计算期间包含缺少值的记录。
簇数 输入聚类的组数。默认值为 5。
簇名称 为新创建的包含簇名称的列输入名称。
距离 根据簇的重心名称,为新创建的包含簇距离的列输入名称。
最大迭代数 输入允许用于查找簇的迭代数。默认值为 100。
中心计算方法 选择用于计算初始聚类中心的方法。
距离度量 输入用于计算项目与聚类中心之间的距离的方法。
规范化类型 选择规范化的类型。
线程数 输入可用于执行的线程数。默认值为 1。
退出阈值 输入从迭代数退出的阈值。默认值为 0.000000001。