自动化聚类

在 HANA 和非 HANA 方案中可以为自动化聚类配置的属性。

什么是自动化聚类?

自动化聚类算法发现数据中引用目标变量的段。具体做法是,自动选择聚类算法和关键输入变量以生成最好模型。

但可以在没有目标变量的情况下训练自动化聚类。如果提供一个目标变量,则可以在内部用它来验证聚类的性能并对模型进行微调。

注意 用户可以看到通过使用自动化聚类算法获得的以统计图格式显示的分析结果。用户也可以显示分析结果的汇总视图。
语法 “自动化聚类”是一种不完全指导式或定向聚类算法,经设计并优化以用于显示与特定业务问题相关的段。此算法可发现数据集中的自然段或常见行为,并提供对每个段的说明。
注意 使用自动化聚类算法时,建议先截去值再获取数据集。用户可在“新建数据集”对话框的“高级选项”部分中找到“Trim Values”(截去值)选项。

有关联机自动化算法中使用的函数的更多信息,请参阅《SAP Automated Predictive Library Reference Guide》 (SAP Automated Predictive 库参考指南,APL),地址是 http://help.sap.com/pa

HANA 自动化聚类属性
表 1: 算法属性
属性 说明
功能 选择要对其执行分析的输入列。
目标变量 选择希望用于执行分析的可选目标列。
最小簇数 输入要用于聚类的最小簇数。
最大簇数 输入要用于聚类的最大簇数。
预测列的名称 为新创建的包含预测值的列输入名称。