可以在 HANA 和非 HANA 方案中配置分区部件的属性。
分区部件将输入数据集随机分为三个子集:训练、测试和验证。每个子集的比例按参数定义。这三个子集的并集不必构成整个初始数据集。
在第二种情况中,数据集必须至少具有一个分类特性(例如类型为 varchar)。初始数据集将根据此特性的不同分类值进行细分。然后将每个互斥的子集随机拆分,以获取训练、测试和验证三个子集。这可确保所有“分类值”或“层”以抽样子集呈现。
请注意,在模型比较链中比较两个或更多算法时,分区部件是必需的。
| 属性 | 说明 |
|---|---|
| 分区方法 | 选择将数据分为训练、测试和验证数据集的方法。
|
| 随机种子 | 输入要用于执行计算的随机数。 |
| 行分区依据 | 选择用于对行进行分区的方法。
|
| 训练集 | 为训练集输入行的数目或百分比。 |
| 测试集 | 为测试集输入行的数目或百分比。 |
| 验证集 | 输入验证集的行数或行百分比。 |
| 分区列的名称 | 输入包含分区值的新列的名称。 |
| 线程数 | 输入算法应在执行时使用的线程数。 |