分区

可以在 HANA 和非 HANA 方案中配置分区部件的属性。

语法

分区部件将输入数据集随机分为三个子集:训练、测试和验证。每个子集的比例按参数定义。这三个子集的并集不必构成整个初始数据集。

可以使用以下分区方法对数据集进行分区:
  • 随机分区(以随机方式拆分所有数据)。
  • 分层分区(以随机方式拆分每个子类别)。

在第二种情况中,数据集必须至少具有一个分类特性(例如类型为 varchar)。初始数据集将根据此特性的不同分类值进行细分。然后将每个互斥的子集随机拆分,以获取训练、测试和验证三个子集。这可确保所有“分类值”或“层”以抽样子集呈现。

请注意,在模型比较链中比较两个或更多算法时,分区部件是必需的。

分区属性
表 1: 数据准备部件属性
属性 说明
分区方法 选择将数据分为训练、测试和验证数据集的方法。
  • 随机
  • 分层
随机种子 输入要用于执行计算的随机数。
行分区依据 选择用于对行进行分区的方法。
  • 行的百分比
  • 行数
训练集 为训练集输入行的数目或百分比。
测试集 为测试集输入行的数目或百分比。
验证集 输入验证集的行数或行百分比。
分区列的名称 输入包含分区值的新列的名称。
线程数 输入算法应在执行时使用的线程数。