HANA 分箱

可在 HANA 方案中为分箱准备部件进行配置的属性。

语法 分箱也称作离散化,可平滑已排序的数据值。它把某范围内的数字变量分成称作“箱”的子范围集,并用箱号替换每个值。运行某些算法(如决策树算法)之前对数据进行分箱有助于降低模型的复杂度。
共有四种分箱方法:
  • 基于箱数的等宽
  • 基于箱宽的等宽
  • 等深
  • 与平均值的偏差
还有三个方法用于平滑:
  • 按箱平均值平滑:箱中每个值均被平均值的箱值替换。
  • 按箱中位数平滑:每个箱值均被箱中位数替换。
  • 按箱边界平滑:给定箱中最小值和最大值被标识为箱边界。每个箱值则被其最近的边界值替换。
HANA 分箱属性
表 1: 数据准备部件属性
属性 说明
独立列 选择希望执行分箱的输入源列。
缺少值 选择处理缺少值的方法。
可能的方法:
  • 忽略:该算法会跳过独立列或从属列中包含缺少值的记录。
  • 保留:保留缺少值。
分箱方法 选择“分箱方法”
箱数 输入所需的箱数。
平滑方法 选择“平滑方法”
已分箱列名称 输入包含箱数的新列的名称。
平滑值列名称 输入包含平滑值的新列的名称。

对数据集中的数据分箱
城市 温度
阿姆斯特丹 6
法兰克福 12
广州 13
开普敦 15
华道夫 10
班加罗尔 23
孟买 24
迈阿密 30
里约热内卢 32
悉尼 25
迪拜 38
要按照基于宽度数的等宽对“温度”一列进行分箱操作并按照平均值应用平滑方法,请执行以下步骤:
  1. “分箱”部件拖动到分析编辑器。
  2. 双击“分箱”,或将鼠标悬停在“分箱”上并选择“配置属性”
  3. “独立列”下拉列表中,选择列,例如“温度”
    注意 只能选择含数值位数值的列。
  4. “缺少值”下拉列表中,选择“忽略”
  5. “分箱方法”中,选择“基于箱数的等宽”
  6. 在箱数中输入 4。
  7. 选择“要求平滑”
  8. 在平滑方法中,选择“箱平均值”
  9. 在“输入新添加列的名称”下的“已分箱列名称”中,输入“温度箱”。
    注意 可以根据个人喜好或分析要求为列命名。此列包含已分箱值。
  10. 在“输入新添加列的名称”下的“平滑值列名称”中,输入“温度平滑”。
    注意 可以根据个人喜好或分析要求为列命名。此列包含已平滑值。
输出表
城市 温度 温度箱 温度平滑
阿姆斯特丹 6 1 8.0
法兰克福 12 2 13.33333
广州 13 2 13.33333
开普敦 15 2 13.33333
华道夫 10 1 8.0
班加罗尔 23 3 25.5
孟买 24 3 25.5
迈阿密 30 3 25.5
里约热内卢 32 4 35.0
悉尼 25 3 25.5
迪拜 38 4 35.0