可在 HANA 方案中为分箱准备部件进行配置的属性。
语法 分箱也称作离散化,可平滑已排序的数据值。它把某范围内的数字变量分成称作“箱”的子范围集,并用箱号替换每个值。运行某些算法(如决策树算法)之前对数据进行分箱有助于降低模型的复杂度。
共有四种分箱方法:
- 基于箱数的等宽
- 基于箱宽的等宽
- 等深
- 与平均值的偏差
还有三个方法用于平滑:
- 按箱平均值平滑:箱中每个值均被平均值的箱值替换。
- 按箱中位数平滑:每个箱值均被箱中位数替换。
- 按箱边界平滑:给定箱中最小值和最大值被标识为箱边界。每个箱值则被其最近的边界值替换。
HANA 分箱属性
表 1: 数据准备部件属性
| 属性 |
说明 |
| 独立列 |
选择希望执行分箱的输入源列。 |
| 缺少值 |
选择处理缺少值的方法。 可能的方法: - 忽略:该算法会跳过独立列或从属列中包含缺少值的记录。
- 保留:保留缺少值。
|
| 分箱方法 |
选择“分箱方法”。 |
| 箱数 |
输入所需的箱数。 |
| 平滑方法 |
选择“平滑方法”。 |
| 已分箱列名称 |
输入包含箱数的新列的名称。 |
| 平滑值列名称 |
输入包含平滑值的新列的名称。 |
对数据集中的数据分箱
| 城市 |
温度 |
| 阿姆斯特丹 |
6 |
| 法兰克福 |
12 |
| 广州 |
13 |
| 开普敦 |
15 |
| 华道夫 |
10 |
| 班加罗尔 |
23 |
| 孟买 |
24 |
| 迈阿密 |
30 |
| 里约热内卢 |
32 |
| 悉尼 |
25 |
| 迪拜 |
38 |
要按照基于宽度数的等宽对“温度”一列进行分箱操作并按照平均值应用平滑方法,请执行以下步骤:
- 将“分箱”部件拖动到分析编辑器。
- 双击“分箱”,或将鼠标悬停在“分箱”上并选择“配置属性”。
- 在“独立列”下拉列表中,选择列,例如“温度”:
注意 只能选择含数值位数值的列。
- 在“缺少值”下拉列表中,选择“忽略”。
- 在“分箱方法”中,选择“基于箱数的等宽”。
- 在箱数中输入 4。
- 选择“要求平滑”。
- 在平滑方法中,选择“箱平均值”。
- 在“输入新添加列的名称”下的“已分箱列名称”中,输入“温度箱”。
注意 可以根据个人喜好或分析要求为列命名。此列包含已分箱值。
- 在“输入新添加列的名称”下的“平滑值列名称”中,输入“温度平滑”。
注意 可以根据个人喜好或分析要求为列命名。此列包含已平滑值。
输出表:
| 城市 |
温度 |
温度箱 |
温度平滑 |
| 阿姆斯特丹 |
6 |
1 |
8.0 |
| 法兰克福 |
12 |
2 |
13.33333 |
| 广州 |
13 |
2 |
13.33333 |
| 开普敦 |
15 |
2 |
13.33333 |
| 华道夫 |
10 |
1 |
8.0 |
| 班加罗尔 |
23 |
3 |
25.5 |
| 孟买 |
24 |
3 |
25.5 |
| 迈阿密 |
30 |
3 |
25.5 |
| 里约热内卢 |
32 |
4 |
35.0 |
| 悉尼 |
25 |
3 |
25.5 |
| 迪拜 |
38 |
4 |
35.0 |