可以在 HANA 和非 HANA 方案中配置规范化准备部件的属性。
语法 使用此部件可规范化特性数据。HANA 规范化将较大值特性数据缩放到特定范围内,例如 -1.0 到 1.0 或 0.0 到 1.0。可以使用该部件进行数据库内分析。数据的规范化有助于涉及神经网络或距离度量(如最近邻居分类和聚类)的分类算法。
注意 如果希望使用处理后的数据替换现有列,请选择“替换列”。
规范化部件支持以下规范化方法:
- “最小-最大”规范化:对原始数据值执行线性传输,并将每个值缩放到特定的范围内。执行“最小-最大”规范化时,可以指定“新最大值”和“新最小值”。此规范化有助于确保将极端值约束在固定的范围内。
- “Z 得分”规范化:根据每个特性的“平均值”和“标准偏差”进行计算。此规范化有助于确定特定值究竟高于平均值还是低于平均值,以及高于或低于平均值的量。
- “小数点移位”规范化:每个特性值的小数点都会根据其最大绝对值移动。
注意 如果希望用规范化后的数据替换用于执行规范化的现有列数据,可选择“替换列”。
规范化经过特定距离所需的时间。
表:
| 名称 |
距离(米) |
时间(秒) |
| Laura |
500 |
66 |
| Desy |
500 |
360 |
| Alex |
500 |
201 |
| John |
500 |
78 |
| Ted |
500 |
504 |
要使用
“最小-最大”规范化对“时间”列进行规范化,请执行以下步骤:
- 在“预测”视图中,从“部件”列表选择“数据准备”选项卡。
- 将“HANA 规范化”部件拖动到分析编辑器中或双击“HANA 规范化”。
- 双击“HANA Normalization”(HANA 规范化),或将鼠标指针悬停在“HANA Normalization”(HANA 规范化)上并选择“配置属性”。
- 选择希望执行规范化的列。
注意 只能选择含数值的列。
例如,时间(秒)。
- 从“规范化类型”下拉列表中选择“最小-最大”。
- 为“新最大值”和“新最小值”输入值。
- 选择“完成”,然后选择“运行”。
输出表:
| 名称 |
距离(米) |
时间(秒) |
时间(秒)_规范化 |
| Laura |
500 |
66 |
0.05 |
| Desy |
500 |
360 |
0.30 |
| Alex |
500 |
201 |
0.17 |
| John |
500 |
78 |
0.06 |
| Ted |
500 |
504 |
0.42 |
为
“Z 得分”规范化和
“小数点移位”规范化执行与
“最小-最大”规范化中提及的相同步骤。但是,对于
“Z 得分”规范化和
“小数点移位”规范化,您不必输入
“新最大值”和
“新最小值”。
“Z 得分”规范化输出:
输出表:
| 名称 |
距离(米) |
时间(秒) |
| Laura |
500 |
-0.49 |
| Desy |
500 |
1.77 |
| Alex |
500 |
0.55 |
| John |
500 |
-0.40 |
| Ted |
500 |
2.88 |
“小数点移位”规范化输出:
输出表:
| 名称 |
距离(米) |
时间(秒) |
| Laura |
500 |
0.01 |
| Desy |
500 |
0.04 |
| Alex |
500 |
0.02 |
| John |
500 |
0.01 |
| Ted |
500 |
0.05 |