规范化部件

可以在 HANA 和非 HANA 方案中配置规范化准备部件的属性。

语法 使用此部件可规范化特性数据。HANA 规范化将较大值特性数据缩放到特定范围内,例如 -1.0 到 1.0 或 0.0 到 1.0。可以使用该部件进行数据库内分析。数据的规范化有助于涉及神经网络或距离度量(如最近邻居分类和聚类)的分类算法。
注意 如果希望使用处理后的数据替换现有列,请选择“替换列”

规范化部件支持以下规范化方法:

  • “最小-最大”规范化:对原始数据值执行线性传输,并将每个值缩放到特定的范围内。执行“最小-最大”规范化时,可以指定“新最大值”“新最小值”。此规范化有助于确保将极端值约束在固定的范围内。
    注意
    • “新最大值”必须大于“新最小值”
  • “Z 得分”规范化:根据每个特性的“平均值”“标准偏差”进行计算。此规范化有助于确定特定值究竟高于平均值还是低于平均值,以及高于或低于平均值的量。
  • “小数点移位”规范化:每个特性值的小数点都会根据其最大绝对值移动。
注意 如果希望用规范化后的数据替换用于执行规范化的现有列数据,可选择“替换列”

规范化经过特定距离所需的时间。
表:
名称 距离(米) 时间(秒)
Laura 500 66
Desy 500 360
Alex 500 201
John 500 78
Ted 500 504
要使用“最小-最大”规范化对“时间”列进行规范化,请执行以下步骤:
  1. “预测”视图中,从“部件”列表选择“数据准备”选项卡。
  2. “HANA 规范化”部件拖动到分析编辑器中或双击“HANA 规范化”
  3. 双击“HANA Normalization”(HANA 规范化),或将鼠标指针悬停在“HANA Normalization”(HANA 规范化)上并选择“配置属性”
  4. 选择希望执行规范化的列。
    注意 只能选择含数值的列。

    例如,时间(秒)。

  5. 从“规范化类型”下拉列表中选择“最小-最大”
  6. “新最大值”“新最小值”输入值。
  7. 选择“完成”,然后选择“运行”
输出表:
名称 距离(米) 时间(秒) 时间(秒)_规范化
Laura 500 66 0.05
Desy 500 360 0.30
Alex 500 201 0.17
John 500 78 0.06
Ted 500 504 0.42
“Z 得分”规范化和“小数点移位”规范化执行与“最小-最大”规范化中提及的相同步骤。但是,对于“Z 得分”规范化和“小数点移位”规范化,您不必输入“新最大值”“新最小值”
“Z 得分”规范化输出:
输出表:
名称 距离(米) 时间(秒)
Laura 500 -0.49
Desy 500 1.77
Alex 500 0.55
John 500 -0.40
Ted 500 2.88
“小数点移位”规范化输出:
输出表:
名称 距离(米) 时间(秒)
Laura 500 0.01
Desy 500 0.04
Alex 500 0.02
John 500 0.01
Ted 500 0.05