HANA および HANA 以外のシナリオで正規化準備コンポーネントのプロパティを設定できます。
構文 このコンポーネントを使用して、属性データを正規化します。HANA 正規化では、大きな値の属性データが特定の範囲内 (-1.0 から 1.0、0.0 から 1.0 など) に収まるようスケーリングされます。このコンポーネントは、インデータベース分析に使用できます。データの正規化は、ニューラルネットワークに関連する分類アルゴリズムや、最近隣分類およびクラスタリングなどの距離測定に使用できます。
注記 処理されたデータで既存の列を置換する場合は、[列の置換] を選択します。
正規化コンポーネントは、以下の正規化メソッドをサポートします。
- 最小値 - 最大値正規化:元のデータ値に対して線形変換を実行し、特定の範囲に収まるように各値をスケーリングします。最小値 - 最大値正規化を実行する際、新しい最大値および新しい最小値を指定することができます。この正規化は、外れ値を一定の範囲に制限するのに役立ちます。
注記 - 新しい最大値は、新しい最小値より大きくする必要があります。
- Z スコア正規化:各属性の平均および標準偏差に基づいて計算を行います。この正規化は、特定の値が平均を上回っているかまたは下回っているか、およびその程度を決定するのに役立ちます。
- 小数スケーリング正規化:各属性値の小数点を最大絶対値に応じて移動させます。
注記 正規化されたデータによって正規化が実行される既存の列データを置換する場合は、列の置換を選択できます。
一定の距離を処理するのにかかった時間の正規化
テーブル:
| 名前 |
距離 (メートル) |
時間 (秒) |
| Laura |
500 |
66 |
| Desy |
500 |
360 |
| Alex |
500 |
201 |
| John |
500 |
78 |
| テッド |
500 |
504 |
最小値 - 最大値正規化を使用して時間列を正規化するには、以下の手順を実行します。
- 予測ビューで、コンポーネント一覧からデータ準備タブを選択します。
- HANA 正規化コンポーネントを分析エディタにドラッグするか、または HANA 正規化をダブルクリックします。
- HANA 正規化をダブルクリックするか、HANA 正規化の上にカーソルを合わせて、プロパティの設定を選択します。
- 正規化する列を選択します。
注記 数値が入力されている列のみを選択できます。
例: 時間 (秒)
- 正規化タイプのドロップダウンで 最小値 - 最大値を選択します。
- 新しい最大値および新しい最小値に値を入力します。
- 完了を選択し、実行を選択します。
出力テーブル:
| 名前 |
距離 (メートル) |
時間 (秒) |
時間 (秒)_ 正規化 |
| Laura |
500 |
66 |
0.05 |
| Desy |
500 |
360 |
0.30 |
| Alex |
500 |
201 |
0.17 |
| John |
500 |
78 |
0.06 |
| テッド |
500 |
504 |
0.42 |
Z スコア正規化および
小数スケーリング正規化に対しても、
最小値 - 最大値正規化で説明した手順と同じ手順を実行します。ただし、
Z スコア正規化および
小数スケーリング正規化の場合、
新しい最大値および
新しい最小値を入力する必要はありません。
Z スコア正規化の出力は次のようになります。
出力テーブル:
| 名前 |
距離 (メートル) |
時間 (秒) |
| Laura |
500 |
-0.49 |
| Desy |
500 |
1.77 |
| Alex |
500 |
0.55 |
| John |
500 |
-0.40 |
| テッド |
500 |
2.88 |
小数スケーリング正規化の出力は次のようになります。
出力テーブル:
| 名前 |
距離 (メートル) |
時間 (秒) |
| Laura |
500 |
0.01 |
| Desy |
500 |
0.04 |
| Alex |
500 |
0.02 |
| John |
500 |
0.01 |
| テッド |
500 |
0.05 |