HANA シナリオで正規化準備コンポーネント用に設定できるプロパティです。
構文 ビンニング (別名: 離散化) により、並べ替えられたデータ値が平滑化されます。これにより、数値変数の範囲がビンと呼ばれるサブ範囲に分割され、各値がそのビン番号によって置換されます。デシションツリーアルゴリズムなどの特定のアルゴリズムを実行する前にデータをビンニングすることで、モデルの複雑さを軽減することができます。
4 つのビンニングメソッドがあります。
- ビン数に基づく等しい幅
- ビン幅に基づく等しい幅
- 等しい奥行き
- 平均からの偏差
また、平滑化には 3 つの方法があります。
- ビン平均による平滑化: ビンの各値が、ビンの平均値によって置換されます。
- ビンの中央値による平滑化: 各ビン値が、ビンの中央値によって置換されます。
- ビンの境界による平滑化: 特定のビンの最小値と最大値が、ビン境界として特定されます。各ビン値は、最も近い境界値によって置換されます。
HANA ビンニングプロパティ
表 1: データ準備コンポーネントのプロパティ
| プロパティ |
説明 |
| 非依存列 |
ビンニングを実行する入力ソース列を選択します。 |
| 欠落値 |
欠落値の処理方法を選択します。 指定できる方法: - 無視: 非依存列または依存列に欠落値のあるレコードがアルゴリズムでスキップされます。
- 保持: 欠落値を保持します。
|
| ビンニングメソッド |
ビンニングメソッドを選択します。 |
| ビン数 |
必要なビンの数を入力します。 |
| 平滑化方法 |
平滑化方法を選択します。 |
| ビンされた列名 |
ビン番号が含まれる新しい列の名前を入力します。 |
| 平滑値列名 |
平滑化された値が含まれる新しい列の名前を入力します。 |
データセットにおけるデータのビンニング
| 都市 |
温度 |
| アムステルダム |
6 |
| フランクフルト |
12 |
| 広州 |
13 |
| ケープタウン |
15 |
| ウォルドルフ |
10 |
| バンガロール |
23 |
| ムンバイ |
24 |
| マイアミ |
30 |
| リオデジャネイロ |
32 |
| シドニー |
25 |
| ドバイ |
38 |
幅の数に基づき、等しい幅によって [温度] 列をビンニングし、平均による平滑化方法を適用するには、以下の手順に従います。
- ビンニングコンポーネントを分析エディタにドラッグします。
- ビンニングをダブルクリックするか、ビンニングにカーソルを合わせて、プロパティの設定を選択します。
- 非依存列ドロップダウンリストで、温度などの列を選択します。
注記 数値が入力されている列のみを選択できます。
- 欠落値ドロップダウンリストで無視を選択します。
- ビンニングメソッドでビン数に基づく等しい幅を選択します。
- ビン数に 4 を入力します。
- 平滑化必須を選択します。
- 平滑化方法でビン平均を選択します。
- 新たに追加された列の名前を入力のビンされた列名に温度ビンを入力します。
注記 列名は、ユーザの選択または分析要件に基づいて設定できます。この列には、ビンニングされた値が含まれます。
- 新たに追加された列の名前を入力の平滑化値列名に温度平滑化を入力します。
注記 列名は、ユーザの選択または分析要件に基づいて設定できます。この列には、平滑化された値が含まれます。
出力テーブル:
| 市町村 |
温度 |
温度ビン |
温度平滑化 |
| アムステルダム |
6 |
1 |
8.0 |
| フランクフルト |
12 |
2 |
13.33333 |
| 広州 |
13 |
2 |
13.33333 |
| ケープタウン |
15 |
2 |
13.33333 |
| ウォルドルフ |
10 |
1 |
8.0 |
| バンガロール |
23 |
3 |
25.5 |
| ムンバイ |
24 |
3 |
25.5 |
| マイアミ |
30 |
3 |
25.5 |
| リオデジャネイロ |
32 |
4 |
35.0 |
| シドニー |
25 |
3 |
25.5 |
| ドバイ |
38 |
4 |
35.0 |