HANA および HANA 以外のシナリオでパーティションコンポーネントのプロパティを設定できます。
パーティションコンポーネントは、入力データセットをランダムに 3 つのサブセット (学習用、テスト用、検証用) にパーティショニングします。各サブセットの比率は、パラメータとして定義します。3 つのサブセットの和が、元のデータセットと完全に一致する必要はありません。
2 つ目の方法では、データセットに少なくとも 1 つのカテゴリ属性 (varchar 型など) が設定されている必要があります。元のデータセットは、この属性のさまざまなカテゴリ値に従って細分化されます。次に、相互に排他的な各サブセットがランダムに分割され、学習用、テスト用、および検証用サブセットが作られます。こうすることで、すべての「カテゴリ値」つまり「階層」がサンプルのサブセットに含まれるようになります。
モデル比較チェーンで複数のアルゴリズムを比較するときには、パーティションコンポーネントが必須であることに注意してください。
| プロパティ | 説明 |
|---|---|
| パーティショニング方法 | データを学習、テスト、および検証セットにパーティショニングする方法を選択します。
|
| ランダムシート | 計算の実行に使用する乱数を入力します。 |
| 行のパーティショニング基準 | 行のパーティショニング方法を選択します。
|
| 学習セット | 学習セットの行数または行のパーセントを入力します。 |
| テストセット | テストセットの行数または行のパーセントを入力します。 |
| 検証セット | 検証セットの行数または行のパーセントを入力します。 |
| パーティショニング列の名前 | パーティショニングされた値が含まれる新しい列の名前を入力します。 |
| スレッド数 | 実行時にアルゴリズムが使用するスレッドの数を入力します。 |