パーティション

HANA および HANA 以外のシナリオでパーティションコンポーネントのプロパティを設定できます。

構文

パーティションコンポーネントは、入力データセットをランダムに 3 つのサブセット (学習用、テスト用、検証用) にパーティショニングします。各サブセットの比率は、パラメータとして定義します。3 つのサブセットの和が、元のデータセットと完全に一致する必要はありません。

データセットは、次のパーティショニング方法を使用してパーティショニングできます。
  • ランダムパーティショニング、すべてのデータをランダムに分割
  • 階層化パーティショニング、各サブカテゴリをランダムに分割

2 つ目の方法では、データセットに少なくとも 1 つのカテゴリ属性 (varchar 型など) が設定されている必要があります。元のデータセットは、この属性のさまざまなカテゴリ値に従って細分化されます。次に、相互に排他的な各サブセットがランダムに分割され、学習用、テスト用、および検証用サブセットが作られます。こうすることで、すべての「カテゴリ値」つまり「階層」がサンプルのサブセットに含まれるようになります。

モデル比較チェーンで複数のアルゴリズムを比較するときには、パーティションコンポーネントが必須であることに注意してください。

パーティションのプロパティ
表 1: データ準備コンポーネントのプロパティ
プロパティ 説明
パーティショニング方法 データを学習、テスト、および検証セットにパーティショニングする方法を選択します。
  • ランダム
  • 階層化
ランダムシート 計算の実行に使用する乱数を入力します。
行のパーティショニング基準 行のパーティショニング方法を選択します。
  • 行のパーセント
  • 行数
学習セット 学習セットの行数または行のパーセントを入力します。
テストセット テストセットの行数または行のパーセントを入力します。
検証セット 検証セットの行数または行のパーセントを入力します。
パーティショニング列の名前 パーティショニングされた値が含まれる新しい列の名前を入力します。
スレッド数 実行時にアルゴリズムが使用するスレッドの数を入力します。