HANA DB スキャン

HANA DB Scan アルゴリズム用に設定できるプロパティです。

構文

ノイズを使用したアプリケーションの密度ベース空間クラスタリングである HANA DB スキャンは、密度ベースのデータクラスタリングアルゴリズムです。 この機能は、関連するノードの予測された密度分布から始まるクラスタの数を検出します。

DB スキャンは、2 つのパラメータを要求します。 スキャン範囲 (eps) クラスタを作成するのに必要なおよび最少ポイント数 (minPts)。 アルゴリズムはアクセスされていない任意の開始ポイントからスタートします。 このポイントの eps-neighborhood は取得され、それが含むポイント数が最少ポイント以上の場合、クラスタは開始されます。 もしくは、そのポイントはノイズとしてラベルされます。 これらの 2 つのパラメータは非常に重要かつ、通常ユーザによって決定されるものです。

PAL はこれらの 2 つのパラメータを自動で決定する方法を提供します。 自分自身でパラメータを指定するか、システムに決めさせるかを選ぶことができます。

HANA DB スキャンプロパティ
表 1: アルゴリズムプロパティ
プロパティ 説明
出力モード このアルゴリズムの出力を使用するモードを選択します。
パラメータを自動で定義 アルゴリズムで最少ポイントおよび範囲パラメータを決定できるようにするには、True を選択します。そうでない場合は False を選択します。
機能 分析の実行で使用する入力列を選択します。
シルエットの計算 このオプションを選択して、シルエット値を計算します。 シルエットはクラスタリングの品質を示します。 シルエット値 1 はクラスタリングが良好であることを示し、0 は悪いことを示します。
クラスタ名 指定したデータセット (クラスタ) のクラスタ番号を含む新しい列の名前を入力します。
欠落値 欠落値の処理方法を選択します。
指定できる方法:
  • 無視: 非依存列または依存列に欠落値のあるレコードがアルゴリズムでスキップされます。
  • 保持: 計算中は欠落値のあるレコードがアルゴリズムで保持されます。
距離メジャー 項目とクラスタ中央の距離を計算するには、このオプションを選択します。
スレッド数 実行時にアルゴリズムが使用するスレッドの数を入力します。 デフォルト値は 1 です。