モデル統計コンポーネント

モデル統計コンポーネントを使用して、すべてのシナリオ (HANA および HANA 以外) における 2 クラス問題を解決するパフォーンマンス統計を生成します。チャートの範囲の結果を視覚化し、共有します。モデル統計コンポーネントをモデル比較コンポーネントと合わせて使用して、複数のモデルを比較し、予測問題に最適なモデルを見つけます。

パフォーマンス統計の計算

モデル統計は、アルゴリズムによって生成されたデータセット上でパフォーマンス統計を計算するコンポーネントです。2 つのアルゴリズムタイプ、分類、および回帰の統計を計算することができます。さらに、学習用、検証用、およびテスト用データセットと選択した KPI のパフォーマンス統計を生成するように、このコンポーネントを設定できます。

2 クラス問題

このコンポーネントは、2 クラス問題のみで機能します。2 クラス問題は結果が 2 つのうち 1 つになるビジネス問題であり、分類ルールによって、与えられたデータセットの要素が 2 つのグループに分類されます。

1 つの例として挙げられるのが、購読サービスを含むビジネスのチャーンモデリングです。このようなケースでは、2 クラス問題により、サービスを継続して使用する購読者と、使用を終了する購読者を特定します。

もう 1 つの例として挙げられるのが、金融機関での不正検出です。ここでは、2 クラス問題を使用して、不正がある取引と不正がない取引を特定します。

優れた予測品質 (KI) を確保する方法

モデルの予測品質 (Ki) が優れていることを保証する必要があります。たとえば、Ki がゼロである場合は、モデルが実質的にはランダムモデルと等しいため、質が低く、信頼できません。

Ki は、目標の予測に利用できる情報の量と直接関連します。そのため、以下の方法によってモデルで使用できる変数の数を増やすことにより、KI を改善できます。

  • 利用可能なすべての変数を使用する。
  • 分野の知識を生かして別の情報源を見つける。
  • データ加工を使用して、既存の変数から変数を構築する。
  • 多項式の次数を増やして、変数の組み合わせを使用する。
モデル統計のチャート

モデル統計コンポーネントでは、分類アルゴリズムおよび回帰アルゴリズムのチャートを生成し共有できます。チャートによって、分類アルゴリズムおよび回帰アルゴリズムのパフォーマンスが視覚化されます。

分類チャート
  • ゲイン (利益):選択したターゲットポピュレーションの割合に基づいてモデルによって実現されるゲイン、つまり利益を視覚化します。このチャートの Y 軸はゲイン/利益、X 軸は割合を示します。
  • リフト値:学習用モデルが比較時にランダムモデルに与えるリフトの量を視覚化します。これにより、完全モデル、ランダムモデル、および作成されたモデル間の違いを検証できます。このチャートの Y 軸はリフト利益、X 軸は割合を示します。
  • 標準化 (KS):2 つのバイナリの分類クラスの分布関数間の距離を視覚化します (クラス 1 とクラス 2 など)。関数間の最大分離可能性を生成するスコアは、ターゲットを受け入れるか拒否するかのしきい値と考えられます。分離可能性を測定することで、2 つのクラスのレコードをモデルがどれだけ区別できるかを判定できます。入力データの偏差がわずかである場合にも、モデルはこれらのパターンを識別し、2 つを区別する必要があります。このように、分離可能性はモデルの適正の指標となります。分離可能性が大きいほど、モデルは適正であるといえます。2 つの分布間の分離可能性の量が最大の予測モデルは、優れたモデルと考えることができます。
  • 受信者操作特性 (ROC):ROC 曲線を視覚化します。ROC 曲線は、さまざまなしきい値設定における真の陽性率 (感度) を、負の陽性率 (フォールアウト。特異度 1 として計算) に対してプロットすることで生成されます。ROC 曲線はメトリクス、曲線下面積 (AUC) の派生に使用します。このチャートの Y 軸は感度、X 軸は特異度を示します。
回帰チャート:
  • モデル精度:実際のターゲット値と比較して正確に予測されたレコードの数を視覚化します。
モデル比較コンポーネントとの交互作用

モデル統計コンポーネントとモデル比較コンポーネントを合わせて使用して、予測問題に最適なアルゴリズムを学習できます。はじめに、モデル統計コンポーネントを使用して、分類アルゴリズムタイプか回帰アルゴリズムタイプのどちらかのパフォーマンス統計を計算します。次に、計算したパフォーマンス統計をモデル比較コンポーネントで比較して、実行時のパフォーマンスが最適なアルゴリズムを選択します。

モデル統計コンポーネントの設定を変更すると、モデル比較コンポーネントに影響を与えることに注意してください。

モデル比較と交互作用しているときにチャートを作成すると、モデル統計コンポーネントは各パーティションをオーバーレイし、パーティションごとに異なる結果が表示されます。2 つのコンポーナントは同じデータを使用するため、モデル比較コンポーネントも同様です。そのため、この 2 つのコンポーネントの KPI は正確に同じに設定する必要があります。

パーティションコンポーネントとの交互作用

パーティションコンポーネントが、モデル統計コンポーネントより前に分析チェーンに含まれる場合は、次の 3 つの異なるパーティションを使用できます。学習用、テスト用、および検証用。パーティションコンポーネントが含まれない場合は、モデル統計コンポーネントは学習用パーティションのみの一連の総計とチャートを表示します。