概要

モデル比較コンポーネントを使用してモデルを比較し、予測問題に関する最適なアルゴリズムを学習します。すべてのシナリオ (HANA および HANA 以外) を使用します。

モデルを比較する理由

Expert Analytics でモデルを比較することで、さまざまなアルゴリズムを試し、予測問題を解決するために最適なアルゴリズムを見つけられます。複数のアルゴリズムのパフォーマンスを比較するときには、はじめに、モデル統計コンポーネントを使用して分類アルゴリズムまたは回帰アルゴリズムのどちらかのパフォーマンス統計を計算します。次に、計算したパフォーマンス統計をモデル比較コンポーネントで比較して、実行時のパフォーマンスが最適なアルゴリズムを選択します。最後に、モデル比較コンポーネンは結果をマージして、最適なパフォーマンスのコンポーネントについて詳細なサマリを生成します。

パーティションの設定

分析チェーンをより厳密にコントロールするために、モデル比較コンポーネントにパーティションタイプを設定できます。コンポーネントのプロパティパネルで、モデルのパフォーマンスを比較するための検証用パーティションかテスト用パーティションのどちらかを選択できます。コンポーネントはデータセットを学習用、検証用、テスト用という 3 つのサブセットに分割します。

コンポーネントで、すべてのパーティションのパフォーマンス結果が計算されます。ただし、選択したパーティションのみで、どちらが優れているかが識別されます。比較対象となったコンポーネントのみから最適なコンポーネントが選ばれます。

KPI の設定

分析チェーンでは、主要業績評価指標 (KPI) のタイプと比較順を選択できます。

次の表に、分類アルゴリズムと回帰アルゴリズムに固有の KPI をまとめます。
表 1: 分類 KPI

KPI

定義

Ki

予測力。品質インジケータで、ターゲット変数に含まれる情報のうち説明変数が説明することが可能な割合に対応します。

Kr

モデルの信頼度、つまり、類似する新しいデータを生成する能力。生成されたモデルの頑健性インジケータ。このインジケータは、モデルを新しいデータセットに適用した場合に、学習用データセットと同様の特性を示すことができるという点でどれだけ同様のパフォーマンスを達成できるのか、という能力を示します。

Ki および Kr

予測力およびモデルの信頼度。モデルの頑健性と一般的な機能に同程度の重要度を与えます。詳細については、上の項目の定義を参照してください。

ROC 曲線下面積 (AUC)

曲線化面積。受信者操作特性曲線下の面積 (エリア) として算出される、モデルのパフォーマンスもしくは予測力のランクに基づく尺度です。

S (KS)

2 つのバイナリの分類クラスの分布関数間の距離 (クラス 1 とクラス 2 など)。関数間の最大分離可能性を生成するスコアは、ターゲットを受け入れるか拒否するかのしきい値と考えられます。分離可能性を測定することで、2 つのクラスのレコードをモデルがどれだけ区別できるかを判定できます。入力データの偏差がわずかである場合にも、モデルはこれらのパターンを識別し、2 つを区別する必要があります。このように、分離可能性はモデルの適正の指標となります。分離可能性が大きいほど、モデルは適正であるといえます。2 つの分布間の分離可能性の量が最大の予測モデルは、優れたモデルと考えることができます。

ゲイン % (利益 %)

選択されたターゲットポピュレーションの割合に基づいてモデル別に実現されるゲイン、つまり利益。

リフト %

学習用モデルが比較時にランダムモデルに与えるリフトの量。これにより、完全モデル、ランダムモデル、および作成されたモデル間の違いを検証できます。

表 2: 回帰 KPI

KPI

定義

Ki

予測力。品質インジケータで、ターゲット変数に含まれる情報のうち説明変数が説明することが可能な割合に対応します。

Kr

モデルの信頼度、つまり、類似する新しいデータを生成する能力。生成されたモデルの頑健性インジケータ。このインジケータは、モデルを新しいデータセットに適用した場合に、学習用データセットと同様の特性を示すことができるという点でどれだけ同様のパフォーマンスを達成できるのか、という能力を示します。

Ki および Kr

予測力およびモデルの信頼度。モデルの頑健性と一般的な機能に同程度の重要度を与えます。詳細については、上の項目の定義を参照してください。

R2

決定係数 R2 は、統計モデルによって説明されるデータセットの変動の割合です。この比率は予測値の変動 (平方和) とデータの変動 (平方和) の間の値になります。

L1

平均絶対誤差 L1 は、予測値と実測値との差の絶対値の平均値 (市街地距離もしくはマンハッタン距離) です。

L2

平均平方誤差 L2 は、平方誤差の平均の平方根 (ユークリッド距離もしくは 2 乗平均平方誤差 - RMSE) です。

LInf

最大誤差 Linf は、予測値と実測値 (上限) との最大絶対差であり、チェビシェフ距離とも言います。

ErrorMean

予測値と実測値との差の平均です。

ErrorStdDev

実測値の周りの誤差の散らばりです。

1 番目の KPI では優れたアルゴリズムを識別できない場合、コンポーネントはリストで 2 番目以降の KPI を使用して計算を実行できるため、順序のコントロールは重要です。さらに、ゲインおよびリフトパラメータに正確な割合を設定できます。その結果、複数のコンポーネントを比較するときに、より正確な計算が実行されます。

列のマッピング

モデル比較コンポーネントの列のマッピングでは、比較した 2 つのアルゴリズムからの出力をマッピングできます。列のマッピングセクションには、2 つのアルゴリズムの一致する列タイプが横に並んで表示されます。3 つ目の列は、モデル比較コンポーネントの出力列です。これにより、列の 1 対 1 のマッピングが可能になり、モデル比較コンポーネントの結果データスキーマとして機能します。1 番となった出力が、2 番以降のアルゴリズムまたはコンポーネントに設定されます。これらのアルゴリズムやコンポーネントはレポートや決定木などのチェーンに追加できます。マッピングした列のデータは、優れていると判定されたほうのコンポーネントから取得されます。

列のタイプが一致する場合にのみ、列がマッピングされます。はじめに、正確な名前、データ、および統計のタイプに基づくデフォルトのマッピングが設定されます。すると、列が同じタイプであるかどうかがチェックされます。

必要な場合は、モデル比較結果セットに含める列を追加または削除できます。

下図は、モデル比較コンポーネントの列のマッピングパネルを示します。このパネルで、パーティションおよび KPI を設定できます (例として、英語バージョンを使用)。

2 つのコンポーネントの比較

1 つの分析で、複数のアルゴリズムによるモデル比較を実行できます。ただし、モデル比較は、比較チェーンに追加したアルゴリズムの数に応じて異なる動作をするように設計されています。親コンポーネントが 2 つのモデル比較チェーンでは、子ノードを作成できます。子ノードは、モデル比較の出力を受け取り、設定可能なマッピング画面に表示します。つまり、子ノードによって、2 つの親コンポーネントの列を 1 つの列にマッピングして使用することができます。こうすることで、チェーンを詳細に分析することができます。2 コンポーネント比較モード時は、モデル比較コンポーネントに次のアイコンが表示されます。

3 つ以上のコンポーネントの比較

1 つの分析で、複数のアルゴリズムによるモデル比較を実行できます。モデル比較に 3 つ以上の親がある場合は、コンポーネントはターミナル (リーフ) コンポーネントになります。そのため、元の比較後、さらに分析するために子コンポーネントを追加することはできません。3 つ目のコンポーネントを比較しようとすると、エラーメッセージが表示されます。3 つ以上のコンポーネントを比較しているときは、モデル比較コンポーネントに次のアイコンが表示されます。

結果と概要

結果タブに、比較結果の概要が表示され、最適なコンポーネントが強調表示されます。

フィードバックには、最適なパフォーマンスのコンポーネントを示す星形のアイコンが含まれます。これは、アルゴリズムのパフォーマンス統計の比較に基づいています。アルゴリズムは、分類タイプまたは回帰タイプのどちらかになります。概要では、モデルアルゴリズムがパフォーマンス順に表示されます。選択したパーティションに基づいて結果が比較されます。パーティションはテスト用または検証用のどちらかになります。

タイトルはモデル比較コンポーネントで設定した順序で表示され、比較のために選択したタイトルは太字で示されます。分類アルゴリズムで、ゲインまたはリフトの割合を指定していない場合は、これらの設定はデフォルトで 10% にされます。