HANA センチメント分析コンポーネントの設定

HANA センチメント分析コンポーネントを使用すると、複雑なテキストのストリーム (製品またはサービスに対する Twitter ユーザの意見など) を分析することができます。このコンポーネントでは、各テキスト単位に含まれる意見を分析し、センチメントが正であるか負であるかを返します。このようにして、構造化されていないデータを一連の理解しやすいカテゴリに変換し、影響要因を見つけることができます。そこから、ビジネスの実行を改善するインサイトを得ることができます。

前提条件:
  • サーバ:PAL、APL、および R を設定済みの HANA システム (SPS 9 以上)。

  • クライアント:インストール済みの Predictive Analytics 2.4 (R 設定済み)。

テキストのストリームをセンチメントについて分析するには、次の手順を実行します。

  1. Expert Analytics でデータソースに接続します。たとえば、製品またはサービスに対する Twitter ユーザの意見を分析する場合は、TwitterFeed と呼ばれるテーブルを使用します。
  2. 予測領域のコンポーネントリストで、データ準備プリプロセッサHANA センチメント分析の順に選択します。HANA センチメント分析コンポーネントをドラッグし、分析エディタにドロップします。または、HANA センチメント分析コンポーネントをダブルクリックします。OK をクリックします。
  3. 設定をそのまま使用するには HANA センチメント分析 コンポーネントをダブルクリックします。または、コンポーネントで設定 アイコンをクリックし、コンテキストメニューから設定を選択します。
  4. HANA センチメントダイアログボックスのプロパティパネルで、メニューからターゲット変数を選択します。次の型のテキスト列だけを表示するようにフィルタされていることに注意してください:TEXT、BINTEXT、VARCHAR、NCLOB、CLOB、または BLOB。
  5. 出力列名となるセンチメント列名を追加します。Twitter の例では、これは各ツイートのセンチメントが書き込まれる列名になります。
  6. 詳細パネルの動作セクションで次の操作を行います。
    1. 分析対象のテキストの言語を選択します。デフォルトではすべてのサポートされる言語が分析されますが、データセットに含まれる言語を指定して分析を最適化することができます。
    2. MIME タイプを選択して、ターゲット変数に含まれるテキストのタイプを選びます。デフォルトではすべてのサポートされる MIME タイプが分析されますが、データセットに含まれる MIME タイプを指定して分析を最適化することができます。
    3. 汚い言葉判定の有効化チェックボックスを使用して、分析で汚い言葉の数を報告するかどうかを選択します。
    4. 分析対象にするセンチメントをマッピングします。同じセクションで、分析およびレポート用にセンチメントに名前を付けます。Twitter の例では、各センチメントに良いまたは悪いのいずれかをマッピングできます。このようにすると、2 クラス問題として処理できます。完了をクリックします。
  7. 設定後、センチメントを分析に使用できます。たとえば、コンポーネントリストパネルのアルゴリズムセクションから分析チェーンに追加可能なデシジョンツリーを使用して、分析を実施することができます。
    注記

    分析は、デシジョンツリーなどの表示に対応したツールで表示することができます。

  8. 分析の実行 アイコンをクリックします。実行時には完全なテキストインデックスが作成されるので、分析が完了するまでしばらく待ってください。この作成により、トークン化および分析するテキストの量に応じて実行時間が延びる場合があります。
  9. 結果タブをクリックして、結果の概要を確認します。
概要には、総入力レコード、センチメントありのレコードとセンチメントなしのレコード、およびマッピングしたセグメントの内訳が含まれます。Twitter の例では、概要には、良いセグメントと悪いセグメントの割合および一意のトークンの数が含まれます。
HANA センチメント分析コンポーネントを設定し、複雑な分析の前処理ステップとして使用できるようになりました。