Настройка компонента "Анализ настроений HANA"

Компонент "Анализ настроений HANA" позволяет анализировать сложный поток текста (например, мнения пользователей Twitter о товаре или услуге). Компонент анализирует мнение, содержащееся в каждой единице текста, и сообщает, имеет ли она положительное или отрицательное настроение. Таким образом неструктурированные данные преобразуются в ряд легко понятных категорий для обнаружения влияющих факторов. Это может стать источником идей по улучшению ведения бизнеса.

Предварительные требования:
  • Сервер: система HANA (SPS 9+) с настроенными PAL, APL и R.

  • Клиент: выполнена установка Predictive Analytics 2.4 и настройка R.

Выполните следующие шаги, чтобы проанализировать поток текста на настроения:

  1. В Expert Analytics установите соединение с Источником данных. Например, для анализа мнений пользователей Twitter о товаре или услуге можно использовать таблицу с именем TwitterFeed.
  2. На вкладке Прогноз выберите в списке компонентов Подготовка данных - Препроцессоры - Анализ настроений HANA. Перетащите компонент Анализ настроений HANA в редактор анализа. Также можно дважды щелкнуть компонент Анализ настроений HANA. Нажмите кнопку ОК.
  3. Дважды щелкните компонент Анализ настроений HANA, чтобы перейти к параметрам его конфигурации. Также можно щелкнуть в компоненте значок Параметры и выбрать в контекстном меню команду Настройка параметров.
  4. В диалоговом окне HANA Sentiment выберите в меню на панели свойств пункт Целевая переменная. Будут отфильтрованы только столбцы текста следующих типов: TEXT, BINTEXT, VARCHAR, NCLOB, CLOB или BLOB.
  5. Добавьте Имя столбца настроений, являющееся именем столбца вывода. В примере с Twitter это имя столбца, в который записываются настроения для каждого сообщения.
  6. На панели "Дополнительно" выполните следующие действия в разделе "Поведение":
    1. Выберите языки текста для анализа. По умолчанию анализируются все поддерживаемые языки, но это можно оптимизировать, указав языки, содержащиеся в наборе данных.
    2. Выберите тип MIME для текста, содержащегося в целевой переменной. По умолчанию анализируются все поддерживаемые типы MIME, но это можно оптимизировать, указав типы MIME, содержащиеся в наборе данных.
    3. Выберите, требуется ли сообщать число обсценных слов в анализе, с помощью флажка Включить ненормативную лексику.
    4. Сопоставьте интересующие настроения для анализа. В этом же разделе задайте имена настроений для использования в анализе и отчетности. В примере с Twitter настроения можно назвать хорошо и плохо. Это позволит работать с двумя классами. Нажмите кнопку Готово.
  7. После настройки можно использовать настроения для анализа. Например, можно выполнить анализ по дереву решений, которое можно добавить в цепочку анализов в разделе "Алгоритмы" панели "Список компонентов".
    Примечание

    Анализ доступен для просмотра в визуальных средствах поддержки, таких как дерево решений.

  8. Щелкните значок Выполнить анализ. Дождитесь завершения анализа, так как во время его выполнения создается полнотекстовый индекс, что может увеличить время выполнения в зависимости от объема маркируемого и анализируемого текста.
  9. Откройте вкладку Результаты, чтобы просмотреть сводку результатов.
Сводка содержит общее число входных записей, число записей с настроениями и без настроений, а также разбивку по сопоставленным настроениям. В примере с Twitter сводка включает процентные доли хороших и плохих настроений и число уникальных маркеров.
Теперь вы умеете настраивать компонент "Анализ настроений HANA" и использовать его в качестве шага предварительной обработки в комплексном анализе.