Компонент статистики моделей

Компонент статистики моделей используется для генерации статистики производительности и решения задач бинарной классификации во всех сценариях (HANA и не-HANA). Данные можно визуализировать в различных диаграммах и открыть к ним доступ. Этот компонент можно использовать в сочетании с компонентом статистики моделей для сравнения нескольких моделей и выбора самой подходящей для решения задачи прогнозирования.

Расчет статистики производительности

Статистика моделей – это компонент для вычисления статистики по наборам данных, которая генерируется алгоритмами. Компонент может вычислять статистику для двух типов алгоритмов: классификации и регрессии. Кроме того, можно настроить компонент так, чтобы он генерировал статистику производительности для наборов данных обучения, тестирования и проверки, а также для выбранных KPI.

Задачи бинарной классификации

Компонент применяется только к задачам бинарной классификации. Задача бинарной классификации – это бизнес-проблема с двоичным выводом, в результате произойдет классификация элементов набора данных на две группы на основании правила классификации.

Одним из примеров является моделирование оттока клиентов для бизнеса на основе службы подписки. В этом случае задача бинарной классификации состоит в том, чтобы определить подписчиков, которые продолжат или прекратят использовать службу.

Другим примером является проблема выявления мошенничества в финансовых организациях, где задача бинарной классификации определяет сфальсифицированные транзакции.

Обеспечение высокой прогностической силы (KI)

Необходимо убедиться, что прогностическая сила модели (KI) достаточно высока. Например, если KI равна нулю, это значит, что модель не обучена и не является достоверной, так как по сути представляет собой произвольную модель.

Прогностическая сила напрямую связана с объемом информации, которая доступна для прогнозирования целевого значения. Таким образом, можно повысить прогностическую силу, увеличив число полезных переменных в модели, следующими способами:

  • использовать все доступные переменные;
  • использовать знания области, чтобы найти другие источники информации;
  • создать переменные из существующих с помощью манипуляций с данными;
  • использовать сочетания переменных, увеличив степень многочлена.
Диаграммы в статистике моделей

В компоненте статистики моделей можно сгенерировать диаграммы для алгоритмов классификации и регрессии и открыть к ним доступ. Эти диаграммы визуализируют производительность алгоритмов классификации и регрессии.

Диаграммы классификации:
  • Прирост (прибыль): Визуализирует прирост или прибыль, реализуемые моделью на основе процента выбора целевой популяции. На диаграмме на оси Y отображается прирост/прибыль, а на оси X — процент.
  • Подъем: Визуализирует величину подъема, которую дает обученная модель в сравнении со случайной моделью. Позволяет проверить разницу между идеальной моделью, случайной моделью и созданной моделью. На диаграмме на оси Y отображается подъем, а на оси X — процент.
  • Стандартная (KS): Визуализирует расстояние между функциями распределения двух классов в двоичной классификации (например, Класс 1 и Класс 0). Оценка, генерирующая наибольшую разложимость между функциями, принимается как пороговое значение для принятия или отклонения цели. Показатель разложимости определяет, насколько хорошо модель способна различать записи двух классов. Модель должна идентифицировать и различать классы даже при небольших отклонения во входных данных. Таким образом, разложимость является показателем качества модели. Чем выше разделяемость, тем лучше модель. Обратите внимание, что лучше считается модель прогнозирования, производящая наибольшую величину разложимость между двумя распределениями.
  • Receiving Operating Characteristic (ROC): Визуализирует кривую ROC, которая генерируется путем сопоставления доли истинно-положительных значений (чувствительности) при различных настройках порога с долей ложно-положительных, или побочных (рассчитывается как 1 - специфичность). Кривая ROC используется для вывода показателя "Площадь под кривой" (AUC), На диаграмме на оси Y отображается чувствительность, а на оси X — специфичность.
Диаграмма регрессии:
  • Точность модели: Визуализирует долю верно спрогнозированных записей, сравнивая их с фактическими целевыми значениями.
Взаимодействие с компонентом сравнения моделей

Компонент сравнения моделей можно использовать в сочетании с компонентом статистики моделей, чтобы выбрать наилучший алгоритм для решения задачи прогнозирования. Сначала в компоненте статистики моделей рассчитывается статистика производительности для алгоритмов классификации или регрессии. Затем компонент сравнения моделей сравнивает вычисленную статистику производительности, чтобы выбрать наилучший из выполнявшихся алгоритмов.

Обратите внимание: изменение настроек компонента статистики моделей влияет на компонент сравнения моделей.

При визуализации диаграмм во взаимодействии с компонентом сравнения моделей компонент статистики моделей накладывает разделы на каждую из них и отображает отдельные результаты для каждого раздела. Компонент сравнения моделей выполняет то же самое, так как оба компонента используют одни и те же данные. Таким образом, следует убедиться, что KPI для обоих компонентов настроены одинаково.

Взаимодействие с компонентом разделения

Если компонент разделения включен в цепочку анализа перед компонентом статистики моделей, возможны три опции разделения: обучение, тестирование и проверка. Если компонент разделения не включен в цепочку, компонент статистики моделей отображает набор статистических данных и диаграмм только для раздела обучения.