Компонент статистики моделей используется для генерации статистики производительности и решения задач бинарной классификации во всех сценариях (HANA и не-HANA). Данные можно визуализировать в различных диаграммах и открыть к ним доступ. Этот компонент можно использовать в сочетании с компонентом статистики моделей для сравнения нескольких моделей и выбора самой подходящей для решения задачи прогнозирования.
Статистика моделей – это компонент для вычисления статистики по наборам данных, которая генерируется алгоритмами. Компонент может вычислять статистику для двух типов алгоритмов: классификации и регрессии. Кроме того, можно настроить компонент так, чтобы он генерировал статистику производительности для наборов данных обучения, тестирования и проверки, а также для выбранных KPI.
Компонент применяется только к задачам бинарной классификации. Задача бинарной классификации – это бизнес-проблема с двоичным выводом, в результате произойдет классификация элементов набора данных на две группы на основании правила классификации.
Одним из примеров является моделирование оттока клиентов для бизнеса на основе службы подписки. В этом случае задача бинарной классификации состоит в том, чтобы определить подписчиков, которые продолжат или прекратят использовать службу.
Другим примером является проблема выявления мошенничества в финансовых организациях, где задача бинарной классификации определяет сфальсифицированные транзакции.
Необходимо убедиться, что прогностическая сила модели (KI) достаточно высока. Например, если KI равна нулю, это значит, что модель не обучена и не является достоверной, так как по сути представляет собой произвольную модель.
Прогностическая сила напрямую связана с объемом информации, которая доступна для прогнозирования целевого значения. Таким образом, можно повысить прогностическую силу, увеличив число полезных переменных в модели, следующими способами:
В компоненте статистики моделей можно сгенерировать диаграммы для алгоритмов классификации и регрессии и открыть к ним доступ. Эти диаграммы визуализируют производительность алгоритмов классификации и регрессии.
Компонент сравнения моделей можно использовать в сочетании с компонентом статистики моделей, чтобы выбрать наилучший алгоритм для решения задачи прогнозирования. Сначала в компоненте статистики моделей рассчитывается статистика производительности для алгоритмов классификации или регрессии. Затем компонент сравнения моделей сравнивает вычисленную статистику производительности, чтобы выбрать наилучший из выполнявшихся алгоритмов.
Обратите внимание: изменение настроек компонента статистики моделей влияет на компонент сравнения моделей.
При визуализации диаграмм во взаимодействии с компонентом сравнения моделей компонент статистики моделей накладывает разделы на каждую из них и отображает отдельные результаты для каждого раздела. Компонент сравнения моделей выполняет то же самое, так как оба компонента используют одни и те же данные. Таким образом, следует убедиться, что KPI для обоих компонентов настроены одинаково.
Если компонент разделения включен в цепочку анализа перед компонентом статистики моделей, возможны три опции разделения: обучение, тестирование и проверка. Если компонент разделения не включен в цепочку, компонент статистики моделей отображает набор статистических данных и диаграмм только для раздела обучения.