Компонент сравнения моделей HANA используется для обнаружения наилучшего алгоритма для задачи прогнозирования во всех сценариях (HANA и не-HANA).
Сравнение моделей в Expert Analytics позволяет испробовать разные алгоритмы и выбрать наилучший для решения задачи прогнозирования. При сравнении производительности двух или более алгоритмов компонент сначала используется статистики моделей для вычисления статистики производительности алгоритмов классификации или регрессии. Затем компонент сравнения моделей сравнивает вычисленную статистику производительности, чтобы выбрать наилучший из выполнявшихся алгоритмов. Наконец, компонент сравнения моделей объединяет результаты для предоставления подробной сводки по компоненту с лучшей производительностью.
Для повышения контроля над цепью анализа можно настроить типы рарзделов в компоненте сравнения моделей. На панели свойств компонента можно выбрать раздел проверки или тестирования для сравнения производительности моделей. Компонент разделяет набор данных на три подмножества: обучение, проверка и тестирование.
Компонент вычисляет результаты производительности по каждому из разделов, но для выявления победителя используется только выбранный вами раздел. Результатом является лучший компонент только из сравненных.
Можно выбрать тип и порядок сравнения показателей эффективности (KPI) в цепи анализа.
Следующие таблицы определяют KPI, специфичные для алгоритмов классификации и регрессии.KPI |
Определение |
|---|---|
KI |
Прогностическая сила Индикатор качества, соответствующий доле информации в целевой переменной, которую могут описать объясняющие переменные. |
KR |
Надежность модели, или способность к идентичной производительности с новыми данными. Индикатор надежности сгенерированных моделей. Он указывает на возможность достижения моделью такой же эффективности при применении к новому набору данных с таким же признаками, как и у набора данных для обучения. |
KI и KR |
Прогностическая сила и надежность модели. Придает равную важность надежности и возможностям генерализации модели. Дополнительные сведения см. в определениях выше. |
AUC |
Площадь под кривой. Основанный на ранге показатель производительности модели или прогностической силы, вычисляемый как площадь под кривой ROC (Receiver Operating Characteristic). |
S(KS) |
Расстояние между функциями распределения двух классов в двоичной классификации (например, Класс 1 и Класс 0). Оценка, генерирующая наибольшую разложимость между функциями, принимается как пороговое значение для принятия или отклонения цели. Показатель разложимости определяет, насколько хорошо модель способна различать записи двух классов. Модель должна идентифицировать и различать классы даже при небольших отклонения во входных данных. Таким образом, разложимость является показателем качества модели. Чем выше разделяемость, тем лучше модель. Обратите внимание, что лучше считается модель прогнозирования, производящая наибольшую величину разложимость между двумя распределениями. |
% прироста (% прибыли) |
Прирост или прибыль, реализуемая моделью на основе процена выбора целевой популяции. |
% подъема |
Величина подъема, которую дает обученная модель в сравнении со случайной моделью. Позволяет проверить разницу между идеальной моделью, случайной моделью и созданной моделью. |
KPI |
Определение |
|---|---|
KI |
Прогностическая сила Индикатор качества, соответствующий доле информации в целевой переменной, которую могут описать объясняющие переменные. |
KR |
Надежность модели, или способность к идентичной производительности с новыми данными. Индикатор надежности сгенерированных моделей. Он указывает на возможность достижения моделью такой же эффективности при применении к новому набору данных с таким же признаками, как и у набора данных для обучения. |
KI и KR |
Прогностическая сила и надежность модели. Придает равную важность надежности и возможностям генерализации модели. Дополнительные сведения см. в определениях выше. |
R2 |
Коэффициент определенности R2 показывает соотношение изменчивости (суммы квадратов) прогноза и изменчивости (суммы квадратов) данных. |
L1 |
Среднеарифметическое отклонение L1 представляет собой среднее арифметическое абсолютных значений разницы между прогнозами и фактическими результатами (расстояние городских кварталов или манхэттенское расстояние). |
L2 |
Среднеквадратическое отклонение L2 представляет собой квадратный корень из среднего арифметического квадратических ошибок (Евклидово расстояние или среднеквадратичная ошибка – RMSE). |
Linf |
Максимальная ошибка Linf – это максимальная абсолютная разница между прогнозным и фактическим значениями (верхняя граница); также известна как расстояние Чебышева. |
ErrorMean |
Среднее арифметическое разницы между прогнозами и фактическими значениями. |
ErrorStdDev |
Расхождение ошибок с фактическим результатом. |
Контроль над порядком важен, так как если первый KPI не позволяет определить лучший алгоритм, компонент может выполнить вычисления со вторым KPI в списке и т. д. Кроме того, можно настроить точные процентные значения для параметров "Прирост" и "Подъем". При сравнении двух или более компонентов результат будет еще более точным.
Сопоставление столбцов в компоненте сравнения моделей позволяет сопоставить выходные данные из двух сравниваемых алгоритмов. В разделе "Сопоставление столбцов" совпадающие типы столбцов из обоих алгоритмов перечислены друг напротив друга. Третий столбец является столбцом вывода для компонента сравнения моделей. Это предлагает сопоставление столбцов один к одному и служит в качестве схемы данных результата для компонента сравнения моделей. Лучшие выходные данные будут передаваться в любые следующие алгоритмы или компоненты которые могут быть добавлены в цепь, такие как отчет или дерево решений. Дельта в сопоставленных столбцах берется из лучшего компонента.
Столбцы сопоставляются только при совпадение типов столбцов. Сначала выполняется сопоставление по умолчанию, основанное на точных именах, данных и статистических типах. Затем проверяется принадлежность столбцов к одному и тому же типу.
При необходимости можно добавлять и удалять столбцы для включения в набор результатов сравнения моделей.
Ниже показана панель сопоставления столбцов компонента сравнения моделей, в котором можно настроить разделы и KPI (для примера используется версия на английском языке).

В одном анализе можно выполнить сравнение моделей по нескольким алгоритмам. Однако компонент сравнения моделей ведет себя по-разному в зависимости от числа алгоритмов, добавленных в цепь сравнения. В цепи сравнения моделей, имеющих два вышестоящих компонента, можно создать нижестоящий узел. Этот нижестоящий узел принимает выходные данные сравнения моделей и отображает их на настраиваемом экране сопоставления. Столбцы из двух вышестоящих компонентов можно сопоставить в один для использования нижестоящим узлом. Это позволяет выполнить дальнейший анализ в заданной цепи. В режиме двухкомпонентного сравнения компонент сравнения моделей отображает следующий значок:

В одном анализе можно выполнить сравнение моделей по нескольким алгоритмам. При наличии трех или более вышестоящих компонентов сравнение моделей становится концевым (терминальным) компонентом. Следовательно, добавление нижестоящего компонента для дальнейшего анализа после начального сравнения невозможно. При попытке сравнить третий компонент выводится сообщение об ошибке. При сравнении трех и более компонентов компонент сравнения моделей отображает следующий значок:

На вкладке "Результаты" отображается сводка результатов сравнения с выделением лучшего компонента.
Звездочкой обозначается наиболее производительный компонент. Это основано на сравнении статистики производительности для алгоритмов, которые могут иметь тип классификации или регрессии. Алгоритмы модели в сводке сортируются по производительности. Результаты сравниваются на основе выбранного раздела, которым может быть раздел тестирования или проверки.
Заголовки отображаются в порядке, заданном в компоненте сравнения моделей, при этом выбранные для сравнения обозначены полужирным шрифтом. В случае алгоритма классификации для настроек "Прирост" или "Подъем" по умолчанию устанавливается значение 10%.