Общее

Степень полинома

Модели, построенные функцией Automated Analytics Modeler "Регрессия/классификация", являются полиномиальными выражениями входных данных. Модели предоставляют оценку целевых переменных как функцию входных переменных X1,X2,...Xn. Порядок — максимальная степень, допустимая в таком выражении.

Единственным параметром, доступным для этой модели, является порядок полинома. Он начинается с модели порядка 1, а затем продолжается с более высоким порядком модели. Порядок полинома ограничивается:

  • числом входных переменных;
  • возможностью памяти компьютера;
  • временем, присвоенным фазе моделирования.
Описание полинома

Полином может иметь 1, 2, 3 степень и выше. Путем определения степени полинома определяется степень сложности модели.

Примеры полиномов
  • Полином первой степени имеет форму:

    Y = a1.X1 + ... + an.Xn

  • Полином второй степени имеет форму:

    Y = A1.X1 + ... + An.Xn +

    B1.X1.X1 + B2.X2.X2+ ...Bk.Xn.Xn +

    C1.X1.X2 + ... + Cm.X[n-1].Xn

Методология

В большинстве случаев полином первой степени необходим для создания релевантной и надежной модели. Использование высшей степени полинома не всегда гарантирует лучшие результаты по сравнению с результатами, полученными с первой степенью полинома. Кроме того, чем выше степень полинома выбрана:

  • тем больше времени необходимо для генерации соответствующей модели;
  • тем больше времени необходимо для применения модели новым наборам данных;
  • тем сложнее интерпретировать результаты моделирования.

Выбор одной или другой степени полинома зависит от вида данных для анализа. Рекомендуется следующее.

  1. Сначала сгенерируйте модель с одной степенью порядка. В большинстве случаев степень порядка необходима для генерации релевантной и надежной модели.
  2. Проверьте результаты, полученные с моделями более высокой степени, если модель первой степени не эффективна.
Число интервалов оценки

Эта опция позволяет определять число интервалов для создания оценки. Это значение должно быть установлено между 20 и 100, поскольку более низкое или высокое число интервалов может повлиять на качество модели.

Исключение переменных низких KR

Эта опция позволяет активировать исключение переменных на основе значения их достоверности прогноза (KR). Automated Analytics использует внутренне рассчитанный порог, чтобы решить, имеет ли переменная низкую достоверность прогноза. Этот порог в основном зависит от размера набора данных и целевого распределения.

Автоматическое исключение переменных с низкой достоверностью прогноза деактивировано по умолчанию. Если эта функция не активирована, переменные не будут исключены на основе значения достоверности прогноза.

  • Автоматическое исключение переменных с низкой достоверностью прогноза
    • Выберите опцию Исключение переменных с низкой достоверностью прогноза.
Квант веса

Выбор весовой переменной активирует опцию Квант веса.

Понятие Квант веса добавлено для определения порога, ниже которого категория будет связана с KxOther.

Статистические отчеты теперь включают информацию о весе в разделах Переменные описательной статистики и Размер набора данных.

  • Определение кванта веса
    1. Установите флажок Квант веса.
    2. Введите порог. По умолчанию установлен порог 1.
Настройки корреляции

В этом разделе можно задать параметры обзорной панели Корреляция. То есть выбрать число корреляций для отображения в этой панели.

Коррелирующие переменные дают частично одинаковую информацию о целевой переменной. Корреляция между двумя переменными и степень корреляции. При изменении числа корреляций для просмотра в механизм включены корреляции с наименьшей степенью корреляции, то есть наиболее существенные.

Активировать постобработку

В этом разделе можно задать параметры регрессии согласно трем стратегиям. Эта опция может быть активирована, если модель содержит минимум одну непрерывную целевую переменную.

В приведенной ниже таблице содержится описание этих стратегий и пример кривой эффективности для каждой стратегии.

Стратегия регрессии

Описание

Пример кривой для эффективности

Без постобработки

Первой стратегией является деактивация постобработки регрессии во время фазы обучения модели для создания регрессии аналогично той, что используется в версиях до 3.3.2.

В данном случае выполняется стандартная регрессия. Окончательные оценки особо не улучшаются. Используются исходные целевые значения и необработанные значения оценки производятся как выходные данные.

С исходной целевой кодировкой

Вторая стратегия, которая применяется регрессиям с помощью постобработки, заключается в использовании исходного целевого значения во время фазы обучения модели для расчета коэффициентов регрессии. Результат регрессии преобразовывается для согласования средних арифметических целевого сегмента и сегмента оценки в фазе постобработки.

Примечание: эта стратегия используется в Automated Analytics по умолчанию.

С единой целевой кодировкой

Последняя стратегия, которая применяется к регрессиям с помощью постобработки, заключается в использовании кодированного целевого значения вместо исходного целевого значения во время фазы обучения модели для наличия единого распределения: это фаза постобработки. Затем рассчитываются коэффициенты регрессии и оценки переносятся в исходное целевое пространство во время фазы постобработки.

Примечание: это предпочтительная стратегия, если стратегия по умолчанию не предоставляет модели достаточного качества, что часто встречается при сильно искаженных целевых распределениях.

  • Регрессия без постобработки
    • Отмените выбор опции Активировать постобработку.
      Примечание

      Невозможно изменить целевую стратегию кодировки, если постобработка деактивирована.

  • Регрессия с исходными целевыми значениями
    1. Выберите опцию Активировать постобработку.
    2. Установите переключатель в положение Исходная целевая кодировка.
  • Регрессия с единой целевой кодировкой
    1. Выберите опцию Активировать постобработку.
    2. Установите переключатель в положение Единая целевая кодировка.
Настройки целевого ключа

Раздел Установить значение целевых ключей содержит список целевых переменных, выбранных на экране Выбор переменных, и позволяет выбрать их ключевое значение. Чтобы выбрать ключевое значение для целевых переменных, введите нужное значение в поле Целевой ключ, соответствующее каждой цели. По умолчанию в качестве ключевого значения автоматически устанавливается наименее часто используемая категория целевой переменной.