Статистические отчеты

На этом экране доступны разные наборы подробных обзорных отчетов по текущей модели в зависимости от типа модели.

  • Описательная статистика (классификация/регрессия, кластеризация)
  • Эффективность модели (классификация/регрессия, кластеризация)
  • Кластеры подробно (только кластеризация)
  • Экспертный обзор (классификация/регрессия, кластеризация)
  • Показатели эффективности (временной ряд)
  • Циклические переменные (временной ряд)
Описательная статистика
Переменные

Для каждой переменной:

  • имя (Переменная);
  • тип значения (Значение);
  • тип содержимого (Содержимое);
  • число пропущенных значений в наборе данных для обучения (Число пропущенных);
  • роль в моделировании (Роль).
Частоты категорий

Для каждой переменной:

  • категории;
  • доля каждой категории во всем наборе данных.
Непрерывные переменные

Для каждой непрерывной переменной в каждом наборе данных (оценка, проверка, тест):

  • Минимум
  • Максимум
  • Среднее арифметическое
  • Отклонение (мера расхождения);
  • среднеквадратическое отклонение (мера расхождения чисел вокруг среднего значения, то есть квадратный корень из отклонения).

Перекрестная проверка с целями

Перекрестная проверка номинальных целей

Перекрестная проверка входных переменных и номинальных целевых переменных. То есть для каждой переменной, пересеченной с каждой номинальной целью:

  • категории переменной;
  • доля нецелевой категории выбранной цели в категории переменной;
  • доля целевой категории выбранной цели в категории переменной;
  • частота текущей категории в наборе данных.
Перекрестная проверка непрерывных целей

Перекрестная проверка входных переменных и непрерывных целевых переменных. То есть для каждой переменной, пересеченной с каждой непрерывной целью:

  • категории переменной;
  • целевое среднее арифметическое каждой категории;
  • отклонение от цели каждой категории.
Эффективность модели
Прогностическая сила и достоверность прогноза

Для каждой целевой переменной в каждом наборе данных (оценка, проверка, тест):

  • имя переменной;
  • значение прогностической силы;
  • значение достоверности прогноза.
Максимальный вклад интеллектуальной переменной

Для каждой целевой переменной:

  • входные переменные;
  • вклад каждой входной переменной.
Другие показатели эффективности

Для каждой целевой переменной в каждом наборе данных (оценка, проверка, тест):

  • средняя абсолютная ошибка (отклонение) (L1);
  • средняя квадратичная ошибка (L2);
  • максимальная ошибка (LInf);
  • среднеарифметическая ошибка (ErrorMean);
  • ошибка среднеквадратического отклонения ErrorStdDev);
  • процент классификации (ClassificationRate).
Кластеры подробно
Кластерная проверка номинальных целей Стандартная перекрестная проверка кластеров по номинальным переменным.

Кластерная проверка номинальных целей

(нормализованная)

Нормализованная перекрестная проверка кластеров по номинальным переменным.
Кластерная проверка непрерывных переменных Перекрестная проверка кластеров по непрерывным переменным.
KL кластеров

Для каждого кластера:

  • Расстояние Кульбака-Лейблера для каждой входной переменной от популяции кластера до всей популяции.
    • Расстояние Кульбака-Лейблера (KL) измеряет разницу между двумя распределениями. Чем выше KL, тем больше различаются распределения.
    • Для кластера и измерения (или переменной) KL вычисляется по следующей формуле:
    • Где:
    • N — число категорий для данного измерения;
    • p i (соотв. q i) — доля категории i (данного измерения) в кластере (соотв. всей популяции). Доля указанной категории отражает ее вес относительно всего веса соответствующего набора (кластера или глобальной популяции).
    • KL используется в обзоре перекрестной статистики кластеров для сортировки переменных по нисходящей.
  • Хи-квадрат для каждой входной переменной между популяцией кластера и всей популяцией.
    • Хи-квадрат — еще одна мера расхождения между распределением кластера и распределением популяции в данном измерении. Точнее, его значение отражает степень достоверности утверждения о том, что два распределения значительно различаются.
    • В отличие от KL, он не измеряет расстояние между распределениями. Он позволяет убедиться, что два распределения действительно отличаются, если значения близки к 1. В этом случае такое измерение можно считать показательным для кластера. Напротив, значение 0 указывает на то, что распределения могут быть идентичными в данном измерении.
Частота кластеров

Для каждой целевой переменной в каждом кластере:

  • доля элементов кластера во всем наборе данных;
  • доля ожидаемого значения цели в кластере или целевое среднее арифметическое в кластере.
  • Выражения SQL кластеров

Для каждой целевой переменной:

  • выражение SQL кластера, если доступно.
Экспертный обзор
Статистика групп (номинальная цель)

Для каждой переменной относительно каждой номинальной целевой переменной:

  • группы категорий;
  • доля каждой категории цели для каждой группы выбранной переменной;
  • доля каждой группы во всем наборе данных.
Ид. групп

Для каждой переменной относительно каждой целевой переменной:

  • категории;

индекс группы, содержащей текущую категорию.

Отсутствие индекса группы означает, что данная категория не входит в группу.

Вероятность отклонения

Для каждой переменной и каждого набора данных:

  • вероятность отклонения переменной относительно ее значения в наборе оценочных данных.
Вероятность отклонения от цели

Для каждой переменной в каждом наборе данных относительно каждой целевой переменной:

  • вероятность отклонения распределения целевой переменной относительно ее значения в наборе оценочных данных.
Другие показатели эффективности переменных

Для каждой переменной в каждом наборе данных относительно каждой целевой переменной:

  • статистика К-С (Ks);
  • область под ROC-кривой (AUC);
  • коэффициент Джини (GINI).
Непрерывная кодировка

Для каждой категории каждой переменной относительно каждой целевой переменной:

  • значение категории;
  • соответствующая кодировка.
Размер набора данных Число записей в каждом наборе данных (оценка, проверка, тест)
Показатели эффективности (для KTS)
Панель Содержимое
Планки погрешностей прогнозов

Для каждого набора данных:

  • планки погрешностей прогнозов, рассчитанные с помощью средней квадратичной ошибки (L2).
Эффективность прогнозов

Для каждого прогноза и каждого набора данных:

  • эффективность прогнозов, рассчитанная по Пирсону в квадрате (Р2) и описывающая качество связи между предиктором и сигналом. Значение 1 указывает на идеальную связь между предиктором и сигналом, то есть предиктор идеален.
Другие показатели эффективности

Для каждого прогноза и каждого набора данных:

  • коэффициент качества (U2) (соотношение между отклонением остатков предиктора и отклонением сигнала) описывает соответствие модели сигналу. При значении 1 модель идеально соответствует сигналу;
  • среднеарифметическая ошибка;
  • среднеквадратическое отклонение ошибок.
Циклические переменные

Анализ сезонности и цикличности

Для каждой периодической переменной в модели график отображает один цикл.

Примечание

Имя периодической переменной соответствует ее циклу. Например, переменная с именем monthOfYear соответствует циклу месяцев года, а переменная с именем 52 соответствует циклу из 52 единиц (единица зависит от сигнала).