Выбор опций генерации

В зависимости от выбора из раскрывающегося меню Сгенерировать полученные данные будут содержать следующее (помимо всех ключевых переменных).

Для классификационной/регрессионной модели
Опция Сгенерированные данные для каждой строки
Только прогнозируемое значение Только прогнозируемое значение наблюдений (rr_ИмяЦелевойПеременной)
Вероятность
  • Прогнозируемое значение
  • Вероятность (proba_rr_ИмяЦелевойПеременной)
  • Планки погрешностей (bar_rr_ИмяЦелевойПеременной)
Отдельные вклады
  • Прогнозируемое значение
  • Вероятность
  • Планка погрешностей
  • Отдельные вклады переменных (contrib_ИмяПеременной_rr_ИмяЦелевойПеременной)
Решение
  • Прогнозируемое значение
  • Решение (decision_rr_ИмяЦелевойПеременной)
  • Вероятность решения (proba_decision_rr_ИмяЦелевойПеременной)
  • Вероятность

Выберите опцию "Решение" в раскрывающемся меню "Сгенерировать", чтобы указать число наблюдений, которое должна распознавать модель после применения к новому набору данных.

Расширенные настройки применения Эта опция позволяет выбрать выходные данные в файле результатов.
Использовать прямое применение в базе данных Когда выбрана эта опция, используется применение внутри базы данных в режиме оптимизированной оценки, и данные генерируются прямо в базе данных.
Добавить отклонение оценки Эта опция позволяет проверить отклонения каждой переменной и каждой категории переменной между моделью и входным набором данных, используемым для применения модели.

Использование режима применения внутри базы данных

Этот режим оптимизированной оценки позволяет применить модель прямо в базе данных. Не требуется извлечение данных из базы данных, и ускоряется процесс записи вывода модели. Этот режим можно использовать, если выполнены все следующие условия:

  • входной набор прикладных данных (таблица, представление, оператор SELECT, манипуляция данными) и набор данных результатов являются таблицами одной базы данных;
  • входной набор данных для создания модели содержит хотя бы одну переменную, объявленную как ключ;
  • режим Применение внутри базы данных активирован;
  • есть полномочия на считывание и запись для базы данных;
  • есть действительная лицензия генератора кода на базу данных;
  • ошибок не возникло;

Если выбрана опция Использовать прямое применение в базе данных, опция Добавить отклонение оценки выбирается автоматически.

Для модели кластеризации
Опция Сгенерированные данные для каждой строки
Только прогнозируемое значение
  • Целевое значение
  • Индекс кластера, содержащего текущее наблюдение
Раздельная кодировка ид. кластеров
  • Целевое значение
  • Индекс кластера, содержащего текущее наблюдение

Раздельная (или фиктивная) кодировка номеров кластеров.

Это означает, что для каждого кластера создается булева переменная, указывающая, относится ли текущее наблюдение к этому кластеру (значение 1) или нет (значение 0).

Раздельная кодировка ид. кластеров (+ копия набора данных)
  • Целевое значение
  • Индекс кластера, содержащего текущее наблюдение

Раздельная (или фиктивная) кодировка индекса кластера.

Это означает, что для каждого кластера создается булева переменная, указывающая, относится ли текущее наблюдение к этому кластеру (значение 1) или нет (значение 0).

  • Все входные переменные, включенные в набор прикладных данных
Целевое среднее арифметическое ид. кластера
  • Целевое значение
  • Индекс кластера, содержащего текущее наблюдение
  • Целевое среднее арифметическое кластера, содержащего текущую строку
Для модели кодировки текста
Опция Сгенерированные данные для каждой строки
Векторизация

Все столбцы из исходного набора данных

И для каждого текстового поля выполняется следующее.

  • Создается столбец каждого корня, идентифицируемого моделью. Если корень, отражаемый столбцом, есть в записи, устанавливается значение 1, иначе 0.
  • Один столбец содержит число элементов, распознанное функцией кодировки текста в записи.
  • Один столбец содержит число уникальных корней, распознанное в записи.
Распознавание языка

Для каждого текстового поля выполняется следующее.

  • Столбец указывает язык, распознанный функцией кодировки текста для этой записи. Значением также может быть код языка ISO или пустое значение, если язык не распознан.
Транзакционно
  • Одна строка для каждого определенного корня.
  • Столбец с ключевым индексом из исходной строки.
  • Столбец с индексом текущего корня в текстовом поле.
  • Столбец с указанием текстового поля, из которого извлечен корень.
  • Столбец, содержащий текущий корень.

Этот режим преобразует каждую строку в последовательность транзакций и создает наборы данных, поддерживаемые кодировкой последовательностей.

Сгенерировать только корни

Для каждого текстового поля выполняется следующее.

  • Создается столбец каждого корня, идентифицируемого моделью. Если корень, отражаемый столбцом, есть в записи, устанавливается значение 1, иначе 0.
  • Один столбец содержит число элементов, распознанное функцией кодировки текста в записи.
  • Один столбец содержит число уникальных корней, распознанное в записи.
Для модели Social

Опции генерации

Опция Сгенерированные данные для каждого узла
Режим по умолчанию
  • Вся доступная информация об узле и его соседях
Режим круга
  • Число соседних элементов
  • Дополнительная информация о соседях, если доступна
  • Среднее значение атрибутов соседних элементов
Режим центральности
  • Оценка центральности путем анализа локальной кластеризации и числа соседних элементов
Режим соседних элементов
  • Список всех соседних элементов и дополнительная информация о них
Режим описания
  • Список всей доступной информации об этом узле
Режим семейства
  • Информация о семействе, к которому относится узел, а также его роль
Режим спаривания узлов
  • Информация о присутствии в графах и соседстве (число соседних элементов, соотношение общих соседних элементов и среднего числа соседних элементов).
Расширенные настройки
  • Информация, выбранная пользователем (класс узла, число треугольников, информация о соседстве, индекс семейства, роль узла в семействе и др.).

Примечание по набору прикладных данных

Чтобы применить модель Social к набору данных, он должен содержать следующие переменные.

  • Одна переменная для каждой популяции; например, одна для клиентов и одна для продуктов.
  • Переменная kxComIndex, которая содержит ид. семейств. Это должно быть номинальное целое число.

    Эта переменная позволяет применить модель к графам семейств (запрос соседних элементов, списка узлов в семействе или агрегированной статистики). С помощью этого столбца можно указать список идентификаторов семейств, по которым требуется вычислить метрики. Если применение выполняется не к графам семейств, можно оставить его пустым или, в случае базы данных, заполнить фиктивными значениями, так как он не будет использоваться.

Чтобы убедиться, что наборы данных непротиворечивы, используйте функцию мэппинга на панели Применение модели.

Использование режима применения внутри базы данных

Этот режим оптимизированной оценки позволяет применить модель прямо в базе данных. Не требуется извлечение данных из базы данных, и ускоряется процесс записи вывода модели. Этот режим можно использовать, если выполнены все следующие условия:

  • входной набор прикладных данных (таблица, представление, оператор SELECT, манипуляция данными) и набор данных результатов являются таблицами одной базы данных;
  • входной набор данных для создания модели содержит хотя бы одну переменную, объявленную как ключ;
  • режим Применение внутри базы данных активирован;
  • есть полномочия на считывание и запись для базы данных;
  • есть действительная лицензия генератора кода на базу данных;
  • ошибок не возникло;
  • модель сохраняется в базе данных, содержащей наборы прикладных данных.
    Примечание

    Если модель не сохранена, отображается предупреждение, и Automated Analytics автоматически переходит к стандартному процессу применения.

Для модели правил ассоциации
Опция Сгенерированные данные для каждой строки
Только прогнозируемое значение

Основные выходные данные:

  • ключ сеанса;
  • ид. правила, использованного для поиска последователя;
  • сам последователь.
Последователи оптимизируются по KI

Основные выходные данные

Если несколько правил дают одного последователя для сеанса, выбирается правило с лучшей прогностической силой (KI).

Последователи оптимизируются по достоверности

Основные выходные данные

Если несколько правил дают одного последователя для сеанса, выбирается правило с лучшей достоверностью.

Прогнозируемое значение с полным описанием правил

Расширенные выходные данные:

  • ключ сеанса;
  • ид. правила;
  • последователь;
  • предшественник;
  • прогностическая сила (KI);
  • достоверность;
  • поддержка правил.
Последователи оптимизируются по KI с полным описанием правил

Расширенные выходные данные

Если несколько правил дают одного последователя для сеанса, выбирается правило с лучшей прогностической силой (KI).

Последователи оптимизируются по достоверности с полным описанием правил

Расширенные выходные данные

Если несколько правил дают одного последователя для сеанса, выбирается правило с лучшей достоверностью.

Для модели временного ряда
Опция Содержимое файла результатов
Только прогнозируемые значения
  • Все входные переменные
  • Прогнозируемые переменные, то есть прогнозы по каждой дате в наборе данных для обучения
Прогнозы с их компонентами
  • Все входные переменные
  • Прогнозируемые переменные, то есть прогнозы по каждой дате в наборе данных для обучения
  • Значение компонентов (тренд, циклы, колебание) для каждого прогноза
Прогнозы с их компонентами и остатками
  • Все входные переменные
  • Прогнозируемые переменные, то есть прогнозы по каждой дате в наборе данных для обучения
  • Значение компонентов (тренд, циклы, колебание) для каждого прогноза
  • Остаточные значения (остаток), полученные после извлечения каждого компонента из каждого прогноза
Только первый столбец прогнозов и планка погрешностей
  • Все входные переменные
  • Первая прогнозируемая переменная, то есть первый прогноз по каждой дате в наборе данных для обучения
  • Планки погрешностей для прогнозируемой переменной