Когда на панели открыто описание данных, на ленте появляется вкладка Структуры для обработки структуры данных переменных.
Последний столбец в таблице описаний содержит состояние структуры каждой переменной. В следующей таблице приведены возможные состояния структуры переменной.
| Значок | Состояние | Описание |
|---|---|---|
![]() |
Не определено | Кодировка данных автоматически определяет группировку категорий в зависимости от взаимодействия с целевой переменной. |
![]() |
Не обрабатываемо | Структуру порядковой строчной переменной нельзя изменить. |
![]() |
Определено при извлечении из статистики переменных | Пользователь должен открыть и проверить структуру переменной. |
![]() |
Определено пользователем или импортировано из существующей модели |
Существует несколько способов определения структуры переменной:
Опция Активировать оптимальное группирование на основе цели, выполняемое K2C позволяет кодировке данных объединить группы категорий, определенные в структуре переменной, если они содержат одинаковую информацию.
Перевод категорий переменной не влияет на структуру переменной, которая определяется по исходным значениям переменной.
Извлечение структуры из статистики
Извлечение структуры из переменной
Если структура переменной не определена, выводится сообщение.
Импорт структуры переменной из модели
Построение новой структуры переменной
для переменной, структуру которой требуется обработать или создать. Будет открыто окно обработки.Если структура извлечена из статистики переменных или модели, поля будут уже заполнены.
Удаление структуры переменной
Поскольку структура переменной зависит от типа значения переменной (номинальная, порядковая, непрерывная), редактор структуры имеет разный вид для каждого типа.
Структура непрерывной переменной
Структура непрерывной переменной определяется несколькими интервалами, каждый из которых содержит следующие элементы:
Все интервалы должны быть соседними: пропуски и пересечения между двумя интервалами недопустимы.
Опция Добавить пропущенные позволяет указать, с каким интервалом группируются пропущенные значения.
Опция Включить меньшие данные позволяет включить в первый интервал любые значения меньше нижней границы. Аналогично опция Включить большие данные позволяет включить в последний интервал любые значения больше верхней границы.
Структура порядковой переменной
Структура порядковой переменной похожа на структуру непрерывной переменной, кроме границ, которые всегда закрыты и не могут быть изменены.
Структуру порядковой строчной переменной невозможно изменить.
Структура текстовой переменной
Структуру текстовой переменной нельзя изменить.
Структура номинальной переменной
Структура номинальной переменной состоит из групп, содержащих категории переменной.
Если структура не определена, приложение с помощью модуля Consistent Coder автоматически определяет группирование категорий на основе взаимодействия с целевой переменной. В этом случае можно сконфигурировать два параметра:
Количество сегментов для непрерывных переменных
При работе без определенной структуры можно установить количество сегментов для непрерывных переменных. Для этого параметра разрешены значения от 1 до 20.
Популяция разбивается на указанное число сегментов одинакового размера. Эти сегменты используются для построения описательной статистики, в частности, для распределения целевых переменных в каждом сегменте, что влияет на кодировку переменной относительно целевых переменных.
Число сегментов влияет на расчет прогностической силы (KI): чем больше сегментов, тем точнее расчет KI для объясняющей переменной. Однако это влияние незначительно.
| Операция | Действие |
|---|---|
| Изменение количества сегментов для всех непрерывных переменных модели |
|
| Изменение количества сегментов для обрабатываемой переменной |
|
Оптимальное группирование всех переменных
При работе с определенной структурой деактивируйте эту опцию, чтобы сохранить категории, определенные для построения модели.
В противном случае или при отсутствии определенной структуры опция Активировать оптимальную группировку для всех переменных позволяет в большинстве случаев повысить надежность модели (KR) с минимальной потерей информации (KI). По возможности похожие соседние сегменты объединяются для устранения артефактов между наборами оценочных и проверочных данных.