Дерево CNR HANA (R)

Свойства, которые можно настроить для алгоритма дерева CNR HANA (R).

Синтаксис Этот алгоритм используется для классификации наблюдений по группам и прогнозирования одной или нескольких дискретных переменных на основе значений других переменных. Кроме того, этот алгоритм можно использовать для поиска трендов в данных.
Примечание
  • Пакет "rpart" из состава библиотеки R 2.15 не поддерживает имена столбцов, содержащие пробелы или специальные символы. Пакет "rpart" поддерживает только те имена столбцов ввода, формат которых поддерживается кадром данных R.
  • Имена независимых столбцов, используемых при оценке и создании модели должны совпадать.
  • Имена столбцов, содержащие пробелы или любые другие специальные символы, за исключением точки (.), не поддерживаются.
Свойства дерева CNR HANA (R)
Таблица 1: Свойства алгоритма
Свойство Описание
Режим вывода Выберите режим, в котором требуется использовать выходные данные этого алгоритма.
Возможные значения:
  • Тренд: Прогнозирование значений в зависимом столбце и добавление дополнительного столбца для выходных данных, в котором будут представлены прогнозные значения.
  • Заливка: Заполнение отсутствующих значений в целевом столбце.
Функции Выберите столбцы ввода, для которых будет выполняться анализ.
Целевая переменная Выберите целевой столбец, для которого будет выполняться анализ.
Отсутствующие значения Выберите способ обработки отсутствующих значений.
Возможные значения:
  • Игнорировать: алгоритм пропускает записи независимого или зависимого столбца, содержащие отсутствующие значения.
  • Сохранять: при вычислении алгоритма сохраняются записи, содержащие отсутствующие значения.
Тип алгоритма Выберите вид анализа, который будет выполнять алгоритм.
Возможные значения:
  • Классификация: этот метод используется при наличии в зависимой переменной значений категорий.
  • Регрессия: этот метод используется при наличии в зависимой переменной числовых значений.
Минимальное расщепление Введите минимальное число наблюдений для разделения узла. Значение по умолчанию – 10.
Критерий разделения Выберите критерий расщепления для узла.
Возможные значения:
  • Коэффициент Джини коэффициент расслоения Джини.
  • Информация: накопление информации.
Имя столбца прогноза Введите имя создаваемого столбца, который содержит прогнозные значения.
Параметр сложности Введите параметр сложности, который позволит уменьшить время вычисления, запрещая расщепления, которые не улучшают подбор. Значение по умолчанию – 0,005.
Максимальная глубина Введите максимальный уровень узла в конечном дереве (корневой узел имеет уровень 0).
Примечание Если значение максимальной глубины превышает 30, алгоритм может возвращать неточные результаты (на 32-разрядных компьютерах).
Перекрестная проверка Введите число перекрестных проверок. С увеличением числа перекрестных проверок возрастает время вычисления, однако повышается точность результатов.
Априорная вероятность Введите вектор априорных вероятностей.
Использовать суррогат Введите суррогат, используемый в процессе разделения.
Возможные значения:
  • Только показывать – наблюдение с отсутствующим значением для первичного правила разделения не передается на нижележащие уровни дерева.
  • Использовать суррогат – разделение субъектов, для которых отсутствует первичная переменная. Если отсутствуют все суррогаты, наблюдение не разделяется.
  • Останавливать при отсутствии – при отсутствии всех суррогатов наблюдение передается в доминирующем направлении.
Стиль суррогата Введите стиль, определяющий порядок выбора лучшего суррогата.
Возможные значения:
  • Использовать полностью корректную классификацию – алгоритм использует для поиска потенциальной переменной-суррогата общее число корректных классификаций.
  • Использовать процент распознанных случаев – алгоритм использует для поиска потенциального суррогата заданный процент классифицированных случаев.
Максимальный суррогат Введите максимальное число суррогатов, которые будут храниться для каждого узла дерева.
Вывести вероятность Установите флажок Вывести вероятность, чтобы получить значения вероятности прогнозируемых значений на этапе оценки модели классификации.