Группировка HANA

Свойства, которые можно настроить для компонента подготовки группировки в сценариях HANA.

Синтаксис Группировка, или дискретизация позволяет выполнить сглаживание отсортированных значений данных. В рамках этой процедуры диапазон числовой переменной разбивается на множество поддиапазонов (интервалов), а каждое значение при этом заменяется номером интервала. Группировка данных перед выполнением некоторых алгоритмов, например дерева принятия решений, позволяет заметно уменьшить сложность модели.
Поддерживается четыре метода группировки:
  • Равная ширина на основе числа интервалов.
  • Равная ширина на основе ширины интервалов.
  • Равная глубина.
  • Отклонение от среднего.
Также существует три метода сглаживания:
  • Сглаживание по средним значениям означает следующее: каждое значение в интервале заменяется средним значением интервала.
  • Сглаживание по медиане интервала означает следующее: каждое значение в интервале заменяется медианой интервала.
  • Сглаживание по границам интервала означает следующее: в качестве границ интервала определяются минимальное и максимальное значение из содержащихся в нем. После этого каждое значение интервала заменяется ближайшим к нему значением границы.
Свойства группировки HANA
Таблица 1: Свойства компонента подготовки данных
Свойство Описание
Независимый столбец Выберите исходный столбец ввода, для которого будет выполняться группировка.
Отсутствующие значения Выберите способ обработки отсутствующих значений.
Возможные способы:
  • Игнорировать: алгоритм пропускает записи независимого или зависимого столбца, содержащие отсутствующие значения.
  • Сохранять: отсутствующие значения сохраняются.
Метод группировки Выберите Метод группировки.
Число интервалов Введите число интервалов.
Метод сглаживания Выберите Метод сглаживания.
Имя столбца группировки Введите имя нового столбца, который содержит номера интервала.
Имена столбцов результатов сглаживания Введите имя столбца, который содержит значения, полученные в результате сглаживания.

Группировка данных в наборе данных
Город Температура
Амстердам 6
Франкфурт 12
Гуанчжоу 13
Кейптаун 15
Уолдорф 10
Бангалор 23
Мумбай 24
Майами 30
Рио-де-Жанейро 32
Сидней 25
Дубай 38
Чтобы выполнить группировку столбца "Температура" по равной ширине на основе ширины интервалов и применить метод сглаживания по среднему значению, выполните следующие действия:
  1. Перетащите компонент Группировка в редактор анализа.
  2. Дважды щелкните элемент Группировка, либо наведите указатель мыши на компонент Группировка и выберите Настроить свойства.
  3. Выберите столбец в раскрывающемся списке Независимый столбец, например Температура.
    Примечание Можно выбрать только столбцы, содержащие числовые значения.
  4. В раскрывающемся списке Отсутствующие значения выберите Пропустить.
  5. В разделе Метод группировки выберите Равная ширина на основе числа интервалов.
  6. Введите число интервалов: 4.
  7. Выберите Требуется сглаживание.
  8. Выберите метод сглаживания Среднее по интервалу.
  9. В разделе "Введите имя добавленного столбца" в поле Имя столбца группировки введите "Группировка по температуре".
    Примечание Имя столбца может определяться в настройках или в соответствии с требованиями анализа. В этом столбце будут содержаться значения группировки.
  10. В разделе "Введите имя добавленного столбца" в поле Имена столбцов сглаженных значений введите "Сглаживание по температуре".
    Примечание Имя столбца может определяться в настройках или в соответствии с требованиями анализа. В этом столбце будут содержаться сглаженные значения.
Таблица выходных данных:
Город Температура Группировка по температуре Сглаживание по температуре
Амстердам 6 1 8,0
Франкфурт 12 2 13,33333
Гуанчжоу 13 2 13,33333
Кейптаун 15 2 13,33333
Уолдорф 10 1 8,0
Бангалор 23 3 25,5
Мумбай 24 3 25,5
Майами 30 3 25,5
Рио-де-Жанейро 32 4 35,0
Сидней 25 3 25,5
Дубай 38 4 35,0