Свойства, которые можно настроить для компонента подготовки группировки в сценариях HANA.
Синтаксис Группировка, или дискретизация позволяет выполнить сглаживание отсортированных значений данных. В рамках этой процедуры диапазон числовой переменной разбивается на множество поддиапазонов (интервалов), а каждое значение при этом заменяется номером интервала. Группировка данных перед выполнением некоторых алгоритмов, например дерева принятия решений, позволяет заметно уменьшить сложность модели.
Поддерживается четыре метода группировки:
- Равная ширина на основе числа интервалов.
- Равная ширина на основе ширины интервалов.
- Равная глубина.
- Отклонение от среднего.
Также существует три метода сглаживания:
- Сглаживание по средним значениям означает следующее: каждое значение в интервале заменяется средним значением интервала.
- Сглаживание по медиане интервала означает следующее: каждое значение в интервале заменяется медианой интервала.
- Сглаживание по границам интервала означает следующее: в качестве границ интервала определяются минимальное и максимальное значение из содержащихся в нем. После этого каждое значение интервала заменяется ближайшим к нему значением границы.
Свойства группировки HANA
Таблица 1: Свойства компонента подготовки данных
| Свойство |
Описание |
| Независимый столбец |
Выберите исходный столбец ввода, для которого будет выполняться группировка. |
| Отсутствующие значения |
Выберите способ обработки отсутствующих значений. Возможные способы: - Игнорировать: алгоритм пропускает записи независимого или зависимого столбца, содержащие отсутствующие значения.
- Сохранять: отсутствующие значения сохраняются.
|
| Метод группировки |
Выберите Метод группировки. |
| Число интервалов |
Введите число интервалов. |
| Метод сглаживания |
Выберите Метод сглаживания. |
| Имя столбца группировки |
Введите имя нового столбца, который содержит номера интервала. |
| Имена столбцов результатов сглаживания |
Введите имя столбца, который содержит значения, полученные в результате сглаживания. |
Группировка данных в наборе данных
| Город |
Температура |
| Амстердам |
6 |
| Франкфурт |
12 |
| Гуанчжоу |
13 |
| Кейптаун |
15 |
| Уолдорф |
10 |
| Бангалор |
23 |
| Мумбай |
24 |
| Майами |
30 |
| Рио-де-Жанейро |
32 |
| Сидней |
25 |
| Дубай |
38 |
Чтобы выполнить группировку столбца "Температура" по равной ширине на основе ширины интервалов и применить метод сглаживания по среднему значению, выполните следующие действия:
- Перетащите компонент Группировка в редактор анализа.
- Дважды щелкните элемент Группировка, либо наведите указатель мыши на компонент Группировка и выберите Настроить свойства.
- Выберите столбец в раскрывающемся списке Независимый столбец, например Температура.
Примечание Можно выбрать только столбцы, содержащие числовые значения.
- В раскрывающемся списке Отсутствующие значения выберите Пропустить.
- В разделе Метод группировки выберите Равная ширина на основе числа интервалов.
- Введите число интервалов: 4.
- Выберите Требуется сглаживание.
- Выберите метод сглаживания Среднее по интервалу.
- В разделе "Введите имя добавленного столбца" в поле Имя столбца группировки введите "Группировка по температуре".
Примечание Имя столбца может определяться в настройках или в соответствии с требованиями анализа. В этом столбце будут содержаться значения группировки.
- В разделе "Введите имя добавленного столбца" в поле Имена столбцов сглаженных значений введите "Сглаживание по температуре".
Примечание Имя столбца может определяться в настройках или в соответствии с требованиями анализа. В этом столбце будут содержаться сглаженные значения.
Таблица выходных данных:
| Город |
Температура |
Группировка по температуре |
Сглаживание по температуре |
| Амстердам |
6 |
1 |
8,0 |
| Франкфурт |
12 |
2 |
13,33333 |
| Гуанчжоу |
13 |
2 |
13,33333 |
| Кейптаун |
15 |
2 |
13,33333 |
| Уолдорф |
10 |
1 |
8,0 |
| Бангалор |
23 |
3 |
25,5 |
| Мумбай |
24 |
3 |
25,5 |
| Майами |
30 |
3 |
25,5 |
| Рио-де-Жанейро |
32 |
4 |
35,0 |
| Сидней |
25 |
3 |
25,5 |
| Дубай |
38 |
4 |
35,0 |