В сценариях HANA и не-HANA можно настроить свойства компонента подготовки нормализации.
Синтаксис Используется для нормализации данных атрибутов. Нормализация HANA масштабирует данные атрибутов для попадания в определенный интервал, например от -1.0 до 1.0, или от 0.0 до 1.0. Этот компонент может использоваться для анализа в базе данных. Нормализация данных обычно применяется при классификации на основе нейронных сетей или измерения расстояния, например, в алгоритмах классификации по методу ближайшего соседа или кластеризации.
Примечание Чтобы перезаписать существующий столбец обработанными данными, выберите Заменить столбец.
Этот компонент поддерживает следующие методы нормализации:
- Минимаксная нормализация: выполняется линейная трансформация исходных значений данных и масштабирование каждого значения для попадания в определенный интервал. В рамках этого метода можно задать атрибуты Новый максимум и Новый минимум. Этот метод позволяет привести пиковые значения к ограниченному диапазону.
Примечание - Новый максимум должен быть больше, чем Новый минимум.
- Нормализация по Z-значению: для каждого атрибута выполняется вычисление на основе среднего значения и среднеквадратичного отклонения. Этот метод позволяет определить, насколько заданное значение отличается от среднего.
- Нормализация с десятичным масштабированием: Десятичные знаки в значениях каждого атрибута перемещаются согласно максимальному абсолютному значению.
Примечание Если требуется заменить данные существующего столбца нормализованными данными, выберите Заменить столбец.
Нормализация времени, затрачиваемого на прохождение заданного расстояния.
Таблица:
| Имя |
Расстояние (м) |
Время (с) |
| Лора |
500 |
66 |
| Дейзи |
500 |
360 |
| Алекс |
500 |
201 |
| Джон |
500 |
78 |
| Тед |
500 |
504 |
Чтобы провести нормализацию столбца значений времени по методу
Минимаксный, выполните следующие действия:
- В представлении Прогнозв списке Компонентывыберите вкладку Подготовка данных.
- Перетащите компонент Нормализация HANA на редактор анализа или дважды щелкните Нормализация HANA.
- Дважды щелкните элемент Нормализация HANA, либо наведите указатель мыши на компонент Нормализация HANA и выберите Настроить свойства.
- Выберите столбцы для нормализации.
Примечание Можно выбрать только столбцы, содержащие числовые значения.
Например, "Время (с)".
- Выберите Минимаксный в раскрывающемся списке "Тип нормализации".
- Введите значения в поля Новый максимум и Новый минимум.
- Нажмите Готово, а затем Выполнить.
Таблица выходных данных.
| Имя |
Расстояние (м) |
Время (с) |
Нормализованное время (с) |
| Лора |
500 |
66 |
0,05 |
| Дейзи |
500 |
360 |
0,30 |
| Алекс |
500 |
201 |
0,17 |
| Джон |
500 |
78 |
0,06 |
| Тед |
500 |
504 |
0,42 |
Выполните те же действия для нормализации
по Z-значениюи
десятичному масштабированию, что и для
Минимакснойнормализации Однако для нормализации по
Z-значению и
десятичному масштабированиюне требуется вводить
Новый максимуми
Новый минимум.
Выходные данные нормализации
по Z-значению:
Таблица выходных данных.
| Имя |
Расстояние (м) |
Время (с) |
| Лора |
500 |
-0,49 |
| Дейзи |
500 |
1,77 |
| Алекс |
500 |
0,55 |
| Джон |
500 |
-0,40 |
| Тед |
500 |
2,88 |
Выходные данные нормализации
с десятичным масштабированием:
Таблица выходных данных.
| Имя |
Расстояние (м) |
Время (с) |
| Лора |
500 |
0,01 |
| Дейзи |
500 |
0,04 |
| Алекс |
500 |
0,02 |
| Джон |
500 |
0,01 |
| Тед |
500 |
0,05 |