Компонент нормализации

В сценариях HANA и не-HANA можно настроить свойства компонента подготовки нормализации.

Синтаксис Используется для нормализации данных атрибутов. Нормализация HANA масштабирует данные атрибутов для попадания в определенный интервал, например от -1.0 до 1.0, или от 0.0 до 1.0. Этот компонент может использоваться для анализа в базе данных. Нормализация данных обычно применяется при классификации на основе нейронных сетей или измерения расстояния, например, в алгоритмах классификации по методу ближайшего соседа или кластеризации.
Примечание Чтобы перезаписать существующий столбец обработанными данными, выберите Заменить столбец.

Этот компонент поддерживает следующие методы нормализации:

  • Минимаксная нормализация: выполняется линейная трансформация исходных значений данных и масштабирование каждого значения для попадания в определенный интервал. В рамках этого метода можно задать атрибуты Новый максимум и Новый минимум. Этот метод позволяет привести пиковые значения к ограниченному диапазону.
    Примечание
    • Новый максимум должен быть больше, чем Новый минимум.
  • Нормализация по Z-значению: для каждого атрибута выполняется вычисление на основе среднего значения и среднеквадратичного отклонения. Этот метод позволяет определить, насколько заданное значение отличается от среднего.
  • Нормализация с десятичным масштабированием: Десятичные знаки в значениях каждого атрибута перемещаются согласно максимальному абсолютному значению.
Примечание Если требуется заменить данные существующего столбца нормализованными данными, выберите Заменить столбец.

Нормализация времени, затрачиваемого на прохождение заданного расстояния.
Таблица:
Имя Расстояние (м) Время (с)
Лора 500 66
Дейзи 500 360
Алекс 500 201
Джон 500 78
Тед 500 504
Чтобы провести нормализацию столбца значений времени по методу Минимаксный, выполните следующие действия:
  1. В представлении Прогнозв списке Компонентывыберите вкладку Подготовка данных.
  2. Перетащите компонент Нормализация HANA на редактор анализа или дважды щелкните Нормализация HANA.
  3. Дважды щелкните элемент Нормализация HANA, либо наведите указатель мыши на компонент Нормализация HANA и выберите Настроить свойства.
  4. Выберите столбцы для нормализации.
    Примечание Можно выбрать только столбцы, содержащие числовые значения.

    Например, "Время (с)".

  5. Выберите Минимаксный в раскрывающемся списке "Тип нормализации".
  6. Введите значения в поля Новый максимум и Новый минимум.
  7. Нажмите Готово, а затем Выполнить.
Таблица выходных данных.
Имя Расстояние (м) Время (с) Нормализованное время (с)
Лора 500 66 0,05
Дейзи 500 360 0,30
Алекс 500 201 0,17
Джон 500 78 0,06
Тед 500 504 0,42
Выполните те же действия для нормализации по Z-значениюи десятичному масштабированию, что и для Минимакснойнормализации Однако для нормализации по Z-значению и десятичному масштабированиюне требуется вводить Новый максимуми Новый минимум.
Выходные данные нормализации по Z-значению:
Таблица выходных данных.
Имя Расстояние (м) Время (с)
Лора 500 -0,49
Дейзи 500 1,77
Алекс 500 0,55
Джон 500 -0,40
Тед 500 2,88
Выходные данные нормализации с десятичным масштабированием:
Таблица выходных данных.
Имя Расстояние (м) Время (с)
Лора 500 0,01
Дейзи 500 0,04
Алекс 500 0,02
Джон 500 0,01
Тед 500 0,05