Метод опорных векторов HANA

Свойства, которые можно настроить для алгоритма метода опорных векторов HANA.

Синтаксис

Метод опорных векторов (SVM) относится к семейству моделей обучения с учителем с помощью концепции опорных векторов. По сравнению с другими моделями обучения SVM имеет преимущества, которые состоят в том, что модели, создаваемые SVM могут быть линейными или нелинейными, где последние реализуются с помощью метода Kernel Trick.

Как и для большинства управляемых моделей, для SVM есть фазы обучения и тестирования. На этапе обучения функция f(x):->y, где f(∙) – это функция (может быть нелинейной), которая сопоставляет пример в TARGET. Набор обучения содержит пары, выраженные {xi, yi}, где x означает пример, представленный несколькими атрибутами, и y означает TARGET (сведения обучения). На этапе тестирования выученная функция f(∙) в дальнейшем используется для сопоставления образца с неизвестным значением TARGET в прогнозном значении TARGET.

В текущем развертывании PAL SVM может быть использован для следующих трех задач:
  • Классификация опорных векторов (SVC)

    Классификация – это одна из наиболее часто решаемых задач в разных областях, включая машинное обучение, сбор данных, машинное распознавание объектов и анализ бизнес-данных. По сравнению с линейными классификаторами такими, как логистическая регрессия, метод SVC позволяет создать границы нелинейных решений, который повышает точность данных для некоторых реальных наборов данных. В сценарии классификации функция f(∙) означает функцию решения, TARGET означает "ярлык", представленный реальным числом.

  • Регрессия опорных векторов (SVR)

    SVR – это другой метод регрессионного анализа. По сравнению с классическими линейными регрессионными методами такими, как регрессия наименьших квадратов, функция регрессии в SVR может быть нелинейной. В сценарии регрессии функция f(∙) означает функцию решения, TARGET означает "отклик", представленный реальным числом.

  • Ранжирование опорных векторов

    В этой задаче реализуется попарный алгоритм обучения ранжированию, в котором обучается функция ранжирования из нескольких наборов (выделенных ид. запроса) ранжированных образцов. В сценарии ранжирования функция f(∙) означает функцию ранжирования, TARGET означает количество, в соответствии с которым выполняется ранжирование. Для попарного ранжирования функция f(∙) обучается таким образом, чтобы учитывалась попарная связь, выраженная рангом образцов в каждом наборе.

Нелинейность реализуется с помощью метода Kernel Trick, кроме наборов данных, также следует указать тип ядра и параметры.

Свойства метода опорных векторов HANA
Таблица 1: Свойства алгоритма
Свойство Описание
Тип алгоритма Выберите вид анализа, который будет выполнять алгоритм.
  • Классификация
  • Регрессия
  • Ранжирование
Режим вывода Выберите режим, в котором требуется использовать выходные данные этого алгоритма.
Функции Выберите столбцы ввода, для которых будет выполняться анализ.
Целевая переменная Выберите целевой столбец, для которого будет выполняться анализ.
Ид. запроса Выберите столбец ид. запроса для ранжирования.
Отсутствующие значения Выберите способ обработки отсутствующих значений.
Возможные значения:
  • Игнорировать: алгоритм пропускает записи независимых или зависимых столбцов, содержащие отсутствующие значения.
  • Сохранять: при вычислении алгоритма сохраняются записи, содержащие отсутствующие значения.
Тип ядра Выберите тип ядра.
Гамма Введите гамма-коэффициент для ядра RBF.
Максимальная разница Введите значение сравнительного анализа, которое следует учесть между ошибкой обучения и разницей.
Степень Введите степень для полиномиального ядра. Значение по умолчанию – 3.
Линейный коэффициент Введите значение линейного коэффициента.
Константа коэффициента Введите значение константы коэффициента.
Перекрестная проверка Выберите эту опцию для использования перекрестной проверки в вычислении.
Тип нормализации Выберите тип нормализации.
Число потоков Введите число потоков, которые алгоритм будет использовать при выполнении. Значение по умолчанию – 1.
Имя столбца прогноза Введите имя создаваемого столбца, который содержит прогнозные значения.