HANA 支持向量计算机

可为 HANA 支持向量计算机算法进行配置的属性。

语法

支持向量计算机(Support Vector Machine,SVM)指的是使用支持向量概念的一系列指导式学习模型。与许多其他指导式学习模型比较,SVM 的优势是,SVM 生成的模型可以是线性的,也可以是非线性的,后者是通过一种称为“内核技巧(Kernel Trick)”的技术实现的。

和多数指导式模型类似,SVM 也有训练和测试阶段。在培训阶段中,将学习函数 f(x):->y,其中 f(∙) 是将样本映射到目标的函数(可以是非线性的)。培训集由 {xi, yi} 表示的对组成,其中 x 是指由若干属性表示的样本,而 y 是指目标(指导式信息)。在测试阶段,将使用已学习的 f(∙) 把带有未知目标的样本映射到其预期目标。

在 PAL 的当前实施中,可以将 SVM 用于以下三个任务:
  • 支持向量分类(Support Vector Classification,SVC)

    分类在包括机器学习、数据挖掘、计算机视觉和业务数据分析的许多领域中是最频繁的任务之一。与诸如逻辑回归的线性限定元相比,SVC 能够生成非线性决策边界,这使得对某些现实数据集精确性更高。在分类案例中,f(∙) 是指决策函数,而目标是指由实数表示的“标签”。

  • 支持向量回归(Support Vector Regression,SVR)

    SVR 是回归分析的另一种方法。与传统的线性回归方法(如最小二乘法回归)相比,SVR 中的回归函数可以是非线性的。在回归案例中,f(∙) 是指回归函数,而目标是指由实数表示的“响应”。

  • 支持向量排名

    它实施成对“学习排名”算法,该算法从若干排名样本的集合(按查询 ID 识别)中学习排名函数。在排名案例中,f(∙) 是指排名函数,目标是指用于得出最后排名的得分。对于成对排名,将学习 f(∙) 以便考虑表示每个集合中样本的排名的成对关系。

因为非线性由内核技巧实现,所以除了数据集,也可以指定内核类型和参数。

HANA 支持向量计算机属性
表 1: 算法属性
属性 说明
算法类型 选择算法应执行的分析类型。
  • 分类
  • 回归
  • 排名
输出模式 选择希望使用的算法输出模式。
功能 选择要对其执行分析的输入列。
目标变量 选择要对其执行分析的目标列。
查询 ID 选择用于排名的查询 ID 列。
缺失值 选择处理缺失值的方法。
可能的值:
  • 忽略:算法会跳过独立列或从属列中包含缺少值的记录。
  • 保留:算法保留计算期间包含缺失值的记录。
内核类型 选择内核类型。
Gamma 输入 RBF 内核的 gamma 系数。
最大幅度 输入要在培训误差和幅度之间要考虑的折中值。
次数 输入多项式内核的次数。默认值为 3。
线性系数 输入线性系数的值。
系数常量 输入系数常量的值。
交叉验证 选择此选项可对计算使用交叉验证。
规范化类型 选择规范化的类型。
线程数 输入算法应在执行时使用的线程数。默认值为 1。
预测列的名称 为新创建的包含预测值的列输入名称。