可为 HANA 支持向量计算机算法进行配置的属性。
支持向量计算机(Support Vector Machine,SVM)指的是使用支持向量概念的一系列指导式学习模型。与许多其他指导式学习模型比较,SVM 的优势是,SVM 生成的模型可以是线性的,也可以是非线性的,后者是通过一种称为“内核技巧(Kernel Trick)”的技术实现的。
和多数指导式模型类似,SVM 也有训练和测试阶段。在培训阶段中,将学习函数 f(x):->y,其中 f(∙) 是将样本映射到目标的函数(可以是非线性的)。培训集由 {xi, yi} 表示的对组成,其中 x 是指由若干属性表示的样本,而 y 是指目标(指导式信息)。在测试阶段,将使用已学习的 f(∙) 把带有未知目标的样本映射到其预期目标。
分类在包括机器学习、数据挖掘、计算机视觉和业务数据分析的许多领域中是最频繁的任务之一。与诸如逻辑回归的线性限定元相比,SVC 能够生成非线性决策边界,这使得对某些现实数据集精确性更高。在分类案例中,f(∙) 是指决策函数,而目标是指由实数表示的“标签”。
SVR 是回归分析的另一种方法。与传统的线性回归方法(如最小二乘法回归)相比,SVR 中的回归函数可以是非线性的。在回归案例中,f(∙) 是指回归函数,而目标是指由实数表示的“响应”。
它实施成对“学习排名”算法,该算法从若干排名样本的集合(按查询 ID 识别)中学习排名函数。在排名案例中,f(∙) 是指排名函数,目标是指用于得出最后排名的得分。对于成对排名,将学习 f(∙) 以便考虑表示每个集合中样本的排名的成对关系。
因为非线性由内核技巧实现,所以除了数据集,也可以指定内核类型和参数。
| 属性 | 说明 |
|---|---|
| 算法类型 | 选择算法应执行的分析类型。
|
| 输出模式 | 选择希望使用的算法输出模式。 |
| 功能 | 选择要对其执行分析的输入列。 |
| 目标变量 | 选择要对其执行分析的目标列。 |
| 查询 ID | 选择用于排名的查询 ID 列。 |
| 缺失值 | 选择处理缺失值的方法。 可能的值:
|
| 内核类型 | 选择内核类型。 |
| Gamma | 输入 RBF 内核的 gamma 系数。 |
| 最大幅度 | 输入要在培训误差和幅度之间要考虑的折中值。 |
| 次数 | 输入多项式内核的次数。默认值为 3。 |
| 线性系数 | 输入线性系数的值。 |
| 系数常量 | 输入系数常量的值。 |
| 交叉验证 | 选择此选项可对计算使用交叉验证。 |
| 规范化类型 | 选择规范化的类型。 |
| 线程数 | 输入算法应在执行时使用的线程数。默认值为 1。 |
| 预测列的名称 | 为新创建的包含预测值的列输入名称。 |