使用模型比较部件可比较模型以及学习适用于预测问题的最佳算法。用于所有方案(HANA 和非 HANA)。
在 Expert Analytics 中比较模型可以使用户尝试不同的算法,并发现可解决预测问题的最佳算法。比较两个或更多算法的性能时,先使用模型统计部件计算分类或回归算法的性能统计。然后模型比较部件比较计算所得的性能统计以选取执行时运行的最佳算法。最后,模型比较部件合并结果以提供最佳性能部件的详细摘要。
可以在模型比较部件中配置分区类型,以对分析链实现更多控制。在部件的属性面板中,可以选择验证分区或测试分区以比较模型的性能。该部件将数据集分为三个子集:训练、验证和测试。
该部件会对每个分区计算性能结果,但仅对选定的分区识别胜出者。结果是所比较的部件中最好的那个。
用户可以选择分析链中关键绩效指标(KPI)的类型和比较顺序。
以下各表定义分类算法和回归算法特有的 KPI。KPI |
定义 |
|---|---|
Ki |
预测能力。与目标变量中解释性变量能够解释的信息比例相对应的质量指标。 |
Kr |
模型可靠性,或对新数据生成类似结果的能力。生成的模型的稳定性指标。它表示模型在应用于新数据集(列出与训练数据集相同的特征)时达到相同绩效的能力。 |
Ki & Kr |
预测能力和模型可靠性。使模型的稳定性和推广能力同等重要。有关更多信息,请参阅上述定义。 |
AUC |
曲线下面积。基于等级的模型绩效计量,或者是以接收者操作特征曲线(ROC)下面积的形式计算的预测能力。 |
S(KS) |
二进制分类中两个类(例如类 1 和类 0)的分布函数之间的距离。生成这两个函数之间最大分离性的得分被视为用于接受或拒绝目标的阈值。分离性的度量定义该模型能够在多大程度上区分两个类的记录。如果输入数据中稍有偏差,模型应仍能够识别这些模式并做出区分。因此,分离性是模型质量的量度;分离性越大,模型越好。请注意生成两个分布之间最大分离性数量的预测模型将视为优质模型。 |
增益 %(利润 %) |
由该模型基于选择占目标总体的百分比实现的增益或利润。 |
提升 % |
经过训练的模型与随机模型相比得出的提升量。可用于检查优质模型、随机模型和所创建的模型之间的差异。 |
KPI |
定义 |
|---|---|
Ki |
预测能力。与目标变量中解释性变量能够解释的信息比例相对应的质量指标。 |
Kr |
模型可靠性,或对新数据生成类似结果的能力。生成的模型的稳定性指标。它表示模型在应用于新数据集(列出与训练数据集相同的特征)时达到相同绩效的能力。 |
Ki & Kr |
预测能力和模型可靠性。使模型的稳定性和推广能力同等重要。有关更多信息,请参阅上述定义。 |
R2 |
确定系数 R2 是数据集中由统计模型确定的可变性比例;预测的可变性(平方和)和数据的可变性(平方和)之间的比率。 |
L1 |
平均绝对误差 L1 是预测结果和实际结果之差的绝对值的平均值(例如,城市街区距离或曼哈顿距离)。 |
L2 |
均方误差 L2 是二次式均值的平方根误差(欧几里得距离或均方根误差 - RMSE)。 |
Linf |
最大误差 Linf 是预测值和实际值之间的最大绝对差(上限);也称为切比雪夫距离。 |
ErrorMean |
预测值和实际值之差的平均值。 |
ErrorStdDev |
实际结果周围的误差分散。 |
对顺序的控制很重要,因为如果顶部的 KPI 不能识别胜出的算法,则该部件可以对列表中第二个 KPI 执行计算,以此类推。此外,可以为增益参数和提升参数配置精确的百分比。比较两个或更多部件时,计算结果更准确。
模型比较部件中的列映射使用户可以映射两个比较算法中的输出。列映射部分并排列出两个算法中的匹配列类型。第三个列是模型比较部件的输出列。该功能提供了列之间的一对一映射,充当模型比较部件的结果数据模式。将把胜出的输出提供给用户随后可以添加到链的所有算法或部件,如报表或决策树。所映射列中的数据来自胜出的部件。
仅当列类型匹配时,列才会映射。首先,会完成基于确切名称、数据和统计类型的默认映射。然后检查列的类型是否相同。
(可选)可以添加或删除要包含在模型比较结果集中的列。
下图显示了模型比较部件的“列映射”面板,可用于配置分区和 KPI(使用英语版本为例):

用户可以在一个分析中对多个算法执行模型比较。但模型比较被设计为因添加到比较链的算法数量而行为不同。在有两个父部件的模型比较链上,可以创建子节点。子节点接收模型比较的输出,并在可配置的映射屏幕中显示。这意味着可以将两个父部件中的列映射到一个,以供子节点使用。这使得用户可以对链执行进一步分析。模型比较部件在处于两部件比较模式时显示以下图标:

用户可以在一个分析中对多个算法执行模型比较。当模型比较有三个或更多父部件时,该部件即成为终端(或叶)部件。因此在原始比较后,不能添加子部件以执行进一步的分析。如果尝试比较第三个部件,将收到错误消息。比较三个或更多部件时,模型比较部件显示以下图标:

“结果”选项卡显示比较结果的摘要并突出显示最佳部件。
反馈包含一个星形图标,表示最佳性能部件。这基于对算法(可以是分类或回归类型)的性能统计的比较。“摘要”以执行的顺序对模型算法排序。它基于选定分区(可以是测试或验证)比较结果。
标题显示顺序是在模型比较部件中设置的,粗体标题表示已选定要进行比较。如果是分类算法,并且不指定百分比,增益或提升设置将默认为 10%。