模型统计部件

使用模型统计部件可生成用于解决所有方案(HANA 和非 HANA)中两类问题的性能统计。通过一系列统计图可视化和共享结果。将该部件与模型比较部件一同使用可比较两个或更多模型并发现适用于某个预测问题的最佳模型。

计算性能统计。

模型统计组件计算有关算法生成的数据集的性能统计。可以用于两个算法类型:分类和回归。此外,还可以将该部件配置为生成训练、验证和测试数据集以及选定 KPI 的性能统计。

两类问题

该部件仅适用于两类问题。两类问题是一种有二进制结果的业务问题,这表示按某个分类规则将给定数据集的元素分类为两个组。

一个示例是可用于有订阅服务的业务的波动建模。在此情况下,两类问题是识别仍将继续使用服务的订户以及不再使用的订户。

另一个示例是财务欺诈检测,其中两类问题是识别哪些交易是欺诈性的,哪些不是。

确保高预测质量(Ki)的方法

必须确保模型的预测质量(Ki)高。例如,如果 Ki 为 0,表示模型训练不足,并且没有置信度,因为实际上相当于随机模型。

Ki 与可用于预测目标的信息量直接相关。因此,可以通过以下方式增加有用变量的数量来改进 KI :

  • 使用可用的所有变量。
  • 使用专业知识查找其他信息源。
  • 通过数据操作从现有变量构建变量。
  • 通过增加多项式度使用变量组合。
模型统计中的统计图

可以在模型统计部件中为分类算法和回归算法生成和共享统计图。这些统计图可以可视化分类和回归算法的性能。

分类统计图
  • 增益(利润):可视化由该模型基于选择占目标总体的百分比实现的增益或利润。在该统计图上,y 轴显示增益/利润,x 轴显示百分比。
  • 提升:可视化经过训练的模型与随机模型相比得出的提升量。可用于检查优质模型、随机模型和所创建的模型之间的差异。在该统计图上,y 轴显示提升利润,x 轴显示百分比。
  • 规范化(KS):可视化在二进制分类中两个类(例如类 1 和类 0)的分布函数之间的距离。生成这两个函数之间最大分离性的得分被视为用于接受或拒绝目标的阈值。分离性的度量定义该模型能够在多大程度上区分两个类的记录。如果输入数据中稍有偏差,模型应仍能够识别这些模式并做出区分。因此,分离性是模型质量的量度;分离性越大,模型越好。请注意生成两个分布之间最大分离性数量的预测模型将视为优质模型。
  • 接收者操作特征(ROC):可视化 ROC 曲线,该曲线是通过在不同的阈值设置下对假阳性比率(或异常,计算为 1 - 特异度)绘制真阳性比率(或敏感度)生成的。ROC 曲线用于得出量度曲线下面积(AUC)。在该统计图上,y 轴显示敏感度,x 轴显示特异度。
回归统计图
  • 模型准确度:可视化与实际目标值相比正确预测的记录数量。
与模型比较部件的交互

可以将模型统计部件与模型比较部件一同使用,以了解适用于预测问题的最佳算法。首先是模型统计部件按分类或回归算法类型的性能统计。然后模型比较部件比较计算所得的性能统计以选取执行时运行的最佳算法。

请注意,当在模型统计部件中更改配置时,会影响模型比较部件。

与模型比较交互的同时呈现统计图时,模型统计部件将把分区彼此重叠,并且为每个分区显示不同的结果。模型比较部件执行相同的操作,因为两个部件都使用相同的数据。因此,应确保为两者配置的 KPI 完全相同。

与分区部件的交互

在分析链中,如果分区部件在模型统计部件的前面,则有使用三种不同分区的选项:训练、测试和验证。如果不包含分区部件,则模型统计部件将仅显示训练分区的一组统计和统计图。