使用模型统计部件可生成用于解决所有方案(HANA 和非 HANA)中两类问题的性能统计。通过一系列统计图可视化和共享结果。将该部件与模型比较部件一同使用可比较两个或更多模型并发现适用于某个预测问题的最佳模型。
模型统计组件计算有关算法生成的数据集的性能统计。可以用于两个算法类型:分类和回归。此外,还可以将该部件配置为生成训练、验证和测试数据集以及选定 KPI 的性能统计。
该部件仅适用于两类问题。两类问题是一种有二进制结果的业务问题,这表示按某个分类规则将给定数据集的元素分类为两个组。
一个示例是可用于有订阅服务的业务的波动建模。在此情况下,两类问题是识别仍将继续使用服务的订户以及不再使用的订户。
另一个示例是财务欺诈检测,其中两类问题是识别哪些交易是欺诈性的,哪些不是。
必须确保模型的预测质量(Ki)高。例如,如果 Ki 为 0,表示模型训练不足,并且没有置信度,因为实际上相当于随机模型。
Ki 与可用于预测目标的信息量直接相关。因此,可以通过以下方式增加有用变量的数量来改进 KI :
可以在模型统计部件中为分类算法和回归算法生成和共享统计图。这些统计图可以可视化分类和回归算法的性能。
可以将模型统计部件与模型比较部件一同使用,以了解适用于预测问题的最佳算法。首先是模型统计部件按分类或回归算法类型的性能统计。然后模型比较部件比较计算所得的性能统计以选取执行时运行的最佳算法。
请注意,当在模型统计部件中更改配置时,会影响模型比较部件。
与模型比较交互的同时呈现统计图时,模型统计部件将把分区彼此重叠,并且为每个分区显示不同的结果。模型比较部件执行相同的操作,因为两个部件都使用相同的数据。因此,应确保为两者配置的 KPI 完全相同。
在分析链中,如果分区部件在模型统计部件的前面,则有使用三种不同分区的选项:训练、测试和验证。如果不包含分区部件,则模型统计部件将仅显示训练分区的一组统计和统计图。