比较两个模型

使用模型比较部件可识别用于在所有方案(SAP HANA 等)解决复杂问题的两个算法中最好的那个。添加子部件可执行进一步分析。

前提条件:必须将“模型统计”“分区”部件与“模型比较”部件一同使用,才可创建模型比较链。

通过以下步骤可执行两部件比较:

  1. 在 Expert Analytics 中,连接一个“数据源”,并导航到“预测”空间。
  2. 从“部件”列表选择“数据准备”区域。
  3. 将一个“分区”部件拖放到分析编辑器。或者双击“分区”部件。单击“确定”
  4. 在“算法”部分,将选定的算法拖放到分析编辑器。例如,如果解决分类问题,可以选择三个算法:“自动分类”“R-CNR 树”“朴素贝叶斯”
  5. 从“数据准备”部分,为每个所选算法添加“模型统计”部件。这使 Expert Analytics 可以对算法生成的数据集执行统计。
  6. 双击“模型统计”部件以显示配置选项。或者可以单击该部件的上下文菜单图标并选择“配置设置”。结果是经过配置的可以执行模型比较的链。
  7. 设置“目标”“预测”列以在两个“模型统计”部件中都执行性能统计。
  8. 从“数据准备”部分,将“模型比较”部件添加到分析编辑器。
  9. 将已添加到分析编辑器的“模型比较”部件拖放到要比较的两个“模型统计”部件。然后,“模型比较”部件即链接到要比较的所有部件。
    注意 对于两部件比较,“模型比较”部件通过显示以下图标,表示允许用户添加子节点:
  10. 要开始配置比较,请双击“比较”部件以查看其配置设置。或者,在该部件上单击“设置” 图标,并从上下文菜单中,选择“配置设置”
  11. “模型比较”对话框中,选择“验证”“测试”分区比较连接的各个部件的性能。
    注意 “模型比较”部件默认使用“验证”设置比较模型。
  12. 在“性能 KPI(关键绩效指标)”部分,执行以下操作之一:
    1. 选择要使用的 KPI,并以应用于比较的顺序排序。对顺序的控制很重要,因为如果顶部的 KPI 不能识别胜出的算法,则该部件可以对列表中第二个 KPI 执行计算,以此类推。
    2. 单击箭头上移或下移 KPI 在比较中的顺序。在“模型统计”部件中,输入部件的类型必须相同。否则会显示错误消息。
    3. 指定用于增益比较的百分比。目标总体的百分比必须介于 1% 和 100% 之间,到一位小数(例如,15.3%)。
    注意 分类有 7 个 KPI:KI、KR、KI + KR、AUC、S(KS)、增益百分比和提升比分比,而回归有 9 个 KPI:KI、KR、KI + KR、R2、L1、L2、LInf、ErrorMean 和 ErrorStdDev。
  13. 完成配置后单击“完成”
  14. 现在分析链已完全配置,并准备好执行了。“模型统计”部件的摘要显示为所有分区计算的 KPI。标题顺序是在“模型比较”部件中设置的,仅当“模型比较”部件存在并且选择“测试”进行比较时才会显示“测试”分区。
    注意

    如果在算法或“模型统计”部件中所有分区都不可用,该部件会将其视为无分区的链。

  15. 单击“运行分析” 图标。
    注意

    该部件会对每个分区计算性能结果,但仅对选定的分区识别胜出者。结果是所比较的部件中最好的那个。建议在将该部件部署到生产中之前确保 Ki 值大于 95%。

  16. “结果”选项卡显示比较结果的摘要并突出显示最佳部件。反馈包含以下信息:
    1. 星图标 表示性能最佳的部件。这基于对算法(可以是分类或回归类型)的性能统计的比较。“摘要”以执行的顺序对模型算法排序。它基于选定分区(可以是测试或验证)比较结果。
    2. 标题顺序是在“模型比较”部件中设置的,粗体标题表示已选定要进行比较。
    3. 如果是分类算法,并且不指定百分比,利润或提升设置将默认为 10%。
  17. (可选)使用两个父部件时,通过映射屏幕向“模型比较”部件添加子节点来扩展分析。要执行该操作,请右键单击“模型比较”并选择“配置设置”。也可双击“模型比较”部件或按 F5。然后,将发生基于列名称和类型的默认映射。
  18. (可选)指定映射产生的列供子部件使用。可以添加或删除同一类型的其他列。要映射所有其他列,请手动添加其他行。
    注意

    所映射列中的数据来自胜出的部件。配置窗口中的列都不能为空。

  19. (可选)可以将最佳模型导出为存储过程使用。要执行此操作,请在“模型比较”部件中,单击“设置” 图标,并从出现的上下文菜单中,选择“导出为存储过程”
  20. (可选)可以直接从“模型比较”部件保存和导出最佳部件。要执行此操作,请在“模型比较”中,单击“设置” 图标,并从出现的上下文菜单中,选择“保存为模型”
用户现在就可以将分区、模型统计和模型比较部件一同使用来比较多个算法,以找到在复杂分析中使用的最佳算法了。