Modelos con un destino nominal

Visualización de grafo

El eje X muestra un porcentaje de la población inicial; el eje Y representa el porcentaje del beneficio máximo previsto (incluida cualquier hipótesis coste/beneficio establecida en la pantalla de estrategia de beneficio).

Es posible mostrar únicamente la curva de validación (predeterminada) o las curvas de los tres subconjuntos de datos. El botón Visualizar todos los conjuntos de datos permite seleccionar curvas de Estimación/Validación/Test.

El menú desplegable Modelos permite la opción de seleccionar la variable de destino para la que desea visualizar las curvas.

La barra de herramientas situada bajo el título permite que el usuario copie las coordinadas al portapapeles, imprima el gráfico o lo grabe en formato PNG.

  • La curva verde muestra el máximo beneficio posible (obtenido utilizando la propia variable de destino como modelo). Por ejemplo, si el 25% de su población tuviera la categoría de destino de la variable de destino, el mejor modelo clasificaría correctamente todo el 25% de la categoría de destino con el 25% de la población.
  • La curva roja muestra el beneficio mínimo (obtenido por un modelo aleatorio). Seleccionando aleatoriamente el 50% de la población, identificaría el 50% de la categoría de destino de la variable de destino.
  • La curva azul muestra el beneficio generado utilizando el modelo en el conjunto de validación. Esta curva mostraría el lift de la curva aleatoria basada en el modelo.
Grafos de modelo estándar

El menú desplegable Tipo de sesión de análisis permite la opción de seleccionar el tipo de gráfico a visualizar. Detectados (predeterminado) es la curva de beneficio usual, mientras que Estandarizados produciría una curva de beneficio con una media de 0. Lift permite examinar la diferencia entre un modelo perfecto y un modelo aleatorio, y entre el modelo generado por SAP Predictive Analytics y un modelo aleatorio.

La curva de beneficio Personalizado permitirá al usuario especificar un coste para la categoría de no destino (por ejemplo, coste de correo para un no respondedor) y un beneficio para la categoría de destino (por ejemplo, compra para un respondedor).

Grafos de modelo avanzado

Se proporciona una serie de grafos de modelo avanzado además de las series predeterminadas enumeradas arriba:

  • el grafo ROC se deriva de la teoría de detección de señal.

    Retrata de qué forma discrimina un modelo en términos de la compensación entre la sensibilidad y la especificidad o, en efecto, entre la detección correcta y la incorrecta, teniendo en cuenta que el umbral de detección ha variado.

    Sensibilidad, que aparece en el eje Y, es la proporción de señales CORRECTAMENTE identificados (positivos verdaderos) encontrados (entre todos los positivos verdaderos del conjunto de datos de validación).

    [1 - Especificidad], que aparece en el eje X, es la proporción de asignaciones INCORRECTAS a la clase de señal (falsos positivos) incurridas (entre todos los falsos positivos del conjunto de datos de validación). (Especificidad, en oposición a [1 - especificidad], es la proporción de asignaciones CORRECTAS a la clase de NO SEÑALES - negativos verdaderos.)

  • El grafo Lorenz ‘Buenos’ visualiza la proporción acumulativa de señales omitidas (falsos negativos) justificadas por los registros correspondientes al x% inferior de las puntuaciones de modelo.

    El eje Y mide [1 - sensibilidad], es decir [1 - la proporción de positivos verdaderos], que es equivalente a la proporción de señales omitidos u oportunidades perdidas. Como los datos están ordenados a partir de registros que con menos probabilidad son señales a la izquierda, a registros que con más probabilidad representan señales a la derecha; como más lento sea el aumento, más sensible es el modelo en términos de detección de señales (o respondedores). La línea del asistente gira hacia arriba a partir del eje x en el punto correspondiente a la proporción de no señales en el conjunto de datos de validación.

  • El grafo Lorenz ‘Malos’ visualiza la proporción acumulativa de negativos verdaderos (especificidad) justificados por el x% inferior de las puntuaciones de modelo. En este caso, como más rápido sea el aumento, más baja es la frecuencia de detección errónea.
  • Las curvas de densidad visualizan la función de densidad de la variable Puntuación en el conjunto de Eventos (Densidad de curva “Bueno”) y en el conjunto de No Eventos (Densidad de curva “Malo”). Es posible también visualizar estas curvas como "derivadas" de curvas de Lorenz (la función de densidad es, por definición, el derivado de la función de densidad acumulativa).

    La función de densidad estimada en un rango de valores o intervalo es igual a:

    (Número de Evento en el Intervalo/Número Total de evento)/Longitud del Intervalo
    • La curva Densidad "Buenos" visualiza la distribución de puntuaciones de modelo para respondedores/señales.
    • La curva Densidad "Malos" visualiza la distribución de puntuaciones de modelo para no respondedores/no señales.
    • La curva Densidad "Todos" visualiza la distribución de puntuaciones de modelo para respondedores/señales Y para no respondedores/no señales, lo que le permite comparar ambas distribuciones en un mismo grafo.
  • Las Curvas de riesgo visualizan la puntuación de riesgo, la densidad de población y el ratio de probabilidades. Este ratio se calcula de la forma siguiente:

    (1 - probabilidad de riesgo) / probabilidad de riesgo
    • La curva Densidad de población visualiza el número de registros en cada rango de valores de puntuación de riesgo (20 por defecto).
    • La curva Probabilidad de riesgo visualiza la distribución de la probabilidad de riesgo para la puntuación de riesgo.
    • La curva Buenas/malas probabilidades visualiza la distribución de la puntuación de riesgo para el ratio de probabilidades.
    • La curva Log(Buenas/malas probabilidades) visualiza la distribución de la puntuación de riesgo para el ratio de probabilidades con eje Y logarítmico.
    • La curva Riesgo "Todo" visualiza las tres curvas de riesgo en un grafo.
      Nota

      El eje Y de la curva de probabilidad se encuentra en el lado derecho. El eje Y de la densidad de población y de las buenas/malas probabilidades se encuentra en el lado izquierdo.

Fórmulas

El beneficio normal puede calcularse mediante la fórmula siguiente para los destinos binarios si f1 es la frecuencia de la clase de destino menos frecuente CD1 (y f2 = 1 - f1 es la probabilidad de la clase de destino más frecuente CD2). En ese caso, "asociamos" la clase de destino menos frecuente a un beneficio igual a f2, y la clase de destino más frecuente, a un beneficio igual a -f1. Estos beneficios normalizados se eligen como: profit(TC1) * proba(TC1) + profit(TC2) * proba(TC2) = 0

A continuación, podemos calcular: normalProfit(C) = Profit(TC2) * P(TC2|C) + Profit(TC1) * P(TC1|C)