Componente Estadísticas de modelo

Utilice el componente Estadísticas de modelo para generar estadísticas de rendimiento para solucionar problemas de dos clases para todos los escenarios (HANA y no HANA). Visualice y comparta los resultados en un rango de gráficos. Utilice el componente con el componente Comparación de modelo para comparar dos o más modelos y descubrir el mejor para un problema predictivo.

Calcular estadísticas de rendimiento

Estadísticas de modelos es un componente que calcula las estadísticas de funcionamiento en conjuntos de datos que generan algoritmos. Puede calcular estadísticas para dos tipos de algoritmo, clasificación y regresión. Además, puede configurar el componente para generar estadísticas de rendimiento para los conjuntos de datos de formación, validación y comprobación y los KPIs seleccionados.

Problemas de dos clases

El componente funciona solo con problemas de dos clases. Un problema de dos clases es un problema empresarial con un resultado binario, lo que significa que clasifica los elementos de un conjunto de datos determinado en dos grupos según una regla de clasificación.

Un ejemplo se da en a modelación de cancelaciones de clientes para un empresa con servicio de suscripción. En tal caso, el problema de dos clases es identificar a los suscriptores que se mantendrán en el servicio y aquellos que lo abandonarán.

Otro ejemplo es la detección de fraude en una institución financiera, en el que el problema es distinguir las transacciones fraudulentas de las que no lo son.

Cómo garantizar una calidad predictiva fuerte (KI)

Tiene que garantizar que la calidad predictiva (KI) del modelo sea fuerte. Por ejemplo, si KI es cero, significa que el modelo no está formado correctamente y que no inspira confianza ya que en esencia es equivalente a un modelo aleatorio.

La KI está directamente ligada a la cantidad de información disponible para predecir el objetivo. Por tanto, puede mejorar la KI aumentando el número de variables útiles en el modelo de las siguientes maneras:

  • Use todas las variables disponibles.
  • Use su conocimiento del dominio para encontrar otras fuentes de información.
  • Cree variables a partir de las existentes con manipulaciones de datos.
  • Combine las variables aumentando el grado de polinomios.
Gráficos en Estadísticas de modelo

Puede generar y compartir gráficos para los algoritmos de clasificación y de regresión en el componente Estadísticas de modelo. Los gráficos visualizan el rendimiento de los algoritmos de clasificación y de regresión.

Gráficos de clasificación:
  • Beneficios: Visualizan los beneficios se realizan con el modelo basado en un porcentaje de la selección de la población destino. En el gráfico, el eje Y muestra los beneficios y el eje X muestra el porcentaje.
  • Vuelta Visualiza la cantidad de vuelta que el modelo formado da en comparación con un modelo aleatorio. Le permite examinar la diferencia entre un modelo perfecto, uno de aleatorio y el creado. En el gráfico, el eje Y muestra la vuelta y el eje X muestra el porcentaje.
  • Estandarizado (KS): Visualiza la distancia entre las funciones de distribución de las dos clases en la clasificación binaria (por ejemplo, clase 1 y clase 0). La puntuación que genera la mayor capacidad de separación entre las funciones se considera el valor umbral para aceptar o rechazar el destino. La medida de capacidad de separación define cómo de bien el modelo puede distinguir entre los registros de dos clases. Si hay pequeñas desviaciones en los datos de entrada, el modelo aún debería poder identificar estos patrones y diferenciar entre los dos. De esta forma, la capacidad de separación es una métrica de cómo de bueno es el modelo; cuanto mayor sea la capacidad de separación, mayor será el modelo. Tenga en cuenta que el modelo predictivo que produce una mayor cantidad de capacidad de separación entre dos distribuciones se considera el modelo superior.
  • Característica operativa del receptor (ROC): Visualiza la curva ROC, que se genera al representar la tasa positiva verdadera (o sensibilidad) en varias parametrizaciones de umbral frente a la tasa positiva falsa (o caída; calculada como 1 - sensibilidad). La curva ROC se utiliza para derivar la métrica, el área bajo la curva (ABC). En el gráfico, el eje Y muestra la sensibilidad y el eje X muestra el especificidad.
Gráfico de regresión:
  • Precisión de modelo: Visualiza cuántos registros se predicen correctamente en comparación con los valores destino reales.
Interacción con el componente Comparación de modelo

Puede utilizar el componente Estadísticas de modelo con el componente Comparación de modelo para conocer el mejor algoritmo para el problema predictivo. Primero el componente Estadísticas de modelo calcula las estadísticas de rendimiento para los tipos de algoritmo de clasificación o de regresión. Después, el componente Comparación de modelo compara las estadísticas de rendimiento calculadas para escoger el mejor algoritmo de los que se han ejecutado.

Tenga en cuenta que cuando modifica las configuraciones en el componente Estadísticas de modelo, afecta al componente Comparación de modelo.

Al representar los gráficos cuando interactúa con la Comparación de modelo, el componente Estadísticas de modelo se superpone a las particiones de la parte superior y visualiza diferentes resultados por partición. El componente Comparación de modelo hace lo mismo porque ambos componentes utilizan los mismos datos. Por lo tanto, debería asegurarse que configura los KPIs para ambos exactamente de la misma forma.

Interacción con el componente Partición

Cuando el componente Partición se incluye antes del componente Estadísticas de modelo en una cadena de análisis, recibe la opción de utilizar tres particiones diferentes: formación, comprobación y validación. Si no se incluye el componente Partición, el componente Estadísticas de modelo visualiza un conjunto de estadísticas y de gráficos sólo para la partición de formación.