Use el componente Comparación de modelos para comparar modelos y saber cuál es el mejor algoritmo para su problema predictivo. Utilícelo en todos los escenarios (HANA y no HANA).
Comparar modelos en Expert Analytics le permite probar diferentes algoritmos y descubrir el mejor para solucionar el problema predictivo. Cuando compare el rendimiento de dos o más algoritmos, primero utilice el componente Estadísticas de modelo para calcular las estadísticas de rendimiento para los algoritmos de clasificación o de regresión. Después, el componente Comparación de modelo compara las estadísticas de rendimiento calculadas para escoger el mejor algoritmo de los que se han ejecutado. Finalmente, el componente Comparación de modelo se fusiona con los resultados para proporcionar un resumen detallado del componente con mejor rendimiento.
Puede configurar los tipos de partición en el componente Comparación de modelo para tener más control en la cadena de análisis. En el Panel de propiedades del componente, puede seleccionar una partición de validación o de comprobación para comparar el rendimiento de los modelos. El componente corta un conjunto de datos en tres subconjuntos llamados formación, validación y comprobación.
El componente calcula los resultados de rendimiento en cada partición, pero sólo en la partición que seleccione identifica un ganador. El resultado es el mejor componente de los comparados.
Puede seleccionar el tipo y el orden de comparación de los indicadores de rendimiento clave (KPIs) en su cadena de análisis.
Las siguientes tablas definen los KPIs específicos para los algoritmos de clasificación y regresión.KPI |
Definición |
|---|---|
KI |
Poder predictivo. Un indicador de calidad que corresponde a la proporción de información contenida en la variable de destino que las variables explicativas pueden explicar. |
KR |
Fiabilidad de modelo o la capacidad de producir algo similar en nuevo datos. Un indicador de robustez de los modelos generados. Indica la capacidad del modelo de alcanzar el mismo rendimiento cuando se aplica en un nuevo conjunto de datos que muestra las mismas características que el conjunto de datos de entrenamiento. |
KI y KR |
Poder predictivo y fiabilidad de modelo. Le da la misma importancia a la robustez y las capacidades de generalización del modelo. Para más información, consulte las definiciones de más arriba. |
ABC |
Área bajo la curva. La medida basada en el rango del rendimiento del modelo o el poder predictivo que se calcula como el área bajo la curva ROC (característica operativa del receptor). |
S(KS) |
La distancia entre las funciones de distribución de las dos clases en la clasificación binaria (por ejemplo, clase 1 y clase 0). La puntuación que genera la mayor capacidad de separación entre las funciones se considera el valor umbral para aceptar o rechazar el destino. La medida de capacidad de separación define cómo de bien el modelo puede distinguir entre los registros de dos clases. Si hay pequeñas desviaciones en los datos de entrada, el modelo aún debería poder identificar estos patrones y diferenciar entre los dos. De esta forma, la capacidad de separación es una métrica de cómo de bueno es el modelo; cuanto mayor sea la capacidad de separación, mayor será el modelo. Tenga en cuenta que el modelo predictivo que produce una mayor cantidad de capacidad de separación entre dos distribuciones se considera el modelo superior. |
% de beneficios |
Los beneficios se realizan con el modelo basado en un porcentaje de la selección de la población destino. |
% de vuelta |
La cantidad de vuelta que el modelo formado da en comparación con un modelo aleatorio. Le permite examinar la diferencia entre un modelo perfecto, uno de aleatorio y el creado. |
KPI |
Definición |
|---|---|
KI |
Poder predictivo. Un indicador de calidad que corresponde a la proporción de información contenida en la variable de destino que las variables explicativas pueden explicar. |
KR |
Fiabilidad de modelo o la capacidad de producir algo similar en nuevo datos. Un indicador de robustez de los modelos generados. Indica la capacidad del modelo de alcanzar el mismo rendimiento cuando se aplica en un nuevo conjunto de datos que muestra las mismas características que el conjunto de datos de entrenamiento. |
KI y KR |
Poder predictivo y fiabilidad de modelo. Le da la misma importancia a la robustez y las capacidades de generalización del modelo. Para más información, consulte las definiciones de más arriba. |
R2 |
El coeficiente de determinación R2 es la proporción de la capacidad de variación en un conjunto de datos que se representa con un modelo estadístico; el ratio entre la capacidad de variación (total de cuadrados) de la predicción y la capacidad de variación (total de cuadrados) de los datos. |
L1 |
El error absoluto de media es la media de los valores absolutos de las diferencias entre predicciones y resultados reales (por ejemplo, distancia de manzana urbana o distancia Manhattan). |
L2 |
El error cuadrático medio L2 es la raíz cuadrada de la media de los errores cuadráticos (es decir, la distancia euclidiana o la raíz del error cuadrático medio, RECM). |
LInf |
El error máximo LInf es la diferencia absoluta máxima entre los valores predichos y los reales (límite superior); también conocido como la distancia de Chebyshev. |
ErrorMean |
La media de la diferencia entre predicciones y valores reales. |
ErrorStdDev |
La dispersión de errores en torno al resultado real. |
El control en el orden es importante porque si el KPI principal no puede identificar un algoritmo ganador, el componente puede realizar cálculos con el segundo KPI en la lista, etc. Además, un porcentaje preciso se puede configurar para los parámetros de beneficios y vuelta. El resultado es un cálculo más preciso al comparar dos componentes o más.
La asignación de columna en el componente Comparación de modelo le permite asignar la salida de dos algoritmos comparados. La sección de asignación de columna lista conjuntamente los tipos de columnas que se corresponden de ambos algoritmos. Una tercera columna es la de salida para el componente Comparación de modelo. Esto ofrece una asignación individual entre las columnas y sirve como esquema de datos de resultado para el componente Comparación de modelo. Esto alimenta las salidas ganadoras en cualquiera de los algoritmos o los componentes siguientes que puede añadir a la cadena, como un informe o un árbol de decisiones. Los datos en las columnas asignadas vienen del componente ganador.
Sólo se asignar las columnas si sus tipos coinciden. Al principio se completa una asignación estándar que se basa en nombres exactos, datos y tipos estadísticos. Después de esto, verifica si las columnas son del mismo tipo.
Opcionalmente, puede añadir o eliminar columnas para incluir en el conjunto de resultados Comparación de modelo.
La imagen siguiente muestra el panel Asignación de columna del componente Comparación de modelo en el que puede configurar la Partición y los KPIs (utilizando la versión en inglés como ejemplo):

Puede realizar una comparación de modelo en múltiples algoritmos en un análisis. Sin embargo, la Comparación de modelo está diseñada para comportarse de forma distinta dependiendo del número de algoritmos que añada a la cadena de comparación. En una cadena de comparación de modelo que tenga dos componentes superiores, puede crear un nodo subordinado. El nodo subordinado recibe la salida de la comparación de modelo y la visualiza en una pantalla de asignación configurable. Esto significa que puede asignar las columnas de dos componentes superiores en una para el consumo por un nodo subordinado. Esto le permite realizar un análisis posterior en su cadena. El componente Comparación de modelo visualiza el siguiente icono cuando esté en un modo de comparación de dos componentes:

Puede realizar una comparación de modelo en múltiples algoritmos en un análisis. Cuando la Comparación de modelo tiene tres superiores o más, el componente se convierte un componente de terminal (o de hoja). Por lo tanto, no puede añadir un componente subordinado para realizar un análisis posterior después de la comparación original. Si intenta comparar un tercer componente, recibe un mensaje de error. El componente Comparación de modelo visualiza el siguiente icono cuando se comparan tres o más componentes:

La pestaña Resultados muestra Resumen los resultados de la comparación y destaca el mejor componente.
El feedback incluye un icono de estrella que indica el componente que tiene un mejor rendimiento. Se basa en la comparación de las estadísticas de rendimiento para los algoritmos, que pueden ser tipos de clasificación o de regresión. El Resumen clasifica los algoritmos de modelo en orden según el rendimiento. Compara los resultados basándose en la partición seleccionada, que puede ser de comprobación o de validación.
Los títulos se visualizan en el orden fijado en el componente Comparación de modelo, con los títulos en negrita que indican los que se seleccionan para la comparación. En el caso de un algoritmo de clasificación, las parametrizaciones de beneficios o de vuelta se estandarizarán al 10% si no ha especificado un porcentaje.