Los modelos generados por Automated Analytics Modeler - Regresión/Clasificación son expresiones de polinomio de las entradas. Los modelos producen una estimación de variable de destino como función de las variables de entrada X1,X2,...Xn. El orden es el grado máximo permitido en una expresión de este tipo.
El único parámetro disponible para el modelo es el orden de polinomio. Empieza generalmente con un modelo de orden 1, y continúa con un orden de modelo superior. El orden de polinomio está limitado por:
Un polinomio puede ser del grado 1, 2, 3 o superior. Al definir el grado de un polinomio, define el grado de complejidad del modelo.
Y = a1.X1 + ... + an.Xn
Y = A1.X1 + ... + An.Xn +
B1.X1.X1 + B2.X2.X2+ ...Bk.Xn.Xn +
C1.X1.X2 + ... + Cm.X[n-1].Xn
En la gran mayoría de casos, un polinomio de primer grado es suficiente para generar un modelo relevante y robusto. El hecho de utilizar un polinomio de mayor grado no garantiza siempre mejores resultados que los obtenidos con un polinomio de primer grado. Además, como más elevado sea el grado de polinomio seleccionado:
La selección de un grado u otro de polinomio depende de la naturaleza de los datos a analizar. El método recomendado es:
Esta opción le permite definir los números de agrupaciones de valores a crear para la puntuación. Este valor debe establecerse entre 20 y 100, dado que un número inferior o superior de agrupaciones de valores empobrecería la calidad del modelo.
Esta opción le permite habilitar la exclusión de variables en base al valor de su confianza de predicción (KR). Automated Analytics utiliza un umbral calculado internamente para decidir si una variable cuenta con una confianza de predicción baja. Este umbral depende mayoritariamente del tamaño del conjunto de datos y de la distribución de destino.
Se ha desactivado de forma predeterminada la exclusión automática de las variables con una confianza de predicción baja. Si no habilita esta función, no se excluirá ninguna variable en base a su valor de confianza de predicción.
Al seleccionar una Variable de ponderación le permite establecer la opción Cuanto de ponderación.
La noción de Cuanto de ponderación se ha añadido para definir un umbral por debajo del cual una categoría se asociará con KxOther.
Ahora, los Informes estadísticos incluyen la información sobre ponderaciones en Estadísticas descriptivas en variables y Tamaño del conjunto de datos.
Esta sección le permite establecer los parámetros para el panel de sesión de análisis Correlación. Es decir, seleccionar cuántas correlaciones deben visualizarse en ese panel.
Decir que las variables están correlacionadas implica que cada una aporta una parte de la misma información respecto a la variable de destino. Una correlación contiene dos variables y una tasa de correlación. Cuando modifica el número de correlaciones a mostrar, el motor excluye las que tienen la tasa de correlación más baja, y mantiene solo las más significativas.
Esta sección le permite configurar algunos parámetros de regresión según tres estrategias. Esta opción puede activarse únicamente cuando el modelo contiene como mínimo una variable de destino continua.
La tabla siguiente muestra la descripción de esas estrategias y un ejemplo de la curva de rendimiento para cada estrategia.
Estrategia de regresión
|
Descripción |
Ejemplo de curva de rendimiento |
|---|---|---|
| Sin procesamiento posterior | La primera estrategia consiste en deshabilitar la regresión de procesamiento posterior durante la fase de modelo de aprendizaje para crear una regresión similar a la utilizada en versiones anteriores a la 3.3.2. En este caso, se realiza una regresión estándar. No se lleva a cabo una mejora especial en las puntuaciones finales. Se utilizan los valores de destino originales, y los valores de puntuación brutos se producen como salidas. |
![]() |
| Con codificación de destino original | La segunda estrategia, que se aplica a regresiones que utilizan un procesamiento posterior, consiste en utilizar el valor de destino original durante la fase de modelo de aprendizaje para calcular coeficientes de regresión. A continuación, se transforma el resultado de la regresión para alinear las medias del segmento de destino y las medias del segmento de puntuación en la fase de procesamiento posterior. Nota: esta es la estrategia predeterminada utilizada en Automated Analytics. |
![]() |
| Con codificación de destino uniforme | La última estrategia, que se aplica a regresiones que utilizan un procesamiento posterior, consiste en utilizar primero un valor de destino codificado en lugar del valor de destino original durante la fase de modelo de aprendizaje para tener una distribución uniforme: es la fase de procesamiento posterior. Entonces, se calculan los coeficientes de regresión y se transforman las puntuaciones en el espacio de destino original durante la fase de procesamiento posterior. Nota: esta estrategia es preferible cuando la estrategia predeterminada no produce modelos con la suficiente calidad, lo que sucede con frecuencia en el caso de distribuciones de destino muy desviadas.
|
![]() |
No es posible modificar la estrategia de codificación de destino cuando el procesamiento posterior está desactivado.
La sección Establecer valor de claves de destino enumera las variables de destino seleccionadas en la pantalla Seleccionar variables y permite elegir su valor de clave. Para seleccionar el valor de clave para las variables de destino, introduzca el valor en el campo Clave de destino correspondiente a cada destino. De forma predeterminada, el valor de clave se establece automáticamente en la categoría más frecuente de la variable de destino.