General

Grado de un polinomio

Los modelos generados por Automated Analytics Modeler - Regresión/Clasificación son expresiones de polinomio de las entradas. Los modelos producen una estimación de variable de destino como función de las variables de entrada X1,X2,...Xn. El orden es el grado máximo permitido en una expresión de este tipo.

El único parámetro disponible para el modelo es el orden de polinomio. Empieza generalmente con un modelo de orden 1, y continúa con un orden de modelo superior. El orden de polinomio está limitado por:

  • el número de variables de entrada
  • la capacidad de memoria del PC
  • el tiempo asignado para la fase de modelación
Descripción del polinomio

Un polinomio puede ser del grado 1, 2, 3 o superior. Al definir el grado de un polinomio, define el grado de complejidad del modelo.

Ejemplos de polinomios
  • Un polinomio de primer grado tiene la forma siguiente:

    Y = a1.X1 + ... + an.Xn

  • Un polinomio de segundo grado tiene la forma siguiente:

    Y = A1.X1 + ... + An.Xn +

    B1.X1.X1 + B2.X2.X2+ ...Bk.Xn.Xn +

    C1.X1.X2 + ... + Cm.X[n-1].Xn

Metodología

En la gran mayoría de casos, un polinomio de primer grado es suficiente para generar un modelo relevante y robusto. El hecho de utilizar un polinomio de mayor grado no garantiza siempre mejores resultados que los obtenidos con un polinomio de primer grado. Además, como más elevado sea el grado de polinomio seleccionado:

  • Más tiempo se necesita para generar el modelo correspondiente
  • Más tiempo se necesita para aplicar el modelo a nuevos conjuntos de datos
  • Más complicado resulta interpretar los resultados de la modelación

La selección de un grado u otro de polinomio depende de la naturaleza de los datos a analizar. El método recomendado es:

  1. Generar primero un modelo con un grado de orden. En la gran mayoría de casos, este grado de orden es suficiente para garantizar un modelo relevante y robusto.
  2. Teste los resultados obtenidos con modelos de un grado superior, si el rendimiento del modelo de primer grado parece inadecuado.
Recuento de agrupaciones de valores de puntuación

Esta opción le permite definir los números de agrupaciones de valores a crear para la puntuación. Este valor debe establecerse entre 20 y 100, dado que un número inferior o superior de agrupaciones de valores empobrecería la calidad del modelo.

Exclusión de variables KR bajas

Esta opción le permite habilitar la exclusión de variables en base al valor de su confianza de predicción (KR). Automated Analytics utiliza un umbral calculado internamente para decidir si una variable cuenta con una confianza de predicción baja. Este umbral depende mayoritariamente del tamaño del conjunto de datos y de la distribución de destino.

Se ha desactivado de forma predeterminada la exclusión automática de las variables con una confianza de predicción baja. Si no habilita esta función, no se excluirá ninguna variable en base a su valor de confianza de predicción.

  • Para excluir automáticamente variables con una confianza de predicción baja
    • Seleccione la opción Exclusión de variables de confianza de predicción baja.
Cuanto de ponderación

Al seleccionar una Variable de ponderación le permite establecer la opción Cuanto de ponderación.

La noción de Cuanto de ponderación se ha añadido para definir un umbral por debajo del cual una categoría se asociará con KxOther.

Ahora, los Informes estadísticos incluyen la información sobre ponderaciones en Estadísticas descriptivas en variables y Tamaño del conjunto de datos.

  • Para definir un cuanto de ponderación
    1. Seleccione la casilla Cuanto de ponderación.
    2. Introduzca un umbral. De manera predeterminada, está establecido en 1.
Opciones de correlaciones

Esta sección le permite establecer los parámetros para el panel de sesión de análisis Correlación. Es decir, seleccionar cuántas correlaciones deben visualizarse en ese panel.

Decir que las variables están correlacionadas implica que cada una aporta una parte de la misma información respecto a la variable de destino. Una correlación contiene dos variables y una tasa de correlación. Cuando modifica el número de correlaciones a mostrar, el motor excluye las que tienen la tasa de correlación más baja, y mantiene solo las más significativas.

Habilitar procesamiento posterior

Esta sección le permite configurar algunos parámetros de regresión según tres estrategias. Esta opción puede activarse únicamente cuando el modelo contiene como mínimo una variable de destino continua.

La tabla siguiente muestra la descripción de esas estrategias y un ejemplo de la curva de rendimiento para cada estrategia.

Estrategia de regresión

Descripción

Ejemplo de curva de rendimiento

Sin procesamiento posterior

La primera estrategia consiste en deshabilitar la regresión de procesamiento posterior durante la fase de modelo de aprendizaje para crear una regresión similar a la utilizada en versiones anteriores a la 3.3.2.

En este caso, se realiza una regresión estándar. No se lleva a cabo una mejora especial en las puntuaciones finales. Se utilizan los valores de destino originales, y los valores de puntuación brutos se producen como salidas.

Con codificación de destino original

La segunda estrategia, que se aplica a regresiones que utilizan un procesamiento posterior, consiste en utilizar el valor de destino original durante la fase de modelo de aprendizaje para calcular coeficientes de regresión. A continuación, se transforma el resultado de la regresión para alinear las medias del segmento de destino y las medias del segmento de puntuación en la fase de procesamiento posterior.

Nota: esta es la estrategia predeterminada utilizada en Automated Analytics.

Con codificación de destino uniforme

La última estrategia, que se aplica a regresiones que utilizan un procesamiento posterior, consiste en utilizar primero un valor de destino codificado en lugar del valor de destino original durante la fase de modelo de aprendizaje para tener una distribución uniforme: es la fase de procesamiento posterior. Entonces, se calculan los coeficientes de regresión y se transforman las puntuaciones en el espacio de destino original durante la fase de procesamiento posterior.

Nota: esta estrategia es preferible cuando la estrategia predeterminada no produce modelos con la suficiente calidad, lo que sucede con frecuencia en el caso de distribuciones de destino muy desviadas.

  • Regresión sin procesamiento posterior
    • Deseleccione la opción Habilitar procesamiento posterior.
      Nota

      No es posible modificar la estrategia de codificación de destino cuando el procesamiento posterior está desactivado.

  • Regresión con valores de destino originales
    1. Seleccione la opción Habilitar procesamiento posterior.
    2. Seleccione el botón de selección Codificación de destino original.
  • Regresión con codificación de destino uniforme
    1. Seleccione la opción Habilitar procesamiento posterior.
    2. Seleccione el botón de selección Codificación de destino uniforme.
Opciones de claves de destino

La sección Establecer valor de claves de destino enumera las variables de destino seleccionadas en la pantalla Seleccionar variables y permite elegir su valor de clave. Para seleccionar el valor de clave para las variables de destino, introduzca el valor en el campo Clave de destino correspondiente a cada destino. De forma predeterminada, el valor de clave se establece automáticamente en la categoría más frecuente de la variable de destino.