Selección de variables

Para que se incluya en el proceso de modelación, una variable debe estar asignada a uno de los roles descritos a continuación. De forma predeterminada, las variables son explicativas, a menos que las asigne a un rol de destino o ponderación, o las excluya.

Tabla 1: Roles de variables en el proceso de modelación
Rol de variable Definición
Variable explicativa:

Se utilizará una variable explicativa para calcular el modelo.

Variable de destino

La variable de destino es la variable que quiere explicar, o para la que desea predecir los valores en un conjunto de datos de aplicación.

Variable de ponderación

Una variable de ponderación asigna una ponderación relativa a cada una de las observaciones que describe, y orienta activamente la fase de formación del proceso de modelación. Cuando declara una variable de ponderación, crea una nueva fila proporcional a cada valor descrito por la variable inicial.

Por ejemplo, en un conjunto de datos que contiene pedidos con la cantidad de artículos comprados, si un cliente compra una camisa y tres faldas, la file que incluye la camisa se procesa como una sola ocurrencia, mientras que la fila para la compra de las faldas se duplica para crear tres filas en lugar de una. Este proceso proporciona una ponderación al pedido de faldas que refleja su importancia relativa en el conjunto de datos de forma más realista que su única ocurrencia anterior.

Tenga en cuenta que cuando falta el valor de la variable de ponderación, la aplicación descarta la fila. La aplicación no permite usar la variable para la que faltan los valores múltiples.
Variable excluida

Es posible excluir variables del proceso de modelación. Si excluye columnas que no ejercen influencia en variables de destino, como un número de cuenta, puede acelerar la ejecución sin necesidad de que el hecho de conservarlas interfiera en el proceso de modelación.

No obstante, debe excluir variables que estén relacionadas directamente con las variables de destino, como las transformaciones de las variables de destino y las variables que incluyen indirectamente la misma información que la variable de destino. Por ejemplo, si un conjunto de datos contiene la variable "ha comprado el producto Sí/No", debe excluir la variable "Importe de facturación" si contiene el coste del producto.