Partición

Puede configurar las propiedades para el componente Partición en escenarios HANA y que no sean HANA.

Sintaxis

El componente Partición divide un conjunto de datos de entrada en tres subconjuntos llamados conjuntos de formación, comprobación y validación. La proporción de cada subconjunto se define como un parámetro. La unión de tres subconjuntos no tiene que ser el conjunto inicial de datos completo.

Usted puede dividir el conjunto de datos utilizando los siguientes métodos de partición:
  • Partición aleatoria, que divide todos los datos aleatoriamente.
  • Partición estratificada, que divide cada subcategoría aleatoriamente.

En el segundo caso, el conjunto de datos debe tener como mínimo un atributo categórico (por ejemplo, de tipo varchar). El conjunto de datos inicial se subdivide según los diferentes valores categóricos de este atributo. Cada subconjunto mutuamente exclusivo se divide de forma aleatoria para obtener conjuntos de formación, comprobación y validación. Esto garantiza que todos los "valores categóricos" o "estratificaciones" estén presentes en el subconjunto de ejemplo.

Tenga en cuenta que al comparar dos o más algoritmos en la cadena de comparación del modelo, el componente Partición es obligatorio.

Propiedades de partición
Tabla 1: Propiedades del componente de preparación de datos
Propiedad Descripción
Método de partición Seleccione el método para efectuar la partición de datos en conjuntos de formación, comprobación y validación.
  • Aleatorio
  • Estratificado
Muestreo aleatorio Introduzca un muestreo aleatorio que desee utilizar para realizar el cálculo.
Efectuar partición de filas según Seleccione el método para efectuar la partición de filas.
  • Porcentaje de filas
  • Número de filas
Conjunto de formación Introduzca el número de filas o el porcentaje de filas para el conjunto de formación.
Conjunto de comprobación Introduzca el número de filas o el porcentaje de filas para el conjunto de comprobación.
Conjunto de validación Introduzca el número de filas o el porcentaje de filas para el conjunto de validación.
Nombre de columna de partición Introduzca un nombre para la columna nueva que contiene los valores con partición.
Número de subprocesos Escriba el número de subprocesos que debe usar el algoritmo para la ejecución.