Categorización de HANA

Propiedades que se pueden configurar para el componente de preparación de categorización en escenarios HANA.

Sintaxis La categorización, también conocida como discretización, suaviza un valor de datos ordenado. Divide el rango de una variable numérica en conjuntos de subrangos, denominados almacenajes, y reemplaza cada valor por su número de almacenaje. Realizar el almacenaje de datos antes de ejecutar determinados algoritmos, como el algoritmo de árbol de decisiones, ayuda a reducir la complejidad del modelo.
Existen cuatro métodos de categorización:
  • Anchos iguales basados en el número de agrupamientos
  • Anchos iguales basados en el ancho del agrupamiento
  • Igual profundidad
  • Desviación del medio
Además, hay tres métodos de alisamiento:
  • Suavizado por medios de agrupamiento: cada valor de un agrupamiento se reemplaza por un valor de agrupamiento del medio.
  • Suavizado por medianas de almacenaje: cada valor de almacenaje se reemplaza por la mediana de almacenaje.
  • Suavizado por límites de agrupamiento: los valores máximos y mínimos de un agrupamiento dado se identifican como los límites de agrupamiento. A continuación, cada valor de agrupamiento se reemplaza por el valor de límite más cercano.
Propiedades de la categorización de HANA
Tabla 1: Propiedades del componente de preparación de datos
Propiedad Descripción
Columna independiente Seleccione la columna de origen de entrada en la que desea realizar la categorización.
Valores faltantes Seleccione el método para manejar los valores perdidos.
Métodos posibles:
  • Omitir: el algoritmo omite los registros que contienen valores faltantes en las columnas independientes o dependientes.
  • Conservar: conserva los valores que faltan.
Método de categorización Seleccione el método de categorización.
Número de agrupamientos Introduzca el número de agrupamientos necesarios.
Método de suavizado Seleccione el método de suavizado.
Nombre de columna agrupada Introduzca un nombre para la nueva columna que contiene números de agrupación.
Nombres de columna de valores suavizada Introduzca el nombre de la columna nueva que contiene los valores suavizados.

Realizar la categorización de datos en un conjunto de datos
Ciudad Temperatura
Amsterdam 6
Fráncfort 12
Cantón 13
Ciudad de El Cabo 15
Waldorf 10
Bangalore 23
Bombay 24
Miami 30
Río de Janeiro 32
Sídney 25
Dubai 38
Para realizar el agrupamiento de la columna Temperatura por anchos iguales basado en el número de anchos y aplicar métodos de suavizado por medios, lleve a cabo los siguientes pasos:
  1. Arrastre el componente Categorización al editor de análisis.
  2. Haga doble clic en Categorización o pase el cursor del ratón por encima de Categorización y seleccione Configurar propiedades.
  3. En la lista desplegable Columna independiente, elija una columna, por ejemplo, Temperatura.
    Nota Solo se pueden seleccionar las columnas que tengan valores en forma de dígito numérico.
  4. En la lista desplegable Valores faltantes, seleccione Omitir.
  5. En Método de categorización, seleccione Anchos iguales basados en el número de agrupamientos.
  6. En el número de agrupamientos, introduzca 4.
  7. Seleccione Suavizado obligatorio.
  8. En los métodos de suavizado, seleccione Medio de agrupamiento.
  9. En Introducir nombre para la columna agregada recientemente, en Nombre de columna agrupada, introduzca Agrupamiento de temperatura.
    Nota Puede dar un nombre a la columna según sus preferencias o requisitos de análisis. Esta columna contiene el valor agrupado.
  10. En Introducir nombre para la columna agregada recientemente, en Columna suavizada, introduzca Suavizado de temperatura.
    Nota Puede dar un nombre a la columna según sus preferencias o requisitos de análisis. Esta columna contiene el valor suavizado.
Tabla de salida:
Ciudad Temperatura Agrupamiento de temperatura Suavizado de temperatura
Amsterdam 6 1 8,0
Fráncfort 12 2 13,33333
Cantón 13 2 13,33333
Ciudad de El Cabo 15 2 13,33333
Waldorf 10 1 8,0
Bangalore 23 3 25,5
Bombay 24 3 25,5
Miami 30 3 25,5
Río de Janeiro 32 4 35,0
Sídney 25 3 25,5
Dubai 38 4 35,0