Medios K de HANA

Propiedades que se pueden configurar para el algoritmo Medios K de HANA.

Sintaxis Use este algoritmo para almacenar en clúster las observaciones en grupos de observaciones relacionadas sin conocimiento previo de dichas relaciones. El algoritmo agrupa en clúster las observaciones en grupos k, donde k se proporciona como un parámetro de entrada. A continuación, el algoritmo asigna cada observación a los clústeres según la proximidad de la observación al medio del clúster. El proceso continúa hasta que los clústeres convergen.
Nota
  • Es posible que obtenga un número de clústeres distinto para cada clúster cada vez que ejecute el algoritmo de medios K de HANA. Sin embargo, las observaciones de cada clúster siguen siendo las mismas.
  • No se admite la creación de modelos mediante el algoritmo de medios K de HANA.
Propiedades de los medios K de HANA
Tabla 1: Propiedades del algoritmo
Propiedad Descripción
Modo de salida Seleccione el modo en el que desea usar la salida de este algoritmo.
Características Seleccione las columnas de entrada con las que desea realizar la regresión.
Columnas de categoría Seleccione las columnas de entrada que desea tener en cuenta como columnas de categoría.
Pesos categóricos Introduzca los pesos categóricos.
Calcular silueta Seleccione esta opción para calcular valores de silueta. La silueta significa la calidad de la agrupación en clúster. El valor de silueta 1 significa que la agrupación en clúster es buena y 0 significa que es mala.
Valores faltantes Seleccione el método para manejar los valores perdidos.
Métodos posibles:
  • Omitir: el algoritmo omite los registros que contienen valores faltantes en las columnas independientes o dependientes.
  • Conservar: el algoritmo omite el registro que contiene los valores faltantes durante el cálculo.
Número de clústeres Introduzca el número de grupos para la agrupación en clúster. El valor predeterminado es 5.
Nombre de clúster Introduzca un nombre para la columna recién creada que contiene el nombre del clúster.
Distancia Introduzca el nombre de la columna recién creada que contiene la distancia de los clústeres desde el nombre de centroids.
Repeticiones máximas Introduzca el número de repeticiones permitidas para buscar clústeres. El valor predeterminado es 100.
Método de cálculo central Seleccione el método que se usará para calcular los centros del clúster inicial.
Medición de distancia Introduzca el método para calcular la distancia entre el elemento y el centro del clúster.
Tipo de normalización Seleccione el tipo de normalización.
Número de subprocesos Introduzca el número de subprocesos que se pueden usar para la ejecución. El valor predeterminado es 1.
Umbral de salida Introduzca el valor de umbral para salir de las repeticiones. El valor predeterminado es 0,000000001.