Digitalización de la base de datos HANA

Propiedades que se pueden configurar para el algoritmo BD de HANA.

Sintaxis

La digitalización de la base de datos HANA (Agrupación en clúster espacial basada en densidad de aplicaciones con ruido) es un algoritmo de agrupación en clúster de datos basados en densidad. Busca un número de clústeres empezando por la distribución de la densidad estimada de los nodos correspondientes.

La digitalización de la base de datos requiere dos parámetros: Radio de digitalización (eps) y el número mínimo de puntos requeridos para formar un clúster (minPts). El algoritmo empieza con un punto de inicio arbitrario que no haya sido visitado. En este punto el vecino eps se recupera y el número de puntos que contiene es igual o mayor que minPts y se inicia el clúster. Sin embargo, el punto se etiqueta como ruido. Estos dos parámetros son muy importantes y normalmente los determina el usuario.

PAL proporciona un método para determinar automáticamente estos dos parámetros. Puede seleccionar si especificar los parámetros usted mismo o dejar que el sistema los determine por usted.

Propiedades de digitalización de la base de datos HANA
Tabla 1: Propiedades del algoritmo
Propiedad Descripción
Modo de salida Seleccione el modo en el que desea usar la salida de este algoritmo.
Definir los parámetros automáticamente Para habilitar que el algoritmo determine los puntos mínimos y los parámetros de radio automáticamente, seleccione True; en caso contrario, False.
Características Seleccione las columnas de entrada con las que desea realizar la regresión.
Calcular silueta Seleccione esta opción para calcular valores de silueta. La silueta significa la calidad de la agrupación en clúster. El valor de silueta 1 significa que la agrupación en clúster es buena y 0 significa que es mala.
Nombre de clúster Introduzca un nombre para la nueva columna que contiene los números de clúster para un conjunto de datos determinado (clúster).
Valores faltantes Seleccione el método para manejar los valores perdidos.
Métodos posibles:
  • Omitir: el algoritmo omite los registros que contienen valores faltantes en las columnas independientes o dependientes.
  • Conservar: el algoritmo omite el registro que contiene los valores faltantes durante el cálculo.
Medición de distancia Seleccione la opción para calcular la distancia entre los elementos y el centro del clúster.
Número de subprocesos Escriba el número de subprocesos que debe usar el algoritmo para la ejecución. El valor predeterminado es 1.