HANA DB Scan

As propriedades que podem ser configuradas para o algoritmo HANA DB Scan.

Sintaxe

HANA DB Scan (Clustering espacial, baseado em densidade, de aplicações com ruído) é um algoritmo de clustering de dados baseado em densidade. Esse algoritmo localiza um número de clusters iniciando a partir da distribuição de densidade estimada de nós correspondentes.

DB Scan necessita de dois parâmetros: raio de scan (eps) e o número mínimo de pontos necessários para formar um cluster (minPts). O algoritmo inicia por um ponto de partida arbitrário que não foi visitado. A vizinhança eps desse ponto é recuperada e se um número de pontos que ela contiver for igual ou superior a minPts, um cluster será iniciado. Caso contrário, o ponto será etiquetado como ruído. Esses dois parâmetros são muito importantes e costumam ser determinados pelo usuário.

PAL fornece um método para determinar automaticamente esses dois parâmetros. Você pode optar por especificar os parâmetros ou deixar que o sistema os determine.

Propriedades de HANA DB Scan
Tabela 1: Propriedades do algoritmo
Propriedade Descrição
Modo de saída Selecionar o modo pelo qual você deseja utilizar a saída desse algoritmo.
Definir parâmetros automaticamente Para ativar o algoritmo para determinar automaticamente os parâmetros de radio e pontos mínimos, selecionar Verdadeiro, caso contrário selecionar Falso.
Recursos Selecionar as colunas de entrada com as quais você deseje executar a análise.
Calcular silhueta Selecionar essa opção para calcular valores de silhueta. Silhueta significa a qualidade de clustering. O valor 1 de silhueta significa que o clustering é bom enquanto o valor 0 significa que o clustering é ruim.
Nome do cluster Inserir um nome para a nova coluna que contenha os números do cluster para o conjunto de dados (cluster) informado.
Valores em falta Selecionar o método para manipulação dos valores em falta.
Métodos possíveis:
  • Ignorar: o algoritmo ignora os registros que contenham os valores em falta nas colunas independente ou dependente.
  • Manter: o algoritmo retém o registro que contenha valores em falta durante o cálculo.
Medida da distância Selecionar a opção para computação da distância entre itens e centro do cluster.
Número de threads Inserir o número de threads que o algoritmo deva utilizar para execução. O valor predeterminado é 1.