Categorização HANA

As propriedades que podem ser configuradas para o Componente de Preparação de Categorização em cenários HANA.

Sintaxe Categorização, também conhecida como discretização, amortece um valor de dados ordenados. Ela divide o intervalo de uma variável numérica em conjuntos de subintervalos denominados categorias, e substitui cada valor por seu número de categoria. A categorização de dados antes da execução de certos algoritmos, como algoritmo de árvore de decisão, reduz a complexidade do modelo.
Existem quatro métodos de categorização:
  • Larguras iguais com base no número de categorias
  • Larguras iguais com base na largura de categoria
  • Profundidade igual
  • Desvio da média
Além disso, há três métodos de amortecimento:
  • Amortecimento por médias de categoria: cada valor em uma categoria é substituído pelo valor de categoria da média.
  • Amortecimento por medianas de categorização: cada valor de categorização é substituído por uma mediana de categorização.
  • Amortecimento por limites de categoria: os valores mínimo e máximo de uma determinada categoria são identificados como limites de categoria. Em seguida, cada valor de categoria é substituído pelo valor do limite mais próximo.
Propriedades do componente Categorização HANA
Tabela 1: Propriedades do componente de preparação de dados
Propriedade Descrição
Coluna independente Selecione a coluna de origem de entrada com a qual você deseja executar a categorização.
Valores em falta Selecione o método para manipulação dos valores em falta.
Possíveis métodos:
  • Ignorar: o algoritmo ignora os registros que contenham os valores em falta na coluna independente ou dependente.
  • Manter: retém valores em falta.
Método de categorização Selecione o Método de categorização.
Número de categorias Insira o número de categorias necessário.
Método de amortecimento Selecione o Método de amortecimento.
Nome da coluna categorizada Insira um nome para a nova coluna que contenha a posição no depósito.
Nomes de colunas com valores amortecidos Insira o nome para a nova coluna que contenha valores amortecidos.

Categorização de dados em um conjunto de dados
Cidade Temperatura
Amsterdã 6
Frankfurt 12
Guangzhou 13
Cidade do Cabo 15
Waldorf 10
Bangalore 23
Mumbai 24
Miami 30
Rio de Janeiro 32
Sydney 25
Dubai 38
Para categorizar a coluna Temperatura em larguras iguais com base no número de larguras e aplicar métodos de amortecimento pelas médias, realize as seguintes etapas:
  1. Arraste o componente Categorização até o editor de análise.
  2. Clique duas vezes em Categorização ou passe o mouse sobre Categorização e selecione Configurar propriedades.
  3. Na lista suspensa Coluna independente, selecione uma coluna, por exemplo, Temperatura.
    Nota Você só pode selecionar colunas que tenham valores com dígitos numéricos.
  4. Na lista suspensa Valores em falta, selecione Ignorar.
  5. Em Método de categorização, selecione Larguras iguais com base no número de categorias.
  6. Em número de categorias, digite 4.
  7. Selecione Amortecimento necessário.
  8. Em Métodos de amortecimento, selecione Média de categoria.
  9. Em Digitar nome para a coluna recém adicionada, em Nome da coluna categorizada, insira Categoria de temperatura.
    Nota Nomeie a coluna conforme a sua preferência ou a necessidade da análise. Esta coluna contém o valor categorizado.
  10. Em Digitar nome para a coluna recém adicionada, em Nomes da coluna com valores amortecidos, insira Amortecimento de temperatura.
    Nota Nomeie a coluna conforme a sua preferência ou a necessidade da análise. Esta coluna contém o valor amortecido.
Tabela de Saída:
Cidade Temperatura Categoria de temperatura Amortecimento de temperatura
Amsterdã 6 1 8,0
Frankfurt 12 2 13,33333
Guangzhou 13 2 13,33333
Cidade do Cabo 15 2 13,33333
Waldorf 10 1 8,0
Bangalore 23 3 25,5
Mumbai 24 3 25,5
Miami 30 3 25,5
Rio de Janeiro 32 4 35,0
Sydney 25 3 25,5
Dubai 38 4 35,0