Regressão de florestas aleatórias R do HANA

Propriedades que podem ser configuradas para o algoritmo Regressão de florestas aleatórias R do HANA.

Florestas aleatórias é um método popular de agrupamento usado para algoritmos de classificação e regressão. O algoritmo é executado por meio da criação de um conjunto de árvores de decisões no momento do treinamento. Para uma tarefa de regressão, é calculada como saída a previsão média de árvores individuais. Comparado a outros algoritmos de regressão, esse método de agrupamento oferece mais precisão e generalização nos conjuntos de dados da empresa.

O pacote R que implementa o algoritmo é o randomForest.

Nota

O nível máximo suportado em cada recurso do conjunto de dados é 53. O nível se refere à categoria, à variedade ou o tipo dos valores que podem ser obtidos por uma variável; por exemplo, a coluna "Sexo" tem dois níveis: "Masculino" e "Feminino". Nesse caso, a variável não pode ter mais de 53 tipos de valores.

Propriedades da regressão de florestas aleatórias R do HANA
Tabela 1: Propriedades do algoritmo
Propriedade Descrição
Recursos Selecione as colunas de entrada com as quais deseja executar a análise.
Colunas de destino Selecione a coluna de destino na qual deseja executar a análise.
Número de árvores a crescer A quantidade de árvores que precisam crescer nas florestas aleatórias. Este parâmetro pode ser definido entre 5 e 1.000, incluindo os valores limiares.
Mínimo de nós terminais O número mínimo de nós terminais na árvore de decisões. Este parâmetro pode ser definido entre 10 e 500, incluindo os valores limiares.