Partição

É possível configurar propriedades para o componente Partição em cenários HANA e não HANA.

Sintaxe

O componente de Partição divide um conjunto de dados de entrada aleatoriamente em três subconjuntos disjuntos chamados de conjuntos de Treinamento, Teste e Validação. A proporção de cada subconjunto é definida como um parâmetro. A união de três subconjuntos não precisa ser o conjunto de dados inicial completo.

É possível particionar o conjunto de dados utilizando os métodos de partição a seguir:
  • Partição aleatória, que divide aleatoriamente todos os dados.
  • Partição estratificada, que divide cada subcategoria aleatoriamente.

No segundo caso, o conjunto de dados precisa ter pelo menos um atributo categórico (por exemplo, do tipo varchar). O conjunto de dados inicial é subdividido de acordo com os valores categóricos diferentes desse atributo. Cada subconjunto excluído mutuamente é dividido aleatoriamente para obter os subconjuntos de Treinamento, Teste e Validação. Isso garante que todos os "valores categóricos" ou "strata" estejam presentes no subconjunto de amostra.

Observe que quando comparando dois ou mais algoritmos na cadeia de comparação de modelos o componente de Partição é obrigatório.

Propriedades de Partição
Tabela 1: Propriedades do componente de preparação de dados
Propriedade Descrição
Método de partição Selecione o método para particionar dados em conjuntos de Treinamento, Teste e Validação.
  • Aleatório
  • Estratificado
Propagação aleatória Insira um número aleatório com o qual deseja executar o cálculo.
Linhas de partição por Selecione o método para particionar linhas.
  • Percentual de linhas
  • Número de linhas
Conjunto de Treinamento Insira o número de linhas ou porcentagem de linhas para o conjunto de treinamento.
Conjunto de Teste Insira o número de linhas ou porcentagem de linhas para o conjunto de teste.
Conjunto de validação Insira o número de linhas ou porcentagem de linhas para o conjunto de validação.
Nome da coluna de partição Insira um nome para a nova coluna que contenha os valores particionados.
Número de threads Inserir o número de threads que o algoritmo deva utilizar para execução.