É possível configurar propriedades para o componente Partição em cenários HANA e não HANA.
O componente de Partição divide um conjunto de dados de entrada aleatoriamente em três subconjuntos disjuntos chamados de conjuntos de Treinamento, Teste e Validação. A proporção de cada subconjunto é definida como um parâmetro. A união de três subconjuntos não precisa ser o conjunto de dados inicial completo.
No segundo caso, o conjunto de dados precisa ter pelo menos um atributo categórico (por exemplo, do tipo varchar). O conjunto de dados inicial é subdividido de acordo com os valores categóricos diferentes desse atributo. Cada subconjunto excluído mutuamente é dividido aleatoriamente para obter os subconjuntos de Treinamento, Teste e Validação. Isso garante que todos os "valores categóricos" ou "strata" estejam presentes no subconjunto de amostra.
Observe que quando comparando dois ou mais algoritmos na cadeia de comparação de modelos o componente de Partição é obrigatório.
| Propriedade | Descrição |
|---|---|
| Método de partição | Selecione o método para particionar dados em conjuntos de Treinamento, Teste e Validação.
|
| Propagação aleatória | Insira um número aleatório com o qual deseja executar o cálculo. |
| Linhas de partição por | Selecione o método para particionar linhas.
|
| Conjunto de Treinamento | Insira o número de linhas ou porcentagem de linhas para o conjunto de treinamento. |
| Conjunto de Teste | Insira o número de linhas ou porcentagem de linhas para o conjunto de teste. |
| Conjunto de validação | Insira o número de linhas ou porcentagem de linhas para o conjunto de validação. |
| Nome da coluna de partição | Insira um nome para a nova coluna que contenha os valores particionados. |
| Número de threads | Inserir o número de threads que o algoritmo deva utilizar para execução. |