Síntese

Utilize o componente de Comparação de Modelo para saber qual o melhor algoritmo para seu problema preditivo. Use em todos os cenários (HANA e não HANA).

Por que comparar modelos?

A comparação de modelos em Expert Analytics permite que você teste algoritmos diferentes e descubra o melhor para solucionar problemas preditivos. Ao comparar o desempenho de dois ou mais algoritmos, primeiro você usa o componente Estatísticas de Modelo para calcular estatísticas de desempenho para algoritmos de Classificação ou Regressão. Depois disso o componente de Comparação de Modelos compara as estatísticas de desempeno calculado para buscar o melhor algoritmo entre os operados durante a execução. Finalmente, o componente de Comparação de Modelos funde os resultados e fornece um resumo detalhado sobre o componente de melhor desempenho.

Configuração de Partições

É possível configurar tipos de partição no componente de Comparação de Modelos para mais controle sobre sua cadeia de análise. No Painel de Propriedades do componente você pode selecionar uma partição Validar ou Testar para comparar o desempenho dos modelos. O componente parte um conjunto de dados em três subconjuntos denominados Treinamento, Validação e Teste.

O componente calcula os resultados e desempenho em cada partição, mas seleciona vendedor somente na partição que você selecionar. O resultado é o melhor componente somente entre os comparados.

Configurando KPIs

Você pode escolher o tipo e a ordem de comparação para Indicadores-chave de Desempenho (Key Performance Indicators, KPIs) em sua cadeia de análise.

As tabelas a seguir definem os KPIs específicos para os algoritmos de Classificação e Regressão.
Tabela 1: KPIs de classificação

KPI

Definição

Ki

Poder preditivo. Um indicador de qualidade que corresponde à proporção de informação contida na variável de destino que as variáveis explicativas conseguem explicar.

Kr

Confiabilidade do modelo ou capacidade de produzir dados similares ou novos dados. Um indicador de robustez dos modelos gerados. Ele indica a capacidade do modelo de obter o mesmo desempenho quando é aplicado a um novo conjunto de dados com as mesmas características do conjunto de dados de treinamento.

Ki e Kr

Poder preditivo e confiabilidade do modelo. Confere igual importância às capacidades de robustez e de generalização do modelo. Para obter mais informações, veja as definições acima.

AUC

Área Abaixo da Curva (Area Under The Curve., AUC) Medida baseada em classificação do desempenho do modelo ou do poder preditivo como a área sob a curva característica de operação do receptor (Receiver Operating Characteristic, ROC).

S(KS)

A distância entre as funções de distribuição das duas classes em classificação binária (por exemplo, Classe 1 e Classe 0). O resultado que gera a maior separabilidade entre as funções é considerado o valor limite para aceitação ou rejeição da meta. A medida da separabilidade define quão bem o modelo é capaz de distinguir entre os registros das duas classes. Se houver desvios pequenos nos dados inseridos o modelo deve ser capaz de identificar esses padrões e diferenciar entre os dois. Assim, a separabilidade é uma métrica de qualidade do modelo, quanto maior a separabilidade, melhor o modelo. Observe que o modelo preditivo que produz a maior quantidade de separabilidade entre as duas distribuições é considerado o modelo superior.

Ganho % (Lucro %)

O ganho ou lucro que é realizado pelo modelo baseado em uma porcentagem da seleção do público-alvo.

Comparação de precisão %:

A quantidade de comparação de precisão que o modelo treinado proporciona em comparação com um modelo aleatório. Ela permite a análise da diferença entre um modelo perfeito, um modelo aleatório e o modelo criado.

Tabela 2: KPIs de regressão

KPI

Definição

Ki

Poder preditivo. Um indicador de qualidade que corresponde à proporção de informação contida na variável de destino que as variáveis explicativas conseguem explicar.

Kr

Confiabilidade do modelo ou capacidade de produzir dados similares ou novos dados. Um indicador de solidez dos modelos gerados. Ele indica a capacidade do modelo de obter o mesmo desempenho quando é aplicado a um novo conjunto de dados com as mesmas características do conjunto de dados de treinamento.

Ki e Kr

Poder preditivo e confiabilidade do modelo. Confere igual importância às capacidades de robustez e de generalização do modelo. Para obter mais informações, veja as definições acima.

R2

O coeficiente de determinação R2 é a proporção da variabilidade em um conjunto de dados que é considerado por um modelo estatístico, a proporção entre a variabilidade (soma dos quadrados) da predição e a variabilidade (soma dos quadrados) dos dados.

L1

O erro L1 de média absoluta é a média dos valores absolutos das diferenças entre previsões e resultados reais, (distância city block ou distância Manhattan)

L2

O erro de área média L2 é a raiz quadrada da média dos erros quadráticos (ou seja, Distância Euclidiana ou raiz do erro quadrático -RMSE).

Linf

O erro máximo Linf é a diferença absoluta entre os valores preditivos e os valores reais (limite superior), também conhecido como Distância Chebyshev.

ErrorMean

A média da diferença entre previsões e valores reais.

ErrorStdDev

A dispersão de erros em torno do resultado real.

O controle da ordem é importante pois o principal KPI não pode identificar um algoritmo vencedor, o componente pode realizar cálculos com o segundo KPI na lista e assim por diante. Além disso, uma porcentagem precisa pode ser configurada para os parâmetros Ganho e Comparação de Precisão. O resultado é um cálculo ainda mais preciso quando comparando dois ou mais componentes.

Mapeamento de coluna

O mapeamento de coluna no componente de Comparação de Modelo permite o mapeamento de saída a partir de dois algoritmos comparados. A seção mapeamento de coluna lista lado a lado os tipos de coluna correspondentes de ambos os algoritmos. Uma terceira coluna é a coluna de saída para o componente de Comparação de Modelos. Isso permite um mapeamento um a um entre as colunas e serve como o esquema de dados do resultado para o componente de Comparação de Modelos. Isso insere as saídas vencedoras em todos os algoritmos ou componentes seguintes que você pode incluir na cadeia, como um relatório ou uma árvores de decisão. Os dados nas colunas mapeadas se originam do componente vencedor.

As colunas são mapeadas somente se os tipos de coluna forem correspondentes. A princípio um mapeamento padrão é concluído baseado em nomes, dados e tipos estatísticos exatos. Após isso, verifique se as colunas são do mesmo tipo.

Opcionalmente, você pode incluir ou remover colunas para incluir o conjunto de resultados da Comparação de Resultados.

A imagem mostra o painel de Mapeamento de Coluna para o componente de comparação de modelo em que você pode configurar a Partição e os KPIs (usando a versão em inglês, por exemplo):

Comparação de dois componentes

Você pode realizar uma comparação de modelos em algoritmos múltiplos em uma análise. No entanto, o componente de Comparação de Modelos é projetado para se comportar diferentemente de acordo com o número de algoritmos que incluir na cadeia de comparação. Em uma cadeia de comparação de modelo que possui dois componentes pais, é possível criar um nó filho. O nó filho recebe a saída do modelo de comparação e o exibe na tela de mapeamento configurável. Isso significa que você pode mapear as colunas a partir de dois componentes pais em um para consumo por um nó filho. Isso permite a realização de análises posteriores em sua cadeia. O componente Comparação de Modelos exibe o seguinte ícone quando em modo de comparação de dois componentes:

Comparando três ou mais componentes

Você pode realizar uma comparação de modelos em algoritmos múltiplos em uma análise. Quando o componente Comparação de Modelos possui três ou mais pais, o componente se torna um componente terminal (ou folha). Por isso não é possível incluir um componente filho para realizar análises posteriores após a comparação original. Ao tentar comparar um terceiro componente você receberá uma mensagem de erro. O componente de Comparação de Modelos exibe o ícone a seguir quando está comparando três ou mais componentes:

Resultados e resumo

A guia Resultados mostra o Sumário dos resultados de comparação e destaca o melhor componente.

O feedback inclui um ícone de estrela que indica o componente de melhor desempenho. Isto é baseado na comparação de estatísticas de desempenho para os algoritmos, que pode ser do tipo classificação ou regressão. O Resumo separa os algoritmos do modelo por ordem desempenho. Ele compara os resultados com base nas partições selecionadas, que pode ser Testar ou Validar.

Exibição em títulos na ordem definida no componente de Comparação de Modelos, com os títulos em negrito indicando os selecionados para comparação. Em caso de algoritmo de classificação as configurações Ganho ou Comparação de Precisão serão definidas por padrão em 10% caso não seja especificada uma porcentagem.