Componente de Estatísticas de Modelos

Utilize o Componente de Estatísticas de Modelos para gerar estatísticas de desempenho para solucionar problemas de duas classes para todos os cenários (HANA ou não HANA). Visualize e compartilhe resultados em uma variedade de gráficos. Use o componente com o componente de Comparação de Modelos para comparar dois ou mais modelos e descobrir o melhor para um problema preditivo.

Calcular estatísticas de desempenho

Estatísticas de modelo é um componente que calcula as estatísticas de desempenho em conjuntos de dados gerados por algoritmos. Ele pode fazer isso para dois tipos de algoritmos, classificação e regressão. Além disso, é possível configurar o componente para gerar estatísticas de desempenho para conjuntos de dados de Treinamento, Validação e Teste e KPIs selecionados.

Problemas de duas classes

O componente funciona apenas com problemas de duas classes. Um problema de duas classes é um problema empresarial com um resultado binário, o que significa que ele classifica os elementos em um determinado conjunto de dados em dois grupos com base através de uma regra de classificação.

Um exemplo é uma modelagem de desistência para um negócio com um serviço de assinatura. Em tal caso, o problema de duas classes é identificar os assinantes que permanecerão no serviço e os que o deixarão.

Outro exemplo é a detecção de fraudes em uma instituição financeira, em que o problema de duas classes é identificar quais transações são fraudulentas e quais não são.

Como assegurar uma qualidade altamente preditiva (KI)

Você deve assegurar que a qualidade preditiva (Ki) do modelo seja forte. Por exemplo, se a Ki for zero, isso significa que o modelo não é bem treinado e não inspira confiança, uma vez que ele é essencialmente equivalente a um modelo aleatório.

O Ki está diretamente vinculado à quantidade de informações disponíveis para prever a meta. Portanto, você pode melhorar o KI aumentando o número de variáveis úteis no modelo das seguintes maneiras:

  • Utilizar todas as variáveis disponíveis.
  • Utilizar seu conhecimento do domínio para encontrar outras fontes de informações.
  • Criar variáveis a partir das existentes com manipulações de dados.
  • Utilizar combinações de variáveis aumentando o grau polinomial.
Gráficos m Estatísticas de Modelo

Você pode gerar e compartilhar gráficos para algoritmos de classificação e regressão no componente de Estatísticas de Modelo. O gráfico visualiza o desempenho dos algoritmos de Classificação e de Regressão.

Gráficos de classificação:
  • Ganho (Lucro): Visualiza o ganho ou lucro que é realizado pelo modelo baseado em uma porcentagem da seleção do público-alvo. No gráfico o eixo y mostra Ganho/lucro e o eixo x mostra a Porcentagem.
  • Comparação de precisão: Visualiza a quantidade de comparação de precisão que o modelo treinado proporciona comparado a um modelo aleatório. Permite a análise da diferença entre um modelo perfeito, um modelo aleatório e o modelo criado. No gráfico o eixo y mostra a Comparação de Precisão e o eixo x mostra a Porcentagem.
  • Padronizado (KS): Visualiza a distância entre as funções de distribuição das duas classes em classificação binária (por exemplo, Classe 1 e Classe 0). O resultado que gera a maior separabilidade entre as funções é considerado o valor limite para aceitação ou rejeição da meta. A medida da separabilidade define quão bem o modelo é capaz de distinguir entre os registros das duas classes. Se houver desvios pequenos nos dados inseridos o modelo deve ser capaz de identificar esses padrões e diferenciar entre os dois. Assim, a separabilidade é uma métrica de qualidade do modelo, quanto maior a separabilidade, melhor o modelo. Observe que o modelo preditivo que produz a maior quantidade de separabilidade entre as duas distribuições é considerado o modelo superior.
  • Característica Operacional de Recepção (Receiving Operating Characteristic, ROC): Visualiza a curva ROC, que é gerada traçando a taxa positiva real (ou sensibilidade) em vários cenários de limite contra a taxa positiva falsa (ou a queda, calculada como 1 - especificidade). A curva ROC é usada para derivar a métrica Área Abaixo da Curva (Area Under the Curve, AUC) No gráfico o eixo y mostra a Sensibilidade e o eixo x mostra a Especificidade.
Gráfico de regressão:
  • Precisão do modelo: Visualiza quantos registros foram previstos corretamente em comparação com os valores reais de meta.
Interação com o Componente de Comparação de Modelos

Você pode usar o componente Estatísticas de Modelo com componente de Comparação de Modelos para aprender o melhor algoritmo para seu problema preditivo. Primeiro o componente de Estatísticas de Modelo calcula as estatísticas de desempenho para tipos de algoritmo de classificação ou regressão. Depois disso o componente de Comparação de Modelos compara as estatísticas de desempeno calculado para buscar o melhor algoritmo entre os operados durante a execução.

Observe que ao alterar as configurações no componente de Estatísticas de Modelo isso afeta o componente de Comparação de Modelos.

Na renderização dos gráficos na interação com o componente de Comparação de Modelos, o componente de Estatísticas de Modelo sobrepõe as partições sobre cada um e mostra resultados diferentes por partição. O componente de Comparação de Modelos faz o mesmo pois ambos os componentes usam os mesmos dados. Por isso é necessário assegurar a configuração dos KPIs para ambos exatamente da mesma forma.

Interação com o componente de Partição

Quando o componente de Partição é incluído antes do componente de Estatísticas de Modelo em uma cadeia de análise você tem a opção de usar três diferentes partições: Treinamento, Teste e Validação. Se o componente de Partição não estiver incluído, o componente de Estatísticas de Modelo exibe um conjunto de estatísticas e gráficos somente para a partição Treinamento.