Nenhum resultado encontrado.

Método de Árvore de Decisão

Método de Árvore de Decisão
29/08/2022
Breno Scaffo
Consultant
Jéssica Ramos de Camargo
Expert

A árvore de decisão é uma ferramenta de suporte a tomada de decisão, e é uma técnica de aprendizado de máquina (machine learning) supervisionado, que pode ser utilizado tanto para problemas de classificação de dados quanto para regressão, neste artigo explicaremos a utilização na classificação de dados.

Por ter alta precisão, estabilidade e fácil interpretação, esse é um dos métodos mais aplicados ao machine learning. A ideia principal é classificar indivíduos com base em suas características. A árvore identifica a variável mais representativa no modelo e os valores retornam conjuntos mais homogêneos da análise em questão.

Essa metodologia é muito importante nesse campo, pois ela é base de vários outros métodos de modelagem em Aprendizado de Máquinas, como por exemplo, Floresta Aleatória (Random Forest), Gradiente Boosting, XGBoost entre outros.

Como é a estrutura de uma árvore de decisão?

O Processo de construção da árvore de decisão se chama indução, o objetivo deste método é fazer várias divisões dos dados, para que virem subconjuntos e seus resultados vão ficando cada vez mais puros. Quanto menos nós de decisão houver no subconjunto, mais confiável é o método.

Na figura acima, temos a representação de uma árvore de decisão criada em um estudo sobre a inadimplência de uma carteira de empréstimos em uma instituição financeira. O principal objetivo dessa análise foi construir um modelo que pudesse predizer indivíduos que podem ser tornar inadimplente com base em um conjunto de informações.

O ponto mais alto da árvore de decisão é chamada de raiz, os pontos mais baixos são as folhas, os pontos médios são os nós de decisão e as linhas são denominadas divisão.

A raiz é o resultado final que estamos procurando. Cada folha significa uma pergunta que busca mais detalhes. E os nós de decisão conectam tudo e mostram o fluxo entre as perguntas e respostas.

Observe que dentro dos nós, folhas ou da raiz existem três informações, o primeiro número do nó mostra a resposta para o modelo de classificação, ou seja, observando apenas a raiz da árvore, a resposta para o problema do exemplo seria 0, no caso seria uma resposta negativa. O segundo número, seria a proporção de casos na amostra que é o caso positivo da variável binária, ou seja, para o exemplo anterior, 22% da amostra é igual a 1. E o último mostra a proporção dos dados que está dentro do nó, note que quando ocorre a divisão, a soma das porcentagens dos nós gerados é igual ao total do percentual do nó ou raiz de origem.

Para quantificar a qualidade de um modelo, é necessário analisar os índices de desempenho que o nosso método retornou. Essas taxas são probabilidades, ou seja, valores entre 0 e 1 que mostram a precisão da metodologia aplicada, quanto mais próximo de 1 melhor. Isso prova que o modelo treinado chega a resultado bem próximos a realidade da base, ou seja, apresenta pouca classificação com possíveis erros. Um ponto de corte para uma boa avaliação da performance do modelo seria a partir de 0,8.

Fonte:
Árvores de Decisão
Aprendizado De Máquina
O que é árvore de decisão (decision tree)?

 
Conteúdo restrito para usuários do site.
Crie sua conta gratuitamente.