Método Gradient Boosting

Breno Scaffo

Consultant

Jéssica Ramos de Camargo

Expert

Machine Learning é um tópico da inteligência artificial, que pode ser dividido em dois segmentos: supervisionado e não-supervisionado. Neste artigo, abordaremos uma metodologia para a construção de um modelo supervisionado, chamado Gradient Boosting.

O Gradient Boosting possui 4 principais componentes em sua construção:

Função perda: Seu objetivo é mensurar a qualidade de predição do modelo que está sendo desenvolvido.
Aluno fraco: É a predição dos modelos fracos, como são ruins não classifica os dados da melhor maneira.
Modelo aditivo: Processo de construção da floresta, com base nas árvores fracas. Cada iteração deve reduzir a função perda.
Taxa de aprendizagem: É o ajuste realizado em cada modelo das árvores.

Esse método consiste na criação de modelos com base em conjuntos de predições mais fracas, como por exemplo a árvore de decisão. Seu principal objetivo é obter análises mais fracas e incorporar em um único modelo de aprendizado mais robusto com o propósito de minimizar erros, por conta da função perda.

O que isso quer dizer?

A construção é realizada em etapas, sempre tendo uma taxa de aprendizagem para preparação do modelo seguinte, e consequentemente minimizando os erros apresentados no modelo anterior. Com isso, obtemos uma modelagem cada vez mais robusta e com as estatísticas cada vez melhores, ou seja, com uma precisão alta (próxima de 1).

Observe na figura acima que em cada iteração, surge uma nova árvore de decisão e com ela há a taxa de aprendizado para que a sempre haja na árvore seguinte tenha ainda mais precisão.

Assim como foi explicado na metodologia de árvore de decisão, é de extrema importância quantificar se o modelo obteve bons resultados. Para isso, deve-se observar a taxa dos acertos na classificação da variável resposta Y, tanto para o valor 0 quanto para o valor 1, dado que a variável de interesse para modelo de classificação é binária.

Por fim, através de um estudo realizado pela M2M SABER com a base de dados de um serviço de proteção ao crédito, aberta ao público, foi possível observar que o Gradient Boosting foi o método com as melhores estatísticas de predição do modelo, tendo em vista que apenas uma das métricas de precisão apresentou valor de 0,74 (menor que 0,8).

Fonte
Aprendizado De Máquina
Gradient Boosting Machines
Credit Risk Dataset

Tenha acesso ilimitado

Acesso a cursos, guias, artigos e vídeos. Sem pontuação CRC.

R$100

/mês

Começar Também preciso de pontos CRC

Relacionados

Método Floresta Aleatória (Random Forest)

Método Gradient Boosting

Introdução ao Machine Learning

Método de Árvore de Decisão

Aprendizado supevisionado