Resumen | Los GBDTs (gradient boosting decision trees) son uno de los métodos más populares de aprendizaje automático. Recientemente se han utilizado para la propuesta ganadora, o parte de ella, de múltiples concursos:
https://github.com/microsoft/LightGBM/blob/master/examples/README.md
Además tienen dos características interesantes: proporcionan métricas sobre la importancia de cada una de las entradas y la operación básica del árbol es una comparación, que es más ligera que las multiplicaciones y acumulaciones que se usan en otros modelos.
Actualmente, dos de las características más importantes de un modelo de aprendizaje son su transparencia y su interpretabilidad. Los modelos complejos (incluidos los GBDTs) actúan como cajas negras, y en general el usuario no recibe ninguna información que le ayude a entender su salida, ni a identificar en qué situaciones es probable que sea errónea.
En este proyecto vamos a trabajar para entender mejor los GBDTs, hacerlos más pequeños y eficientes, ser capaces de interpretar mejor sus resultados, y obtener métricas de incertidumbre sobre las predicciones generadas, que nos permitirán identificar cuando el modelo ha detectado problemas en las predicciones.
El proyecto es bastante amplio y se puede dividir en dos con contribuciones totalmente diferenciadas.
|