Resumen | Los Provenance Graphs (PG) son un tipo de grafo que permiten describir la totalidad de los aspectos involucrados en la ejecución de un binario y son útiles para recopilar información sobre el origen de los datos, quién ha actuados sobre ellos, el estado de la ejecución, el uso de los recursos, etc. En un proyecto anterior se desarrolló una herramienta para calcular PG a partir de trazas de ejecución de binarios maliciosos (malware). El objetivo de este Trabajo Fin de Grado (TFG) es programar una solución que analice estos grafos aplicando técnicas de Large Language Models (LLM). Este análisis debería ser capaz de deducir si un programa es malicioso a partir de su comportamiento en ejecución (secuencia de APIs’ invocadas, recursos utilizados, datos accedimos, conectividad de red, etc.) e, incluso, identificar la familia de malware a la que pertenece. Como parte del trabajo será necesario evaluar diferentes estrategias para el cálculo de vectores de representación de palabras (Embeddings) y diversas arquitecturas de aprendizaje profundo para resolver el problema de clasificación a diferentes niveles de abstracción (Transformers, Neuronal Networks, etc.). |