Página 1 de 1

Optimización del Aprendizaje por Reforzamiento en Frozenlake

Publicado: 19 Feb 2025, 09:43
por aldosiu
TEMA:
OPTIMIZACIÓN DEL APRENDIZAJE POR REFORZAMIENTO EN FROZENLAKE

ABSTRACT:
El presente trabajo es un proyecto basado en el entorno FrozenLake, un problema clásico utilizado para el estudio de algoritmos de Aprendizaje por Reforzamiento. Este entorno, perteneciente a la biblioteca Gymnasium, representa una matriz de celdas donde un agente debe encontrar un camino óptimo desde una posición inicial hasta la meta, evitando caer en agujeros. El proyecto tuvo como objetivo implementar los algoritmos Q-learning, Sarsa (𝜆), TD (𝜆) y Dueling Double DQN para analizar el comportamiento del agente frente a distintas configuraciones del entorno y parámetros de aprendizaje para evaluar cómo influyen en el desempeño del agente frente a las particularidades de los entornos, determinísticos y estocásticos, buscando alcanzar mapas de 21x21. Los resultados mostraron que los algoritmos tabulares, como Q-learning, Sarsa(𝜆) y TD(𝜆), fueron efectivos en mapas pequeños y medianos (hasta 13x13), logrando trayectorias consistentes y políticas óptimas mediante ajustes en parámetros como la tasa de aprendizaje (𝛼) y el decaimiento del 𝜖, los cuales permitieron un equilibrio adecuado entre exploración y explotación. Sin embargo, en mapas grandes (15x15 y superiores), la alta dimensionalidad y la estocasticidad dificultaron su escalabilidad, resultando en políticas subóptimas y trayectorias indirectas hacia la meta. La introducción de estocasticidad mediante el parámetro is_slippery=True incrementó la complejidad del entorno, afectando la capacidad de los agentes para consolidar políticas óptimas. Esto derivó en trayectorias menos eficientes y tiempos de convergencia prolongados. Las trazas de elegibilidad, utilizadas en Sarsa(𝜆) y TD(𝜆), demostraron ser herramientas valiosas para acelerar el aprendizaje en mapas pequeños y medianos, aunque su impacto fue limitado en mapas grandes debido a la dificultad de explorar estados más alejados. Asimismo, el uso de recompensas intermedias (+0.002 y −0.002) mejoró la exploración en mapas pequeños y medianos, pero resultó insuficiente en mapas grandes debido a la dispersión de estados relevantes. Finalmente, Dueling Double DQN mostró una mejor capacidad de generalización en mapas medianos (13x13 y 15x15), aprovechando su arquitectura avanzada para aproximar valores de estados y acciones. Sin embargo, en mapas mayores a 19x19, enfrentó limitaciones similares a los métodos tabulares debido a exploración insuficiente y largos tiempos de entrenamiento. En conclusión, los métodos avanzados como Dueling Double DQN ofrecen ventajas en entornos de tamaño moderado, pero enfrentan desafíos importantes en escenarios de alta dimensionalidad, lo que resalta la necesidad de combinar estrategias avanzadas para abordar entornos más complejos.

AUTORES:
Benitez Altamirano, Bernie Hans (berniebeniteza@gmail.com)
Diaz Cabrera, Alexander Gabriel (gdavid.moralesc@gmail.com)
Morales Ccasa, Geyson David (alexandergabrieldiazcabrera@gmail.com)
Ramirez Ucañay, Barbarita Paula Janeth (b.j.ramirez713@gmail.com)
Siu Siu Ting, Aldo Daniel (aldosiu@gmail.com)

Curso: Aprendizaje por Reforzamiento
Maestría en Inteligencia Artificial (Universidad Nacional de Ingenieria)

LINK ARCHIVOS DE CODIGO CON RESULTADOS EN Q-LEARNING, SARSA(𝜆),TD(𝜆), Dueling DQN: https://drive.google.com/drive/folders/ ... drive_link