Aprendizaje por refuerzo multiagente basado en grafos con población evolutiva para la cooperación | JoVE Visualize

Área de la Ciencia:

Inteligencia Artificial
Robótica
Ciencias de la Computación

Sus antecedentes:

Los métodos existentes de aprendizaje por refuerzo multiagente (MARL) enfrentan desafíos en la escalabilidad a tareas de coordinación complejas debido a observaciones limitadas de los agentes e interacciones dinámicas.
La convergencia a políticas óptimas es difícil a medida que aumenta la complejidad de la tarea y el espacio de políticas, lo que afecta las evaluaciones estables de las políticas.

Objetivo del estudio:

Proponer GDE, un marco MARL diseñado para superar los problemas de escalabilidad y convergencia en sistemas multiagente cooperativos.
Mejorar la coordinación de agentes y la propagación de información en entornos dinámicos sin requerir el consenso del estado.

Principales métodos:

GDE integra la descomposición de valor basada en grafos con la optimización de políticas evolutivas por etapas.
Se utilizan algoritmos evolutivos (EAs) para la búsqueda aleatoria sin gradiente para mejorar la exploración de políticas y la convergencia.
Se emplean redes neuronales de grafos (GNN) para extender los campos receptivos de los agentes y facilitar la propagación de información, aprovechando la invarianza de permutación para una convergencia estable con datos dinámicos.

Principales resultados:

GDE demuestra un rendimiento superior en tareas de coordinación complejas, incluida la microgestión de StarCraft II, la cooperación de robots MAMuJoCo y la conducción autónoma SUMO.
El marco captura eficazmente la dinámica de coordinación compleja a través de la formación de equipos multiagente y las GNN.
Los resultados experimentales validan la efectividad y necesidad de cada módulo dentro del marco GDE.

Conclusiones:

GDE ofrece una solución robusta para mejorar la coordinación y la convergencia de políticas en MARL.
La combinación propuesta de descomposición basada en grafos y optimización evolutiva es eficaz para sistemas multiagente complejos.
El diseño modular y la adaptabilidad del marco lo hacen adecuado para diversas aplicaciones del mundo real.