Algoritmo de aprendizaje por refuerzo que consta de múltiples agentes independientes (redes) con sus propias ponderaciones que interactúan con una copia diferente del entorno de manera paralela y las actualizaciones no ocurren simultáneamente, por lo que de ahí proviene lo asincrónico
Social
Educación, ciencia, tecnología e innovación
Karagiannakos, S. (17 de Noviembre de 2018). The idea behind ActorCritics and how A2C and A3C improve them.