Es un algoritmo del aprendizaje por refuerzo, donde se maximiza el valor esperado sobre todos los sucesos. El objetivo es aprender una serie de normas que puedan decir que acciones tomar en cada circunstancia.
Social
Educación, ciencia, tecnología e innovación
Adoptado de Data Science Team. (2021). Data Science.