二人零和マルコフゲームにおけるオフ方策評価

Hace 2 años 455 Visualizaciones

Deep Counterfactual Regret Minimization

Hace 4 años 2582 Visualizaciones

Deep Q-learning from Demonstrations

Hace 4 años 417 Visualizaciones

Multi-agent Reinforcement Learning in Sequential Social Dilemmas

Hace 4 años 534 Visualizaciones

Evolved policy gradients

Hace 5 años 308 Visualizaciones