https://www.quantamagazine.org/artificial-intelligence-discovers-tool-use-in-hide-and-seek-games-20191118/
OpenAI的Platform 。基本的reenforcement learning, 360M次以后,两个agent可以自己找出strategy攻和守,都是自己学出来的。