看nfsp里,第2个player是random agent, 产生random动作,能像第一个agent一样也用nfsp agent吗,是因为random探索更好更全吗,看训练时只用nfsp agent产生的数据,如果两个player同样用一种 agent, 是不是数据搜集速度翻倍啊。想用在近似无限回合的game, 如果用random探索会不会太慢啊。 非常感谢, ant