在印前论文中,DeepMind描述了新的强化学习技术,该技术以一种潜在的新的强大方式模拟人类行为。与之前发布的版本相比,它可能会带来更强大的AI决策系统,这对希望通过工作场所自动化提高生产率的企业来说是个好消息。
在《学习解决多人零和游戏中的联盟困境》中,DeepMind(Alphabet的Alphabet研究部门,其工作主要涉及强化学习)是一个AI领域,它关系到软件代理应该如何采取行动来实现收益最大化。一种具有点对点契约机制的经济竞争模型,可以在多人游戏中发现和执行代理之间的联盟。合著者说,这种形式的联盟所带来的优势是,如果代理人单独行动,这种优势就不会存在。
本文作者表示:“零和博弈长期以来一直指导着人工智能的研究,因为它们具有丰富的最佳反应战略空间和明确的评价指标。”“此外,竞争是许多现实世界中能够产生智能创新的多智能体系统中的重要机制:达尔文进化论、市场经济和AlphaZero算法等等。”
DeepMind科学家首先尝试从数学上定义联盟的挑战,重点研究多人零和游戏中联盟的形成——即数学表明每个参与者效用的得失与损失或损失完全平衡的情况。获得其他参与者的效用。他们研究了对称零和多人游戏(一种所有参与者都有相同行为并根据每个人的行为获得对称利益的游戏),并试图提供经验结果,表明联盟的形成通常会造成社会困难,因此有必要在伙伴之间调整玩家。
正如研究人员指出的,零和多人游戏引入了动态团队形成和分裂的问题。新兴球队必须在内部进行协调,才能有效地参与竞争,就像足球比赛一样。团队形成的过程本身可能就是一个社会问题。从直觉上来说,玩家应该组成联盟来击败其他人,但加入联盟需要个人为更广泛的利益做出贡献,这并不完全符合他们的个人利益。此外,你必须决定加入和退出哪些团队,以及如何制定这些团队的策略。
标签: