AI同士は協力するか競争するか　Google DeepMind、AIにゲームをプレイさせて研究

マッハ・キショ松

LINE

hatena

Home

学習やルール変更による行動の変化を見られるメリットがあるそうです。

　Google傘下のDeepMindが、社会科学研究に人工知能を応用した論文を発表しました。深層学習（ディープ・ラーニング）でゲームの攻略法を学ぶ人工知能「DQN」（関連記事）や、囲碁のトップ棋士を破り話題になった「AlphaGo」（関連記事）などで知られる同社。今回はAIにゲームをさせて、「囚人のジレンマ」に代表される社会的ジレンマの実験に活用しています。

取ると一時的に消滅するりんご（緑色）を取り合う「Gathering」。ビームで攻撃して、相手を一時的にゲームから除外できるルール

獲物（青色）を捕まえたときに、その付近にいたプレイヤーも得点できる「Wolfpack」。ハゲタカのような生物が漁夫の利を狙っているため、仲間が近くにいたほうが捕獲量が増えるという設定

　社会的ジレンマとは、個人の合理的な行動が社会全体にとって合理的ではない状況のこと。例えば、「囚人のジレンマ」は共犯者2人が協力、裏切りの2択を迫られる単純なゲームのような形式で表現されていますが、今回の論文は、より現実に即したアプローチとして「sequential social dilemmas（連続的な社会的ジレンマ）」を提唱。個人間で利害関係が発生する状況をゲーム化している点は従来の方法に似ていますが、そのプレイヤーに人工知能を使って、実際にシミュレーションするのが大きく違うところです。

　実験では性能差のある人工知能2種を使い、ビームで一時的に相手をフィールドから除外できるルールのもと、得点になるりんごを取り合う「Gathering」を繰り返しプレイ。りんごが十分あるうちは共存していたものの、少なくなると別のプレイヤーを攻撃するようになったといいます。また、設定が違う場合にプレイヤーの動きがどう変わるのかも調べており、りんごが豊富に出現する「パラダイスのような設定」では他のプレイヤーに攻撃しなくなります。他人と利益を奪い合うようなルールだとしても、それが気にならないくらい資源があれば、ビームを撃つ必要はないというわけです。

　一方、獲物を捕まえたプレイヤー、協力したプレイヤーがともに得点できるゲーム「Wolfpack」（他人の獲物を狙うハゲタカのような生物がおり、1人きりだと奪われてしまうという状況をイメージしたルール）では、人工知能は協調的な戦略を学習。このようにルールに合わせて行動を最適化する傾向は、性能の高い人工知能のほうが強かったといいます。