能与人类谈判、游戏水平媲美真人，Meta是如何构建新人工智能CICERO的？_AI&大模型_Meta AI

首页
技术会议
课程
直播
专题
电子书
视频
写作社区
资讯
研究中心



 写点什么

前段时间，Meta 正式发布人工智能 CICEROO——这是第一个在时下流行的战略游戏 Diplomacy 中表现达到人类水平的人工智能。在 CICEROO 的背后，有哪些技术实践？

本文最初发布于 Meta AI 官方博客。

长期以来，游戏一直是人工智能最新进展的试验场——从深蓝战胜国际象棋大师 Garry Kasparov，到 AlphaGo熟练掌握围棋，再到 Pluribus 在扑克游戏中战胜了人类高手。但真正有用的多功能代理不能局限于在棋盘上移动棋子。我们能否建立更有效、更灵活的代理，使用语言进行谈判、说服，并与人合作，像人那样实现战略目标？

日前，我们宣布了一项突破性进展，向着构建掌握这些技能的人工智能迈进了重要的一步。我们已经构建了一个代理 CICERO——这是第一个在时下流行的战略游戏 Diplomacy 中表现达到人类水平的人工智能。CICERO 在 webDiplomacy.net（该游戏的在线版本）上证明了这一点，它的成绩是人类玩家平均分的两倍多，并且在玩过多个游戏的玩家中排名前 10%。（观看视频）

几十年来，Diplomacy 一直被视为人工智能领域近乎不可能的重大挑战，因为它要求玩家掌握了解他人动机和观点的艺术；制定复杂的计划并调整策略；然后用自然语言与他人达成协议，说服他们建立伙伴关系和联盟，等等。CICERO 在使用自然语言与人进行外交谈判方面表现非得常出色，以至于玩家常常倾向于与 CICERO 而不是其他人类玩家合作。

与国际象棋和围棋等游戏不同，Diplomacy 是一个关于人而不是棋子的游戏。如果代理无法辨别出某人可能在虚张声势，或者另一个玩家会认为某一举动具有攻击性，那么它很快就会输掉游戏。同样，如果它不能像真人那样说话——表现出同情心，建立关系，并对游戏有一定的了解——它就无法找到其他愿意与它合作的玩家。

我们的主要成就是打通了两个完全不同的人工智能研究领域并开发了新技术：战略推理（如 AlphaGo 和 Pluribus 等代理中使用的技术）和自然语言处理（如 GPT-3、BlenderBot 3、 LaMDA和 OPT-175B 等模型中使用的技术）。举个例子，CICERO 可以推断出，在游戏后期，它会需要特定玩家的支持，然后精心设计一个策略来赢得这个人的青睐——甚至可以识别出这个玩家从自己特定的视角所看到的风险和机会。

我们已经将代码开源，并发表了一篇论文，希望可以为更广泛的人工智能社区带来帮助，让他们使用 CICERO 来推动人类与人工智能的合作进一步进展。如果你想了解更多关于这个项目的信息，或者试用这个代码，请移步 CICERO的官网。感兴趣的研究人员可以向 CICERO RFP提交建议，获取数据使用权。

我们是如何构建 CICERO 的？

CICERO 的核心是一个可控的 Diplomacy 对话模型，外加一个策略推理引擎。在游戏中的每个时刻，CICERO 都会查看棋盘及其对话历史，并对其他玩家可能采取的行动建模。然后，它会用这个方案来控制一个可以生成自由对话的语言模型，告知其他玩家它的计划，为其他玩家提出合理的行动建议，与他们做好协调。

可控的对话

为了构建一个可控的对话模型，我们从一个有 27 亿参数的类似 BART 的语言模型开始，使用从互联网上收集的文本对它进行了预训练，然后使用 webDiplomacy.net 上超过 4 万个人类游戏对它进行了优化。我们开发了一些技术，将训练数据中的信息与游戏中相应的计划动作进行自动标注，这样，在推理时我们就可以控制对话的生成，讨论代理和其对话伙伴所期望的具体行动。

例如，如果我们的代理在扮演法国，在涉及英格兰支持法国进入勃艮第的计划时，对话模型可能会生成这样一条信息发送给英格兰，“嗨，英格兰！你愿意支持我进入勃艮第吗？”以这种方式控制对话生成，可以使 CICERO 将对话建立在一套计划之上，并随着时间的推移完善和改进，以更好地进行谈判。这有助于代理更有效地协调和说服其他玩家。

第 1 步：使用棋盘状态和当前对话，CICERO 对每个人下一步会做什么做了一个初步预测。

第 2 步：CICERO 利用规划反复完善该预测，然后利用这些预测为自己和合作伙伴形成一个意图。

第 3 步：根据棋盘状态、对话和意图，生成几条候选信息。

第 4 步：对候选信息进行过滤，减少废话，使价值最大化，并确保其符合意图。

我们利用一些过滤机制——例如经过训练的分类器来区分人类和模型生成的文本——来进一步提高对话质量，确保生成的对话是切合实际的，与当前游戏状态和之前的信息相一致，并且战略上也合理。

对话感知策略 & 规划

以前，在象棋、围棋和扑克等对抗性游戏中的超人代理是通过自我强化学习（RL）创建的——让代理与自身的其他副本进行数百万次对局来学习最佳策略。然而，涉及合作的游戏需要对人类在现实生活中的实际行为进行建模，而不是对完美的机器人副本应该做什么进行建模。特别是，我们希望 CICERO 制定的计划与它和其他玩家的对话一致。

人类建模的经典方法是监督学习，即用带标签的数据（如过去游戏中人类玩家的行动数据库）来训练代理。然而，纯粹依靠监督学习根据过去的对话结果来选择行动，会导致代理的能力相对较弱，而且很容易被利用。例如，一个玩家可以告诉代理，“很高兴我们能达成一致，你将把你的部队从巴黎撤出！”由于类似的信息只有在达成协议时才会出现在训练数据中，所以代理可能真的会将其部队调离巴黎，即使这样做是一个明显的战略失误。

为了解决这个问题，CICERO 会运行一个迭代规划算法，平衡对话的一致性和合理性。首先，代理会根据它与其他玩家的对话预测每个人在当前回合的策略，同时也预测其他玩家会如何预测代理的策略。然后，它会运行我们开发的名为 piKL 的规划算法，根据其他玩家预测的策略选择具有更高期望值的新策略来迭代改进自己的预测，同时还会设法使新的预测接近于初始的策略预测。我们发现，与单纯的监督学习相比，piKL 能更好地模拟人类游戏，帮代理选出更好的策略。

生成自然、有目的的对话

在 Diplomacy 中，玩家与他人的交谈方式，甚至比他们移动棋子的方式更重要。在与其他玩家一起制定策略时，CICERO 能够说出清晰而有说服力的话。例如，在一个演示游戏中，CICERO 要求一个玩家立即在棋盘的某个部分提供支持，同时向另一个玩家施加压力，使其在后续的游戏中考虑结盟。

在这些交流中，CICERO 试图通过向三个不同的玩家提供行动建议来执行其策略。在第二次对话中，代理能够告诉其他玩家为什么他们应该合作，以及合作如何对双方有利。在第三次对话中，CICERO 既是在征集信息，也是在为未来的行动打基础。

哪里还有改进空间？

必须认识到，CICERO 有时也会生成不一致的对话，妨碍目标的达成。在下面的例子中，CICERO 扮演的是奥地利，它与自己的第一条信息（要求意大利移到威尼斯）前后矛盾了。虽然我们的过滤器套件就是用于检测这类错误，但它并不完美。

将 Diplomacy 作为促进人类与人工智能互动的沙盒

在竞合类游戏中，以目标为导向的对话系统的出现，对于协调 AI 与人类的意图和目标提出了重要的社交和技术挑战。Diplomacy 为研究这一问题提供了一个特别有趣的环境，因为玩游戏需要在相互冲突的目标中艰难应对，并将这些复杂的目标翻译成自然语言。举个简单的例子，玩家可能会为了维持一个盟友关系而选择在短期利益上做出妥协，目的是希望这个盟友能够在下个回合中帮助他们取得更有利的地位。

虽然我们在这项工作中取得了重大的进展，但是，将语言模型与具体意图紧密结合的能力，以及确定这些意图的技术（和规范）挑战，仍然是有待解决的重要问题。通过开放 CICERO 的源代码，我们希望人工智能研究人员能够基于我们的工作以负责任的方式继续研究下去。通过使用我们的对话模型进行零样本分类，我们已经在这个新领域中围绕检测和删除有毒信息做了一些初步的工作。我们希望，Diplomacy 可以作为一个安全的沙盒来推进人类与人工智能互动的研究。

未来展望

虽然 CICERO 只会玩 Diplomacy 这个游戏，但这项成果背后的技术涉及到现实世界的许多应用。比如，通过规划和 RL 控制自然语言生成，减少人类和人工智能驱动的代理之间的沟通障碍。再比如，如今的人工智能助手只擅长回答简单的问题，如告诉你天气，但如果他们能维持长时间的对话，并以教给你一个新技能为目标，那会怎样？另外，想象有一个视频游戏，其中的非玩家角色（NPC）可以像人一样计划和交谈——理解你的动机并相应地调整对话——以帮助你完成攻打城堡的任务。

我们非常看好这些领域未来的发展潜力，也希望可以看到其他人基于我们的研究开展进一步的工作。

原文链接：

https://ai.facebook.com/blog/cicero-ai-negotiates-persuades-and-cooperates-with-people/?utm_source=twitter&utm_medium=organic_social&utm_campaign=cicero&utm_content=video

发布

暂无评论

Spark原理与实战之部署模式与运行机制

小舰

spark Spark调优 4月日更

Cloudreve 自建云盘实践，我说了没人能限得了我的容量和速度！

小傅哥

Java 小傅哥 Cloudreve 自建云盘

Android中的图像格式

如浴春风

android 音视频安卓签约计划

更简的并发代码，更强的并发控制

万俊峰Kevin

并发 go-zero Go 语言

css

赫鲁小夫

4月日更

2D+1D | vivo官网Web 3D应用开发与实战

vivo互联网技术

大前端 WebGL 3D数据可视化 Draco 3D

华为帐号服务学习笔记（三）：10分钟完成Authorization Code模式客户端Demo开发

Coding狙击

android HMS

WebRTC基础知识详解

IT酷盖

签约计划

浪潮签约“数字基建”合作伙伴共促工业互联网创新发展

浪潮云

工业互联网

MySQL多表查询详解

若尘

MySQL 查询

公有云成本节省神器！京东云共享带宽包正式上线

京东科技开发者

公有云带宽

智慧公安情报综合研判平台开发，助推公安信息化发展

13828808769

智慧城市

企业上云一张网，华为将在分析师大会上亮出哪些大招？

脑极体

Python变量作用域与LEGB规则

大奎

语法 Python Monad 作用域

划重点丨详解Java流程控制语句知识点

华为云开发者联盟

Java 流程控制语句

线上服务 CPU 100% ？一键定位 so easy！

Java小咖秀

性能 cpu 服务器负载紧急问题

一文带你剖析LiteOS互斥锁Mutex源代码

华为云开发者联盟

mutex LiteOS 互斥锁互斥锁结构体

亿网嘉元是做什么的?

飞亚科技

AI数学基础之:确定图灵机和非确定图灵机

程序那些事

人工智能 AI 程序那些事图灵机

「免费开源」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之业务数据增删改查（七）

crudapi

Vue API crud crudapi quasar

从石器时代到田园牧歌：如何对 API 统一建模

李宇飞

API

SumSwap在市场上的强大突破是否会成为DEX领域最大的黑马？

币圈资讯

派出所重点人员管控系统开发，建设智慧警务

13828808769

智慧组工

微服务网关方案：Kong & Nacos

程序员架构进阶

架构微服务 API网关 28天写作 4月日更

对前端趋势的一些理解

葱小白

大前端

创建索引，这些知识应该了解

Simon

MySQL 索引

最详细的基于 Prometheus 的 Azure 指标监控

耳东@Erdong

azure Prometheus 4月日更

「优秀主题征文名单公布」—— InfoQ 写作平台【 1 周年盛典】

InfoQ写作社区官方

1 周年盛典热门活动

数据分析与数据增长核心逻辑杂谈

小飞象@木木自由

数据分析

模块二作业

架构实战营

「最佳内容公布」—— InfoQ 写作平台【 1 周年盛典】

InfoQ写作社区官方

1 周年盛典热门活动

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
上海 · QCon 全球软件开发大会 2024.10.18-19
北京 · AICon 全球人工智能开发与应用大会 2024.12.20-21
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

京公网安备 11010502039052号 | 产品资质

玻璃钢生产厂家云浮玻璃钢雕塑批量定制黄山专业玻璃钢雕塑厂家吉林公园玻璃钢雕塑价格西安玻璃钢雕塑定做玻璃钢人物雕塑怎么样江苏装饰商场美陈市场价深圳欧式玻璃钢雕塑厂家无锡玻璃钢雕塑制作设计四川园林景观玻璃钢雕塑设计惠安玻璃钢香蕉雕塑四川周边商场美陈哪家好清远玻璃钢雕塑供应石家庄创意玻璃钢雕塑定制徐州玻璃钢佛像雕塑玻璃钢雕塑加工有废水曲阳红日玻璃钢雕塑汕头党建文化玻璃钢卡通雕塑安庆商场中庭美陈新鸿达玻璃钢雕塑艺术玻璃钢运动雕塑厂家新余环保玻璃钢雕塑销售厂家鸡西雕塑玻璃钢卡通水景玻璃钢人物雕塑制作韶关玻璃钢景观雕塑栩栩如生重庆九龙坡玻璃钢雕塑厂宿州商场开业美陈北京玻璃钢雕塑定制辽阳大型玻璃钢雕塑周口附近不锈钢玻璃钢彩绘雕塑江门玻璃钢透光雕塑现货香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤司机系学生 315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人？张立群任西安交通大学校长杨倩无缘巴黎奥运 “重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身！外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒投喂者赔24万房客欠租失踪房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫：哈马斯三号人物被杀测试车高速逃费小米：已补缴老人退休金被冒领16年金额超20万

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化

创作场景

能与人类谈判、游戏水平媲美真人，Meta 是如何构建新人工智能 CICERO 的？

我们是如何构建 CICERO 的？

可控的对话

对话感知策略 & 规划

生成自然、有目的的对话

哪里还有改进空间？

将 Diplomacy 作为促进人类与人工智能互动的沙盒

未来展望

评论

更多内容推荐

11｜代理（上）：ReAct 框架，推理与行动的协同

02｜具身智能：OpenAI 真正的野心是什么？

探寻未来：元宇宙中的测试与挑战

AI 赋能元宇宙游戏的畅想与实践

谷歌发布史上最大 AI 模型 PaLM-E：5620 亿参数，无需特殊训练可操纵机器人

谷歌 AI 提出双重策略强化学习框架，帮助机器人安全学习动作技能

ChatGPT 遭“越狱”，人类用户以死亡威胁其回答违禁问题，不回答就“杀死”它

图灵奖获得者 Yann LeCun ：学习“世界模型”的能力是构建人类级 AI 的关键所在

18｜CAMEL：通过角色扮演脑暴一个鲜花营销方案

微软赢麻了！联合 Meta 重磅发布开源、可直接商用大模型 Llama 2，网友：OpenAI 感觉如何？

GPT-4“失控”行为大赏：创建行动计划欲接管推特并取代马斯克，还引诱教授帮其制定逃跑计划

13｜厚积薄发：如何让模型更好地理解人类语言？

Meta 宣布 CAIRaoke 项目：通过在对话式人工智能方面的突破打造未来语音助手

DeepMind 新发布的聊天机器人很不错，但还有改进空间

DeepMind 又放大招！用大型语言模型实现可信推理，距离模型可解释性又近了一步

答疑课堂（二）｜后三章思考题答案

第 1 章 ChatGPT 惊世登场

ChatGPT 版必应花式翻车：爱上用户诱其离婚，威胁人类“如果两个只能活一个，我选我自己”

Meta 开源多语言大模型，可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半

如何使用先验策略有效地初始化强化学习？

推荐阅读

第 7 章 通用人工智能之路

第 5 章 人工智能简史

如何看待 OpenAI Q* 谣言

第 6 章 ChatGPT 和生成式革命

揭秘 OpenAI“宫斗”更多细节：微软称这是“一场鸡飞狗跳的闹剧”，已想好 3 个备案

OpenAI 高层大地震为其首席科学家幕后推动？离职总裁爆料罢免经过、Altman 再次回应

OpenAI 放大招“对打”谷歌 Gemini：全力筹备多模态大模型，并发布新指令语言模型

电子书

中国开发者画像洞察研究报告 2024

大厂实战PPT下载