主页 > 杏运资讯

李飞飞新论文:30行提示,建一个AI智能体炊事班

作者| 腾讯科技 郝博阳

如果要说AGI领域有哪些知名研究团队的话,相信不少人都会想到斯坦福大学李飞飞教授的团队。李飞飞本人在医学、物理学、心理学、神经科学、计算机科学等多个领域都有涉猎和研究。9月19日,李飞飞及微软研究院,清华、北大的AI研究人员联合发布一篇新论文《MINDAGENT: 新兴的游戏互动AI》就成功的设计了一个AI智能体基础框架MINDAGENT。

AI智能体的基建,就差合作这一步了

还记得前一阵非常火热的斯坦福小镇吗?那里的各色由LLM驱动的小人儿都和人类一样,通过交往和生活发展着自己的爱好和关系。在这个过程中他们写信,做饭,一起钓鱼,但他们做事的方式多少有点敷衍:

因为从根本上他们没法真正的与场景进行交互和行为,更无法使用工具,只能用Emoji假装自己在做事。但这一件简化行为的系统为我们提供了通过AI智能体形成稳定人格,乃至用多个AI智能体形成某种社会的可能性。

那具备交互,行为和工具使用能力的AI智能体大概是什么样子呢?

那大概就是六月份英伟达发布的AI智能体VOYAGER了。他们在对LLM下达简单的“尽可能多地用各种工具挖矿”的总体目标,再提示一些基本规则和动作后,就把AI扔到《我的世界》这个游戏之中。AI针对最终目标开始生成细分任务,通过对世界环境的观察和交互了解到各种操作的效果,通过短期记忆记住那些正向的操作(比如说用斧子砍树比用手刨快),也优化了自身的子目标,最终达成挖矿目标。在这个过程中,VOYAGER掌握了使用工具,进行物品组合的最优解法。整个过程非常像人类学习的路径。

LLM下的AI智能体逻辑框架,略复杂,但很有效

如果把上述两种AI智能体相加的话,我们可以得到一个有人格,能在环境中通过工具、任务规划来自己解决问题的AI。那从能力上来说,这和我们人还有什么区别呢?按照主流AI智能体的理论看,它可能只差合作能力这一个部分了。

一个完美的AI智能体社会应该有的能力:规划和问题解决,使用工具,合作和外部用户可干预

合作绝不是把几个AI智能体塞进一个世界中就会自动发生的事情。相对于过往VOYAGER这种单一智能体,多智能体之间的规划和合作由于指数级增长的动作空间(与代理数量成正比)有着更高的问题复杂性。作为规划者的LLM 必须同时控制多个智能体,避免可能的冲突,并协调它们完成需要复杂合作的共享目标。所以合作可以被认为是AI智能体能力综合的圣杯。

9月19日,李飞飞及微软研究院,清华、北大的AI研究人员联合发布一篇新论文《MINDAGENT: 新兴的游戏互动AI》就成功的设计了一个AI智能体基础框架MINDAGENT。应用这一框架,在一个叫CUISINEWORLD的游戏中让多个智能体协作完成任务,挑战AI智能体之间的协作能力的可能极限。

从这篇论文的结论上来看,AI协作的水平已经达到了让人类无从插手的水平。AI智能体的拼图正在被以肉眼可见的速度补齐。

30行提示,建起一支AI厨师团

练AI,先搭个智能体游乐场

要想训练AI,先要找到场地。

VOYAGER找到了《我的世界》,是因为它相对代码简单,容易接入。

而MINDAGENT找到了《分手厨房》,一个让人类玩家都手忙脚乱的合作游戏,一座能让恋人在一盘游戏后成仇的修罗场。对于测试合作能力来说堪称完美。

但《分手厨房》整体复杂度太高,有很多其实不太必要的环节。研究团队决定卡掉其中一部分操作,只保留了取食材,烹饪和上菜三项核心操作、10种类型的位置(餐桌、储藏室和8种不同的烹饪工具)、27种类型的食材和33种独特的菜肴形成一个新的游戏场景CUISINEWORLD。

研究目的,就不要在意画面了...

在这个游戏中,难度会随着菜肴需要的食材数量和涉及烹饪的工具数量直线上升(比如做三文鱼刺身只需要切一下就行,但要做意大利面就需要切菜,做酱,煮面)。研究团队根据这一复杂度设计了12个游戏级别,从入门、简单、中级到高级,来给MINDAGENT逐步上难度。

十一级难度的做菜步骤看着脑袋就疼

在这个场景下,评价智能体的合作水平非常简单:在有限的时间内准备尽可能多的菜肴。为了促进合作,新订单将不断涌入,而现有订单应在到期前完成。因此,LLM需要适当地协调这些智能体,以最大限度地提高整体生产力。

纯粹,可扩展,包含几乎一切合作性AI和智能体AI能力测试项目:Cuisine World 可以说是目前智能体最优测试环境了。

相对于之前的AI测试环境,CuisineWorld可以覆盖所有的测试点

MINDAGENT:最简单的结构,最高的享受

有了场地和培训标准,主角就出场了。作为协调人的LLM的交互式多智能体规划框架:MINDAGENT。

它包含了几个核心能力:计划和应用工具,行为,协调中枢和记忆区块。除了协调中枢之外,其他部分和VOYAGER的逻辑非常相似。

整个MINDAGENT的基础设施非常极简,除了作为核心的LLM以外,只多了三个组件,内存历史记录(很多也有)、用以反馈当前环境的环境快照系统以及动作协调系统。

●?环境信息组件:提供了环境中主要观测结果的快照。它包括智能体的位置、智能体目前拥有的物品、环境中可访问的工具、每个工具中存在的成分以及正在积极使用的工具等信息。此外,它还包括来自环境的可选反馈,当代理的操作违反环境规则时触发,例如,当将两个不同的操作分配给同一智能体时。

●?内存历史组件:归档与环境的交互历史。具体来说,它记录了环境的状态和代理在每个时间步骤的状态。

●?动作组件:a) 动作提取:采用正则表达式匹配过程从LLM的文本输出中提取代理动作。这个模块是必不可少的,因为有时LLM的输出是不干净的。b)行动验证。使用前瞻性检查机制。本模块分析所提出的行动,评估其可行性。如果某个操作被认为不可执行,则会立即返回错误消息。

提示词包含四个部分,主要部分是规则和食谱,合起来就是个游戏说明书。次要部分是一些帮助推理的基本提示以及一个非常简单的单一流程演示。

●?食谱:概述在给定级别上准备各种菜肴的分级程序。它们规定了每种中间产品或最终产品的必要成分、所需的适当工具以及烹饪后的预期结果。

●?说明书:详细介绍了CUISINEWORLD的基本规则。这些指令描述了智能体在游戏中可以进行的一系列动作,并列举了当前厨房场景中可用的每个工具的特征。此外,他们会告知智能体可从仓库中提取的基本食材,以及他们可以生产的所有潜在中间产品。

●?推理知识:为智能体提供见解和有用的提示。如果使用得当,这些提示可以引导智能体避开潜在的错误,提高协作效率。

●?一次性演示:介绍了一道不同于当前水平的其他菜肴的独特菜肴的准备过程。此演示跨越了几个时间步骤,每个时间步骤都作为提示的一部分。该演示展示了在CUISINEWORLD烹饪一道菜的主要程序,包括获取食材、将食材放入不同的烹饪工具中、运输未完成的食材到新的烹饪工具中,以及将菜送到餐桌。

具体提示就是这些

做完基础准备之后,实验组将目标函数,即在固定时间内最大化的产出收益(完成菜肴制作)的函数,尽可能用多组自然语言进行提示。然后整个系统就可以开始运作了。

结果1:智能体间协作能力一流

在实际游戏的过程中,多智能体的协作效果相当不错,在给定相对中等的任务时限情况下,3个智能体协作的成功率可以达到超过一半以上(想想那个可怕的菜单流程)。

另一个数据表现是:智能体数量越多,结果一般越好。只有协作而非添乱才能人多力量大,因此这一数据很好地证明了多智能体之间的协作是有效的。实验人员还观察到,在要求较低的条件下,随着智能体数量的增加,系统性能会下降。这其实也可以理解,在没有那么多工作需要做的时候,更多的智能体只会带来冗余错误。不过这也在一定程度上说明目前LLM的规划能力在面对冗余情况,存在一定能力缺陷。

结果2:人和智能体也可以协作

智能体之间的协作,那把人类这个相对不确定的因素加进来,AI智能体在不进行更多的提示情况下是否可以做到人机协作呢?完全没问题。加入了智能体的玩家团队比单独工作的玩家获得了更高的成功率。

但既然这个游戏一开始就设计成了合作游戏,肯定是人越多成功率越高,只有数学上的成功性提高似乎很难完全证明智能体的合作。所以实验组添加了一个随机行为的智能体作对照组,最终这个没有协作能力的智能体反而拉低了表现分数。

为了进一步证明这种合作的有效性,研究小组还设计了一个问卷来调研参与的人类玩家感受。结果他们确实感觉到效率有提升,甚至还显著感受到了更多的游戏乐趣。

另外一个有趣的现象是,更多的智能体(3个)参与游戏提高了整体任务成功率,但却降低了玩家感受到的游戏乐趣。这是因为他们合作得太好了,玩家反而不知道该干什么了。

到此为止,单纯基于现有LLM的智能体之间和人机的协作能力都得到了证明。

结果3. MINDAGENT还有涌现能力

在整个过程中MINDAGENT还表现出了一些自我学习的涌现能力。

比如减少对MINDAGENT的提示,比如取消推理能力提示或者进行跳步任务展示(提供部分演示或仅执行两个步骤的任务演示),MINDAGENT都显示出了很强地适应和学习能力,都很好地完成了任务,并没有明显的能力下滑。

通过观察历史记录和行为模式变化还能发现,MINDAGENT会通过在多个不同任务出现时,利用动态排列优先级更好地完成任务(就是先做这个菜还是那个菜),规划能力相当出色。

最厉害的是MINDAGENT似乎能有举一反三的能力。它可以在只看到涉及两个智能体合作的演示后,有效地调度四个智能体。

结果4. 合作能力泛用性

如果说MINDAGNET只能在Cuise World这个相对规范化的环境中实现合作的话,那它的能力范围就太受限了。为了证明其泛用性,研究人员把这个框架迁移到了《我的世界》里,让他们在那里面做饭。结果小人们杀鸡宰猪一如在Cuisine World一样顺畅地做出了各种烧烤。由此可见,MINDAGENT这个框架是个多面手,足以应用到各种需要合作性AI智能体的场合。

游戏的未来和AI的未来,交织在一起

从年初开始,能对话的AI NPC就从《逆水寒》火到了《上古卷轴:天际》,但这不过是AI进入游戏领域的第一步。简单地把AI对话生成功能接入游戏,离着能和你进行其他互动(比如协作),能有自己的生活和社交,完全类人的NPC还得靠AI智能体才能实现。

而且从AI智能体的角度看,业内普遍认为最先会有产品落地的场景就是游戏。

这一是因为游戏数据可以加速获得,对于训练AI来讲远比从现实环境中学习快得多。二是因为游戏本身的环境因素相对受限,任务也相对简单直接,比起现实中的复杂任务对AI来说更好规划和实现。三,就是真让AI给你做规划当医生律师,在AI幻觉没解决的情况下,出了事情谁来负责?但游戏里的BUG大家就见得多了,大多数玩家都是一笑而过。

因此在游戏场域实验AI智能体就成了当下的AI智能体研究主流逻辑。经过这将近半年的努力,我们已经看到AI智能体在形成人格,使用工具,乃至合作方面已经能够达到足够类人的程度了。

当下限制AI改变游戏的可能就只差上下文输入的字数限制和API接入带来的成本压力了。而当AI智能体从游戏实验中诞生,又回到游戏中向世人亮相之时,AI的下一个阶段就会到来。

×

扫一扫关注 集团官方微信

平台注册入口