吴恩达最新演讲：AI Agent工作流的未来

2024-04-03 16:32

吴恩达教授曾任谷歌大脑项目的创始人，并开创性地提出了深度学习概念，推动了人工智能的发展。今天分享的是，吴恩达教授在红杉资本的人工智能峰会(AI Ascent)上发表了一次演讲。

在本次演讲中，他谈到了AI agent工作流多步迭代的模式与基于人工评估基准测试的效果分析，还谈到了自己对于AI agent设计模式的四种分类，包括检查、工具使用、规划、多智能体协作。

与此同时，吴恩达还分享了其对AI agent的未来发展潜力的展望。在他看来，通过代理工作流程，人工智能能够胜任的任务种类今年将会大幅扩展。此外，快速 token 生成也很重要，即使使用质量略低但速度更快的语言模型，通过更多轮次的迭代，也可能比使用更高质量但速度较慢的模型获得更好的结果。

目录如下：

01 AI agent工作流的模式与效果

02 四种AI agent设计模式

03 总结

/ 01 / AI agent工作流的模式与效果

我很高兴与大家分享我对人工智能代理的看法,这是一个令人兴奋的新兴趋势，所有从事人工智能的人都应该关注。

目前，我们使用大语言模型的主要方式是一种非代理工作流程，即您输入一个提示,模型就生成一个回答。这有点像让一个人坐下来一次性从头到尾编写一篇文章，而不允许使用退格键,尽管这样做很难，但大语言模型的表现出奇地出色。

相比之下，代理工作流程看起来是这样的:首先，让人工智能大语言模型写一个文章大纲，如果需要进行网络研究就先做研究，然后写出第一稿,然后阅读并思考需要修订的部分，再修改这一稿，如此循环往复、迭代多次。很多人没有意识到,这种做法可以带来显著的改进效果。我自己在使用这些代理工作流程时也感到非常惊讶，它们工作得如此之好。

我的团队分析了一个叫做"人工评估基准测试"的编码基准数据,它包含诸如"给定一个非空整数列表，返回所有偶数位置元素的和"之类的编码问题。现有的做法是使用零样本提示，即直接让人工智能编写代码并运行，但没有人是这样编码的。

研究发现，GPT-3.5使用零样本提示时只有48%的正确率，GPT-4提高到了67%。但如果在GPT-3.5上使用一个代理工作流程，它的表现实际上比GPT-4还要好。如果在GPT-4上使用代理工作流程，它的表现也非常出色。这意味着采用代理工作流程对于构建应用程序至关重要。

目前，行业内有很多关于代理的讨论和报告，但我想更具体地与大家分享一下我在代理设计模式方面的一些观察。尽管这个领域还很混乱，但我尝试对正在发生的事情进行了分类。

/ 02 / 四种AI agent设计模式

1.反思（reflection）

首先是检查（reflection），我认为这是一种大家都应该使用的工具，它非常有效。你可以将之前生成的代码再次输入给语言模型，并提示它"仔细检查这段代码的正确性、效率和结构，并提出评论。"同一个生成代码的模型可能会发现漏洞并提出改进意见。接收反馈后，你可以再次提示它，它可能会生成更好的代码版本。我觉得这是一种相当可靠的技术。

对于那些想更多了解这些技术的人，在每张幻灯片的底部我都列出了一些推荐阅读资料，希望能提供更多参考。

我之前描述的是一个单一的编码代理，你提示它与自己进行交互。这个想法的一种自然延伸是，不是单一的代码代理，而是有两个代理,一个是编码代理，另一个是评审代理。它们可以基于同一个大型语言模型，但你以不同的方式对它们进行提示，对一个说"你是专业编码者,编写代码",对另一个说"你是专业代码评审员,评审这段代码"。这种工作流程实际上非常容易实现，我认为它是一种通用技术,可以为很多工作流程带来显著的大型语言模型性能提升。

2.工具使用（Tool use）

第二个设计模式是工具使用。我们已经看到,语言模型可以搜索网页、生成和运行代码等，使用各种工具来分析、收集信息、执行操作以及提高生产效率。

如果你实际查看相关文献，你会发现早期很多工具使用研究似乎都源于视觉领域，因为在GPT-4和Llama等模型出现之前，大型语言模型对图像都是盲目的，所以唯一的选择就是让大型语言模型生成一个可以操作图像的函数，比如生成图像或进行目标检测之类的。这就是工具使用，它扩展了大型语言模型的能力。

3.规划（Planning）

第三个是规划。如果您还没有尝试过规划算法,那可能会像我第一次看到 ChatGPT 时那样，体会到人工智能的惊人能力。我曾运行过现场演示,当出现失败时，人工智能代理能自主规避失败继续运行。

我从一篇论文中摘录了一个例子:比如你给出一张男孩的图像，并说根据说明生成一张女孩的新图像。现在我们有了这样的人工智能代理:它可以确定第一步是确定男孩的姿势，然后可能在Hugging Face上找到一个合适的模型来提取这个姿势，接下来要找到一个姿势图像模型来合成一个女孩的图像，然后使用图像到文本的模型，最后使用语音合成。

我不想说它们已经能够可靠地工作，有时候还是有些不稳定，但当它们工作时，效果确实令人惊叹。再加上使用代理循环，有时你还可以从早期的失败中恢复过来。所以对于一些研究工作,我已经开始使用研究代理，比如说我不想自己花很长时间在谷歌上搜索，而是把任务交给研究代理,过几分钟再回来看它都找到了什么，有时它管用，有时不管用，但它已经成为了我个人工作流程的一部分。

4.多智能体协作（Multiagent collaboration）