AI Agent如何颠覆传统自动化？

2024-05-13 19:45

去年 11 月， OpenAI 发布 AI Agent 初级形态产品 GPTs，让人看到智能体的应用前景。谷歌、亚马逊在该领域也有所涉猎。比尔?盖茨更是认为 AI Agent 是 AI 的未来，并预言不久的将来，所有人都将拥有专属 AI 助理。

为了更好地理解智能体的落地前景，全球领先的风险投资和私募股权公司Insight Partners进行了多个行业的调研，并发布一篇深入的分析报告，旨在探索 AI Agent 与传统自动化平台的差异，以及AI Agent当下落地情况。

核心观点指出，AI Agent 和大型语言模型（LLM）的融合正在推动自动化向更智能、更高效的方向发展。报告强调了人机交互在部署生成性 AI 解决方案中的重要性，并提出了自动化部署应采取渐进式策略，从简单任务开始，逐步过渡到复杂工作流程。

以下是原文翻译。

/ 01 / 自动化领域发展的趋势预测

1.从消费者到知识工作者,每个人都将拥有自己的 AI 助手。这将重新定义垂直应用、自动化平台和 IT 服务之间的传统边界,为企业家创造变革性的市场机会。AI 助手将以不同形式出现,从现有平台的辅助工具,到内嵌 AI 的应用,再到各种形态的 AI 智能体 (AI Agent)。

2.人机协作是部署生成式 AI 解决方案的核心。目前大多数应用场景都处于实验或早期生产阶段,侧重于建议和辅助型工作流程。LLMs 还不具备可靠的规划和推理能力,记忆和上下文理解等领域仍在研究中。在自动化平台上,确定性执行至关重要,LLMs 被用于"设计期"的特定任务,而非"运行期"。

3.自动化是一个被低估的难题。从业者正将 AI 加入他们的解决方案和专业经验,以提升平台效率和用户体验。顶尖的 LLM 提供商正在加入智能体建模、协作和工具访问功能,让用户能快速构建 AI 智能体 (如 GPT 系列)。有望突破的新兴企业需要利用独特的数据集和简洁的用户体验,提供差异化的客户价值,重塑工作流程。

4.内置 AI 的自动化部署将采取"从简单到复杂"的渐进方式,从简单任务开始,逐步过渡到复杂工作流。关键是持续尝试智能体,了解 AI 功能在哪些地方真正创造价值,并确保在数据、工具和运行时等方面搭建合适的"脚手架",使其成为自动化架构的一部分。随着 AI 模型能力的增强,可以逐步扩大 AI 功能的应用范围。

5.代码生成已成为开发基于生成式 AI (GenAI) 应用和 Agent 自动化平台的关键要素。代码兼具文本形式和明确性能指标两大特性,是 LLM 的理想功能。编程辅助工具的初版已经广泛部署,我们看到更成熟的 AI 驱动开发平台正在涌现。代码生成型 LLMs 将在智能体架构中扮演关键角色。

/ 02 / 自动化平台的演变

自动化是人类不断努力的事业。每个知识工作者都熟悉这个不起眼的“宏”——一组重复命令的快捷方式，可以额外提高生产力。

早期的自动化工作主要集中在报价到现金、薪资等工作流程上，工程师编写定制代码，将这些受静态规则和定义控制的工作流程拼接在一起。这些脆弱的早期方法推动了第一代自动化平台的开发，例如：

机器人流程自动化 (RPA) 平台在自动化重复性手动任务方面提供了最大价值。它们结合了预定义工作流程库和低代码/无代码平台，帮助用户构建自己的剧本。RPA 平台已逐步纳入 AI/ML 模型以扩展其功能。

像 Workato这样的iPaaS 平台首先创建一个中间件层来集成数据、应用程序源和 API 以连接不同的资源。该数据层是自动化引擎的关键输入，创建干净的界面是自动化之旅的第一步。

低代码任务自动化平台通过简单的 UI 提供一组预定义的集成，以自动执行知识工作者和中小型企业的重复任务。

各种垂直自动化方法专注于供应链、IT 运营和开发人员生态系统等领域的特定工作流程，以及面向客户的用例（如帮助台和客户服务团队）的聊天机器人。

虽然这些平台显著减少了重复性工作，但通过预定义工作流程或咨询部署来实现自动化价值所需的引导仍然很复杂。实施对于企业运营环境的变化也很脆弱。

GenAI 有潜力加速这一自动化进程，因为现有企业将引人注目的功能融入到他们的平台中，构建者尝试新架构，研究人员努力实现自主人工智能 (AGI) 的最终目标。

/ 03 / 自动化中的AI：不同的参与者，差异的方法论

企业中的自动化通常是一项复杂的任务，一些从业者甚至将其称为执行工作流的多个元素的复杂编排。随着 genAI 的出现，现有企业和初创企业/规模化企业正在从不同的角度抓住这一机会。

RPA 和任务自动化平台带来了显著的现有优势，拥有丰富的自动化工作流程库以及与企业处理复杂工作流程的经验。GenAI 提供了一个通过简化的用户体验来解决脆弱性和引导问题的机会。

Microsoft 365 和 Notion 等应用程序平台将 AI 直接嵌入到平台和用户工作流程中，以帮助完成任务、提供建议并生成内容以协助用户的工作流程。

原生 AI 方法从应用或工作流出发,以第一性原理重新思考自动化。在应用方面，Swimm 和Writer等新一代生产力工具令人惊艳地展示了生成式 AI 对工作模式的革新。同样，来自销售、营销、法律和财务的许多垂直应用程序都使用 genAI 功能来简化复杂的工作流程。

LLM 提供商和创业公司在自动化领域开辟新路径,利用智能体驾驭生成式 AI 能力执行简单任务。另一些方法将 LLMs 与必要的"脚手架"相结合,应对复杂工作流和应用。。Agent 自动化是目前不断创新和研究的焦点,开发者正在模型、架构和工具方面进行广泛实验。

RPA 和任务自动化平台

当前几代自动化平台已积极采用更新的机器学习和人工智能模型作为其平台的一部分。下面讨论了这些平台当前状态的简要概述：

用户界面连接到低代码工作室，用户可以在其中构建、部署和验证自动化。该界面还用于监控性能、跟踪每个策略的使用情况，甚至衡量他们创建的自动化的投资回报率。

iPaaS作为中间件发挥着关键作用，它将来自应用程序、数据存储和事件流的数据汇集在一起，以创建到自动化层的高效接口。

自动化层使用工作室中的模板从预构建的剧本、预测机器学习模型和工具库中进行选择，或者执行新的工作流程。一些常见的用例包括：

·从图像或电子邮件等非结构化来源中提取数据并填写表格。

·观察人类（例如阅读屏幕、跟踪击键）以产生可重复的工作流程或建议潜在的新自动化。

·从库存系统中提取数据并使用 ML 模型创建预测。

现有企业正在使用 genAI 来简化用户参与并提供新的工作流程，例如：

·输入诸如“销售勘探”之类的任务，副驾驶会翻译意图并搜索自动化库，为用户提供任务的起点。

·创建一个表单并根据预先训练的模板使用适当的字段更新它。填写从各种非结构化来源提取的数据。

·生成“低”代码以基于 NL 描述以及测试用例创建自动化，以验证输出和工作流程的描述。

人工智能工具通过帮助用户加快实现价值的时间，帮助这些平台建立其现有优势（客户和手册）。更好的 UI/UX 有助于减少用户在复杂部署中开始时通常需要的咨询引导。随着 LLM 能力的发展，我们可以预期 RPA 和任务自动化的能力也会增长。

"未来,人类与数字世界的一切交互都将通过 AI 智能体实现。"– 杨立昆 (Yann LeCun)

/ 04 / 代理自动化框架：Copilots/GPT 和Agent

定义市场上常用于指代 genAI 用例的术语可能会有所帮助。

·Copilots是基于 genAI 的现有应用程序和平台界面，为用户提供了发现和增强现有功能的简化方法。

·智能体 (Agent) 将大语言模型的功能与代码、数据源和用户界面相结合以执行工作流程。构建者正在研究以下几种方法：

·围绕 LLM 或针对特定任务（代码生成）训练的 LLM 构建简单的封装器。

·具有“脚手架”的专家混合架构，可将特定于任务的代理、预定义的代码/工作流程和外部工具结合起来，以重新构想应用程序或自动执行复杂的任务。

·通用智能体旨在通过简单地描述来自动化任何任务。对于需要持续人工智能进步的研究人员来说，这仍然是一个长期目标——在下面的“参考文献和进一步阅读”中了解更多信息。

无代码代理/GPT

AI Agents 最初只是实验，中岛洋平 (Yohei Nakajima) 等构建者发布了 Baby AGI 等项目，该项目基于本地 LLM 功能构建，可以运行简单的自动化。LLM 提供商现在提供引人注目的无代码平台，其中包含外部资源插件库，以构建 LLM 的自定义版本。对于许多简单的任务或一次性自动化，这可能是一种快速的开始方式。

在这种方法中，无代码控制台允许用户提供任务的详细描述或使用少量提示来引导大模型构建智能体。LLM 提供商现在提供与数据源和应用程序的集成，使代理能够利用外部数据作为其工作流程的一部分。该代理还可以使用专有数据，使用检索增强生成 (RAG) 等技术来提高准确性。API 引入了搜索等外部工具。

如上所示，高级代理可以使用粘合代码围绕大模型的功能构建，将这些不同的元素组合成一个统一的智能体。LLM提供商预计将继续推出新功能，例如Agent建模、协作、更多工具访问和预构建功能、反射、安全护栏等，使其成为构建Agent的强大平台。

混合专家代理架构

Bardeen、Imbue 和 MultiOn 等构建商正在利用专家混合 (MoE) 代理框架来解决为复杂工作流提供确定性结果的问题。其想法是将工作流程分割为分配给特定代理或功能的任务，并为代理提供所需的“脚手架”，包括数据、丰富的工具集和接口。架构概览如下:

用户界面

面向用户的大模型使用户能够描述任务并利用上下文窗口来提供相关上下文，例如少量示例。新的UI 方法结合了用户上下文和交互性，允许用户引导智能体并改进其方法。该设计使“人在环”能够验证最终输出。该设计实现了更流畅的“人机交互”界面，以提供输入并验证最终输出。

任务代理

工作流程可以分解为由 LLM 代理执行的不同任务，其中一些任务将在下面详细介绍。这优化了当前的 LLM 功能，并能够灵活地使用任务代理来实现特定功能，并提供干净的抽象和未来升级或重构它们的选项。

·如今的规划智能体可提出计划,将用户意图分解为任务清单,经人工审批后再进行调度执行。这仍是一个活跃的研究领域。

·路由任务负责将任务映射到合适的 AI/ML 智能体或预定义工作流程。

·功能智能体接受针对特定任务的训练 (生成式 AI 或预测性 ML 模型)。

·代码生成智能体将任务转换为特定任务所需的代码,如 SQL 查询。

·反思型 LLM 通过迭代输出来评估质量并优化最终结果。Devin 等平台已证实这一技术在提高输出准确性方面的有效性。

确定性运行时间

为了提供始终正确的最终输出，在确定性运行时组合不同任务的不同输出已被证明是良好的实践。例如，对于金融用例，代码生成 LLM 生成在运行时执行的 SQL 查询，以实现精确的数据提取。

MoE 架构的核心设计原则是仅在需要时使用 AI/ML 模型并利用预定义的工作流程/剧本。LLM 在设计时使用，并在确定性运行时进行综合。

智能体与人类的人工智能接口

正如前文所述，人机交互界面是当今架构的一个关键点。开发者正通过多种方式将智能体植根于用户上下文,从在上下文窗口中输入,到将智能体设计为浏览器插件以观察用户行为并捕获上下文。

LLM 插件引入外部数据或工具，是赋予智能体更多技能的关键。最后，代理可以使用 API 与电子邮件、生产力和通信工具等用户平台进行通信，模拟人类的工作流程。

智能体间交互界面是一个活跃的研究和开发领域。在 MoE 模型中,具有不同能力的任务智能体需要如前所述进行交互。久而久之,我们可以设想智能体之间通过交互来完成任务——类似于如今连接应用的 API,延伸出支持 AI 的版本。

企业部署自动化的注意事项

1.大多数企业已经使用一系列自动化平台，从用于特定任务的经典 RPA 和任务自动化平台到自主开发的解决方案。人工智能带来的生产力仍然是炒作而非现实。基于 genAI 的自动化的候选者需要进行清晰的成本/效益分析，因为它们将遵循与以前的方法类似的成熟曲线。

2.智能体的性能与其训练数据的质量和相关性直接相关。对于许多企业来说，构建干净且集中的数据集和数据管道来训练模型，是最优先的工作。

3.随着 GPT5/Llama3 即将发布，LLM 格局正在迅速发展，这将刷新SOTA的标准。与此同时，多种具有 GPT4 级别性能的型号现提供已以极具吸引力的成本。企业现在拥有不同来源、不同性价比水平的模型，可以根据用例和功能需求进行选择。

4.在平台层面，市场有多种选择。现有企业正在嵌入人工智能或提供辅助工具，以加快用户实现价值的时间。初创公司/规模扩大公司和大模型提供商正在采用人工智能原生方法来重新发明垂直用例或创建新平台来改变成本、性能和用户体验。工作流程和性能基准应该推动选择。

5.如今的大模型对提示非常敏感，轻微的变化可能会导致模型输出出现偏差。在用例级别（相对于模型级别）建立明确的性能衡量标准是关键。治理和数据安全也是如此。人机交互是当今所有人工智能部署的基本特征。

自动化建设者的注意事项

1.建筑商可以在自动化平台中使用 genAI 采取“爬行、行走、奔跑”的方法。深入了解用户、用例、其性能基准，并利用 LLM 作为将其功能与任务相匹配的工具，对于构建差异化解决方案至关重要。

2.大模型主要是系统 1 思维者(基于训练数据做出直觉反应)。开发者需要差异化功能和预定义函数/剧本、可能的情况下使用 ML 模型。有重点和有针对性的数据集对于模型的基础至关重要。

3.对于复杂的用例 - 不断的实验和正确的“脚手架”来合并用户上下文、访问外部工具和数据集、反射机制等，是“专家组合”智能体架构的基础方面。

4.简单的基于文本的 UI 是良好的第一步。构建者通过添加实时交互性和多模式 UI进行创新，为用户创建更积极的参与，以跟踪大模型任务列表、评估输出并提供主动反馈来引导输出。

5.通过正确的治理引入差异化的数据集，并考虑安全权衡、安全护栏和性能，对于避免最终用户环境中部署时的监管和合规性问题非常重要。

/ 05 / 生成式 AI 代理用例

在我们与企业的对话中，代理自动化方面正在进行各种努力。下面详细介绍了一些用例：

·F100 电信公司的首席数据官：“我们正在构建智能体工作流，将表格和数据库链接在一起，整合多个数据源，然后根据数据采取行动或提出建议。”

·一家全球咨询公司的数据和人工智能副总裁正在构建智能体工作流，以使数据分析师能够从不同的电子表格中获取见解。

·一家 F500 建筑和房地产公司的数据和人工智能高级副总裁正在构建一个集合Palantir、OpenAI 和内部辅助的智能体程序，以从数千份提交的 RFP 投标中选择获胜的 RFP 投标。

·一家大型银行的高级副总裁，“我看到 GenAI 的两个活跃用例。第一，向我们所有工程师推出的编码辅助工具，我们看到高级工程师的生产力提高了约 20% 以上。我们期待这里的新功能。第二，与大模型讨论文档，RAG 显著改进了在模型落地的同时保护隐私的方式。聊天机器人一直是实验性的推出，我们仍在完善这个用例，以考虑安全性和合规性。”

·一家大型银行的首席数字官，“自动化将在我们的行业中采取多种形式。我们拥有大量的 RPA、ITSM 垂直自动化平台等，并在大模型上构建了智能体。我们正在积极尝试代理自动化架构并不断学习。一些现有供应商在整合人工智能方面表现出了极大的敏捷性。”

/ 06 / AI自动化市场地图