“欧洲版OpenAI”Mistral创始人：长文本正在取代RAG 的优势

2024-03-29 20:40

3月21日，在Figma的组织之下，硅谷投资人Elad Gil与法国AI创业公司Mistral CEO Arthur Mensch进行了一场炉边谈话。

Mistral在成立之初仅有6人，在尚未有产品推出时就凭7页PPT拿下8亿人民币种子轮融资，被法国媒体誉为“欧洲版OpenAI”，并得到法国总统的认可。

成立以来，Mistral推出了多款语言模型，其中Mistral-7B在基准测试中表现优异，被认为是目前最强的开源大语言模型之一。此外，Mistral AI还发布了Mixtral8x7B模型，展示了其在模型开发和优化方面的实力和潜力。

在本次对谈中，Elad Gil以其精准的投资者眼光，从Mistral的开源运行方式、ToB业务选择、专注欧洲市场等企业特色切入，与Arthur Mensch展开探讨，如Mistral 的发展过程及未来业务规划、模型训练的方式、AI监管及在企业服务领域的落地问题以及全球市场的选择等。

/ 01 / 小团队初创四月超越Llama

Elad Gil:从背景上看，你有机器学习的博士学位，是DeepMind的资深研究科学家。Mistral公司成员不仅来自谷歌，也有来自Meta和Llama项目的人员。你们采取了开源的方式，这种方式很有意思，我们后面可以聊一聊。能先谈谈创立Mistral公司的契机和动机吗？是什么促使你们决定创办这家公司？

Arthur Mensch: 我和Timothée一直有这个想法。当时他在Meta，我在DeepMind工作。ChatGPT的出现让我们意识到有机会创办一家人工智能公司。我们可以很快招聘到一个出色的团队，尽管我们不是第一家，但可以加速一些进程。

Elad Gil: 大多数观看直播的人可能不太了解Mistral公司，您能简单介绍一下公司的产品、平台和各个组成部分吗？

Arthur Mensch: 我们实际上是一家专注于构建基础模型的公司。我们是开源模型领域的领导者。我们之所以创立公司，是从构建文本到文本生成模型开始的，这实际上是创建当下通用虚拟助理应用的基础构件。我知道我们现在在Figma组织的活动，我们暂时还没有专注于图像领域，但这显然是迟早会做的工作。

我们与众不同的地方在于，我们采取了开源核心的方式，在12月份发布了7B模型，并在这些开源模型的基础上构建了一个平台，同时也在12月和2月分别推出了一些商业模型。所以我们一方面在打造开源模型，另一方面也在为企业构建一个可移植的平台，重点关注开发者，为开发者构建工具。

Elad Gil: 从公司创立到推出7B模型，历时多久？

Arthur Mensch: 大约4个月左右。

Elad Gil: 能分享一下你们是如何如此迅速地推出第一款产品，并使之获得快速采用的吗？团队是如何集中精力实现这一个别具一格的目标的？

Arthur Mensch: 我们思考了当前这个领域缺失了什么，意识到小型模型对人们很有吸引力。当时人们正在基于Llama 7B模型进行尝试，但Llama 7B还不够好。所以我们意识到自己可以做得更好，7B模型可以做得更好，这就是我们着力的切入点。

基本上我们不得不从零开始构建整个技术栈，包括获取数据、编写训练代码、获取计算资源。在这4个月里，我们一直在逐步扩大计算力，起初是0个GPU，后来实际上是在500个GPU上训练出7B模型。我们之所以进展如此迅速，是因为团队动力十足，在这4个月里几乎没有休息日。

一般来说，成功的AI团队通常只有4到5人，发明创新的AI团队规模向来如此。所以我们试图打造这样一个组织结构，有5人小分队专注于数据、预训练等工作，到目前为止，这种模式运作得很好。

Elad Gil: 你们的路线图上还有哪些新产品和功能？

Arthur Mensch: 我们会推出新的开源模型，包括通用型和垂直领域型模型，这工作正在紧锣密鼓地进行中。我们还会为平台引入一些新的微调功能。我们最近推出了一款名为Le Chat的基于对话的助理，目前它只是在使用基础模型，相当于ChatGPT最初的版本。我们正在积极开发数据连接器和功能增强，旨在为企业提供一个有吸引力的解决方案。

Elad Gil: 你们计划关注哪些垂直领域？或者能透露一些吗？

Arthur Mensch: 我们最初是从金融服务行业切入的，因为这个领域比较成熟。基本上我们瞄准两大目标市场，一是企业客户，从金融服务行业开始，因为它比较成熟;二是数字化公司和开发者，比如正在创办AI公司或者将AI引入传统非AI公司的公司。通过与云服务商建立合作关系，我们可以接触到企业客户群体，因为他们在这一领域掌控着一定市场;而通过我们自己的平台，我们则直接面向开发者。

Elad Gil: 您最近宣布与微软和Azure达成了合作关系，能透露一些相关内容吗？这为你们开放了哪些企业级市场？

Arthur Mensch: 这为我们开辟了新的客户群体。很多企业难以直接采用第三方服务提供商的产品，因为他们需要经过采购、风险评估等流程。但如果是通过云服务商的渠道作为第三方，则可以加快进程。事实上，当我们在Azure上线产品时，我们立即获得了1000多家企业客户。这说明了我们需要适应企业目前广泛采用云服务的现状，他们不愿轻易引入新平台，所以起步时确实需要通过云服务商的渠道。

/ 02 / Mistral的模型发展计划

Elad Gil: 目前业界的重点是扩大模型规模，追求越来越大、性能越来越好的版本。在接下来的6个月或1年里，你们的目标模型规模是什么？是否有计划长期构建超大型模型？你们是如何考虑要提供的各种模型组合的？

Arthur Mensch: 我们起初的关注点是效率，以更高效的方式训练模型，甚至比当前的做法更高效。一旦我们实现了高效率，我们就开始扩大规模。这就是为什么我们进行了另一轮融资，并开始增加我们的计算力。

所以我们可以期待看到新的更强大的模型，因为我们投入了更多的计算资源。这些模型的规模可能会略有增加，因为当计算量增长时，你需要相应地增加模型容量。但对我们来说，保持高效的推理能力，并拥有高度压缩的模型仍然非常重要，这种模型将继续面向开源世界提供。

Elad Gil: 有人指出，当模型达到某些能力时，你就可以加快构建下一个模型的步伐，因为你可以利用例如GPT-4级别的模型来做数据反馈或生成合成数据，或执行其他一些真正加速工作流程的事情，比如数据标注等各种任务，在某些情况下甚至可以达到超人水平。你是如何看待利用模型来相互帮助提升，这是否实际上加快了每个后续版本的发布时间线？

Arthur Mensch: 我想总的来说，两年前数据反馈确实非常重要，但如今已经没那么重要了，因为模型变得越来越好，有时候足以自我监督自己。正如我们所注意到的，随着模型规模的扩大，这种情况确实在持续改善。这意味着通过人工注释的高成本部分实际上正在减少，从而也降低了进入门槛。

Elad Gil: 关于推理能力的发展，你们有何考虑？是否会专门训练用于推理的子模型，还是认为推理能力将随着模型规模的扩大而自然获得？或者两者兼而有之？

Arthur Mensch: 目前提高推理能力的唯一可靠方式，是在更大的数据集上训练更大的模型。通过构建外部循环、添加新的函数调用、提供更多让模型进行推理所需的数据，也有一些可能性，而不是让模型凭空想象。所以我们并不自诩拥有什么提高推理能力的秘密配方，而是通过关注数据，尤其是涵盖数学内容的数据，从而打造出具备相当推理能力的模型。代码数据也有所助益。总之没有什么魔法配方，只是专注于一些小细节就能奏效。

Elad Gil: 我之所以这样问，是因为在人工智能的发展历史上，似乎存在两种不同的方法。一种是基于Transformer的模型并将其扩大规模;另一种是像AlphaGo和扑克游戏那样，通过自我对弈的方式来自举例获得新的策略或能力，在某种程度上也是一种推理形式。在模型训练的背景下，或许会很自然地采用后一种方式，比如使用代码数据，或者针对真实的评估标准进行测试。所以我不知道你们是否也在考虑这种方式，或者它在你们看来是否重要？

Arthur Mensch: 在Meta工作时，Guillaume和Timothée 就曾尝试过使用大语言模型来做定理证明，这与将大语言模型作为推理单元，然后在外部构建采样循环、进行多指标研究等有着紧密联系。当时制约这一方向的一个因素是，模型的时延很高，如果你想大量采样，就需要缩小模型规模，所以这个问题与效率息息相关。随着我们提高效率，硬件能力和模型容量也会增长，这样就能探索更多可能性，更充分地采样，最终通过外部开发来提高推理能力。

Elad Gil: 还有很多人在讨论记忆和跨动作、代理链式连接时保持更长状态视角的能力问题。你们是否会很快着手构建某种代理模型，还是更多关注为各种应用赋能的核心API？

Arthur Mensch: 我们确实尝试通过函数调用来支持这一点，这是管理和创建具有状态存储能力的代理模型的一种好方式。比如在对话记忆方面，你可以在中间件层引入一些基本函数，提供给模型使用，让它能够基于此更新内存和表示。所以函数调用是一种通用工具，可用于创建复杂的设置和复杂的代理模型。不过要让它正常工作并加以评估都是一个巨大的挑战。我认为这将是我们在产品端需要应对的最大挑战之一，即如何构建出行之有效、经得起评估、反馈优化的代理模型。

Elad Gil: 最近很多人在讨论上下文窗口的重要性，比如针对生物学模型，如果扩大上下文窗口，就能获得更好的蛋白质折叠结果等。上下文确实至关重要。我知道Gemini推出了最多可达几百万的上下文窗口，你觉得这个特性有多重要？它是否会取代RAG或微调技术？或者说这些技术未来都将并行使用？

Arthur Mensch: 上下文窗口不会取代微调，因为微调有完全不同的目的，即灌输你的任务偏好和示范任务本身。但大的上下文窗口确实会简化RAG等技术，因为你可以将更多知识注入上下文中。而且用户反馈是，一旦使用了大上下文窗口的模型，就很难回头了，这简直就像一种"毒品"。所以我们当然希望继续改进和扩展这个特性。从基础设施角度来看，处理大尺寸的注意力矩阵确实是一个挑战，但也有一些变通方法。

Elad Gil: 你认为推理能力的提升会通过传统的基于GPU的方式实现，还是我们会开始看到越来越多针对特定Transformer模型的定制芯片，将权重烧录在芯片上？或者更普遍地针对Transformer架构，只需加载预设权重？

Arthur Mensch: Transformer架构被广泛使用的一个好处是，你可以针对这种架构专门定制硬件，在这方面可以获得很大的性能提升。比如在英伟达芯片上，内存带宽就是一个不幸的瓶颈，通过转向更多定制化芯片，你就可以显著降低推理成本。目前定制化芯片还没有做好准备，所以我们暂时不会在这方面下注。但我确实预计，这将显著提高成本效益。

/ 03 / AI模型在企业服务方面的应用

Elad Gil: Mistral最初是一款面向开发者的产品，采用了开源方式。但现在你们开始为各种企业服务，在企业采用这种技术和方法时，使用案例或应用领域是否存在什么共性？

Arthur Mensch: 是的，企业主要有三种常见的使用案例。第一是开发者生产力，因为现成的方案与他们的开发方式不太契合，通常需要一些挣扎。第二是知识管理工具，企业通常会构建自己的知识库助手。最后是客户服务，很多企业都在大力推进自动化，以减少人工服务，提高效率，这确实是非常有前景的领域。而对于AI公司来说，使用案例就更加多样化了，因为他们在这方面更有创造力。总的来说，企业目前还是集中在这三个领域。这也是为什么我们开始考虑上移价值链，提供更多一体化解决方案的原因，因为企业有时确实需要一些帮助。

Elad Gil: 这确实说得通。我猜很多人都看到了Klarna的CEO的那条推文，讲到他们如何在自助客户服务领域添加了一系列工具，基本上减少了700个客服人员，在短短一个月内就获得了230万个响应。所以我觉得，这种对生产力和就业的冲击确实是一个目前被低估的巨大浪潮。

Arthur Mensch: 是的，我们看到了更多不同的使用案例。其中有一个是建立了一个平台，通过短信与临时工试图为他们匹配工作。之前客户需要150个人与客户直接互动，但现在只需7个人就能大规模支撑平台运营，让临时工更容易获得工作机会。总的来说，客户服务自动化确实有助于提升服务质量，这是这项技术最令人兴奋的地方。

Elad Gil: 你认为现在还缺少什么，会阻碍企业加速采用这种技术？

Arthur Mensch: 我们的赌注是，企业仍在努力评估和验证模型是否真的可以投入生产使用。目前缺少的是一些持续集成的工具，以及自动证明任何大语言模型使用案例的工具。所以我觉得这些对于企业内部开发者来说是缺失的部分。而对于企业内部的终端用户来说，我们离真正能创建出遵循指令良好、可由用户轻松定制的助手还有相当一段距离，这才是目前的短板所在。

Elad Gil: 我觉得你一直非常审慎地思考人工智能的监管问题。我知道你曾参与过关于欧盟监管及其他人工智能监管的一些讨论。你能解释一下你的观点吗？当下和未来我们应该关注哪些重点，以及如何更广泛地看待这个问题？

Arthur Mensch: 是的，当时10月份出现了一股反对开源人工智能的浪潮，所以我们不得不站出来解释，开源实际上是确保这项技术安全可靠、经过评估的正确途径。我们一直在重申，人们将不同层面的话题混为一谈，比如模糊定义且缺乏科学证据的存在风险。再比如将国家安全与人工智能、大语言模型被用于生产生化武器等问题混淆，但后者同样缺乏证据。我们应该关注的是一些非常重要的实际问题，比如如何实际部署模型并控制其输出、如何处理偏见、如何设定模型的语调并加以评估和控制等。我认为这才是最重要的部分，即如何构建可靠、可控、可评估的安全产品，这也是过去几个月来我们一直强调的重点，因为我们不得不发声。

/ 04 / AI发展的地缘分析

Elad Gil: 欧洲现在初创公司蓬勃发展，尤其是人工智能领域。巴黎-伦敦走廊和硅谷是目前两大 AI 初创公司聚集地。您认为是什么因素推动了这一发展？

Arthur Mensch: 伦敦拥有 DeepMind 公司，它一直以来都非常吸引全球顶尖人才。2018 年，DeepMind 和 Google 在巴黎开设了研究办公室，进一步增强了当地的研究实力。法国和其他一些欧盟国家拥有优质的教育体系，培养出优秀的人工智能工程师和科学家，这也是欧洲拥有强大基础模型和应用层公司生态系统的原因之一。

Elad Gil: 您在全球范围内发布了 Mistral 模型，涵盖多种欧洲语言。其他公司也正在针对日本、印度等地开发语言模型。您认为未来会出现大型全球平台公司（除了中国，因为中国可能像对待互联网一样进行防火墙管制），还是会出现区域性冠军，类似于波音和空中客车？

Arthur Mensch: 我们采取了全球化发布策略。仅仅局限于欧洲市场并不可取，因为技术是流动的。我们所构建的技术与语言紧密相关，虽然英语是众多语言中的一种，但大型语言模型对英语的掌握优于其他语言。因此，我们计划通过专注于欧洲语言，开发出优于美国公司所开发模型的产品，这在欧洲市场有巨大潜力。亚洲市场也需要能理解亚洲语言的模型，解决这些市场的科学难题需要大量投入，而美国公司对此并不关注。因此，作为一家欧洲公司，我们有机会更关注全球市场。