黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模

2024-03-22 16:14

在今年的GTC大会上，英伟达CEO黄仁勋邀请了Transformer的七位作者（Niki Parmar因故临时未能出席）参与圆桌论坛的讨论，这是Transformer团队首次在公开场合集体亮相。

2017年，八位在谷歌工作的AI科学家发表了一篇名为《Attention Is All You Need》的论文，详细描述了Transformer架构，开启了生成式AI的新篇章。大热的ChatGPT正是基于这一架构构建的。

在此次访谈中，他们将分享Transformer背后的创新故事，也讨论了如何通过优化模型、提高效率和扩展应用范围来不断推动AI技术的边界。

在Aidan Gomez看来，AI行业目前仍然停留在Transformer原理上，需要更多新的灵感来推动AI走向更高的平台。对于基础模型的未来，Lukasz Kaiser认为，现在很多巨头都热衷于万亿token的训练量，但高质量的模型更加取决于是否拥有高质量的数据。

Transformer团队介绍：

Ashish Vaswani：现初创公司Essential AI的CEO。2014年在南加州大学获得博士学位，并于2016年作为研究科学家加入谷歌大脑团队，2021年底离开谷歌。

Noam Shazeer：现初创公司Character AI的CEO，2000 年底加入谷歌,直到 2021 年最终离职。

Jakob Uszkoreit：现Inceptive公司联合创始人，2008年至2021年，Uszkoreit在谷歌工作。Uszkoreit于2021年离开谷歌，并与他人共同创立Inceptive。该公司主营业务为人工智能生命科学。

Llion Jones：现Sakana AI的创始人，本硕毕业于伯明翰大学，曾工作于Delcam、YouTube。他于2012年加入谷歌，担任软件工程师。

Aidan. Gomez：现Cohere创始人兼CEO，毕业于加拿大多伦多大学，Transformer论文发表时，他还是谷歌大脑团队的实习生。他是八人团队中第二个离开谷歌的人。

Lukasz Kaiser：曾任法国国家科学研究中心研究员，现唯一一个现在仍是AI工程师，离开谷歌后加入OpenAI。

Lllia Polosukhin：现Near Protocal联合创始人，Google TensorFlow 人工智能开源项目的主要代码贡献者，还曾任 Google 深度学习小组项目主管，带队负责核心搜索算法业务近 10 年，现主抓区块链任务。

目录：

1、背景：计算机的迭代和AI的兴起

2、Transformer研发背后的故事

3、Attention is all you need论文创作

4、离开谷歌的初衷

5、未来的AI模型：在于质量，而非规模

/ 01 / 背景：计算机的迭代和AI的兴起

黄仁勋：我等太久了，他们怎么还不来（指Transformer八子），但是我相信他们一到，肯定会引发不小的骚动。那我先开始了，很高兴见到在场的各位。六十年来，计算机都是一个样子。我出生后的第二年，也就是1964年，现代计算机被称作IBM系统360（中大型计算机，多为台式计算机的计算机操作系统）。中央处理器IOs子系统将计算机硬件和软件进行多任务分离，整个计算机家族软件强大的兼容性成为软件工程师投资的主要盈利点。

不过在1964年，计算机并没有引起什么大的变动。直到上世纪八十年代末九十年代初，个人电脑PC的革命浪潮带动了这项技术的高速发展，这也被称为“计算机的民主化”，这一推动着计算机的边际成本以年为单位指数级下降。以十年为一个周期，计算机成本可下降十倍，也就意味着每五年、每十年这速度再乘以100。直到20年，这个数字为10000。也就是说，严格意义上讲，个人电脑PC革命的这二十年，整个计算机成本降低了10000倍。

计算机技术的发展比历史上任何其他技术的发展来的都要重要。我们可以想象。假若有这么一天，这世界上所有原本极其昂贵的事物成本都大大降低，而这个边际成本降低的速度甚至能够超过10000的平方，那么到在座各位成年的时候，曾经一辆价值两万美元的车也不过只需要一美元了。这就像美国科技公司Uber（一家和滴滴一样做共享单车的公司）在做的事一样。但是伴随着计算机成本的急速下降，直到停止的那一天，人类研发科技的想法也不会止步，那时候人们可能会研发出一种超级计算机。

这种超级加速的计算机起步的时候就像计算机一样，不那么容易上手，研发成本高，还需要一大批计算人员设计优化算法模型，这样的模型工程十分棘手。不过我们也相信你，如果可能够加速1%的代码，也就能够减少99%的运营时间。这个时候，开发商就可以设疑一大批toC的APP营运来赚取巨额的商业利润。就是这样，我们一直挑战极限，让曾经看起来天方夜谭的事成为现实，让那些看起来耗费巨大资源和成本的事变得简单、高效、节能。这就是就是我刚刚讲的加速计算（accelerated computing），也是英伟达自成立起一直在做的事。

接着，一个一个基于加速计算的应用就开始占领市场。我们先着力的点是计算机图形和视频游戏，于是人们就误以为英伟达是一家游戏公司。但是不论怎么说，这也是我们的业务之一。看到了计算机图形和游戏背后的庞大的用户市场，这也是当时很多公司没有注意到的事。不过，仅仅依靠市场也不足以推动影响整个时代的技术革命。长话短说，回到在2012年，我们的一位客户亚力克斯首次将英伟达GPU用于研发人工智能，这也激发了我们对AI的关注。几年后，一些举世震惊的事发生了，这些事也是当今生成式人工智能浪潮的前奏。

生成式人工智能的能力让人瞠目结舌，不仅可以识别猫猫狗狗的图像，甚至可以根据单词自动生成相应的图片。当然，你也可以输入一些具象化的关键词，比如，在海岸冲浪板上喝一杯MaiTai鸡尾酒，或者带着滑雪帽……不论你输入什么，生成式AI都可以自动生成相应匹配的图片。现在，我们已经设计了一款能够识别像素微粒、生成图像的软件，这款软件甚至可以读懂任何数据的内涵，这是难以置信的变革。

我将这称为新型工业革命。在这场革命里，我们创造出了以前从来不曾存在的东西。就像第二次工业革命用水力发电一样，在这之前人们不曾想过，随处可见的水竟也蕴含着无人知晓的巨大价值，这些“魔法”引发了人们熟知的二次工业革命。用原有的基础设施创造出新的高价值产品，在新的软件架构上继续研发设计新的软件，也就是加速计算这个时代在做的事。当然，这些事首先是那批顶级科学家的活。不过在这之后，技术就会被大量推广、复制、作用于生产。

一栋装载了GPU机器的建筑物（也就是AI系统）本质上就像一个发电机，我们向这个建筑物里传输被称为“数据”的原材料，给这些数据能量，它又会生产出新的数据。输入数据，输出新数据，就是这个建筑正在做的事。而那些输出的数据震惊了整个世界，因为它们几乎可以被装进市面上所有现存的应用程序里，包括医疗保健、药物研发、交通运输、汽车制造。所有的行业都会享受AI带来的福利。一个全民都在使用AI的时代，不就是一个全新的工业革命吗？

在接下来的十年，技术人员会不断研发出在这个时代之前闻所未闻的新的产品、技术、基础设施。不过，关于AI深度学习，社会上一向有一些流言和争议。所以今天,我们请来了Transformer机器语言模型的设计者，同时也是论文《Attention is All You Need》的作者，一起讨论这些话题。有请Ashish Vaswani（初创公司Essential AI的CEO）、Noam Shazeer（初创公司Character AI的CEO）、Jakob Uszkoreit（Inceptive公司联合创始人）、Llion Jones（Sakana AI的创始人）、Aidan. Gomez（Cohere创始人兼CEO）、Lukasz Kaiser（唯一一个现在仍是AI工程师的）、Lllia Polosukhin(Near Protocal联合创始人)，Niki Parmar因有事不能前往。实际上他们从来没有同时参加过同一个访谈。

远程办公已经成为了一种社会潮流，不过这并不能阻止科技创新发明。我们都知道Transformer对于AI行业的重要性。所有现有的发明、创新、AI应用都可以追溯到你们刚刚发布Transformer的时候，以一种有序的方式从海量数据集（包括有序数列和空间数列）中进行学习，找到各数据组之间的关系和运行模式来设计算法模型是一件极具变革意义的事情，你们也是这方面的专家。

对话之前，我们先将一个规矩，意见相同也好，有分歧也好，不要打断他人发言，也不要中途离席。今天的话题没有什么限制，畅所欲言。

/ 02/ Transformer研发背后的故事

黄仁勋：回到最初的话题，工程师需要灵感，需要问题驱动他们做新的发明。那么当时你们在做Transformer的时候有遇到什么困难吗？‍

Lllia Polosukhin：每个人都会遇到各种各样的问题，我们的团队也一样，都在致力于解决问题、回答问题。要我说，就去使用谷歌的产品，谷歌对模型延迟回答的容忍度很低，你问什么，模型就会回答什么。如果你有成吨的文件，但是又想要快速找到需要的答案，就需要效率更高的模型。但是，当时的基础模型和循环网络根本无法做到这一点。所以出现了NENs（Normalizing Flows with Neural Networks，一类基于归一化流量和自回归神经网络的新型深度生成模型），NENs可以提高训练数据的速度，训练最先进的AI架构。以前需要一个字母一个字母识别的任务，现在已经可以通过NLP快速理解句子大意了。

Jakon Uszkoreit：实际上，我们已经有很简单的架构了。打个比方，假设以n-gram为输入数据，谷歌内部已经有了一个庞大的预训练数据集和训练规模，在特定问题上他们就训练得更快。对于特定量的大规模的训练数据谷歌总是完成的更快更好。

Noam Shazeer：早在2015年，我们就理解了AI里的标定律（scaling laws）。训练数据越丰富，模型越大，模型质量就越高，自然语言理解能力、预测下一个token的能力就越强。

这其实不难理解，在如此庞大的数据集上训练，模型只会变得越来越先进、越来越聪明，甚至可以完成一百万种不同的任务。以至于，巨头们都在卷大模型，想让自有模型token量越来越大，模型质量越来越高。

不过在RNN（Recurrent Neural Network，循环神经网络）上，我们也遇到了一些挫折，可能也是最让我们挫败的事。因为RNN 在训练过程中可能会出现梯度消失和爆炸问题，这使AI难以长时间学习和存储信息。有些人也想用深度学习里的卷积神经网络（Convolutional Neural Networks）和注意力机制（Attention Mechanism）来优化提升RNN现存的问题。打个比方，RNN就像蒸汽机，Transformers就像内燃机（蒸汽机的热效率较低，只有20%，内燃机的热效率可达到46%）。我们当然可以用蒸汽机去完成工业革命时所有的任务，不过太慢了，成本也太高。内燃机会大大提升效率，不过现在，属于内燃机的时代也过去了。我们期待的是电动汽车代替内燃机的时代。

黄仁勋：好的，现在我们这是在等待核聚变，对吧？

Ashish Vaswani：那是电动汽车之后的事情了，哈哈。

研发Transformer架构后，让我刻骨铭心的教训有两个。第一个是我开始着手研究机器翻译，让我惊艳的是，优化AI模型的梯度下降（gradient descent）算法比我更“聪明”。我甚至不用学习任何机器语法规则，只想着让梯度下降为我做好一切。第二个是可扩展的通用架构，这个架构在未来一定会占据主导地位。现在人们关注Token，这世界上是一些计算机指令、动作。

有一天，token会模仿人类行为，将一切自动化。Transformer架构实际上就是我们讨论的注意力机制（attention mechanism），用于NLP里处理更多更复杂的数据，注意力机制可以让梯度下降效率更高、更快。这里也有一些物理学层面的问题。比如，矩阵乘法的时间复杂度，使用更先进的算法可以提高时间复杂度，尤其是在处理大型矩阵或高性能计算场景时。所以我们会不停添加一些新的指令规则，让模型学习时组装的梯度时优化算法，那些规则会比人类更聪明，就像所有的深度学习一样。

我们正在以GPU为形状构建一个AI模型，可以说就是超级计算机的雏形。

黄仁勋：现在，你们正在解决的问题是什么？

Lukasz Kaiser：机器翻译。

黄仁勋：这听起来不简单。

Lukasz Kaiser：五年前是这样的，你必须收集大量的数据作为机器的学习资料，就算这样，机器翻译的出错率也很高，在一个非常基础的水平。到了现在，训练这些模型根本就不要任何数据，机器只需要学习如何将这种语言翻译成那种语言就好。

/ 03/ Attention is All You Need论文创作

黄仁勋：是什么给了你们写《Attention is All You Need》这篇论文的灵感？

Lllion Jones：：我先想到了这个标题。在做一种类似于消融实验（ablation study）的研究时，我们开始舍弃一些原有模型的碎片，想看看没有了这些零件，模型会变成什么样。出乎意料的是，模型运行更快了。扔掉所有的卷积，效果反而变得会更好。这就是当时我的想法，也是标题的灵感来源。

Ashish Vaswani：有趣的是，这一切都是从零开始的。然后，我们向系统里加卷积等各种各样的元素，不过之后这些都被推翻了。Multi-head attention（多头注意力组件）是Transformer架构里的核心组件，主要由多种自注意力机制组合而成。

黄仁勋：Transformer这个名字是怎么想出来的？当时还有其他的备选方案吗？为什么会叫Transformer呢？

Jakob Uszkoreit：因为Transformer本身就和大语言模型的运行原理有异曲同工之妙。LLM就是把一个数据组输入通过转化（transform）成另一种形式的数据组。几乎所有的机器学习模式都被转化（transform）了。所有的机器学习模式也因此发生了改变。实际上也不是所有人都同意使用这个名字，有人认为这个词太简单了。不过，除了Transformer，所有提案都被否决了，比如Cargo Net、Attention或者Convolution Attention。

Llion Jones：实际上我们最初是做机器翻译的，不过后来我们发现我们做得更多的并非只是翻译，而是转化，转化一切潜在的可能的事物变成另一种事物。实际上，当时我们也么想到Transformer会这么成功，生成图像的效果好得让人惊讶。

黄仁勋：这其实挺符合逻辑的，将图像切块并标记每个切块的加载权限，实际上很早以前就有这样的架构了呀。

Noam Shazeer：是的，所以当我们从张量到张量构建更高维度的矩阵时，我们将注意力放在了如何大规模扩大自回归模型（Auto-regressive models）,不仅仅是语言，也包括在输入端和输出端的图像、音频、文本的组件。所以当Lukash说他的研究领域是翻译时，简直低估了自己。我们现在的想法是，把这些数据类型在一个统一的模型中。只需要一个模型就可以处理包含文本、图像、音视频各类型数据的输入和输出。

是的，不过这没有用到自注意力机制。而且，要让这样的模型大规模研发部署，需要很长一段时间。Lukash的想法是将所有的学术数据集放在一起，通过重复的图像转文本、文本转图像、音频转文本、文本转文本大规模反复训练。就是这样“训练一切”的想法推动着我们对web进行建模，这也就是OpenAI做的事。多模态大模型的理念在AI兴起之初就一直存在，现在我们也很欣慰地看到它落地开花了。

黄仁勋：Transformer关于翻译的想法真的很有趣。从图像到文本，文本到文本，张量到张量。你们的想法覆盖范围极其广泛，甚至可以用来研究生物学。

Aidan Gomez：嗯嗯，我们更乐意称其为生物软件，一种类似于计算机软件的隐喻。开始是一个程序，之后再编码成一些可以在GPU上运行的代码。这本质上就像是生态网的运行，这里也是需要一些行为规范的。

就像是细胞里起到传输作用的蛋白质，我们的模型也是通过深度学习来进行传输转译的。一旦RNA分支进入人体细胞，经过转录就会变成蛋白质。所以，Transformer不仅仅想要将自然语言转译成计算机代码，更重要的是有一天真的能进入实际的分子结构辅助药物研发和蛋白质序列设计。到那时，可能我们也需要一个大的实验湿室来设计研发这一切。

人类有大量公开课下载的基因组数据，这是极其宝贵的研究数据。不过，我们也需要专门的特定数据去设计专业模、研发产品。

在帕拉尔塔，我们部署了大量研究实验室代码的机器人和工作人员，包括一些二前生物学家。现在，我们自己也是这个行业的领头羊，主要研发模型、设计分子。

黄仁勋：优化基础模型在翻译领域有了一些新的突破，你们也认为除了研发Transformer自己还为AI做了一些额外贡献，主要表现在哪些方面？

Aidan Gomez：我们做了大量工作来优化加速，提升现有模型效率。不过困扰我的是我们做的这些工作其实跟之前没什么太大的区别，还是Transformer最初的那套原理。世界还是需要一些新的灵感，我相信在做所有人都希望能出现一些新的东西推动AI走向更高的平台。现在的很多设计都延续了六七年前的老路子，没有什么创新点。

Llion Janes：是的，很多人都问我AI模型的下一轮浪潮是什么，实际上我能说只是这个行业在慢慢进步，这里确实没什么颠覆性的东西。当然，这样是远远不够的，我们必须推出一些颠覆性的技术。但现在，我们一直在原有的模型上固步自封。我们想要输入更长的上下文长度，想要多模态音视频输出，想要更快的token生成能力，这都需要更大的算力。

Jakob Uszkoreit：事实上我认为算力不是问题的关键，效率才是，优化现有模型提升效率是当务之急。当然，合理地分配算力也很重要。给不同的问题定级，分配不同的资源也会解决部分问题。

Llliya Polosukhin：举个简单的例子，2+2=4，把这个问题输入现有模型，计算机需要使用一万亿参数解答这个问题。所以自适应计算（adaptive computation），如何在特定的问题上分配合适的计算量，也是接下来的着力点之一。

Lukasz Kaiser：一年前，我们想做的其实是token的进化升级，这不仅仅是线性升级，文本或代码也会进化。我们不断迭代、升级，模仿人类如何阅读理解生成文本。这就是语言建模的复杂性，这也与智能生成文本、图片有关。在这个过程中也需要不断优化、升级现有模型。比如，那些知识是模型允许生成的，哪些知识是模型不允许生成的，类似于检索模型Rag，用来对数据文本进行分类、定级，决定什么样的内容适合做什么样的推理运算。大模型当然知道如何做2+2的问题，不过这只是一个效率问题。

黄仁勋：嗯嗯，具体就是AI用计算机还是学习数学公式的问题了。不过，我很确定的一点是在座的各位研发的AI模型是肯定能够学会用计算机解决数学问题的。

Noam Shazeer：事实上，我们团都已经有人做到了。嗯嗯，不过目前这个模型还太小了，无法将解决庞大的计算量。如果能够研发出一个五亿模型的参数，做一万亿次计算，一美元对应的还是一百万个代币，不过这会比之前的模型便宜一百倍。而比起巨型神经网络上的高校计算，我们现在的模型就贵了一百倍。所以，现在的当务之急一定是提高效率，用更少的资源做更多的事。

不过如何得到正确的反馈呢？如何让研究人员参与这个过程确保。如果我们最终想建立一个通过视频学习自我监督、自我优化的AI模型，界面（interface）至关重要。

/ 04/ 离开谷歌的初衷

黄仁勋：离开谷歌后，你们大多数都创立了自己的公司，可以简单阐述一下自己的想法吗？

Ashish Vaswani：我们最终的目标是设计一个对标人类效率的AI系统，通过AI视觉系统看我们在做什么最终学会如何高效处理任务。他们会了解人类的目的意志，学习我们做事的方法，这最终也将改变我们与计算机交互的方式。

2021年我决定离开谷歌很重要的一个原因就是因为一个超级智能AI是无法诞生在学术实验室的。我们必须要走出去，接触社会，让这个世界对AI的注解推动我们研发更高质量的模型。我们需要与社会交互，让来自社会的反馈使这些模型变得更加智能。学习需要更多的实地经验，处于真空中的研究人员很难做到。

Noam Shazeer：我跟Ashish Vaswani想法一样，也是想走出去。所以在2021年作为联合创始人创立了Character AI。最让我挫败的一点就是AI技术如此强大，但这并没有普及到社会的每个角落。这么高效、简便、多功能的工具，你们能体会这种烦躁的情绪吗？

除非有10亿人拿着AI做了成千上万的事，我才能感到满足。真的感谢上帝，让我们研发了如此不可思议的技术。我的终极目标是用AI造福社会，造福世界上的每一个人，我们每个人都需要在这个过程中扮演一个角色。现在大部分人都是处于兴趣使用AI，要么是因为新鲜、要么是情感陪伴或者纯粹的喜欢。不过我想说的是AI真的很高效，而且也会快速发展，是时候不用AI自娱自乐了。‍

Jakob Uszkoreit：我说了很多关于生物软件的事，但更多是从个人层面上讲的。2021年，我作为联合创始人创立了Inceptive。AI真的可以帮助我们在实际生活生产中做很多有效率的事。新冠疫情时期，我第一个孩子出生了，我开始珍惜生命那种脆弱的美感。

几周后，Alphafold2（DeepMind旗下研发蛋白质设计的人工智能公司）研发结果出来了，Alphafold1和Alphafold2最关键的区别就在于Alphafold2使用了Transformer架构，他们的算法模型效率就更高了。生物化学和AI联合的时代已经到了。用AI进行药物设计和蛋白质编程已经大大提升了科研质量和效率。

Llion Jones：我是最后一个离开的。之后我创立了一家名叫Sakana AI的公司，Sakana的意思是鱼，而我们想做的是以自然界为灵感的AI公司。学习总会使人进步，工程设计也好、AI也好，无论你什么时候离开，只要你一直在学，你总是在进步的，就像当时AI深度学习一样。

英伟达给了我们巨大的计算量，我们可以用这些计算量做各种各样的事，不仅仅是建立能够感知理解人类行为的AI系统，我们也可以用其来探索正在从事的手工工程。我们也会做开源，进行模型合并，不过还有一些手头上的研究要完成。我们将现在所有可用模型放在了Huggng Face上，然后使用了大量的计算量进行进化计算（evolutionary computation）来探索合并、堆叠图层的方法。目前为止，这个项目做的很棒。

Aidan. Gomez：我想我创立 Cohere的原因与Noam Shazeer挺像的。AI技术举世震惊，人机对话可以改变这个世界。我们工作方式、互动方式都会因此发生巨大的改变。不过，这里也有一种微妙的失衡，就是在行业内部和行业外部存在着一种巨大的技术鸿沟。换句话说，我们都知道AI有多么厉害了。

不过，更多的人还没有明白这一点。我我想努力缩减这种认知上的鸿沟。不过我做这件事的方式可能跟Noam不太一样，Cohere是一家面向企业的AI公司，这要是将我们设计的AI平台嵌入到企业产品中去，而不是直接面向消费者。我们想用这种方式让社会接触AI的手段更加简便、成本更低。

Lukasz Kaiser：离开谷歌后我加入了OpenAI。在OpenAI，研究人员可以接触大量的数据和计算量。当然，我也一直希望自己可以减去大量的算力，更多做计算本身。

Lllia Polosukhin：如今，软件应用多的似乎要占领整个世界，而机器学习正在统治软件，而现在唯一的方法就是教会机器编码，这样就可以大规模自动化生成软件并改变每个人的访问方式。

如果在2017年，这可能只是纸上谈兵，因为我们没有那么多的算了。不过现在就不一样了，现在我们要做的并非大规模生产数据，而是要学会调配现有人员。这也是初创公司需要做的事，把产品推到用户面前，激励用户使用，现在我们需要的是可编程货币。有了可编程货币，我们就能够大规模地协调分配人员，所以我们创立了Near Protocol，一家2020年成立的专注于研发区块链的初创公司。在区块链这个领域我们拥有世界上最多的用户。版权作为一种十八世纪的技术已经落伍了，我们需要一种全新的技术激励创作者，而唯一的方式就是使用编程货币和编程价值，也就是区块链。这样也可以创立一个良性循环的正循环系统。

/ 05 / 未来的AI模型：在于数据质量，而非规模

黄仁勋：可编程的人、可编程的蛋白质、可编程的资金……这听起来很有趣。还有一个问题，现在的GPT模型的训练数据集已经达到了10万token的规模，下一代基础模型会走向何方？有哪些创新点？

Lllia Polosukhin：与用户的交互。我们需要大量的平台，同时也需要大量的资金让这些模型变得更加智能。

黄仁勋：如何才能设计出那样优质的让每个人都想使用的预训练模型？在这个模型里，用户间可以相互交流吗？

Lllia Polosukhin：通过强化学习和其他集成数据生成技术。

Llion Jones：下一个更重要的方向是训练AI的推理和自主决策能力，现在大部分的机器训练和人机交互还是人工手动输入指令的，我们现在需要做的是训练机器强大的推理能力。

Jakob Uszkoreit：另一种取向是模型应该生产出人类世界的商品，也就是人们想要消费的东西，而在这之前机器必须接受所有刺激人类消费欲望的训练和指令。在那时，所有音视频等三维世界观察世界的信息都由AI自动化完成。

Lukasz Kaiser：是的，就像是用人的思维方式进行思考。只需要小规模的数据就可以得到像样的AI系统。因为AI的推理能力越强，所需要的数据训练量就越少，因为那时的AI更加智能了，可以自己检索信息、生成信息、进行规划。

但在那时，用于训练的数据质量会更加重要，因为这涉及到人机交互。现在很多巨头都热衷于万亿token的训练量，但是高质量的模型从某种意义上需要的是更加高质量的数据。而同时，我们也需要给贡献这些数据的人一些相应的激励措施。

Ashish Vaswani：最好的自动化算法是什么？是将真实世界的任务分解成不同的内容。我们的模型也非常重要帮助我们获取数据，观察数据是否处于正确位置。一方面，它帮助我们关注数据；另一方面，这样的数据为我们提供了优质的模型来完成抽象任务。因此，我们认为对这一进展的衡量，也是创意的一种方式，是科学发展的一种方式，也是我们自动化发展的一种方式。

黄仁勋：是的，没有良好的衡量体系，就不会有出色的工程。

Illia Polosukhin：没有人能够提前预知自己已经走到了哪一步。实际上，我们希望获取足够的数据和信息，进行合理的推理。比如，如果你有六步，但实际上你可以通过五步进行推理来跳过一步。有时候你不需要六步，有时候你需要更多步骤，那么你要如何复现这样的场景？你从Token进一步发展需要什么呢？

Lukasz Kaiser：要设计现这样的大模型非常复杂。系统虽然会不断进步，但从本质上讲，我们需要设计一种方法。人类是善于设计的生物，在人类历史中，我们不断重现成功的场景。

黄仁勋：感谢各位参加这次交流，非常感谢！