智谱版“Sora”清影上线，可生成6秒视频，张鹏回应技术商业细节

AI视频生成，离我们越来越近。

文｜牛慧

编｜赵艳秋

7月26日，智谱AI对外发布了AI生成视频模型清影（Ying），并宣布清影已上线清言App，面向所有用户开放文本生成视频以及图片生成视频，30秒时间可生成6秒视频。

清影（Ying）采取了免费排队、付费加速的收费模式，24小时为5元，一年为199元。同时，清影API也上线大模型开放平台bigmodel.cn，企业和开发者可以采用API调用方式。

智谱AICEO张鹏称，清影（Ying）是初步的阶段性成果。从产品角度来讲，会成为一个单独的产品去商业化落地。但无论是2C还是2B，纯粹走向大规模商业化还比较早期。

清影（Ying）也会涉及开源。“我们从来同时兼顾开源和商用。”

在文生视频会不会取代长视频拍摄手段这个问题上，张鹏称，他曾去北影与老师们聊这件事。“从技术发展角度，大家认为对影视行业的变化有积极的意义。但至少目前，能把它用在直接面向最终观众的生产过程当中，可能还不是太够，用来做一些辅助的工作是可以的。”

在融入清影（Ying）后，智谱AI能不能打造一款超级APP？张鹏认为，现在对超级APP的定义不同。“可能没有那么超级。它是循序渐进式的，从时间维度来说，过去半年，大家的使用习惯已经改变了非常多，只不过没有让你一觉醒来就有改变的感觉，这是人感知上的误差。”

在清影发布后，张鹏与现场与会者进行了交流。为方便阅读，数智前线对部分对话内容进行了整理。

清影（Ying）为什么开放给公众

Q：OpenAI Sora还没有开放给公众使用，为了保障清影能向公众开放，智谱做了一些什么事，尤其算力方面?

张鹏：首先OpenAI Sora效果还是不错的，今天智谱清影（Ying）还是一个初步的阶段性成果，还达不到像Sora演示出来的那么好、那么长的视频，这个还需要更多的努力。

虽然我们承认与OpenAI 、与世界顶级水平之间的差距，但是这条路还得自己走，我们一直也在走自己的路，不断用自己的方式往前追赶，想到新的方法，比如怎么把视频生成算力成本降下来，响应速度提升上去，让所有人可以用。其实这件事是除了技术追求以外，为了让技术人人可用，我们也同步追求了技术的可普及性和成本，这也是我们这个团队的一些特点。

Q：成本是多少？

张鹏：这个在大家用起来以后，统计才有意义。

Q：从什么时候开始做清影（Ying）的，团队规模、产品研发投入是什么样？

张鹏：做视频模型这件事往前追溯，从2021年开始就布局了，去验证了这件事可行，但是里面有很多的问题。

为什么会有一段时间转去做语言模型，是我们认为本身做大模型这件事最终目标想要实现AGI，本质上还是在于如何对现实世界里的信号、数据进行提炼、压缩、学习的过程。这个事情可能语言是密度最高的，相对来说比较容易，而且也是人机交互当中非常重要的环节。能让它听懂人类的自然语言，这件事是非常重要的一个点。如果它能理解这件事，就能解决很多的问题，比如生成视频可控的问题，最简单的可控，就是我说什么你做什么，它强烈依赖于你能不能准确理解这个内容。我先有这样一个抽象层面、宏观层面的能力，对世界的建模和理解。

Q：一些做纯做视频模型的企业发的更早一点，还有视频公司像快手，他们的路径和大模型企业不同吗？

张鹏：我个人理解，从传统视频厂商或者纯粹做视觉的转去做模型，他们可能是沿着视觉信号这个路线做这件事。但这两个事情有对错吗？不一定，前一段时间我们看论文，单模态的建模、语言模态的建模、跨模态的建模，最终本质上会走向物理世界统一的表示，大家追求的是同一个真理，只是走不同的路而已，可能是这样一个结局。

Q：现在视频生成模型都是DiT架构，智谱在这方面有没有创新？

张鹏：视频生成模型是DiT+Tansformer，大家知道Sora也是这种方案，我们也采用这种方案。但是因为技术细节上的不透明，很多地方需要自己摸索。算法上在不断改进，比如3D VAE等，也是改进DiT和Tansformer结合的效率。大模型纯算法本身只占其中一部分，还有大量的系统工程等各方面的事情，所以它是比较复杂的事情，还有很多工作要做。

Q：智谱不像快手等视频公司，有视频数据的积累，智谱的训练数据来自哪里？

张鹏：做视频生成真的非常依赖于数据。文字数据我们可能积累了很多年，视频数据是这几年才有的事情，而且难度更高。

我们用的视频训练数据主要是来自于两大方面，一方面是公开的数据集，互联网上有很多，尤其开源社区有很多人在做这方面的工作，积累了一些资料。另外就是合作伙伴，像B站、华策、央视帮我们提供了一些训练数据。

就数据的质量问题，所谓高质量视频，和我们一般观众所感受到的略微有一些差别，它包括很多维度，像视频的解析度、风格、分进、组合、连续性等，这个要求非常高，并不是说在短视频网站随便抓一个视频就能训练。所以对于数据本身的清洗、筛选，也是一个很重要的过程，里面有很多技术性的东西，因为你不可能靠人去看这件事，太多了，很多时候还是要靠技术手段改进。

除了有高质量的视频以外，还有对应的字幕、文字、描述等等，这个才能帮助我们训练视频模型。

Q：在算力上，有人说文生视频的算力需求是十倍甚至百倍的增长，但也有人说算力在千卡规模，比一些大语言模型要小很多。你看到算力需求是怎样的？

张鹏：我不是太同意生成视频的算力，会小于文字生成算力这件事情。可能未来很多都会变成多模态信号融合，但以视觉信号为主，视频对人的大脑，目前还是冲击力最强的。前两天有人问我，你看不看好PPT生成这件事。我说跳开这件事来看，PPT为什么比传统胶片方式要更被人接受，是因为有更主观的视觉信号，把文字转换成结构化的信息。未来会不会所有内容都转成视觉形式，没有所谓的PPT，你可以想象这个问题，人交流的需求是什么，什么方式是最直接的？所以这个都有可能。

清影的付费方式是怎么定出来的

Q：清影（Ying）付费方式是免费让我排队，但如果要加速，24小时要收5元钱，一年收199元，这是怎么定出来的？

张鹏：你看的是C端，我们也有B端API按价格收取费用。现在还是比较初级的尝试，人人可用，付费加速。想看看看市场和用户的反馈，后面会及时调整。大家喜不喜欢我们也不知道，大家用脚投票吧。主要是因为这个事情虽然已做到这个程度，但成本还是比较高，我相信所有的友商把这个东西不开放出来，很大程度也是因为成本问题，顶不顶得住很多人来用，这也是一个选择。

Q：后续商业化的策略是什么，比较偏向于2C还是2B？

张鹏：清影（Ying）功能上线，主要是阶段性成果，让大家体验一下目前视频生成这样的事情。在每人可用的前提下能做到什么程度，而不是关在实验室里或者在很小的概率上生成出什么东西。

从现在这个阶段来说，无论是2C还是2B，纯粹走向大规模商业化还比较早期。为了公平起见，除了C端和B端，还有创作者们也都能享受这个能力，所以在开放平台开放了API，它有一定的收费，这是为了统一计费方式，但是这样的形式比较亲民。大家知道生成视频成本代价也是非常高的，稍稍收回来一点点成本也是好事。

Q：文生视频会不会出现取代长视频拍摄的手段？

张鹏：这个问题从Sora出现以后一直在讨论，国外已经引起了很大的影响，包括好莱坞罢工等，肯定大家已经意识到它对传统影视行业的影响。甚至有一次我去了北影，和老师们也在聊这件事，大家对这件事的看法，从宏观来讲是比较一致的。从技术发展角度，大家认为这是很好的事情，对影视行业的变化有积极的意义。但至少目前，能把它用在直接面向最终观众的生产过程当中，可能还不是太够，用来做一些辅助的工作是可以的，甚至是做一些小规模的创作，有些专业玩家玩出来的短片，这个可能还是OK的，但真正要达到改变电影的制作等，这些更高要求的事情，可能还得要有一段路去走。

Q：智谱的视频生成产品，是整个模型矩阵中的一部分，还是说未来希望它能够独立形成商业闭环？

张鹏：实际上视频生成并不是孤立来看，是放到整个技术和产品发展路线当中来看，我们认为它是AGI里必须要走的路径。从产品角度来讲，会不会成为一个单独的产品去商业化落地，我觉得这是肯定的，只要市场有需求，作为一个公司就应该做商业化的事情。

Q：目前有哪些商业需求？

张鹏：有些需求在，做广告短片、演示视频、创意概念表达、视觉概念的表达、辅助性的表现，需要时间效率非常快，对细节要求没有那么严苛的，这些产品是能够快速去降低成本和周期。具体客户方面，像线上电商营销、媒体需求、社交平台的短视频需求是比较旺盛的，但是我相信肯定不仅止于这些客户。对于这类客户我们也有计划，也是大家用手投票，我们看哪些需求相对比较集中，会针对性做一些优化。下一步往哪个方向发展，哪些事情会成为技术突破和落地应用最关键的问题，其实我们有很多项目，不可能全部做，会集中在真正解决问题的路径上做，希望它是这样一个闭环，从上到下，从下而上这样一个闭环。

Q：清影（Ying）会不会开源？

张鹏：我们从来同时兼顾开源和商用。我们每一项技术都会有核心的内容以开源方式，开放给开源社区和开发者。我们开源的项目前前后后加在一起有20多个，大量的开源项目也比较有影响力。商业应用是另外一回事，是满足商业客户的需求，要求成本可控、安全、服务质量和稳定性，这两者之间是有一些差异，所以我们坚持做两件事情，统和起来，最终目标还是让我们追寻AGI。

Q：对智谱清言或者清影（Ying）来说，怎么能够把超级APP做出来？

张鹏：清言APP我们定位成人工智能助，帮你做生产力提效，学习效率提升，工作便利的提升。简单来说就是两个字——使用，我们做所有事情都是往实际效用方向走。实际上我们认为所谓的超级APP，可能它不一定是这样的超级，我们也是循序渐进，在潜移默化过程当中，让大家真的爱上使用，习惯上使用这个工具。可能这个改变并不一定是阶跃式的，而且从时间维度来说，过去半年，大家的使用习惯已经改变了非常多，只不过没有让你一觉醒来就有改变的感觉，这是人感知上的误差。

Q：大模型企业都很烧钱，你现在怎么平衡技术研发投入和商业变现？

张鹏：确实做大模型这件事太烧钱了，而且确实也面临市场上的需求，你要商业化落地，所以我们是分层次去做。最基础的技术突破创新，是我们消耗资源，其中算力消耗方面是最大的部分。商业化层面是在这个基础之上推进的。但商业化这个事情，源于你的技术创新和驱动，我们不太希望说研究是一张皮，商业化、产品、服务客户是另外一张皮，这样的割裂对企业来讲会面临一个问题，就是怎么样分配资源。我们希望是贯通的，商业化过程当中，服务客户过程当中，就是以我们的技术和产品核心能力驱动的，客户的需求和反馈是我们技术往前创新突破和迈进的驱动力，让两者比较好的闭环，我们努力做到这样的事情。

原文标题 : 智谱版“Sora”清影上线，可生成6秒视频，张鹏回应技术商业细节

发表评论