OpenAI CTO最新采访：Sora推理成本还很高，短期内不会放开

2024-03-15 16:02

OpenAI的新款文生视频人工智能模型Sora可以创建一些非常逼真的场景。这种生成式人工智能技术是如何工作的？为什么有时会出错？什么时候会向公众发布？它是基于哪些数据训练的？

华尔街日报的Joanna Stern与OpenAI首席技术官Mira Murati在本期节目中对以上问题作出探讨，Mira Murati表示，ChatGPT和DALL-E发布前，都对面向公众提供服务而进行了优化，而Sora目前还是一个研究成果，推理成本要高很多，OpenAI正在努力使其成本最终与DALL-E相当。

对于大家关心的是Sora开放时间点，Mira Murati也给出了自己的预期：今年肯定能做到，但可能还需要几个月的时间。

有趣的是，在本次采访中，面对主持人有关Sora训练数据的问题，Mira Murati表示Sora使用了公开和授权的数据，当被问及是否会直接用YouTube等公开平台上的视频，Mira Murati选择了回避，并没有证明作答。

目录：

01 评价Sora生成的视频

02 优化和训练Sora

03 对Sora的担忧

04 识别Sora生成的视频

/ 01 / Sora视频是如何运作的？

Joanna Stern：Sora是如何工作的？

Mira Murati：从本质上说，Sora是一种扩散模型，是生成模型的一种。它从随机噪点开始，创造出更加提炼的图像。这个AI模型分析了大量视频，学会识别物体和动作。当给出文本提示时，它会通过定义时间线和为每一帧添加细节来创建场景。使这种AI视频与众不同的是它看起来流畅自然。

如果你想想电影制作，每个人都要确保每一帧与下一帧之间有连贯性，物体和人物有一致性，这就给你一种现实感和临场感。如果在帧与帧之间打断这种连贯性，你就会有一种割裂的感觉，现实感也就不复存在了。这正是Sora做得很好的地方。

Joanna Stern：你可以在OpenAI根据我提供的提示生成的视频中看到这种流畅性。但你也可以看到缺陷和失真。（主持人向Mira Murati展示了三个由Sora生成的视频，在第一个视频中，可以看到模型没有非常贴合提示。机器人并没有真的从她手中夺走摄像机，而是这个人物变形成了机器人。当汽车经过时，它们的颜色会改变，而且那辆黄色出租车一度从画面中消失，然后又在另一帧中重新出现了。）

Mira Murati：尽管模型在连续性方面做得相当不错，但并不完美。我们正在努力弄清楚如何将这项技术作为一种工具，让人们可以用它进行编辑和创作。

Joanna Stern：我想分享另一个视频...你觉得这个视频是什么提示？

Mira Murati：看起来像是一只牛闯入中国商店。按字面理解，你可以想象现场到处都是被破坏的景象，对吧？但你会看到，有些镜头中牛正在踩踏物体，但物体却保持完好无损。在这个早期阶段，这是可以预期的。最终肯定会有更多的可控性和精确性，能够更好地反映你的意图。

Joanna Stern：还有那个关于我们两人的视频。左边那个女人在某个镜头里好像有15个手指。

Mira Murati：手部运动是一种独特的动作，模拟手部动作非常困难。

Joanna Stern：在这段视频里，嘴唇在动但没有声音。那么Sora会不会加入音频功能呢？

Mira Murati：Sora目前还没有，但我们终将会添加音频功能。

/ 02 / 优化和训练Sora

Joanna Stern：每次看到Sora生成的视频，我都会想知道这个AI模型是使用什么视频数据进行训练的？它是否看过《斐迪南》的剧集，所以知道一只牛闯入中国商店该是什么情况？它是否是海绵宝宝的粉丝？

Mira Murati：我们使用了公开和授权的数据。

Joanna Stern：所以，像YouTube上的视频？

Mira Murati：我其实不太确定这一点。

Joanna Stern：好吧，Facebook、Instagram上的视频呢？

Mira Murati：你知道的，如果它们是公开可用的，可能会有这些数据，但我不太确定。

Joanna Stern：那么Shutterstock呢？我知道你们与它们有协议。

Mira Murati：我不打算透露具体使用了哪些数据，但都是公开或授权的数据。（在采访后，穆拉蒂证实，授权数据确实包括来自Shutterstock的720p 20秒视频素材。）

Joanna Stern：那生成这样的视频需要多长时间呢？

Mira Murati：根据提示的复杂程度，可能需要几分钟时间。我们的目标是使模型达到最佳性能，现在我们正优化这项技术，使之平价易用。

Joanna Stern：要创建这些视频，你们肯定使用了大量的计算能力。你能给我们一个大概的认识，与生成ChatGPT的回复或DALL-E图像相比，需要多少计算能力吗？

Mira Murati：ChatGPT和DALL-E都为面向公众提供服务而进行了优化，而Sora目前还是一个研究成果，计算成本要高出许多。我们还不清楚最终向公众开放时会是什么样的，但我们正在努力使其成本最终与DALL-E相当。

Joanna Stern：你说的"最终"是什么时候？

Mira Murati：我希望今年肯定能做到，但可能还需要几个月的时间。

Joanna Stern：11月就有大选，你认为会在大选前还是后？

Mira Murati：你知道，这当然是一个需要考虑的因素，因为涉及到虚假信息和有害偏差的问题。在我们对其可能对全球大选或其他问题产生的影响有足够的信心之前，我们是不会发布任何东西的。

/ 03 / 对Sora的担忧

Joanna Stern：目前，Sora正在经历"红队"测试，也就是人们测试这个工具以确保其安全、可靠和稳健的过程。目的是识别漏洞、偏差和其他有害问题。你认为会有哪些事情是绝对不能用Sora生成的？

Mira Murati：我们还没有做出那些决定，但我认为在openAI的平台上会保持一致性。所以与DALL-E类似，你无法生成公众人物的图像，我期望Sora也会有类似的政策。目前我们还在探索阶段，还没有完全弄清楚所有的限制在哪里，以及我们将如何解决。

Joanna Stern：那色情内容呢？

Mira Murati：我不太确定。你可以想象，在某些创作环境中，艺术家可能希望对此有更多控制权。目前，我们正在与来自不同领域的艺术家和创作者合作，弄清楚到底什么才是有用的，工具应该提供什么程度的灵活性。

Joanna Stern：你们如何确保测试这些产品的人员不会被非法或有害内容淹没？

Mira Murati：这确实很困难。在最初阶段，这确实是"红队"测试要考虑的一部分，要确保人员愿意并能够胜任。当我们与外包人员合作时，我们会在这个过程中做得更彻底，但这确实是一件很困难的事情。

Joanna Stern：我们现在在笑看这些视频。但是对于从事视频行业的人来说，几年后当这种技术影响到他们的工作时，他们可能就笑不出来了。

Mira Murati：我是这样看待这个问题的：这是一种扩展创造力的工具，我们希望电影行业的人、各地的创作者，都能参与进来，为我们进一步开发这项技术提供意见，也为如何部署它提供建议。还有，当人们贡献数据等时，应该如何处理经济问题。

/ 04 / 对Sora的担忧

Joanna Stern：有一点是清楚的，这项技术会很快变得更快、更好，并被广泛采用。我们将如何区分真实视频和AI视频呢？

Mira Murati：我们正在研究视频水印技术，但真正弄清楚内容的来源以及如何信任真实内容与虚假内容的区别，这才是重中之重。这就是为什么我们实际上还没有广泛部署这些系统的原因，因为在我们能够自信地大规模部署之前，我们需要先解决这些问题。

Joanna Stern：听到这个很令人放心。但硅谷争相开发AI工具，追求权力和金钱而不顾我们的安全，这仍然是一个令人担忧的大问题。

Mira Murati：在利润和安全防护之间寻求平衡并不是什么难事。我认为真正艰难的是弄清楚那些安全和社会问题，这才是真正让我夜不能寐的原因。

Joanna Stern：对于这款产品，我们一方面对它的惊人感到赞叹，但另一方面也讨论了所有这些担忧。那么它是否值得去做呢？

Mira Murati：它绝对是值得的。AI工具将扩展我们的创造力、知识、集体想象力和一切能力。在将AI工具引入我们日常生活的过程中，找到正确的道路肯定会极其艰难。但我认为，要尝试这种做法是绝对值得的。

原文标题 : OpenAI CTO最新采访：Sora推理成本还很高，短期内不会放开

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

立即登录即可访问所有OFweek服务

忘记密码

其他方式

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻