相比于Sora的大力出奇迹,多数国内的文生视频玩家走的不是这一条路。
文|徐鑫
编|任晓渔
Sora又有新动向。3月25日,OpenAI首次公布了使用Sora制作的创意剧情短片。不同于此前的OpenAI主导生成,这次释放出的视频创作者是艺术家、设计师、创意工作者和电影人。
在视频创意阐释环节,不同的艺术创作者们讲述了Sora在探索新的艺术领域和创意创作过程里的革新。某种程度而言,这也是OpenAI在打样,向外界展示Sora在创意创作领域的想象空间。
相较而言,过去一个多月来,国内视频AIGC领域因Sora而燃起的热潮则涌向了不同的领域。资本市场、上市公司、互联网平台到创业团队都展示出了存在感,不过多数动向都朝向了企业级市场和营销类场景。
就像大模型在国内市场更重视应用场景探索和落地拷问,Sora引发的热潮也表现出了同样的趋势。
01
国内玩家进场
Sora在海外大火后,很快影响到了国内资本市场。
2月19日,Sora概念板块开始出现,当时的指数是1124.75,但很快这一指数节节走高,到3月22日这个板块虽有下跌,但仍到了1675.80的位置。
板块内短剧游戏、手机游戏、多模态AI等多个板块关联公司都曾出现了股价的快速拉升。
一些公司在投资者互动平台上回应了在文生视频赛道的投入和动作,也引发了市场关注。比如因赛集团3月中旬在投资者互动平台上表示,该公司正加大各项资源投入,推动文生视频相关营销应用产品于3月底、4月初开放体验。
去年12月该公司宣布推出营销行业的多模态垂直模型InsightGPT。据其提供信息,该模型的能力除了文生图外,还具备文生文、视频智能剪辑、图生视频等功能,并已在开发文生视频功能。
此外,上市公司万兴科技也宣布其推出的聚焦数字创意垂类创作场景的音视频多媒体大模型具有文生视频能力。易点天下则称,旗下的AIGC数字营销创作平台KreadoAI,基于文生视频的数字人口播视频制作功能,创意营销短视频,已被广泛应用于广告营销多种场景。
大热概念下,这些公司的股价飙升。以因赛集团为例,它的股价2月8日最低点仅为21.12元,经过一个多月狂飙,3月25日收盘价达到了64.52元。
互联网大厂也有动作。不同于一些上市企业从数字营销领域来挖文生视频技术的潜力,短视频平台的动向更偏重于对自身平台能力和生态角度出发动作。
2月初,字节旗下剪映海外版Capcut的AI生成视频功能开放公测。另一平台快手也于近日透露了在文生视频技术的布局。
快手首席执行官程一笑在几天前的业绩电话会上称,快手已于去年底推进专项研发,“我们认为对短视频生态是巨大的机会,未来会把生成模型和生产者工具结合起来,帮助创作者降低创作门槛,提升短视频制作质量和效率。”
平台企业和上市公司之外,创业公司中则有玩家打出了国产版Sora概念产品。3月6日七火山发布了其结合Sora路线迭代的Etna文生视频模型。据介绍,这个模型支持生成8~15秒时长的视频,视频质量每秒60帧。
而3D数字人创业公司魔珐科技也于近期举行了AI战略分享会。
去年8月,魔珐科技在其3D虚拟人AIGC消费级产品发布会上就推出过魔珐有言视频AIGC平台 。
魔珐科技创始人兼CEO柴金祥介绍,目前有言的AIGC能力包含三维动画、 三维超写实形象、三维运镜和声音,能够一键生成场景、运镜、动画、声音等元素,已在培训、电商、金融、快消、广电等多个行业场景里有落地应用。
总体来看,不同于Sora在创业类场景里的挖掘,目前国内企业的动向偏向已有产品的能力升级和ToB场景的应用挖掘。
02
视频AIGC的不同路径
从公开资料看,国内企业目前入局视频AIGC赛道的,多数与OpenAI的Sora的技术路线并不一致。
OpenAI在官网透露过Sora的技术实现——“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。我们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。”
业界认为这种方法与之前ChatGPT的Scaling Law是一致的。360创始人周鸿祎点评,OpenAI实现了用一个架构对文字、图片、视频、音频进行统一处理。他认为,过去很多多模态模型是缝合怪,一个模型处理图片,一个模型处理视频,模型之间互相不能打通。而OpenAI的Sora则依然和之前的ChatGPT是一种路线,他认为这种大力出奇迹的方式,通过大量提升训练参数的量级,实现了令人惊艳的效果。
此前海外的玩家Pika和Runway基本也走的是利用大规模语料素材去训练,而后预测生成的路线,国内的玩家里目前七火山也走了这条路。
有媒体分析,Etna和Sora同样采用了Diffusion+Transform架构,同时Etna加入了处理高分辨率视频时更高效,有助于减少计算资源和内存的需求的卷积神经网络层。
观察人士分析,七火山是从算力投入和商业层面考量,追求更高的分辨率和帧数,舍去了生成更长视频的可能。因而它在对外公开的特色上强调生成视频的帧数和分辨率超过了Sora。
多数国内的文生视频玩家走的不是这一条路。比如因赛集团,从此前因赛集团对外释放出的信息来看,他们的做法偏向从素材查找、内容管理和视频剪辑等核心环节,利用AIGC技术解决传统视频处理方式费时繁琐等难题,而非预测生成。
魔珐科技创始人柴金祥则从2D视频和3D视频的应用场景角度来区分了该公司的AIGC视频产品有言和Sora之间的差异。
柴金祥介绍,目前,Sora生成的内容虽然有些场景看上去很立体,但他认为Sora并没有嵌入游戏引擎,知识训练时学习了一些3D场景的数据,这些视频的类型还是2D场景。
而魔珐有言生成的视频,通过物理引擎渲染完成,放在vision Pro里,直接能看3D内容。未来随着空间计算时代的到来,三维内容相比2D视频内容能带来更好的沉浸感和体验。
同时,目前Sora生成的视频,更偏创意类的视频,这一类视频容错率高,同样的文本可以生成出100个版本的内容。
但柴金祥认为,除了创意类视频,视频生成类场景当下还有大量的需求来自以高密度信息传递为主的企业级场景。
例如,企业内外部信息传达的视频制作需求,其中涉及到企业形象和产品信息传递。这些视频里的信息密度特别大,同时企业通常要求输出的内容高度可控,能编辑和调整,目前他们的产品有言也是从这个场景切入市场。
03
产品化和落地潜力
Sora最新释出的创意短片看起来已经能表达出完整的创意内容,但一些业内人士认为,这个产品仍处于Demo和完善阶段。
一位AIGC创业者点评称,以黄气球代替人脸可能是取巧的做法,Sora现在可能还不能很好支持人物面部的一致性,因为现阶段模型依然很难完全理解现实物理世界的时空规律。
还有人判断,片子看起来像经过了后期剪辑,不过由于它完整呈现了文字内容的意义,整体看起来很有视觉冲击力。
相比OpenAI从创意激发层面强调Sora的能力,国内视频AIGC领域里创业者们则非常重视和强调落地性。
柴金祥认为,国内的大模型落地探索,对企业来说非常重要的一件事是PMF(Product Market Fit,指产品和市场达到最佳的契合点),要看企业能否找到与市场更契合的产品。
内容生产工具赛道,过去十年,B端市场里有Canva、 Figma这样的产品一旦到了产品和市场匹配,增长就很快。
目前,在国内企业级市场的视频生成场景里,柴金祥认为,能精准控制从人物形象、输出的内容和场景等各种信息,最终能生成高质量的视频的AIGC模式,更适合在企业端去落地,这些场景里信息密度一般比较高,信息需要精准。
柴金祥提及,国内电商、短视频和直播的应用生态领先全球,因此许多视频AIGC场景也是从这些场景出发,来寻找空间。
以他们此前服务B端客户为例,一个超写实虚拟人实现成本在几十万上下,帮客户制作一条视频成本往往要几十万元,并且时间周期要一两个月,超写实虚拟人直播成本就更高。因此市场就非常希望有更低成本来做信息传达和营销类视频,魔珐科技目前的产品端也是在这个方向延伸。
“技术如果没有转变成产品,没有给用户带来很突出的价值,很难获得生存空间”,柴金祥说,目前视频AIGC赛道规模化的门槛很高,而技术做到产品化后,未来企业的成本可能更多是GPU成本,更容易实现规模化增长。
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论