谷歌开了两个小时的发布会，比不上OpenAI半小时

2024-05-15 19:52

乌鸦智能说

关注

在OpenAI 春季发布会的第二天，2024 年谷歌 I/O大会正式召开。

或许出于反击OpenAI的需要，谷歌为这个大会准备了很多东西：从基座模型 Gemini 升级到新的AI语音助手 Astra、新的文生视频模型Veo，以及更强大的文生图模型Imagen3。

这个大会开了整整两个小时，时长是OpenAI发布会的四倍。但从结果来说，似乎没有任何令人惊艳的地方。就连最可能成为爆款的AI语音助手Astra，也在GPT-4o衬托下显得“平平无奇”。

发布会效果比不过就算了，关注度也比不过。甚至在谷歌发布会召开的今天，OpenAI还主动释放出首席科学家Ilya Sutskever离职的消息。

这两场紧紧挨着的发布会，也很好诠释了两者当下的处境：在OpenAI不断阻击下，谷歌始终是那个活在OpenAI阴影下的人。

/ 01 / AI产品全面升级

在发布会上，最重要的自然是基座模型Gemini的升级，此次升级大致可以归结为：更长上下文、轻量版本、个性化机器人。

升级后的Gemini 可以分析比以前更长的文档、代码库、视频和音频记录。据透露，它最多可以容纳 200 万 token。这是之前的两倍，新版 Gemini 1.5 Pro支持所有商用型号中最大的输入。

为了满足不同场景的需求，谷歌还发布了新的轻量级模型：Gemini 1.5 Flash。据介绍，Gemini 1.5 Flash是 Gemini 1.5 Pro 的“精炼”版本，同样拥有多达 200 万个 token 上下文窗口，且和Gemini 1.5 Pro一样，拥有多模态功能，适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。

在定价上，Gemini 1.5 Flash 的价格定为每 100 万 tokens 35 美分，这比 GPT-4o 的每 100 万 tokens 5 美元的价格要便宜得多。

对于 Gemini 的订阅用户，可以使用谷歌新推出的「Gems」功能，类似于 OpenAI 的 GPT 商店。用户可以自行创建Gems，与其进行交流互动。

除了Gemini外，谷歌还对文生图模型Imagen2进行了升级。DeepMind 负责人 Demis 声称，与 Imagen 2 相比，Imagen 3 能够更准确理解图像的文本提示词，并且生成的图片更具创造性和细节。为了减轻人们对深度伪造的可能性的担忧，Imagen3将使用SynthID，可将不可见的加密水印应用于媒体。

在升级模型的同时，谷歌还发布了多款新品，包括新的AI语音助手Astra以及文生视频模型 Veo。

Astra 能够通过设备的摄像头识别物体和场景，并用自然语言进行交互。官方介绍，Astra 使用了 Gemini Ultra 的高级版本。在演示视频中，谷歌的 AI 助手能够通过摄像头视频，识别 " 什么东西能发出声音 "、" 现在身处何地 " 等指令。

DeepMind CEO Demis Hassabi表示，这样的 AI 助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西，这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导，以及自然、无延迟地进行交流。

而视频生成模型Veo直接对标OpenAI 的 Sora，可以根据文本提示创建大约一分钟长的 1080p 视频剪辑。Veo 可以捕捉不同的视觉和电影风格，包括风景和延时镜头，并对已生成的镜头进行编辑和调整。

与Sora类似，Veo展现了对物理规律的一定理解，比如流体动力学和重力等。这与其训练数据有关，官方人员承认有些数据来自 YouTube。

/ 02 / 更强的AI搜索来了

AI搜索的升级，也是本次发布会的一大亮点。

在此次发布会上，谷歌推出了AI Overviews(AI 概览），该功能将AI结果加入到搜索内容呈现，即当用户进行提问时，页面顶部将提供 AI 生成的答案。

官方人员表示，AI 概览不会出现在每个搜索结果中，目前主要针对于更复杂的问题。每次用户进行搜索时，谷歌会在后台进行算法价值判断，以决定是否提供由 AI 生成的答案还是直接提供传统的网页链接。

去年以来，谷歌一直在通过其搜索生成体验（SGE）测试 AI 驱动的可能性。谷歌搜索主管 Liz Reid 表示，在其 AI 概述功能的测试期间，谷歌观察到人们点击了更加多样化的网站。据介绍，该功能面向全平台推出，从 Web 网页、App 到 Android 设备，预计将在本周内全面开放，在年底推广到更多国家。

除了提供答案外，搜索还新增了行程规划功能，帮用户制定更为详细的规划。比如，用户可以输入诸如“为四口之家计划三天的膳食”之类的查询，并获取这三天的链接和食谱。

与此同时，谷歌也强化了多模态方面的搜索表现。比如，谷歌推出了AI 驱动的“圈搜索”功能，允许 Android 用户使用转圈等手势立即获得答案。这一设计的初衷是，让用户在手机上的任何地方都可以更自然地通过一些操作（例如圈选、突出显示、涂鸦或点击）来使用 Google 搜索。

此外，用户还能通过结合视频进行搜索。比如，用户在旧货店买了一台唱片机，但打开时无法工作，带有针头的金属部件在意外漂移。用视频搜索能够，更清晰、准确地反馈这个问题。

此次谷歌推出AI搜索，是对Perplexity等AI搜索玩家崛起的直接回应。自生成式AI崛起开始，搜索被认为是AI应用最成熟的场景。无论是流量数据还是估值，Perplexity都有着不错的表现。

根据Similarweb数据，Perplexity今年前三月的流量分别为4560万、4954万和6149万，不断增长。在估值方面，根据 TechCrunch 最新报道，Perplexity 正在筹集至少 2.5 亿美元资金融资，最新估值在 25～30 亿美元之间。

尽管用户体量依然差谷歌几个量级，但Perplexity仍然在一个Google长期霸占的市场利用AI获得了阶段性颠覆成果。

从此次发布会看，与其他AI搜索相比，谷歌AI搜索的差异性有限，更多体现在多模态。换句话说，仅从功能上看，谷歌的AI搜索并未与Perplexity们拉开质的差距。

/ 03 / 被“压制”的谷歌

谷歌的I/O大会仅比OpenAI的春季功能更新会晚一天，两者很容易被人拿来进行对比。

要说重视程度，谷歌肯定完爆OpenAI。OpenAI的发布会开了仅仅半个小时，主要介绍了新模型GPT-4o和ChatGPT在语音和视觉功能上的升级。而谷歌则开了整整两个小时，一口气拿出来十来款新品及升级，所有武器库倾巢而出，全面对标OpenAI。

但努力并不意味着最后的结果。尽管谷歌发布产品很多，但没有任何一款给人带来GPT-4o那样的惊艳感，显得多少有些“鸡肋”。

发布会效果比不过就算了，流量也比不过。就在谷歌发布会的同一时间，OpenAI首席科学家Ilya Sutskever在X发布了自己离开OpenAI消息，再次抢走了谷歌发布会的关注度。

一个无比残酷的事实是，自2022年12月ChatGPT发布以来，曾经AI领域的扛把子谷歌就一直被OpenAI压制得死死的，毫无还手之力。

去年2月，OpenAI的ChatGPT风靡全球，谷歌草草推出了聊天机器人Bard，产品却不如预期。先是演示中出现事实错误，让谷歌母公司一夜之间市值蒸发千亿美元；而后也没能以性能表现吸引足量用户，据Similarweb的数据，Bard全球月访问量只有2.2亿次，仅为ChatGPT的1/8。

2月16日大年初七，谷歌放出其大模型核弹——Gemini 1.5，并将上下文窗口长度扩展到100万个tokens。Gemini 1.5 Pro可一次处理1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库，向还没发布的GPT-5发起挑战。没过几天，OpenAI发布了文生视频大模型Sora，后来的结果大家都知道了。

如今，这样的故事还在延续。至少到目前为止，OpenAI的策略很成功，通过锚定谷歌的产品发布节奏，死死压制住了谷歌。这也谷歌AI始终摆脱不了一个外界印象：

谷歌AI很强，但与OpenAI相比，还不够。