核心事件:Google 突然把字节干下去了
7 月 3 日,那个专门测 AI 视频生成水平的榜单 Video Arena 又更新了。这次换 Google DeepMind 出的新模型 Gemini Omni Flash 拿了第一,Elo 评分 1404 分。
说实话,看到这个排名我有点意外。以前那个一直挺火的字节跳动 Seedance 系列直接被挤下去了,分差一下子拉开了 101 分。
数据背后到底发生了什么?
1. Google 这一波怎么突然这么猛?
说实在的,Google 这次表现确实让人刮目相看。虽然他们家多模态大模型一直做得不错,但视频生成这块过去一直有点吃力。
这次 Gemini Omni Flash 直接超越了 Seedance,把对方甩开了 100 多分。这种差距在 AI 领域已经算挺大了,毕竟模型迭代没那么快,能一下子拉开这么多,说明 Google 这次是真的下了狠功夫。
2. Google 的整体排名暴涨
如果只看视频生成这一块,Google 其实进步很明显。
对比上一代模型 Veo,这次新模型直接把整体排名往前提了 7 位。这意味着 Google 在这一轮技术升级里,不管是底层架构还是应用落地,都找到了更有效的路径。
3. 到底是什么推了这把火?
我看了一下榜单的构成,Video Arena 的分数不是专家给的,全是真实用户在盲测里投出来的票。这意味着这个分数非常“硬”,因为用户只看到视频本身,不知道是哪个模型生成的。
这种“真实用户投票”的机制,让榜单变化特别有参考价值。分数暴涨的背后,主要是两件事:
- 算力真的管饱了:Google 最近把大量算力资源倾斜给了视频模型训练,不再像以前那样精打细算。
- 模型架构变了:他们似乎找到了一种更高效的生成方式,不再单纯堆参数,而是优化了生成逻辑。
这种变化直接拉高了行业“天花板”。以前做那种长视频、复杂场景,模型经常卡壳或者逻辑对不上。现在的情况是,用户能接受更长的时长,画面里的物体也不会莫名其妙变形。
行业会怎么变?
现在 Gemini Omni Flash 拿了第一,字节跳动肯定坐不住了。
对于字节跳动来说,这不仅是排名的压力,更是产品力的挑战。他们手里的 Seedance 系列用户基础不小,如果下一代模型拿不出能跟 Google 掰手腕的东西,市场份额恐怕会被快速蚕食。
我也在琢磨,这种“你追我赶”的激烈竞争对咱们普通创作者是好是坏?
- 好处是:技术跑得太快,以前想都不敢想的视频特效,可能下个月就能免费用上了。
- 麻烦是:技术迭代太快,今天学的工具,下个月可能就被淘汰了,学习成本有点高。
不过,从长远看,还是利大于弊。大家都有压力,技术才会往前冲。
一点个人想法
我其实有点担心这种“唯分数论”。1404 分确实很高,但用户真的能看懂这种分差吗?有时候 100 分的差距,肉眼看起来可能也就是一点点画面更流畅,或者手指动作稍微自然点。
目前看来,Google 赢在“稳”和“全”,而字节跳动赢在“快”和“本地化”。接下来就看谁更能抓住用户的实际需求了。
