Google 视频模型登顶盲测榜，字节跳动掉队了？

核心事件：Google 突然把字节干下去了

7 月 3 日，那个专门测 AI 视频生成水平的榜单 Video Arena 又更新了。这次换 Google DeepMind 出的新模型 Gemini Omni Flash 拿了第一，Elo 评分 1404 分。

说实话，看到这个排名我有点意外。以前那个一直挺火的字节跳动 Seedance 系列直接被挤下去了，分差一下子拉开了 101 分。

说实在的，Google 这次表现确实让人刮目相看。虽然他们家多模态大模型一直做得不错，但视频生成这块过去一直有点吃力。

这次 Gemini Omni Flash 直接超越了 Seedance，把对方甩开了 100 多分。这种差距在 AI 领域已经算挺大了，毕竟模型迭代没那么快，能一下子拉开这么多，说明 Google 这次是真的下了狠功夫。

如果只看视频生成这一块，Google 其实进步很明显。

对比上一代模型 Veo，这次新模型直接把整体排名往前提了 7 位。这意味着 Google 在这一轮技术升级里，不管是底层架构还是应用落地，都找到了更有效的路径。

我看了一下榜单的构成，Video Arena 的分数不是专家给的，全是真实用户在盲测里投出来的票。这意味着这个分数非常“硬”，因为用户只看到视频本身，不知道是哪个模型生成的。

这种“真实用户投票”的机制，让榜单变化特别有参考价值。分数暴涨的背后，主要是两件事：

这种变化直接拉高了行业“天花板”。以前做那种长视频、复杂场景，模型经常卡壳或者逻辑对不上。现在的情况是，用户能接受更长的时长，画面里的物体也不会莫名其妙变形。

现在 Gemini Omni Flash 拿了第一，字节跳动肯定坐不住了。

对于字节跳动来说，这不仅是排名的压力，更是产品力的挑战。他们手里的 Seedance 系列用户基础不小，如果下一代模型拿不出能跟 Google 掰手腕的东西，市场份额恐怕会被快速蚕食。

我也在琢磨，这种“你追我赶”的激烈竞争对咱们普通创作者是好是坏？

不过，从长远看，还是利大于弊。大家都有压力，技术才会往前冲。

一点个人想法

我其实有点担心这种“唯分数论”。1404 分确实很高，但用户真的能看懂这种分差吗？有时候 100 分的差距，肉眼看起来可能也就是一点点画面更流畅，或者手指动作稍微自然点。

目前看来，Google 赢在“稳”和“全”，而字节跳动赢在“快”和“本地化”。接下来就看谁更能抓住用户的实际需求了。