说实话,看到美图 RoboNeo 这次升级的消息,我第一反应是:这算是把 AI 视频做“正”了。
就在 4 月 28 日,美图公司宣布跟阿里创新业务部(ATH)的“智谱 AI"合作,接入了一个叫 HappyHorse 的多模态视频生成模型。简单来说,就是把美图自家的 Seedance 2.0 和这个新模型绑在一起用。
乍一看挺热闹,但这背后到底意味着什么?我觉得可以拆成这么几件事:
首先,这算是给 RoboNeo 换了个更聪明的“大脑”。以前 RoboNeo 虽然也能生成视频,但更多是靠堆叠技巧,生成的内容有时候挺飘。现在接入了阿里的模型,相当于让应用层(美图)直接连通了更先进的基座模型。这种“应用 + 基座”的打法,在国内 AI 圈子里确实是个好路子——毕竟底层技术不硬,上面的应用再花哨也容易露馅。
其次,最大的看点是它终于能“拍长片”了。
我知道,现在的 AI 视频生成,最大的痛点是什么?是连贯性。你让它生成长一点的视频,人物表情会突然崩坏,动作会像鬼畜,逻辑完全对不上。
这次结合 HappyHorse 之后,RoboNeo 至少在理论上能理解长视频的语义了。不再是那种单帧单帧拼凑出来的“短视频”,而是能根据你描述的故事,一段接一段地生成,并且尽量保持人物、场景的一致性。
我自己试了一圈竞品,这种长视频的连贯性,确实是各家都在头疼的难题。 如果能真的解决,那视频创作的技术门槛确实会低不少,普通用户不用懂什么提示词工程,大概描述一下剧情就能出片。
再者,数据表现确实有点猛。
别看现在 AI 火得发紫,但真正能跑通的还是少数。RoboNeo 早在 2025 年 7 月就上线了,而且根据瑞士联合银行(UBS)的数据,到 2026 年 3 月,它的全球月环比增长接近 4 倍。
这数字看着吓人,但细想一下也正常。 毕竟之前的 AI 视频产品,要么画质不行,要么太贵,要么太慢。RoboNeo 这种“长视频 + 音画同步 + 素材一致”的组合拳,正好切中了用户的痛点。所以在 App Store 榜单上它一直霸榜,用户用脚投票的结果,应该比什么“行业趋势”的宏大叙事更有说服力。
最后,不得不提一下竞争环境。
咱们国内的 AI 厂商现在压力不小。字节跳动有豆包、即梦,国外那边 OpenAI 的 Sora 和 Google 的 Gemini 也在虎视眈眈。
RoboNeo 这次能和阿里“智谱 AI"联手,算是给国内厂商吃了一颗定心丸。这说明在国内市场,咱们已经具备了整合大模型资源的能力,不再是从零开始摸索。
不过话说回来, 月增 4 倍虽然厉害,但这离 Sora 那种“电影级”的效果还有多远?我看很多开发者私下都在讨论,国内模型在长视频的逻辑推理上,是不是还差那么一口气。
总的来说,这次升级是个好信号,至少证明了国产 AI 视频生成这条路走通了。但我也担心,随着更多玩家入局,接下来会不会变成一场单纯的“军备竞赛”?毕竟,用户要的不是“能生成”,而是“生成得好看且有用”。
