智谱 AI 发布了什么？

2000 亿参数？这数字看着挺唬人，但说实话，我第一反应是：这玩意儿到底能干嘛？

前几天在北京，智谱 AI 刚成立不到半个月，就搞了个大动作，发布了 HiDream-O1-Image-Pro。官方说法是“原生多模态”，用了一套叫 UiT 的新架构。听起来很专业，但咱们得剥开这层“行业术语”看看里面到底有什么。

先说最显眼的：参数。
超过 2000 亿。这数字在圈里确实够大，但也容易让人想当然地以为“越大越好”。事实是，他们的闭源版在这个量级上，图生图的效果确实能追平甚至超越一些老牌模型，特别是在那种“听指令画个复杂场景”或者“给照片里的人换套衣服”这种需要理解逻辑的任务上，比单纯拼凑的模型强不少。

不过，更让我觉得有意思的是他们怎么辩解“原生”这两个字的。
现在的生成模型，大多是把生成模型和文本模型像搭积木一样拼在一起（也就是所谓的“模态缝合”）。这种拼法有个硬伤：图像和文字对世界的理解是割裂的。比如你让模型生成一个“手里拿着苹果的人”，拼凑的模型可能画了个苹果，却忘了手的大小比例，或者苹果看起来像凭空悬浮的。

智谱 AI 的 UiT 架构有点不一样。他们把图像像素和文字信息都转成同一种“共享 Token"，强行让它们在一个空间里对话。这就好比把原本各自为政的翻译官关进同一个房间，逼他们直接交流。开源版那个 8B 参数的小模型，居然能在开源榜上跑第一，而且参数量还很小，这证明这套“强行融合”的逻辑是走得通的，不是光靠堆参数就能吹出来的。

再聊聊他们吹的“理解世界”。
创始人梅涛在台上说了不少大词，什么“世界的规则”、“物理定律”、“因果逻辑”。听着很宏大，但落地时真能做到吗？
我看了下他们几个应用产品，稍微有点“落地”的感觉：

HiBurst 是给 TikTok 做电商视频的，一年能出 100 万条视频，带货额过亿。这说明他们的模型至少懂点“怎么把东西卖出去”的商业逻辑，虽然离真正的“理解物理世界”还差得远，但懂“商业物理”总归是进步。
FrameZan 做影视创作的，能把剧本直接变成片子。这确实挺酷，但更多是流程上的自动化，离“理解剧情背后的因果”还有一段距离。
vivago 能生成长故事视频，用户量 4000 万。这意味着它至少在尝试理解“时间”和“叙事结构”，这点比单纯生成一张图要复杂得多。

这里有个问题我得提一下：
智谱 AI 现在的宣传，有点过于急切地想把自己定义成“世界模型”了。他们说这是通往 AGI（通用人工智能）的必经之路。但在我看来，这更像是一个美好的愿景，而不是已经成熟的事实。
现在的模型，哪怕参数堆到 2000 亿，离真正理解物理世界的规律（比如重力怎么作用、液体怎么流动）还是有点勉强。它们能生成看起来很逼真的画面，但如果你问它“如果我把这块石头扔进水里，水花会怎么溅起来”，它大概率会画出一滩模糊的水，而不是符合物理规律的溅射。

关于融资和合作，我也稍微冷静地看两眼。
成立不到半个月就拿了深创投、金浦投资的大钱，还跟上海电影新愿景基金、倍尔健康这些公司签了合作。消息面确实热闹，资本市场也很看好。
但咱们得看清：这些合作大多集中在“影视”和“电商”。这是最容易变现的地方，因为大家急需内容，急需视频。至于他们宣称的“医疗健康”或者更深层的行业应用，目前看还是停留在“深度参与”这种比较虚的词上。

总结一下我的想法：
这次发布确实是个里程碑。2000 亿参数的模型加上“原生统一”的架构，在技术路线上确实走对了路，打破了以往那种“拼凑”的局限。
但是，别被“理解世界”、“迈向 AGI"这些词给带飞了。目前的模型，更多的还是在一个个垂直场景里把活儿干漂亮（比如生成视频、做广告），至于它们是不是真的“懂”这个世界，还得看时间。

如果你是想找工具来做视频营销或者搞点创意短片，HiDream-O1-Image-Pro 这系列工具现在确实挺好用，甚至有点强。但如果你指望它明天就能像人类一样思考物理世界，那可能还得再等几年。

毕竟，生成内容和理解世界之间，隔着的不只是参数，还有对现实世界那种笨拙但必要的“体感”。

火龙果频道

近期新闻

AI-NEWS · 2026年 5月 22日

您可能还喜欢...

AI-NEWS · 2026年 5月 22日

您可能还喜欢...

Cognichip 拿了 6000 万，让 AI 去造芯片

Lovable获资推无代码应用

视频生成速质双突破