2000 亿参数?这数字看着挺唬人,但说实话,我第一反应是:这玩意儿到底能干嘛?
前几天在北京,智谱 AI 刚成立不到半个月,就搞了个大动作,发布了 HiDream-O1-Image-Pro。官方说法是“原生多模态”,用了一套叫 UiT 的新架构。听起来很专业,但咱们得剥开这层“行业术语”看看里面到底有什么。
先说最显眼的:参数。
超过 2000 亿。这数字在圈里确实够大,但也容易让人想当然地以为“越大越好”。事实是,他们的闭源版在这个量级上,图生图的效果确实能追平甚至超越一些老牌模型,特别是在那种“听指令画个复杂场景”或者“给照片里的人换套衣服”这种需要理解逻辑的任务上,比单纯拼凑的模型强不少。
不过,更让我觉得有意思的是他们怎么辩解“原生”这两个字的。
现在的生成模型,大多是把生成模型和文本模型像搭积木一样拼在一起(也就是所谓的“模态缝合”)。这种拼法有个硬伤:图像和文字对世界的理解是割裂的。比如你让模型生成一个“手里拿着苹果的人”,拼凑的模型可能画了个苹果,却忘了手的大小比例,或者苹果看起来像凭空悬浮的。
智谱 AI 的 UiT 架构有点不一样。他们把图像像素和文字信息都转成同一种“共享 Token",强行让它们在一个空间里对话。这就好比把原本各自为政的翻译官关进同一个房间,逼他们直接交流。开源版那个 8B 参数的小模型,居然能在开源榜上跑第一,而且参数量还很小,这证明这套“强行融合”的逻辑是走得通的,不是光靠堆参数就能吹出来的。
再聊聊他们吹的“理解世界”。
创始人梅涛在台上说了不少大词,什么“世界的规则”、“物理定律”、“因果逻辑”。听着很宏大,但落地时真能做到吗?
我看了下他们几个应用产品,稍微有点“落地”的感觉:
- HiBurst 是给 TikTok 做电商视频的,一年能出 100 万条视频,带货额过亿。这说明他们的模型至少懂点“怎么把东西卖出去”的商业逻辑,虽然离真正的“理解物理世界”还差得远,但懂“商业物理”总归是进步。
- FrameZan 做影视创作的,能把剧本直接变成片子。这确实挺酷,但更多是流程上的自动化,离“理解剧情背后的因果”还有一段距离。
- vivago 能生成长故事视频,用户量 4000 万。这意味着它至少在尝试理解“时间”和“叙事结构”,这点比单纯生成一张图要复杂得多。
这里有个问题我得提一下:
智谱 AI 现在的宣传,有点过于急切地想把自己定义成“世界模型”了。他们说这是通往 AGI(通用人工智能)的必经之路。但在我看来,这更像是一个美好的愿景,而不是已经成熟的事实。
现在的模型,哪怕参数堆到 2000 亿,离真正理解物理世界的规律(比如重力怎么作用、液体怎么流动)还是有点勉强。它们能生成看起来很逼真的画面,但如果你问它“如果我把这块石头扔进水里,水花会怎么溅起来”,它大概率会画出一滩模糊的水,而不是符合物理规律的溅射。
关于融资和合作,我也稍微冷静地看两眼。
成立不到半个月就拿了深创投、金浦投资的大钱,还跟上海电影新愿景基金、倍尔健康这些公司签了合作。消息面确实热闹,资本市场也很看好。
但咱们得看清:这些合作大多集中在“影视”和“电商”。这是最容易变现的地方,因为大家急需内容,急需视频。至于他们宣称的“医疗健康”或者更深层的行业应用,目前看还是停留在“深度参与”这种比较虚的词上。
总结一下我的想法:
这次发布确实是个里程碑。2000 亿参数的模型加上“原生统一”的架构,在技术路线上确实走对了路,打破了以往那种“拼凑”的局限。
但是,别被“理解世界”、“迈向 AGI"这些词给带飞了。目前的模型,更多的还是在一个个垂直场景里把活儿干漂亮(比如生成视频、做广告),至于它们是不是真的“懂”这个世界,还得看时间。
如果你是想找工具来做视频营销或者搞点创意短片,HiDream-O1-Image-Pro 这系列工具现在确实挺好用,甚至有点强。但如果你指望它明天就能像人类一样思考物理世界,那可能还得再等几年。
毕竟,生成内容和理解世界之间,隔着的不只是参数,还有对现实世界那种笨拙但必要的“体感”。
