AI-NEWS · 2026年 6月 5日

LongCat-Next:把多模态做成“原生”

1. 真正的转折:不再“外挂”模块

最近,整个 AI 圈都在讨论一个新词:"AI 原生语言”。这听起来很宏大,但核心其实很直接:别再搞那种视觉或音频模块只是“贴”在大模型旁边的做法了。

LongCat 团队正式开源了 LongCat-Next,想彻底解决这个问题。它的目标很明确——让 AI 像人一样,从底层就“原生”地理解物理世界,而不是靠外挂补丁去硬凑。

2. 架构变了:DiNA 和“离散化”的新玩法

LongCat-Next 用了一套叫 DiNA (Discrete Native Autoregressive) 的新架构。简单说,就是解决了多模态信息只能被“翻译”(投射)而无法真正“吃进肚子里”(内化)的老大难问题。

  • 一套架构管到底:不管图像、声音还是文字,最后都变成同一套离散的 Tokens
  • 参数共享:基座模型不再需要为不同模态单独准备一套参数,注意力机制和损失函数全都共用。
  • 核心逻辑:所有模态统一简化为 "Next Token Prediction (NTP)"(下一个 Token 预测)。
  • 好处:架构变极简了,部署也变轻量了。

3. 两个关键突破:dNaViT 和 SAE

为了把“视觉词汇”做出来,团队搞了两手硬牌:

3.1 dNaViT (Discrete Native Resolution Visual Tokenizer)

  • 功能:支持任意分辨率,不需要像以前那样硬切格子。在文档解析、复杂图表推理这些对细节要求高的任务上,效果很能打。
  • 技术原理
    • 用了 8 层残差向量量化 (RVQ)
    • 像素压缩比直接干到了 28 倍
    • 用了解耦的双轨生成解码器,确保图像和文字重建得比较像样。
  • 效果:形成了一个完整的 "Image → Token → Image" 闭环。这意味着模型真的能在文本域里“看见”并生成图像,而不仅仅是画个图。

3.2 SAE (Semantic Alignment Encoder)

  • 解决痛点:以前大家总担心,把连续信息转成离散的 Token 肯定会丢信息。
  • 实现方式:通过构建 SAE 进行分层拟合,在有限的离散空间里尽可能还原那些高维的连续表示。
  • 意义:这算是给“离散化必然导致信息损失”这个老调调打了个大嘴巴,证明了离散表示也能当统一载体用。

4. 跑分与我的观察

基于 LongCat-Flash-Lite MoE(总参数量 68.5B,激活参数量 3B)这个基座,LongCat-Next 在几个测试里表现确实有点东西:

测试维度 关键指标/结果 我的观察
跨模态协作 OmniDocBench 测试中,性能不仅超越 Qwen3-Omni,更击败了专用视觉模型 Qwen3-VL 打破刻板印象:以前总觉得离散模型搞不清细节,这回直接证明在视觉理解上,离散架构也能很犀利。
纯文本能力 MMLU-ProC-Eval 测试中继续领先。 没丢家底:追多模态的时候,没牺牲核心的语言智商。
工具与代码 SWE-Bench 分数显著超越同类模型。 干活利索:在实际编程和工具调用场景里,它似乎更顺手。
音频领域 SeedTTS 上实现中英文语音合成的极低词错误率 (WER);支持低延迟并行文生音及个性化声音克隆。 听觉也在线:证明了这架构在听觉模态上也能搞出高质量生成,不是偏科。

5. 怎么拿

  • 发布状态:模型已经全量开源了。
  • 获取地址:GitHub、HuggingFace。

最后说两句
LongCat-Next 的发布确实是个信号,标志着 AI 模型架构正从“拼凑积木”向“原生多模态”转变。通过 dNaViT 和 SAE 这些技术,它试图解决离散化带来的信息损耗,并证明统一架构在视觉、听觉及文本全领域的潜力。

当然,看着这些漂亮的数字我也忍不住想:当 AI 开始像人一样“原生”地感知世界时,我们人类的角色又会被怎么重新定义?这比单纯的性能提升更值得玩味。

火龙果频道