1. 真正的转折:不再“外挂”模块
最近,整个 AI 圈都在讨论一个新词:"AI 原生语言”。这听起来很宏大,但核心其实很直接:别再搞那种视觉或音频模块只是“贴”在大模型旁边的做法了。
LongCat 团队正式开源了 LongCat-Next,想彻底解决这个问题。它的目标很明确——让 AI 像人一样,从底层就“原生”地理解物理世界,而不是靠外挂补丁去硬凑。
2. 架构变了:DiNA 和“离散化”的新玩法
LongCat-Next 用了一套叫 DiNA (Discrete Native Autoregressive) 的新架构。简单说,就是解决了多模态信息只能被“翻译”(投射)而无法真正“吃进肚子里”(内化)的老大难问题。
- 一套架构管到底:不管图像、声音还是文字,最后都变成同一套离散的 Tokens。
- 参数共享:基座模型不再需要为不同模态单独准备一套参数,注意力机制和损失函数全都共用。
- 核心逻辑:所有模态统一简化为 "Next Token Prediction (NTP)"(下一个 Token 预测)。
- 好处:架构变极简了,部署也变轻量了。
3. 两个关键突破:dNaViT 和 SAE
为了把“视觉词汇”做出来,团队搞了两手硬牌:
3.1 dNaViT (Discrete Native Resolution Visual Tokenizer)
- 功能:支持任意分辨率,不需要像以前那样硬切格子。在文档解析、复杂图表推理这些对细节要求高的任务上,效果很能打。
- 技术原理:
- 用了 8 层残差向量量化 (RVQ)。
- 像素压缩比直接干到了 28 倍。
- 用了解耦的双轨生成解码器,确保图像和文字重建得比较像样。
- 效果:形成了一个完整的 "Image → Token → Image" 闭环。这意味着模型真的能在文本域里“看见”并生成图像,而不仅仅是画个图。
3.2 SAE (Semantic Alignment Encoder)
- 解决痛点:以前大家总担心,把连续信息转成离散的 Token 肯定会丢信息。
- 实现方式:通过构建 SAE 进行分层拟合,在有限的离散空间里尽可能还原那些高维的连续表示。
- 意义:这算是给“离散化必然导致信息损失”这个老调调打了个大嘴巴,证明了离散表示也能当统一载体用。
4. 跑分与我的观察
基于 LongCat-Flash-Lite MoE(总参数量 68.5B,激活参数量 3B)这个基座,LongCat-Next 在几个测试里表现确实有点东西:
| 测试维度 | 关键指标/结果 | 我的观察 |
|---|---|---|
| 跨模态协作 | OmniDocBench 测试中,性能不仅超越 Qwen3-Omni,更击败了专用视觉模型 Qwen3-VL。 | 打破刻板印象:以前总觉得离散模型搞不清细节,这回直接证明在视觉理解上,离散架构也能很犀利。 |
| 纯文本能力 | 在 MMLU-Pro 和 C-Eval 测试中继续领先。 | 没丢家底:追多模态的时候,没牺牲核心的语言智商。 |
| 工具与代码 | SWE-Bench 分数显著超越同类模型。 | 干活利索:在实际编程和工具调用场景里,它似乎更顺手。 |
| 音频领域 | 在 SeedTTS 上实现中英文语音合成的极低词错误率 (WER);支持低延迟并行文生音及个性化声音克隆。 | 听觉也在线:证明了这架构在听觉模态上也能搞出高质量生成,不是偏科。 |
5. 怎么拿
- 发布状态:模型已经全量开源了。
- 获取地址:GitHub、HuggingFace。
最后说两句:
LongCat-Next 的发布确实是个信号,标志着 AI 模型架构正从“拼凑积木”向“原生多模态”转变。通过 dNaViT 和 SAE 这些技术,它试图解决离散化带来的信息损耗,并证明统一架构在视觉、听觉及文本全领域的潜力。
当然,看着这些漂亮的数字我也忍不住想:当 AI 开始像人一样“原生”地感知世界时,我们人类的角色又会被怎么重新定义?这比单纯的性能提升更值得玩味。
