LongCat-Next：把多模态做成“原生”

1. 真正的转折：不再“外挂”模块

最近，整个 AI 圈都在讨论一个新词："AI 原生语言”。这听起来很宏大，但核心其实很直接：别再搞那种视觉或音频模块只是“贴”在大模型旁边的做法了。

LongCat 团队正式开源了 LongCat-Next，想彻底解决这个问题。它的目标很明确——让 AI 像人一样，从底层就“原生”地理解物理世界，而不是靠外挂补丁去硬凑。

LongCat-Next 用了一套叫 DiNA (Discrete Native Autoregressive) 的新架构。简单说，就是解决了多模态信息只能被“翻译”（投射）而无法真正“吃进肚子里”（内化）的老大难问题。

为了把“视觉词汇”做出来，团队搞了两手硬牌：

功能：支持任意分辨率，不需要像以前那样硬切格子。在文档解析、复杂图表推理这些对细节要求高的任务上，效果很能打。
技术原理：
- 用了 8 层残差向量量化 (RVQ)。
- 像素压缩比直接干到了 28 倍。
- 用了解耦的双轨生成解码器，确保图像和文字重建得比较像样。
效果：形成了一个完整的 "Image → Token → Image" 闭环。这意味着模型真的能在文本域里“看见”并生成图像，而不仅仅是画个图。

基于 LongCat-Flash-Lite MoE（总参数量 68.5B，激活参数量 3B）这个基座，LongCat-Next 在几个测试里表现确实有点东西：

测试维度	关键指标/结果	我的观察
跨模态协作	OmniDocBench 测试中，性能不仅超越 Qwen3-Omni，更击败了专用视觉模型 Qwen3-VL。	打破刻板印象：以前总觉得离散模型搞不清细节，这回直接证明在视觉理解上，离散架构也能很犀利。
纯文本能力	在 MMLU-Pro 和 C-Eval 测试中继续领先。	没丢家底：追多模态的时候，没牺牲核心的语言智商。
工具与代码	SWE-Bench 分数显著超越同类模型。	干活利索：在实际编程和工具调用场景里，它似乎更顺手。
音频领域	在 SeedTTS 上实现中英文语音合成的极低词错误率 (WER)；支持低延迟并行文生音及个性化声音克隆。	听觉也在线：证明了这架构在听觉模态上也能搞出高质量生成，不是偏科。

最后说两句：
LongCat-Next 的发布确实是个信号，标志着 AI 模型架构正从“拼凑积木”向“原生多模态”转变。通过 dNaViT 和 SAE 这些技术，它试图解决离散化带来的信息损耗，并证明统一架构在视觉、听觉及文本全领域的潜力。

当然，看着这些漂亮的数字我也忍不住想：当 AI 开始像人一样“原生”地感知世界时，我们人类的角色又会被怎么重新定义？这比单纯的性能提升更值得玩味。