京东开源 JoyAI-VL：AI 学会“主动观察”

京东开源了个新模型，叫 JoyAI-VL-Interaction

最近，京东正式开源了一个挺有意思的东西——JoyAI-VL-Interaction。简单说，这是个能让 AI 助手“主动观察”视频流的模型。

以前我们跟 AI 对话，通常是：我问 -> 它等我把视频传完 -> 它再回答。这中间往往得等好几秒，体验挺割裂的。

但 JoyAI-VL-Interaction 不一样。它的设计逻辑是：一直盯着视频流看，心里有个数，觉得时机到了再开口说话。这就把那种“傻等”的被动模式，变成了一种更像真人互动的“看后说”模式。

为什么这个模型有点“不一样”？

1. 不用憋着等视频传完
以前的技术，得先把整段视频上传上去，分析完才能出结果。这过程太慢了，尤其是现在视频越来越高清，延迟更是个老大难问题。
JoyAI-VL-Interaction 不一样，它是边看边聊。视频流进来一段，它处理一段，顺便还能跟你插几句嘴。这种“动态同步”的感觉，确实让交互流畅了不少。

2. 最妙的是“后台委托”这招
说实话，这个设计最让我觉得巧妙。
你想啊，如果既要实时跟你聊天，又要去生成代码或者跑复杂的推理，AI 自己的算力早就不够用了，肯定得卡壳。
它的解决办法是：把那些吃力的重活（比如写代码、查数据库），悄悄“甩”给后台的 Agent 系统去干。
而前台的这个模型呢？它只管“看”，继续盯着视频流，随时准备接你的茬。
结果就是，你在等后台算出结果的那几分钟里，依然能和 AI 像朋友一样正常聊天，完全感觉不到它在“思考”。

3. 东西好搭，还能自己改
它支持很多种视频来源，不管是手机摄像头、直播流，还是工厂里的监控信号，都能用。
而且它的设计挺模块化。如果你不想用默认的语音识别（ASR）或者语音合成（TTS），想换成自己的，或者接个外部的 API，直接换模块就行，不用动核心代码。这对开发者来说，自由度挺大的。

最后说两句

这个模型背后有 vLLM-Omni 帮忙加速，推理效率提上来了。再加上它是完全开源的，大家拿来用用看，对推动技术普及确实有帮助。

总的来说，JoyAI-VL-Interaction 最大的意义可能不在于它本身有多神，而在于它改变了一种玩法。以前的 AI 是“你问它答”，像个查无此人的客服；现在它学会了“主动观察”，像个真正在看世界的助手。

至于以后能用在哪儿？我想想，像是那种需要实时盯着屏幕的工业质检，或者直播时自动给字幕翻译，甚至是个能陪孩子上课的智能家教，可能都会用到这种“主动观察”的能力。

当然，具体效果怎么样，还得看大家实际用起来的效果，不过单从这个思路上看，确实比现在大多数的 AI 要顺眼一些。

火龙果频道

近期新闻

AI-NEWS · 2026年 6月 23日

京东开源了个新模型，叫 JoyAI-VL-Interaction

为什么这个模型有点“不一样”？

最后说两句

您可能还喜欢...

AI-NEWS · 2026年 6月 23日

京东开源了个新模型，叫 JoyAI-VL-Interaction

为什么这个模型有点“不一样”？

最后说两句

您可能还喜欢...

Meta Launches VFusion3D: Transforming Single 2D Images or Text Descriptions into High-Quality 3D Objects

Alibaba 1688 Will Provide Merchants with Free ‘AI Business Assistant’ Service

Runway 新应用：AI 视频从“生成”到“导演”