AI-NEWS · 2025年 10月 1日

Qwen3实时翻译破纪录

Qwen3-LiveTranslate-Flash实现3秒实时翻译延迟，创行业新纪录

核心突破

发布时间：2025年9月30日
技术定位：基于大语言模型的多语言实时音视频翻译系统
关键指标：实现最低仅3秒的同声传译延迟，创下行业新纪录

技术特性

语言支持范围

支持18种语言的离线和实时翻译
主流语言：中文、英文、法文、德文、俄文、西班牙文
方言支持：普通话、粤语、北京话、吴语等

核心技术突破

视觉上下文增强技术
- 通过识别口型、动作、文本和实体等多模态信息理解语境
- 有效提升嘈杂环境和复杂语境下的翻译准确率
- 解决一词多义等翻译难题
延迟控制技术
- 采用轻量级专家混合架构
- 动态采样策略
- 语义单元预测技术缓解跨语言翻译词序问题

性能表现

在中英翻译和多语言任务中，翻译准确率显著优于：
- Gemini-2.5-Flash
- GPT-4o-Audio-Preview
- Voxtral Small-24B
在多个领域和复杂声学环境中表现优异

其他AI领域重要动态

模型发布

火山引擎推出豆包大模型1.6-Vision
- 视觉理解领域重大突破
- 具备工具调用能力
- 成本较上一代降低约50%
智谱发布开源大模型GLM-4.6
- 编程能力与Claude Sonnet4持平
- 超越DeepSeek-V3.2-Exp
- 已成功部署在寒武纪芯片
蚂蚁集团开源万亿参数大模型Ring-1T-preview
- 全球首个开源万亿参数推理大模型
- AIME25得分92.6，超越Gemini 2.5 Pro
- 接近GPT-5的94.6分

技术突破

DeepMind推出FrameChain概念：视频模型实现时空推理
机器人视觉突破：Evo模型提升3D空间理解，成功率提升31%

行业动态

人才变动：斯坦福顶尖科学家许祖宏加入阿里通义
企业战略：微软重组Windows团队，聚焦AI操作系统愿景
产品更新：Brave浏览器推出Ask Brave功能，日处理超1500万AI搜索请求

火龙果频道

您可能还喜欢...