AI-NEWS · 2025年 10月 1日

Qwen3实时翻译破纪录

Qwen3-LiveTranslate-Flash实现3秒实时翻译延迟,创行业新纪录

核心突破

  • 发布时间:2025年9月30日
  • 技术定位:基于大语言模型的多语言实时音视频翻译系统
  • 关键指标:实现最低仅3秒的同声传译延迟,创下行业新纪录

技术特性

语言支持范围

  • 支持18种语言的离线和实时翻译
  • 主流语言:中文、英文、法文、德文、俄文、西班牙文
  • 方言支持:普通话、粤语、北京话、吴语等

核心技术突破

  1. 视觉上下文增强技术

    • 通过识别口型、动作、文本和实体等多模态信息理解语境
    • 有效提升嘈杂环境和复杂语境下的翻译准确率
    • 解决一词多义等翻译难题
  2. 延迟控制技术

    • 采用轻量级专家混合架构
    • 动态采样策略
    • 语义单元预测技术缓解跨语言翻译词序问题

性能表现

  • 在中英翻译和多语言任务中,翻译准确率显著优于:
    • Gemini-2.5-Flash
    • GPT-4o-Audio-Preview
    • Voxtral Small-24B
  • 在多个领域和复杂声学环境中表现优异

其他AI领域重要动态

模型发布

  1. 火山引擎推出豆包大模型1.6-Vision

    • 视觉理解领域重大突破
    • 具备工具调用能力
    • 成本较上一代降低约50%
  2. 智谱发布开源大模型GLM-4.6

    • 编程能力与Claude Sonnet4持平
    • 超越DeepSeek-V3.2-Exp
    • 已成功部署在寒武纪芯片
  3. 蚂蚁集团开源万亿参数大模型Ring-1T-preview

    • 全球首个开源万亿参数推理大模型
    • AIME25得分92.6,超越Gemini 2.5 Pro
    • 接近GPT-5的94.6分

技术突破

  • DeepMind推出FrameChain概念:视频模型实现时空推理
  • 机器人视觉突破:Evo模型提升3D空间理解,成功率提升31%

行业动态

  • 人才变动:斯坦福顶尖科学家许祖宏加入阿里通义
  • 企业战略:微软重组Windows团队,聚焦AI操作系统愿景
  • 产品更新:Brave浏览器推出Ask Brave功能,日处理超1500万AI搜索请求

火龙果频道