AI-NEWS · 2025年 8月 5日

小米开源MiDashengLM-7B

小米开源MiDashengLM-7B多模态大模型:音频理解领域的重大突破

核心亮点

  • 全开源:2025年8月5日,小米正式发布并全面开源MiDashengLM-7B多模态大模型
  • 性能突破:在22个多模态模型公开评测集创下新纪录
  • 效率革命
    • 单样本推理首Token延迟仅为行业领先模型的1/4
    • 数据吞吐效率提升20倍以上

技术架构

双核设计

  • 音频编码器:小米大圣音频编码器
  • 自回归解码器:Qwen2.5-Omni-7B Thinker

创新训练策略

突破传统音频AI模型单领域局限,实现:

  • 语音对话(高精度识别)
  • 环境音分析(场景判定)
  • 音乐理解(节奏/情感/风格识别)

性能表现

指标 优势表现
评测记录 22个多模态评测集新纪录
推理延迟(TTFT) 降低75%
GPU内存利用率 吞吐效率提升20倍

技术演进

  • 大圣系列:历经多代迭代的音频编码技术
  • 升级重点
    • 音频理解准确率提升
    • 计算效率显著优化

未来规划

  1. 终端部署

    • 推进离线部署方案
    • 优势:隐私保护/使用成本降低
    • 应用场景:智能手机/智能音箱/IoT设备
  2. 功能扩展

    • 基于自然语言提示的音频编辑功能
    • 技术门槛降低方案

开源意义

  • 促进音频AI领域技术共享
  • 助力研究机构/初创企业技术发展
  • 推动行业生态繁荣

![示意图](Image 1: 同步翻译/音频处理/无线耳机应用场景)

火龙果频道