AI-NEWS · 2025年 8月 5日

小米开源MiDashengLM-7B

小米开源MiDashengLM-7B多模态大模型：音频理解领域的重大突破

核心亮点

全开源：2025年8月5日，小米正式发布并全面开源MiDashengLM-7B多模态大模型
性能突破：在22个多模态模型公开评测集创下新纪录
效率革命：
- 单样本推理首Token延迟仅为行业领先模型的1/4
- 数据吞吐效率提升20倍以上

技术架构

双核设计

音频编码器：小米大圣音频编码器
自回归解码器：Qwen2.5-Omni-7B Thinker

创新训练策略

突破传统音频AI模型单领域局限，实现：

语音对话（高精度识别）
环境音分析（场景判定）
音乐理解（节奏/情感/风格识别）

性能表现

指标	优势表现
评测记录	22个多模态评测集新纪录
推理延迟(TTFT)	降低75%
GPU内存利用率	吞吐效率提升20倍

技术演进

大圣系列：历经多代迭代的音频编码技术
升级重点：
- 音频理解准确率提升
- 计算效率显著优化

未来规划

终端部署：
- 推进离线部署方案
- 优势：隐私保护/使用成本降低
- 应用场景：智能手机/智能音箱/IoT设备
功能扩展：
- 基于自然语言提示的音频编辑功能
- 技术门槛降低方案

开源意义

促进音频AI领域技术共享
助力研究机构/初创企业技术发展
推动行业生态繁荣

![示意图](Image 1: 同步翻译/音频处理/无线耳机应用场景)

火龙果频道

您可能还喜欢...