AI-NEWS · 2026年 4月 21日

通义实验室发布 Fun-ASR 1.5：古诗也能听懂了

通义实验室发布 Fun-ASR 1.5：古诗也能听懂了

4 月 20 日，阿里巴巴通义实验室搞了个新动作，放出了语音识别大模型 Fun-ASR 1.5。

这东西挺有意思。以前语音识别模型总有个死结：要么能听懂各种方言，但听不懂普通话里的微妙语气；要么普通话听得特别准，一换方言就废。Fun-ASR 1.5 这次试图把这两个难搞的指标揉在一起，用一个大模型架构同时搞定“通用性”和“准确性”。

具体能干什么？简单列几个我看到的亮点：

语言管得宽：全球 30 种主流语言都能认。
方言不拒收：7 种主要中文方言（比如粤语、吴语这些）深度适配，不再是“鸡同鸭讲”。
口音也能抓：20 种以上的地方口音覆盖住了。
古诗有点悬：这个最让我意外。它能把古诗词的吟诵——那种抑扬顿挫、声调特别明显的念法——实时转成文字，而且精度很高。说实话，以前做古诗转写，模型要么把“之乎者也”全读成大白话，要么完全转错，这次能“听懂”韵律，感觉确实是个突破。

至于怎么用？直接上阿里云百炼平台，拿 API 就能调。

应用场景倒是很广，教育、媒体、金融、科技……反正只要涉及语音的地方都能用。不过仔细想想，说“助力行业升级”有点虚。实际落地可能得看具体行业能不能消化这 30 种语言的数据。

总的来说，Fun-ASR 1.5 比老版本强，尤其是加上古诗吟诵这块，算是给语音识别开了个新口子。至于能不能真正普及，还得看后面实际调用的效果吧。

火龙果频道

您可能还喜欢...