AI-NEWS · 2026年 4月 21日

通义实验室发布 Fun-ASR 1.5:古诗也能听懂了

通义实验室发布 Fun-ASR 1.5:古诗也能听懂了

4 月 20 日,阿里巴巴通义实验室搞了个新动作,放出了语音识别大模型 Fun-ASR 1.5。

这东西挺有意思。以前语音识别模型总有个死结:要么能听懂各种方言,但听不懂普通话里的微妙语气;要么普通话听得特别准,一换方言就废。Fun-ASR 1.5 这次试图把这两个难搞的指标揉在一起,用一个大模型架构同时搞定“通用性”和“准确性”。

具体能干什么?简单列几个我看到的亮点:

  • 语言管得宽:全球 30 种主流语言都能认。
  • 方言不拒收:7 种主要中文方言(比如粤语、吴语这些)深度适配,不再是“鸡同鸭讲”。
  • 口音也能抓:20 种以上的地方口音覆盖住了。
  • 古诗有点悬:这个最让我意外。它能把古诗词的吟诵——那种抑扬顿挫、声调特别明显的念法——实时转成文字,而且精度很高。说实话,以前做古诗转写,模型要么把“之乎者也”全读成大白话,要么完全转错,这次能“听懂”韵律,感觉确实是个突破。

至于怎么用?直接上阿里云百炼平台,拿 API 就能调。

应用场景倒是很广,教育、媒体、金融、科技……反正只要涉及语音的地方都能用。不过仔细想想,说“助力行业升级”有点虚。实际落地可能得看具体行业能不能消化这 30 种语言的数据。

总的来说,Fun-ASR 1.5 比老版本强,尤其是加上古诗吟诵这块,算是给语音识别开了个新口子。至于能不能真正普及,还得看后面实际调用的效果吧。

火龙果频道