AI-NEWS · 2025年 11月 11日

StepXenon发布音频编辑模型

StepFun AI发布30亿参数音频编辑模型Step-Audio-EditX,实现"像编辑Word文档一样编辑音频"

核心突破

  • 发布时间:2025年11月9日
  • 开发公司:国内AI独角兽StepStepFun AI
  • 模型规模:30亿参数(从原130亿参数模型压缩而来)
  • 核心特性:支持自然语言指令编辑音频

技术亮点

革命性编辑体验

用户只需输入自然语言指令,如:

  • "把这句话改成川渝说唱歌手的嚣张语气"
  • "在结尾添加害羞的笑声"
    模型即可准确调整语音、情感、节奏甚至呼吸停顿

关键技术突破

  1. 零样本语音克隆:仅需一段参考音频,无需目标人物训练数据,即可高保真复现其声音
  2. 多轮迭代编辑:支持连续发送详细指令(如"再温柔一点"、"笑声延长0.3秒"),逐步逼近理想效果
  3. 高效模型压缩:从130亿参数压缩至30亿,显著降低部署成本

语言与情感理解

  • 支持普通话、英语、四川话、粤语
  • 精准掌握方言中的地域情感和语用习惯
  • 盲测显示其"川渝笑话的市井感"和"粤语颗粒度的细腻度"远超同类产品

性能指标对比

指标维度 Step-Audio-EditX Minimax 字节跳动豆包
自然度评分 4.725 4.51 4.38
情感准确率 93.7% -(领先第二名6.2个百分点)
音色一致性 98.1% -(近乎无损复现)

应用场景

内容创作革新

  • 短视频博主:一键切换"开朗少女"与"毒舌导师"声线
  • 有声书创作:单人完成多角色情感对话
  • 方言喜剧:AI重制川渝方言喜剧,可转为美式脱口秀输出
  • 无障碍服务:为听障用户语音合成系统注入"情感温度"

行业影响

Step-Audio-EditX的意义超越工具升级,正在重塑音频内容生产逻辑。当语音不再是录制即固定的线性媒介,而是可反复打磨的"活文本",数百万创作者将获得前所未有的表达自由。

未来若开放API或集成至移动系统,这把"AI魔法剪刀"有望真正进入每个人的口袋,让每个声音都能被重新想象。

火龙果频道