StepFun AI发布30亿参数音频编辑模型Step-Audio-EditX,实现"像编辑Word文档一样编辑音频"
核心突破
- 发布时间:2025年11月9日
- 开发公司:国内AI独角兽StepStepFun AI
- 模型规模:30亿参数(从原130亿参数模型压缩而来)
- 核心特性:支持自然语言指令编辑音频
技术亮点
革命性编辑体验
用户只需输入自然语言指令,如:
- "把这句话改成川渝说唱歌手的嚣张语气"
- "在结尾添加害羞的笑声"
模型即可准确调整语音、情感、节奏甚至呼吸停顿
关键技术突破
- 零样本语音克隆:仅需一段参考音频,无需目标人物训练数据,即可高保真复现其声音
- 多轮迭代编辑:支持连续发送详细指令(如"再温柔一点"、"笑声延长0.3秒"),逐步逼近理想效果
- 高效模型压缩:从130亿参数压缩至30亿,显著降低部署成本
语言与情感理解
- 支持普通话、英语、四川话、粤语
- 精准掌握方言中的地域情感和语用习惯
- 盲测显示其"川渝笑话的市井感"和"粤语颗粒度的细腻度"远超同类产品
性能指标对比
| 指标维度 | Step-Audio-EditX | Minimax | 字节跳动豆包 |
|---|---|---|---|
| 自然度评分 | 4.725 | 4.51 | 4.38 |
| 情感准确率 | 93.7% | – | -(领先第二名6.2个百分点) |
| 音色一致性 | 98.1% | – | -(近乎无损复现) |
应用场景
内容创作革新
- 短视频博主:一键切换"开朗少女"与"毒舌导师"声线
- 有声书创作:单人完成多角色情感对话
- 方言喜剧:AI重制川渝方言喜剧,可转为美式脱口秀输出
- 无障碍服务:为听障用户语音合成系统注入"情感温度"
行业影响
Step-Audio-EditX的意义超越工具升级,正在重塑音频内容生产逻辑。当语音不再是录制即固定的线性媒介,而是可反复打磨的"活文本",数百万创作者将获得前所未有的表达自由。
未来若开放API或集成至移动系统,这把"AI魔法剪刀"有望真正进入每个人的口袋,让每个声音都能被重新想象。
