AI-NEWS · 2025年 11月 11日

StepXenon发布音频编辑模型

StepFun AI发布30亿参数音频编辑模型Step-Audio-EditX，实现"像编辑Word文档一样编辑音频"

核心突破

发布时间：2025年11月9日
开发公司：国内AI独角兽StepStepFun AI
模型规模：30亿参数（从原130亿参数模型压缩而来）
核心特性：支持自然语言指令编辑音频

技术亮点

革命性编辑体验

用户只需输入自然语言指令，如：

"把这句话改成川渝说唱歌手的嚣张语气"
"在结尾添加害羞的笑声"
模型即可准确调整语音、情感、节奏甚至呼吸停顿

关键技术突破

零样本语音克隆：仅需一段参考音频，无需目标人物训练数据，即可高保真复现其声音
多轮迭代编辑：支持连续发送详细指令（如"再温柔一点"、"笑声延长0.3秒"），逐步逼近理想效果
高效模型压缩：从130亿参数压缩至30亿，显著降低部署成本

语言与情感理解

支持普通话、英语、四川话、粤语
精准掌握方言中的地域情感和语用习惯
盲测显示其"川渝笑话的市井感"和"粤语颗粒度的细腻度"远超同类产品

性能指标对比

指标维度	Step-Audio-EditX	Minimax	字节跳动豆包
自然度评分	4.725	4.51	4.38
情感准确率	93.7%	–	-（领先第二名6.2个百分点）
音色一致性	98.1%	–	-（近乎无损复现）

应用场景

内容创作革新

短视频博主：一键切换"开朗少女"与"毒舌导师"声线
有声书创作：单人完成多角色情感对话
方言喜剧：AI重制川渝方言喜剧，可转为美式脱口秀输出
无障碍服务：为听障用户语音合成系统注入"情感温度"

行业影响

Step-Audio-EditX的意义超越工具升级，正在重塑音频内容生产逻辑。当语音不再是录制即固定的线性媒介，而是可反复打磨的"活文本"，数百万创作者将获得前所未有的表达自由。

未来若开放API或集成至移动系统，这把"AI魔法剪刀"有望真正进入每个人的口袋，让每个声音都能被重新想象。

火龙果频道

您可能还喜欢...