AI-NEWS · 2025年 8月 30日

OpenAI发布GPT实时语音模型

OpenAI正式发布GPT-Realtime语音模型:开启多模态语音交互新纪元

模型概述

OpenAI于2025年8月正式推出其最新语音模型GPT-Realtime。作为专为生产级语音代理设计的先进语音到语音模型,该模型通过端到端架构直接处理并生成音频,显著降低了传统语音交互中的延迟问题。

核心能力突破

多模态输入支持

  • 文本、音频、图像多模态输入:突破传统单一模态限制
  • 端到端架构优势:保留语调、情感、口音等细微细节,提供更自然流畅的对话体验

智能推理与非语言信号捕捉

  • 非语言信号识别:敏锐捕捉笑声、停顿等非语言线索
  • 语言切换与语调调整:支持对话中无缝语言切换,根据场景需求调整语调(如"专业客服"或"热情引导")
  • 高精度推理能力:在BigBenchAudio基准测试中达到82.8的推理准确率,较前代模型的65.6显著提升
  • 指令遵循优化:在MultiChallenge音频基准测试中,指令遵循准确率从20.6提升至30.5

创新功能特性

图像输入支持

模型可处理图像输入并描述其内容,为语音交互增添视觉上下文,适用于教育和客户支持场景。

通信集成能力

  • 远程MCP支持:通过模型上下文协议实现远程集成
  • SIP电话呼叫:支持会话初始协议,可集成到电话系统或外部工具中
  • 细粒度上下文控制:支持可重用提示和会话修剪功能,精确管理对话上下文

成本优化策略

OpenAI本次更新降低了Realtime API价格:

  • 音频输入成本:每百万token 32美元
  • 音频输出成本:每百万token 64美元
  • 总体降价幅度:较之前费率降低20%

行业影响与竞争格局

GPT-Realtime的发布进一步加剧了语音AI市场竞争。Anthropic、Meta、Mistral等公司近期也加速了语音技术布局。OpenAI通过低延迟、高表现力和多模态支持巩固了在语音AI领域的领先地位。

未来展望

GPT-Realtime是OpenAI多模态战略的关键一步,未来将扩展到视频和其他模态。结合近期发布的Agents SDK,开发者仅需几行代码即可将现有文本应用升级为语音交互应用,大幅降低开发门槛。

技术价值

GPT-Realtime以其卓越的多模态能力、优化的指令遵循和成本优势,为语音AI领域设立了新标杆。通过图像输入和通信功能的集成,OpenAI不仅提升了语音代理的实用性,还为开发者创造了更灵活高效的开发环境。

火龙果频道