OpenAI正式发布GPT-Realtime语音模型：开启多模态语音交互新纪元

模型概述

OpenAI于2025年8月正式推出其最新语音模型GPT-Realtime。作为专为生产级语音代理设计的先进语音到语音模型，该模型通过端到端架构直接处理并生成音频，显著降低了传统语音交互中的延迟问题。

核心能力突破

多模态输入支持

文本、音频、图像多模态输入：突破传统单一模态限制
端到端架构优势：保留语调、情感、口音等细微细节，提供更自然流畅的对话体验

智能推理与非语言信号捕捉

非语言信号识别：敏锐捕捉笑声、停顿等非语言线索
语言切换与语调调整：支持对话中无缝语言切换，根据场景需求调整语调（如"专业客服"或"热情引导"）
高精度推理能力：在BigBenchAudio基准测试中达到82.8的推理准确率，较前代模型的65.6显著提升
指令遵循优化：在MultiChallenge音频基准测试中，指令遵循准确率从20.6提升至30.5

创新功能特性

图像输入支持

模型可处理图像输入并描述其内容，为语音交互增添视觉上下文，适用于教育和客户支持场景。

通信集成能力

远程MCP支持：通过模型上下文协议实现远程集成
SIP电话呼叫：支持会话初始协议，可集成到电话系统或外部工具中
细粒度上下文控制：支持可重用提示和会话修剪功能，精确管理对话上下文

成本优化策略

OpenAI本次更新降低了Realtime API价格：

音频输入成本：每百万token 32美元
音频输出成本：每百万token 64美元
总体降价幅度：较之前费率降低20%

行业影响与竞争格局

GPT-Realtime的发布进一步加剧了语音AI市场竞争。Anthropic、Meta、Mistral等公司近期也加速了语音技术布局。OpenAI通过低延迟、高表现力和多模态支持巩固了在语音AI领域的领先地位。

未来展望

GPT-Realtime是OpenAI多模态战略的关键一步，未来将扩展到视频和其他模态。结合近期发布的Agents SDK，开发者仅需几行代码即可将现有文本应用升级为语音交互应用，大幅降低开发门槛。

技术价值

GPT-Realtime以其卓越的多模态能力、优化的指令遵循和成本优势，为语音AI领域设立了新标杆。通过图像输入和通信功能的集成，OpenAI不仅提升了语音代理的实用性，还为开发者创造了更灵活高效的开发环境。

火龙果频道

近期新闻

AI-NEWS · 2025年 8月 30日

OpenAI发布GPT实时语音模型

OpenAI正式发布GPT-Realtime语音模型：开启多模态语音交互新纪元

模型概述

核心能力突破

多模态输入支持

智能推理与非语言信号捕捉

创新功能特性

图像输入支持

通信集成能力

成本优化策略

行业影响与竞争格局

未来展望

技术价值

您可能还喜欢...

AI-NEWS · 2025年 8月 30日

OpenAI正式发布GPT-Realtime语音模型：开启多模态语音交互新纪元

模型概述

核心能力突破

多模态输入支持

智能推理与非语言信号捕捉

创新功能特性

图像输入支持

通信集成能力

成本优化策略

行业影响与竞争格局

未来展望

技术价值

您可能还喜欢...

荣耀CEO赵明预测：2027年手机或搭载千亿参数AI模型

NVIDIA Lyra 2.0：300 万行代码的代价

Getty Images Partners with NVIDIA to Upgrade AI Image Generation Tool: Generate 4 Images in 6 Seconds