xAI 发布 Grok Voice Agent API:每分钟仅 0.05 美元,音频推理基准测试排名第一
发布日期:2025年12月18日
来源:AIbase
核心摘要
xAI 正式推出 Grok Voice Agent API,为开发者提供实时语音交互能力。该 API 基于 Grok 语音技术栈构建,已在移动应用和特斯拉车辆中服务数百万用户,现全面向全球开发者开放。
关键亮点
1. 卓越的成本效益
- 定价:每分钟连接时间仅 0.05 美元。
- 优势:显著低于主流竞争对手,帮助开发者以最低成本构建高性能语音应用。
2. 顶尖的性能表现
- 基准测试:在权威音频推理基准 Big Bench Audio 中排名第一。
- 响应速度:平均首次音频响应时间 小于 1 秒,比最接近的竞争对手快近 5 倍。
核心功能概述
- 实时双向语音通信:支持流式音频输入/输出,实现低延迟、自然的对话体验。
- 多语言支持:覆盖包括中文在内的数十种语言(官方称超100种),具备母语级发音、口音和方言识别能力。
- 自动语言检测与切换:无需配置即可自动检测用户语言并无缝切换;开发者也可通过系统提示指定响应语言。
- 外部工具集成:可轻松集成自定义工具或接入 xAI 的实时搜索能力(覆盖网络和 X 平台数据)。
- 实时网络搜索与推理:在对话中即时查询信息并进行复杂推理。
- 语音情感提示控制:通过提示词调整语音的情感表达,增强交互自然度。
- 多种语音选项:提供多样化的语音选择,包括 Sal、Rex、Eve、Leo 等经典角色,以及 Mika、Valentin 等陪伴型人格。
- 兼容 OpenAI Realtime API 规范:支持现有应用无缝迁移,并兼容 xAI LiveKit 插件,便于快速集成。
未来展望
xAI 表示,该 API 将持续迭代,并在未来几周内推出独立的文本转语音(TTS) 和语音转文本(STT) 端点,以及进一步优化的音频模型,以提升发音准确性和延迟性能。
本文由 AIbase Daily 团队提供,聚焦AI领域技术趋势与产品应用。
