AI-NEWS · 2025年 12月 19日

xAI发布Grok语音API

xAI 发布 Grok Voice Agent API:每分钟仅 0.05 美元,音频推理基准测试排名第一

发布日期:2025年12月18日
来源:AIbase

核心摘要

xAI 正式推出 Grok Voice Agent API,为开发者提供实时语音交互能力。该 API 基于 Grok 语音技术栈构建,已在移动应用和特斯拉车辆中服务数百万用户,现全面向全球开发者开放。

关键亮点

1. 卓越的成本效益

  • 定价:每分钟连接时间仅 0.05 美元
  • 优势:显著低于主流竞争对手,帮助开发者以最低成本构建高性能语音应用。

2. 顶尖的性能表现

  • 基准测试:在权威音频推理基准 Big Bench Audio 中排名第一
  • 响应速度:平均首次音频响应时间 小于 1 秒,比最接近的竞争对手快近 5 倍

核心功能概述

  • 实时双向语音通信:支持流式音频输入/输出,实现低延迟、自然的对话体验。
  • 多语言支持:覆盖包括中文在内的数十种语言(官方称超100种),具备母语级发音、口音和方言识别能力。
  • 自动语言检测与切换:无需配置即可自动检测用户语言并无缝切换;开发者也可通过系统提示指定响应语言。
  • 外部工具集成:可轻松集成自定义工具或接入 xAI 的实时搜索能力(覆盖网络和 X 平台数据)。
  • 实时网络搜索与推理:在对话中即时查询信息并进行复杂推理。
  • 语音情感提示控制:通过提示词调整语音的情感表达,增强交互自然度。
  • 多种语音选项:提供多样化的语音选择,包括 Sal、Rex、Eve、Leo 等经典角色,以及 Mika、Valentin 等陪伴型人格。
  • 兼容 OpenAI Realtime API 规范:支持现有应用无缝迁移,并兼容 xAI LiveKit 插件,便于快速集成。

未来展望

xAI 表示,该 API 将持续迭代,并在未来几周内推出独立的文本转语音(TTS)语音转文本(STT) 端点,以及进一步优化的音频模型,以提升发音准确性和延迟性能。


本文由 AIbase Daily 团队提供,聚焦AI领域技术趋势与产品应用。

火龙果频道