AI-NEWS · 2025年 5月 25日

谷歌I/O 2025 Gemini API更新

Google I/O 2025 Gemini API 技术报告

核心更新概览

  1. Gemini 2.5系列模型升级

    • Flash Preview版(gemini-2.5-flash-preview-05-20)支持222 token上下文窗口
    • Pro版新增Deep Think深度思考模式
    • 实时TTS支持24种多说话人语音合成
  2. 开发者工具增强

    • 新增URL Context功能(支持Google Search grounding tools)
    • 异步函数调用(Async Function Calling)支持NONBLOCKING行为
    • Batch API支持24小时连续调用
  3. 多媒体处理能力

    • YouTube视频处理支持0.1秒延迟的60FPS流
    • 实时音频流(Lyria RealTime)支持WebSocket协议

关键技术指标

功能模块 性能参数
Gemini 2.5 Flash 30%推理速度提升
视频处理 支持720p/480p/360p多分辨率
思维预算 默认1024 token思考预算

代码示例分析

# 思维链(Chain-of-Thought)实现示例
response = client.models.generate_content(
    model="gemini-2.5-flash-preview-05-20",
    contents="前50个质数的和是多少?",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_budget=1024,
            include_thoughts=True
        )
    )
)

行业影响

  1. RPA领域整合

    • 与UiPath/Browserbase/Automation Anywhere达成云原生自动化方案合作
    • Project Mariner实现Cloud Run无缝部署
  2. 音乐生成

    • AI Studio新增PromptDJ-MIDI实时音乐生成功能
    • Gemma 3音色引擎支持nPLEMatFormer技术

开发者建议

  1. 优先测试Flash Preview版的222 token上下文窗口表现
  2. 利用Thinking Budget机制优化复杂问题处理成本
  3. 关注Async Function Calling对实时应用的性能提升

火龙果频道