AI-NEWS · 2025年 7月 12日

DeepMind开源AI处理器

Google DeepMind开源GenAI Processors库:简化多模态AI应用开发

核心概述

Google DeepMind近期开源了名为"GenAI Processors"的Python库,为开发者提供轻量高效的异步可组合生成式AI工作流构建工具。该库专注于简化复杂多模态AI应用开发,支持音频、视频和文本等实时处理,显著提升基于Gemini API的应用开发效率。

关键技术特性

1. 模块化与异步处理

  • 采用统一"Processor"接口,可将复杂AI工作流分解为模块化处理单元
  • 支持从输入预处理到模型调用、输出生成的全流程处理
  • 异步流处理能力覆盖音频片段、文本转录、图像帧等多模态数据
  • 测试数据显示:通过Python asyncio机制优化并发执行,显著降低IO密集型任务延迟

2. Gemini API专项优化

  • 内置两大核心处理器:
    • GenaiModel:支持基于会话的交互
    • LiveProcessor:专为实时流处理设计
  • 示例应用:仅需数行代码即可构建支持麦克风和摄像头输入的实时AI代理

3. 流式API与并发优化

  • 所有输入输出均视为ProcessorParts的异步数据流
  • 每个数据单元附带元数据(如音频片段时长、图像帧率等)
  • 通过内置并发优化机制最小化"首次令牌时间"(TTFT)

技术架构优势

  • 模块化设计:支持不同处理单元无缝连接构建复杂工作流
  • 代码复用性:保持高可维护性的同时提升开发效率
  • 语言支持:当前仅支持Python,核心目录包含基础处理器
  • 扩展机制:社区开发者可通过contrib目录贡献专业功能

行业影响

  • 显著降低生成式AI开发复杂度(相比传统框架)
  • 特别适合低延迟实时应用场景:
    • 智能客服系统
    • 实时翻译工具
    • 多模态交互代理
  • 推动生成式AI生态系统开放化

发展路线

注:根据AIbase测试数据,该库在实时视频处理场景中可降低约40%的流程延迟,音频流处理吞吐量提升35%。

火龙果频道