AI-NEWS · 2025年 7月 12日

DeepMind开源AI处理器

Google DeepMind开源GenAI Processors库：简化多模态AI应用开发

核心概述

Google DeepMind近期开源了名为"GenAI Processors"的Python库，为开发者提供轻量高效的异步可组合生成式AI工作流构建工具。该库专注于简化复杂多模态AI应用开发，支持音频、视频和文本等实时处理，显著提升基于Gemini API的应用开发效率。

关键技术特性

1. 模块化与异步处理

采用统一"Processor"接口，可将复杂AI工作流分解为模块化处理单元
支持从输入预处理到模型调用、输出生成的全流程处理
异步流处理能力覆盖音频片段、文本转录、图像帧等多模态数据
测试数据显示：通过Python asyncio机制优化并发执行，显著降低IO密集型任务延迟

2. Gemini API专项优化

内置两大核心处理器：
- GenaiModel：支持基于会话的交互
- LiveProcessor：专为实时流处理设计
示例应用：仅需数行代码即可构建支持麦克风和摄像头输入的实时AI代理

3. 流式API与并发优化

所有输入输出均视为ProcessorParts的异步数据流
每个数据单元附带元数据（如音频片段时长、图像帧率等）
通过内置并发优化机制最小化"首次令牌时间"(TTFT)

技术架构优势

模块化设计：支持不同处理单元无缝连接构建复杂工作流
代码复用性：保持高可维护性的同时提升开发效率
语言支持：当前仅支持Python，核心目录包含基础处理器
扩展机制：社区开发者可通过contrib目录贡献专业功能

行业影响

显著降低生成式AI开发复杂度（相比传统框架）
特别适合低延迟实时应用场景：
- 智能客服系统
- 实时翻译工具
- 多模态交互代理
推动生成式AI生态系统开放化

发展路线

当前版本功能有限，处于早期阶段
未来计划：
- 扩展更多编程语言支持
- 集成其他主流AI模型
- 覆盖更丰富应用场景
GitHub仓库开放社区贡献：https://github.com/google-deepmind/genai-processors

注：根据AIbase测试数据，该库在实时视频处理场景中可降低约40%的流程延迟，音频流处理吞吐量提升35%。

火龙果频道

您可能还喜欢...