AI-NEWS · 2025年 11月 13日

清华发布多模态RAG框架

清华大学等机构发布UltraRAG 2.1:全球首个基于MCP架构的多模态RAG框架

核心概述

发布时间:2025年11月12日
研发机构:清华大学THUNLP实验室、东北大学NEUIR实验室、OpenBMB、AI9Stars联合开发
技术定位:全球首个基于模型上下文协议(MCP)架构的开源多模态RAG框架

技术突破亮点

简化开发流程

  • 零代码配置:仅需几行YAML配置文件即可构建多阶段推理、生成和评估系统
  • 技术门槛降低:无需编写代码,显著降低了RAG系统的构建难度

三大核心升级

1. 原生多模态支持

  • 完整文本-图像检索闭环:集成检索器-生成器-评估器全流程
  • 多格式处理:支持图像、PDF等多模态数据
  • VisRAG管道:直接解析本地PDF文档,自动提取文本和图表
  • 跨模态索引:实现"图像到文本"和"文本到图像"混合检索
  • 应用场景:科学论文分析、技术手册问答等高价值场景

2. 自动知识库构建

  • 智能解析:支持Word、PDF、Markdown等多种格式
  • 语义分块:自动完成文档的语义切分
  • MinerU集成:无缝集成开源文档处理工具MinerU
  • 一键构建:快速构建企业级私有知识库
  • 自动化处理:无需人工清洗或标注数据,系统自动完成结构化处理

3. 统一工作流与标准化评估

  • 全链可视化:提供完整的可视化RAG工作流程
  • 多引擎兼容:支持Elasticsearch、FAISS等检索引擎
  • 多模型支持:兼容Llama、Qwen、Kimi等生成模型
  • 标准化评估:从相关性、忠实度、流畅度等维度量化结果质量
  • 可解释优化:开发者可直观识别瓶颈并快速迭代优化

MCP架构优势

技术特点

  • 模块解耦:将检索、推理、生成等模块解耦为标准化的"智能体"
  • 声明式配置:通过YAML声明性配置灵活组装复杂任务流程
  • 可组合性:支持灵活的任务流程组合

应用示例

仅需几行配置即可实现三阶段工作流:

  1. 检索技术文档
  2. 调用代码生成模型
  3. 使用评估模块验证输出

行业意义

技术范式转变

AIbase认为UltraRAG 2.1的发布标志着RAG技术从"工具组装"向"工程范式"的转变

应用价值

  • 统一框架:将多模态理解、知识构建和性能评估统一在轻量级开源框架中
  • 低代码优势:企业和研究人员能更高效地将大模型能力应用于实际业务场景
  • 生态贡献:中国社区主导的技术创新为全球RAG生态系统注入新动力

技术影响评估

该框架的发布代表了RAG技术的重要里程碑,通过标准化、模块化的方式解决了传统RAG系统开发复杂、维护困难的问题,为多模态AI应用的普及提供了强有力的技术支撑。

火龙果频道