AI-NEWS · 2026年 5月 12日

Google 升级 Gemini 文件搜索:多模态 RAG 来了

Google 最近给 Gemini API 的文件搜索功能加了个大补丁,核心就是让 AI 能看懂图、读懂文档了,不再局限于纯文本。

以前用 RAG(检索增强生成)搞企业级应用,往往卡在怎么把 PDF 里的图表和文字结合起来分析上。现在不一样了,Gemini 直接能处理图片里的视觉信息,比如技术架构图或者销售趋势图。这意味着,当客服机器人拿到一份带图的技术文档时,它不仅能回答文字部分,还能看懂图里的逻辑,推理起来顺多了。

技术上,这次升级全靠 Gemini Embedding2。以前那些系统得费劲搞向量数据库,还得自己切分文档,现在全不用了。开发者直接把文件扔进 Gemini API,它内部就能搞定从上传到检索的整套流程。

另外,Google 还加了两个挺实用的功能:

  1. 自定义元数据过滤:以前找文件像大海捞针,现在你可以给文件打标签,比如按部门、时间或者类别分。检索的时候加几个条件,就能把无关的噪音过滤掉,AI 的回答自然更精准。
  2. 页面级引用:这是个好变化。以前 AI 生成的回答如果引用了资料,往往只说“来自文件 A",你根本不知道它具体看了哪一页。现在它能精确到页码,用户一眼就能核对信息是不是真的,这点对于需要严谨性的工作来说挺重要。

目前这个功能已经对全球开发者开放了,直接在 Google AI Studio 或者 Google Cloud 平台就能用。

(注:文中保留的 GoogleGeminiAPIRAG 等是技术名词,没做翻译。)

火龙果频道