AI-NEWS · 2026年 5月 12日

Google 升级 Gemini 文件搜索：多模态 RAG 来了

Google 最近给 Gemini API 的文件搜索功能加了个大补丁，核心就是让 AI 能看懂图、读懂文档了，不再局限于纯文本。

以前用 RAG（检索增强生成）搞企业级应用，往往卡在怎么把 PDF 里的图表和文字结合起来分析上。现在不一样了，Gemini 直接能处理图片里的视觉信息，比如技术架构图或者销售趋势图。这意味着，当客服机器人拿到一份带图的技术文档时，它不仅能回答文字部分，还能看懂图里的逻辑，推理起来顺多了。

技术上，这次升级全靠 Gemini Embedding2。以前那些系统得费劲搞向量数据库，还得自己切分文档，现在全不用了。开发者直接把文件扔进 Gemini API，它内部就能搞定从上传到检索的整套流程。

另外，Google 还加了两个挺实用的功能：

自定义元数据过滤：以前找文件像大海捞针，现在你可以给文件打标签，比如按部门、时间或者类别分。检索的时候加几个条件，就能把无关的噪音过滤掉，AI 的回答自然更精准。
页面级引用：这是个好变化。以前 AI 生成的回答如果引用了资料，往往只说“来自文件 A"，你根本不知道它具体看了哪一页。现在它能精确到页码，用户一眼就能核对信息是不是真的，这点对于需要严谨性的工作来说挺重要。

目前这个功能已经对全球开发者开放了，直接在 Google AI Studio 或者 Google Cloud 平台就能用。

（注：文中保留的 Google、Gemini、API、RAG 等是技术名词，没做翻译。）

火龙果频道

您可能还喜欢...