Google Gemini 3 Flash 升级：引入“智能体视觉”功能，AI可像专家一样深度分析图像

发布日期：2026年1月28日
来源：AIbase Daily

核心摘要

谷歌为其轻量级模型 Gemini 3 Flash 引入了一项名为“智能体视觉”的强大功能。该升级突破了以往AI视觉模型仅能“快速一瞥后猜测”的限制，通过主动探索和深度推理，使AI能够像人类专家一样分析图像。

解决传统痛点：以往AI在处理信息密集的图像（如远处的路标、复杂的电路图或微小文字）时，由于只能一次性处理全局信息，常常丢失细节。
新工作机制：“智能体视觉”引入了“思考、行动、观察”的循环机制。当用户提出复杂的视觉问题时，Gemini 3 Flash 会：
1. 思考：首先制定分析计划。
2. 行动：使用自动生成并执行的Python代码，对图像进行裁剪、旋转或局部标注。
3. 观察：基于这些处理后的高清细节，提供最终答案。
性能提升：这种调查式的工作模式，使Gemini在处理困难视觉任务时的准确率提升了5%至10%。AI不再仅仅是识别像素，而是学会了根据需要“放大”寻找证据。

（注：原始材料中包含的其他多条AI新闻简报，如百度智能云目标调整、英国AI培训计划、小米与支付宝合作、腾讯混元模型开源等，因其与本文核心主题“Google Gemini 3 Flash升级”无关，已按指令移除。本文仅整理并保留了与主题直接相关的完整信息。）