AI-NEWS · 2026年 1月 29日

Gemini 3升级 专家级图像分析

Google Gemini 3 Flash 升级:引入“智能体视觉”功能,AI可像专家一样深度分析图像

发布日期:2026年1月28日
来源:AIbase Daily

核心摘要

谷歌为其轻量级模型 Gemini 3 Flash 引入了一项名为“智能体视觉”的强大功能。该升级突破了以往AI视觉模型仅能“快速一瞥后猜测”的限制,通过主动探索和深度推理,使AI能够像人类专家一样分析图像。

技术原理与突破

  • 解决传统痛点:以往AI在处理信息密集的图像(如远处的路标、复杂的电路图或微小文字)时,由于只能一次性处理全局信息,常常丢失细节。
  • 新工作机制:“智能体视觉”引入了“思考、行动、观察”的循环机制。当用户提出复杂的视觉问题时,Gemini 3 Flash 会:
    1. 思考:首先制定分析计划。
    2. 行动:使用自动生成并执行的Python代码,对图像进行裁剪、旋转或局部标注。
    3. 观察:基于这些处理后的高清细节,提供最终答案。
  • 性能提升:这种调查式的工作模式,使Gemini在处理困难视觉任务时的准确率提升了5%至10%。AI不再仅仅是识别像素,而是学会了根据需要“放大”寻找证据。

发布与可用性

  1. 当前:该功能已率先在 Gemini AI StudioVertex AI 平台上向开发者提供。开发者只需启用“代码执行”功能即可使用。
  2. 未来:谷歌表示,未来该功能也将通过Gemini应用中的“思考模式”直接向普通用户开放,使移动AI助手具备这种深度视觉推理能力。

关键要点总结

  1. 技术融合:谷歌推出的“智能体视觉”技术,将视觉推理与Python代码执行相结合,脱离了传统的静态图像识别模式。
  2. 机制创新:引入“循环分析”机制,允许AI自主裁剪、放大、标注图像,显著提升了识别复杂细节的准确率。
  3. 部署路线:该功能现已通过API向开发者开放,未来将集成至Gemini应用的“思考模式”中供普通用户使用。

(注:原始材料中包含的其他多条AI新闻简报,如百度智能云目标调整、英国AI培训计划、小米与支付宝合作、腾讯混元模型开源等,因其与本文核心主题“Google Gemini 3 Flash升级”无关,已按指令移除。本文仅整理并保留了与主题直接相关的完整信息。)

火龙果频道