AI-NEWS · 2024年 7月 12日

GPT-4o和Sonnet-3.5在视力测试中败北,VLM们竟是“盲人”?

视觉语言模型(VLMs)表现分析

概述

视觉语言模型(VLMs),如GPT-4o和Gemini-1.5Pro,通常被认为能处理图像和文本,并在许多测试中获得高分。然而,一项名为BlindTest的研究揭示了这些模型在基础视觉任务上的重大缺陷。

BlindTest研究设计与结果

BlindTest包含7个任务,这些任务对人类来说非常简单,如判断两个圆是否重叠、两条线是否相交以及数奥运标志里的圆圈数。然而,VLMs在这些任务中的表现令人失望:

  • 平均准确率仅为56.20%。
  • 表现最好的Sonnet-3.5也只有73.77%的准确率。

这表明VLMs在处理精确的空间信息时表现不佳,远不及人类的直觉判断。

具体问题与原因分析

  1. 图形细节处理不足

    • VLMs在判断两个圆是否重叠时,即便是明显的情况,也无法达到100%的准确率。
    • 对于奥运标志圆圈数量的计数,表现同样糟糕。
  2. 数字偏好现象

    • 当任务涉及到数量时,VLMs倾向于回答“5”,尤其是在奥运标志的圆圈数量超过5个时。这可能是因为它们对这个特定数字有较强的记忆,但无法灵活应对变化。

深度观点与决策建议

  • 技术局限性:当前的VLMs在视觉理解方面存在显著局限性,特别是处理细节和精确空间信息时。因此,在需要高精度视觉识别的应用中,它们不能完全替代人类。

  • 研发方向:未来的研发应侧重于提高VLMs的细节处理能力和空间理解能力。可以考虑引入更复杂的图像处理算法或结合其他类型的人工智能来弥补这一不足。

  • 市场与应用:在实际应用中,应谨慎评估VLMs的适用场景。对于需要高精度和可靠性的领域,仍需依赖人类的判断或其他更可靠的技术手段。

  • 用户教育:需要向用户传达目前VLMs的局限性,避免过度依赖和误解其能力,从而导致潜在的风险和错误。

通过这次研究,我们对VLMs有了更全面的认识,并明确了其在特定任务上的不足,为后续的技术改进和应用推广提供了重要参考。

Source:https://www.aibase.com/news/10186