AI-NEWS · 2024年 12月 16日

新模型问世:Kimi视觉思维模型首发!

k1 视觉思维模型发布

The Dark Side of the Moon 今日宣布推出全新视觉思维模型 k1,该模型基于强化学习技术,支持端到端图像理解并整合了链式思考方法。它不仅在数学领域表现出色,还扩展到了更基础的科学领域,如物理和化学。

性能表现

  • 在基准能力测试中,k1 模型超越了全球领先的基准模型,包括 OpenAI 的 o1GPT-4oClaude3.5Sonnet
  • k1 鼓励生成更详细的推理步骤,形成高质量的链式思考结构,显著提升了解决复杂任务的成功率。

图像理解与互动

  • k1 模型集成了图像理解和推理能力,为用户提供更加流畅的交互体验,可以直接处理用户输入的图像信息并得出答案,无需依赖外部 OCR 或额外的视觉模型。

训练过程

  • 训练阶段:分为预训练和强化学习两个阶段。基线模型在 OCRBench 上获得了 903 的高分,并在多个基准测试集中表现出色(如 MathVista-testmini, MMMU-val, 和 DocVQA)。
  • 强化学习阶段优化了数据质量和学习效率,实现了可扩展性的新突破。

科学视野测试集

  • Kimi 独立构建了一个标准化测试集 Science Vista,涵盖数学、物理和化学领域不同难度的图像问题,并将向业界开放使用。

内部测试中的局限性

  • 虽然 k1 模型在内部测试中表现出需要改进的地方(如分布外泛化能力和解决复杂问题的成功率),但在视觉噪声场景下的性能超越了其他模型,展示了卓越的视觉识别能力。

应用领域

  • k1 不仅在数学方面表现出色,还扩展到了物理和化学等基础科学领域。
  • k1 模型具备广泛的通用性,能够解释非数学问题,例如科学家手稿的内容和背景故事。

用户体验与推广

  • Kimi 的智能助理期待与用户共同探索更大的世界。新的 k1 模型现已上线,用户可以通过最新版本的 Kimi Intelligent Assistant 移动应用或网页版进行体验。

Source:https://www.aibase.com/news/13971