AI-NEWS · 2024年 12月 16日

新模型问世：Kimi视觉思维模型首发！

k1 视觉思维模型发布

The Dark Side of the Moon 今日宣布推出全新视觉思维模型 k1，该模型基于强化学习技术，支持端到端图像理解并整合了链式思考方法。它不仅在数学领域表现出色，还扩展到了更基础的科学领域，如物理和化学。

性能表现

在基准能力测试中，k1 模型超越了全球领先的基准模型，包括 OpenAI 的 o1、GPT-4o 和 Claude3.5Sonnet。
k1 鼓励生成更详细的推理步骤，形成高质量的链式思考结构，显著提升了解决复杂任务的成功率。

图像理解与互动

k1 模型集成了图像理解和推理能力，为用户提供更加流畅的交互体验，可以直接处理用户输入的图像信息并得出答案，无需依赖外部 OCR 或额外的视觉模型。

训练过程

训练阶段：分为预训练和强化学习两个阶段。基线模型在 OCRBench 上获得了 903 的高分，并在多个基准测试集中表现出色（如 MathVista-testmini, MMMU-val, 和 DocVQA）。
强化学习阶段优化了数据质量和学习效率，实现了可扩展性的新突破。

科学视野测试集

Kimi 独立构建了一个标准化测试集 Science Vista，涵盖数学、物理和化学领域不同难度的图像问题，并将向业界开放使用。

内部测试中的局限性

虽然 k1 模型在内部测试中表现出需要改进的地方（如分布外泛化能力和解决复杂问题的成功率），但在视觉噪声场景下的性能超越了其他模型，展示了卓越的视觉识别能力。

应用领域

k1 不仅在数学方面表现出色，还扩展到了物理和化学等基础科学领域。
k1 模型具备广泛的通用性，能够解释非数学问题，例如科学家手稿的内容和背景故事。

用户体验与推广

Kimi 的智能助理期待与用户共同探索更大的世界。新的 k1 模型现已上线，用户可以通过最新版本的 Kimi Intelligent Assistant 移动应用或网页版进行体验。

Source:https://www.aibase.com/news/13971

您可能还喜欢...