k1 视觉思维模型发布
The Dark Side of the Moon 今日宣布推出全新视觉思维模型 k1,该模型基于强化学习技术,支持端到端图像理解并整合了链式思考方法。它不仅在数学领域表现出色,还扩展到了更基础的科学领域,如物理和化学。
性能表现
- 在基准能力测试中,k1 模型超越了全球领先的基准模型,包括 OpenAI 的 o1、GPT-4o 和 Claude3.5Sonnet。
- k1 鼓励生成更详细的推理步骤,形成高质量的链式思考结构,显著提升了解决复杂任务的成功率。
图像理解与互动
- k1 模型集成了图像理解和推理能力,为用户提供更加流畅的交互体验,可以直接处理用户输入的图像信息并得出答案,无需依赖外部 OCR 或额外的视觉模型。
训练过程
- 训练阶段:分为预训练和强化学习两个阶段。基线模型在 OCRBench 上获得了 903 的高分,并在多个基准测试集中表现出色(如 MathVista-testmini, MMMU-val, 和 DocVQA)。
- 强化学习阶段优化了数据质量和学习效率,实现了可扩展性的新突破。
科学视野测试集
- Kimi 独立构建了一个标准化测试集 Science Vista,涵盖数学、物理和化学领域不同难度的图像问题,并将向业界开放使用。
内部测试中的局限性
- 虽然 k1 模型在内部测试中表现出需要改进的地方(如分布外泛化能力和解决复杂问题的成功率),但在视觉噪声场景下的性能超越了其他模型,展示了卓越的视觉识别能力。
应用领域
- k1 不仅在数学方面表现出色,还扩展到了物理和化学等基础科学领域。
- k1 模型具备广泛的通用性,能够解释非数学问题,例如科学家手稿的内容和背景故事。
用户体验与推广
- Kimi 的智能助理期待与用户共同探索更大的世界。新的 k1 模型现已上线,用户可以通过最新版本的 Kimi Intelligent Assistant 移动应用或网页版进行体验。