AI-NEWS · 2025年 11月 30日

快手旗舰发布多模态推理突破

快手发布旗舰多模态模型Keye-VL-671B-A37B,多模态推理能力实现重大突破

模型概述

快手于2025年11月28日正式发布新一代旗舰多模态模型Keye-VL-671B-A37B,并同步开源代码。该模型以"善于观察与思考"为特点,在通用视觉理解、视频分析和数学推理等多个核心基准测试中表现优异,进一步巩固了快手在人工智能领域的技术实力。

核心特性

  • 设计理念:实现更高层次的多模态理解和复杂推理
  • 能力升级:在基础模型强大通用能力基础上,系统升级了视觉感知、跨模态对齐和复杂推理路径
  • 应用优势:提升在各种场景下的响应准确性和稳定性,无论是日常应用还是高难度任务都能提供更准确结果

技术架构

模型组成

  • 大语言模型基础:DeepSeek-V3-Terminus
  • 视觉模型:基于Keye-VL-1.5初始化的KeyeViT
  • 连接方式:通过MLP层连接

训练过程

预训练三阶段

  1. 冻结视觉和语言模型参数,进行初始对齐训练
  2. 开放所有参数,进行完整预训练
  3. 在更高质量数据上进行退火训练,显著增强模型细粒度感知能力

后训练过程

  • 监督微调
  • 冷启动
  • 强化学习

训练数据与任务

  • 数据规模:300B高质量预训练数据,经过严格筛选
  • 训练任务:视觉问答、图表理解、富文本OCR等
  • 成本控制:在确保视觉理解能力的同时控制计算成本

未来发展路径

能力增强方向

  1. 基础模型能力持续提升
  2. 多模态Agent能力深度融合
  3. 向"能使用工具、能解决复杂问题"的智能化形态发展

关键技术突破

  • 多轮工具调用能力:在实际任务中自主调用外部工具,完成复杂搜索、推理和信息整合
  • 深度探索方向
    • "图像思考"(think with image)
    • "视频思考"(think with video)
    • 围绕图像和视频内容进行深度思考和链式推理

战略意义

通过基础能力和Agent能力的双轮驱动,快手Keye-VL旨在持续拓展多模态智能的边界,朝着更通用、更可靠、推理能力更强的下一代多模态系统迈进。这一创新将为多模态AI的发展带来新的机遇与挑战。

火龙果频道