快手发布旗舰多模态模型Keye-VL-671B-A37B,多模态推理能力实现重大突破
模型概述
快手于2025年11月28日正式发布新一代旗舰多模态模型Keye-VL-671B-A37B,并同步开源代码。该模型以"善于观察与思考"为特点,在通用视觉理解、视频分析和数学推理等多个核心基准测试中表现优异,进一步巩固了快手在人工智能领域的技术实力。
核心特性
- 设计理念:实现更高层次的多模态理解和复杂推理
- 能力升级:在基础模型强大通用能力基础上,系统升级了视觉感知、跨模态对齐和复杂推理路径
- 应用优势:提升在各种场景下的响应准确性和稳定性,无论是日常应用还是高难度任务都能提供更准确结果
技术架构
模型组成
- 大语言模型基础:DeepSeek-V3-Terminus
- 视觉模型:基于Keye-VL-1.5初始化的KeyeViT
- 连接方式:通过MLP层连接
训练过程
预训练三阶段:
- 冻结视觉和语言模型参数,进行初始对齐训练
- 开放所有参数,进行完整预训练
- 在更高质量数据上进行退火训练,显著增强模型细粒度感知能力
后训练过程:
- 监督微调
- 冷启动
- 强化学习
训练数据与任务
- 数据规模:300B高质量预训练数据,经过严格筛选
- 训练任务:视觉问答、图表理解、富文本OCR等
- 成本控制:在确保视觉理解能力的同时控制计算成本
未来发展路径
能力增强方向
- 基础模型能力持续提升
- 多模态Agent能力深度融合
- 向"能使用工具、能解决复杂问题"的智能化形态发展
关键技术突破
- 多轮工具调用能力:在实际任务中自主调用外部工具,完成复杂搜索、推理和信息整合
- 深度探索方向:
- "图像思考"(think with image)
- "视频思考"(think with video)
- 围绕图像和视频内容进行深度思考和链式推理
战略意义
通过基础能力和Agent能力的双轮驱动,快手Keye-VL旨在持续拓展多模态智能的边界,朝着更通用、更可靠、推理能力更强的下一代多模态系统迈进。这一创新将为多模态AI的发展带来新的机遇与挑战。
