字节跳动Seed团队发布突破性视觉-语言-动作模型GR-3
核心突破
- 模型架构:采用混合Transformer(MoT)网络结构,集成视觉语言模块与动作生成模块
- 参数量:40亿参数端到端模型
- 关键技术:
- 动作生成采用Diffusion Transformer(DiT)+ Flow-Matching技术
- 引入标准化RMSNorm设计
- 实现从摄像头画面和语言指令直接规划连续动作
训练数据创新
采用三合一数据训练法:
- 遥操作机器人采集的高质量真机数据(保障基础操作能力)
- VR设备采集的人类轨迹数据(学习效率提升80%,450条/小时 vs 传统250条/小时)
- 公开图文数据(理解抽象概念和识别新物体特征)
效果:
- 物体抓取成功率比基线模型提升17.8%
- 仅需10条人类轨迹数据,新物体操作成功率即可达80%+
性能表现
测试项目 | 关键指标 |
---|---|
通用抓取放置 | 指令遵循率98.1%,成功率96.3% |
长距离桌面清理 | 多步骤操作平均完成率>95% |
柔性衣物处理 | 挂衣任务完成率86.7% |
特殊能力:
- 可处理复杂空间关系指令(如"将可乐旁边的雪碧放入盘子")
- 能识别无效指令并拒绝执行
- 对陌生衣物样式保持稳定操作能力
硬件协同
- 配套平台:ByteMini通用双臂移动机器人
- 22个全身自由度
- 独特腕部球角度设计
- 全身运动控制(WBC)系统
- 感知系统:
- 2个腕部摄像头(细节捕捉)
- 1个头部摄像头(全局视野)
未来规划
- 扩展模型规模
- 增加训练数据量(更多物体视觉语言数据和复杂任务数据)
- 引入强化学习(RL)方法提升抗干扰能力
行业意义
突破传统机器人三大瓶颈:
- 不理解抽象指令
- 不适应环境变化
- 不擅长长期任务
发展愿景:推动通用机器人"大脑"进入日常生活,成为全能智能助手