AI-NEWS · 2025年 7月 23日

字节跳动发布GR-3机器人

字节跳动Seed团队发布突破性视觉-语言-动作模型GR-3

核心突破

  • 模型架构:采用混合Transformer(MoT)网络结构,集成视觉语言模块与动作生成模块
  • 参数量:40亿参数端到端模型
  • 关键技术
    • 动作生成采用Diffusion Transformer(DiT)+ Flow-Matching技术
    • 引入标准化RMSNorm设计
    • 实现从摄像头画面和语言指令直接规划连续动作

训练数据创新

采用三合一数据训练法

  1. 遥操作机器人采集的高质量真机数据(保障基础操作能力)
  2. VR设备采集的人类轨迹数据(学习效率提升80%,450条/小时 vs 传统250条/小时)
  3. 公开图文数据(理解抽象概念和识别新物体特征)

效果

  • 物体抓取成功率比基线模型提升17.8%
  • 仅需10条人类轨迹数据,新物体操作成功率即可达80%+

性能表现

测试项目 关键指标
通用抓取放置 指令遵循率98.1%,成功率96.3%
长距离桌面清理 多步骤操作平均完成率>95%
柔性衣物处理 挂衣任务完成率86.7%

特殊能力:

  • 可处理复杂空间关系指令(如"将可乐旁边的雪碧放入盘子")
  • 能识别无效指令并拒绝执行
  • 对陌生衣物样式保持稳定操作能力

硬件协同

  • 配套平台:ByteMini通用双臂移动机器人
    • 22个全身自由度
    • 独特腕部球角度设计
    • 全身运动控制(WBC)系统
  • 感知系统
    • 2个腕部摄像头(细节捕捉)
    • 1个头部摄像头(全局视野)

未来规划

  1. 扩展模型规模
  2. 增加训练数据量(更多物体视觉语言数据和复杂任务数据)
  3. 引入强化学习(RL)方法提升抗干扰能力

行业意义

突破传统机器人三大瓶颈:

  1. 不理解抽象指令
  2. 不适应环境变化
  3. 不擅长长期任务

发展愿景:推动通用机器人"大脑"进入日常生活,成为全能智能助手

火龙果频道