Figure推出新型机器人学习模型Helix:聚焦家庭场景的通用VLA模型分析
一、核心技术解析
-
模型架构
Helix采用视觉-语言-动作(VLA)三模态架构,通过实时视觉数据与自然语言指令控制机器人,技术路径与Google DeepMind RT-2形成对标 -
突破性能力
- 零样本物体泛化:可识别并操作训练集外数千种家居物品(如演示案例中的饼干袋)
- 多机协同:支持双机器人协作完成复合指令("从左机器人取饼干袋放入抽屉")
-
技术演进
相较OpenAI合作时期,模型自主性显著提升,印证Figure终止合作后加速技术闭环构建
二、战略布局观察
工业场景 | 家庭场景 | |
---|---|---|
环境复杂度 | 结构化 | 非结构化(物品多样性+环境不可预测性) |
商业化路径 | 当前主流(BMW等客户) | 战略新方向(2024 TechCrunch展示转折) |
技术挑战 | 确定性任务执行 | 动态环境适应(需持续ML训练) |
三、行业痛点与突破
-
成本困境
当前家庭机器人开发成本超$100k/台,倒逼企业采用"工业先行-技术沉淀-家庭渗透"路径 -
数据飞轮构建
Helix通过自然语言交互收集真实用户指令,构建家庭场景行为数据库(关键训练资源) -
商业化窗口
创始人Brett Adcock明确将2025-2027年设为家庭机器人商业化关键期,需突破:- 硬件成本控制(现有机型成本下降曲线)
- 长尾场景覆盖率(当前模型仍处早期阶段)
四、竞争格局研判
- 技术对标:相较波士顿动力Atlas的预设动作库,Helix强调AI生成新行为
- 生态壁垒:通过开放API构建开发者生态的可能性(官网未披露但值得关注)
- 专利布局:材料未提及但关键,涉及VLA模型架构、多机通信协议等核心技术
数据洞察:根据Gartner预测,家庭服务机器人市场规模将在2026年突破$460亿,复合增长率23.6%,验证Figure战略转向的行业前瞻性