世界首个跨本体全场景全景导航基础模型NavFoM发布
模型概述
银河通用联合北京大学、阿德莱德大学和浙江大学团队,共同推出了全球首个跨本体全场景全景导航基础模型——NavFoM(Navigation Foundation Model)。该创新模型旨在将多种机器人导航任务整合到统一框架中。
核心特性
全场景支持能力
- 支持室内外多种环境
- 无需先验知识即可在未知环境中运行
- 无需额外建图或数据收集
- 用户可在各种环境中便捷应用,无需繁琐准备工作
多任务支持能力
- 通过自然语言指令执行目标跟随和自主导航等任务
- 支持不同机器人快速适配
- 兼容多种尺寸机器人:从机器狗到无人机,从轮式人形机器人到汽车
技术创新
TVI Tokens(时序-视角索引令牌)
- 使模型能够理解时间和方向
- 增强时空感知能力
BATS策略(预算感知令牌采样)
- 在有限计算资源下仍能保持良好性能
- 优化计算效率
数据基础
- 构建大型跨任务数据集
- 包含约800万跨任务、跨本体导航数据
- 包含400万开放式问答数据
- 训练量是先前工作的两倍
- 赋予模型更强的语言和空间语义理解能力
重要意义
NavFoM的发布标志着机器人导航领域的重大进步。开发者可以基于该模型,通过后续训练进一步开发针对特定需求的应用模型。
关键要点
- NavFoM是全球首个跨本体全场景全景导航大模型,能够统一多种机器人导航任务
- 模型支持室内外场景的零样本操作,无需额外建图或数据收集
- 引入TVI Tokens和BATS策略,增强模型在理解时间、方向和计算资源约束下的性能
