AI-NEWS · 2025年 11月 6日

全球首款跨实体导航大模型发布

世界首个跨本体全场景全景导航基础模型NavFoM发布

模型概述

银河通用联合北京大学、阿德莱德大学和浙江大学团队,共同推出了全球首个跨本体全场景全景导航基础模型——NavFoM(Navigation Foundation Model)。该创新模型旨在将多种机器人导航任务整合到统一框架中。

核心特性

全场景支持能力

  • 支持室内外多种环境
  • 无需先验知识即可在未知环境中运行
  • 无需额外建图或数据收集
  • 用户可在各种环境中便捷应用,无需繁琐准备工作

多任务支持能力

  • 通过自然语言指令执行目标跟随和自主导航等任务
  • 支持不同机器人快速适配
  • 兼容多种尺寸机器人:从机器狗到无人机,从轮式人形机器人到汽车

技术创新

TVI Tokens(时序-视角索引令牌)

  • 使模型能够理解时间和方向
  • 增强时空感知能力

BATS策略(预算感知令牌采样)

  • 在有限计算资源下仍能保持良好性能
  • 优化计算效率

数据基础

  • 构建大型跨任务数据集
  • 包含约800万跨任务、跨本体导航数据
  • 包含400万开放式问答数据
  • 训练量是先前工作的两倍
  • 赋予模型更强的语言和空间语义理解能力

重要意义

NavFoM的发布标志着机器人导航领域的重大进步。开发者可以基于该模型,通过后续训练进一步开发针对特定需求的应用模型。

关键要点

  • NavFoM是全球首个跨本体全场景全景导航大模型,能够统一多种机器人导航任务
  • 模型支持室内外场景的零样本操作,无需额外建图或数据收集
  • 引入TVI Tokens和BATS策略,增强模型在理解时间、方向和计算资源约束下的性能

火龙果频道