京东搞个大动作:用摄像头“喂”机器人
4 月 16 日,京东搞了个发布会,正式推出了一个叫 JoyEgoCam 的新玩意儿。说人话就是:这是个专门给 AI 机器人用的超高清“眼睛”。
这玩意儿有点意思。京东以前总觉得自己是卖东西的,没想到这次跳出来做硬件了。JoyEgoCam 号称是“全球首个”能管上从拍视频、存数据、标数据,一直到训练、评估、仿真这一整套流程的设施。简单说,就是京东想从物理世界里“抓”数据,直接喂给自家的 AI 模型,省去中间那些麻烦的环节。
这设备能干什么?
参数确实挺唬人:
- 视角广:双摄像头,上下左右能看个 130 度,基本把周围都框进去了。
- 分辨率高:2160×2160,这画质没得挑,看得清细节。
- 帧率高:60 帧,动作再快也能跟得上。
厂家说,这种“高帧率 + 高分辨率”的组合,是为了捕捉机器人学习时那些细微的动作和环境变化。听起来挺专业,但咱们得想想,具身智能(也就是让机器人像人一样干活)确实需要看清这些细节,比如机器人拿杯子时手指怎么动,或者避障时怎么判断距离。
京东到底图什么?
我觉得京东这一招,其实是想“卡位”。
上个月他们还在吹什么“人类历史上最大规模的数据采集计划”,这次直接上了硬件,逻辑很顺:
- 抢数据量:计划两年内把现实世界的视频数据攒到 1000 万小时以上。数据量就是钱。
- 抢赛道:现在 AI 圈都在卷参数(模型有多大),京东觉得这招没用了,得卷数据质量。既然参数拼不过,那就从源头——也就是硬件和原始数据——卡住你。
- 自研路径:坚持“硬件定义数据,数据喂养模型”。以前可能花钱买数据,现在自己造相机拍,这成本虽然高,但数据质量可控,也没人跟我抢。
- 落地面子:这技术不打算做给普通用户看,主要是给京东物流用的,还有各种服务机器人的场景。毕竟自己家仓库里全是数据,拿来练手最方便。
这么搞靠谱吗?
说实话,我有几个想法,挺复杂的。
第一,数据确实成墙了。
你看现在的 AI 大模型,参数都堆得差不多了,大家的模型能力越来越像。这时候,谁手里有独家、高质量、真实的物理世界数据,谁就能赢。特别是这种超高清视频,里面包含的信息量比普通的监控视频大太多了,对训练机器人来说,这简直是“营养大餐”。
第二,自己造铲子挖自己的坑。
以前搞 AI 的,要么开源数据随便用,要么花钱买商业数据,数据质量参差不齐,标注也不统一。京东现在自己造相机,不仅能控制拍出来的质量,还能统一标注标准。这意味着训练出来的模型,跟京东自家的业务(比如送快递、理货)能更无缝地接上。这点确实比光靠开源数据强,因为开源数据里哪有那么多“京东仓库”这种特定场景?
第三,场景就是命脉。
京东手里有最大的线下物流网,这就是现成的训练场。机器人能在真实的仓库里跑,遇到的情况千奇百怪,练出来的模型肯定比在模拟环境里练的更“皮实”。
不过,我也得泼盆冷水。
这 JoyEgoCam 虽然参数漂亮,但真能用起来得看落地效果。
- 贵不贵? 工业级性能通常意味着价格不菲。如果每个仓库都要铺满这种相机,成本能不能接受?
- 好不好用? 双摄 130 度视角,虽然广,但会不会有畸变?60 帧对普通仓库巡检可能够了,但如果要处理高速分拣,会不会造成数据量爆炸,服务器扛不住?
- 真闭环? 从数据采集到模型训练,再到机器人真的能干活,中间还有好多技术坑要填。光有数据不意味着 AI 就能学会,怎么把数据“翻译”成机器人能懂的动作,这才是难点。
总的来说,京东这步棋走得挺大,想通过硬件掌控数据命脉,再结合自己的物流场景,把具身智能这摊生意做大。这思路是对的,毕竟“数据即壁垒”已经是行业共识了。
但能不能成,还得看这设备能不能真的低成本、高效率地部署,以及训练出来的机器人能不能真的在复杂的现实环境里把活儿干漂亮。毕竟,AI 最难的不是给数据,而是让机器学会理解数据。
咱们就拭目以待吧,看看这“京东系”机器人到底能进化成啥样。
