无障碍
x

全部频道

北京> 正文

京企首创具身大一统模型斩获全球评测冠军 人形机器人有了“全能大脑”

2026-05-19 06:47 北京日报

来源标题:人形机器人有了“全能大脑”

大模型相当于人形机器人的大脑,决定着人形机器人能否听得懂人话、看得清世界、干得了活儿。近日,北京人形机器人创新中心研发的行业首款具身大一统模型“Pelican-Unify 1.0”在World Arena全球权威评测中夺冠。这款大模型可以为人形机器人配备“全能大脑”,使机器人像人一样先想象、再行动,任务完成准确率更高。

过去,机器人配备的往往是“散装大脑”,视觉、语言、动作等不同领域各有一个模型负责;而具身大一统模型则是“全能大脑”,把机器人的看、听、想、预判、动作控制全部装进一个“神经网络”,仅一个模型就能搞定。

其实,“散装大脑”源于具身智能的多条路线:VLM 模型擅长理解图像和指令,VLA模型能够将视觉语言输入映射为动作,世界模型能够预测未来状态。“但这些路线往往各自优化、分段连接,容易把机器人的看、想、动割裂起来。”北京人形机器人创新中心研发人员说。

该研发人员举例,如果让机器人把插头插进插座,即使插的位置错了,机器人也不知道,更无法改正。这是因为机器人是依靠数据模仿学习的,之前采集的数据都是人类正确操作的轨迹,没遇到插错的情况。所以机器人一旦做错,本身无法纠正偏差。

正如具身大一统模型的名字一样,Pelican-Unify 1.0的理解、推理、想象与行动均不再是孤立模块,而是实现统一理解、统一推理、统一生成,让机器人具备像人一样“先想象、再行动”的能力。

比如,让机器人把苹果放进碗里,机器人在执行前便会先“想”面前的苹果放进碗里是什么样子的。等把苹果放进碗里后,它再把实际画面和之前想象的画面对比。如果不一致,机器人便知道自己做错了,再修改调整。

“这是因为大模型进行了预训练,将人类日常遇到类似情况的操作轨迹数据补充给机器人。”该研发人员解释,该模型能在动作执行前生成未来视觉状态,让动作预测与未来想象相互对齐。

据悉,北京人形机器人创新中心已经尝试将该模型部署到人形机器人“天工”和机械臂上,当工作人员下达“插入接口”“防水处理”等指令后,机器人可以自己辨别动作的先后顺序,准确无误完成操作。

新闻链接

World Arena评测由清华大学联合普林斯顿大学、新加坡国立大学、北京大学、香港大学等8所顶尖机构共同发起,涵盖六大评测维度、16项细分指标、三大真实应用任务。因其学术严谨性与行业公信力,吸引了全球几乎所有头部世界模型团队参评。在激烈角逐中,“Pelican-Unify 1.0”的具身大一统模型脱颖而出,位列首位。此前,北京人形机器人创新中心研发的另一款模型也登顶World Arena评测的数据引擎赛道。

责任编辑:张思宇(QX0007)作者:曹政

北京千龙新闻网络传播有限责任公司版权所有 未经千龙新闻网书面特别授权,请勿转载或建立镜像,违者依法必究新出网证(京)字013号 增值电信业务经营许可证 2-2-1-2004139 跨地区增值电信业务许可证

信息网络传播视听节目许可证0104056号 互联网新闻信息服务许可证11120180003号 京公网安备 11000002000007号

分享到:
QQ空间 新浪微博 微信 腾讯微博 QQ好友 百度首页 腾讯朋友 有道云笔记