京企首创具身大一统模型斩获全球评测冠军人形机器人有了“全能大脑”-千龙网·中国首都网

大模型相当于人形机器人的大脑，决定着人形机器人能否听得懂人话、看得清世界、干得了活儿。近日，北京人形机器人创新中心研发的行业首款具身大一统模型“Pelican-Unify 1.0”在World Arena全球权威评测中夺冠。这款大模型可以为人形机器人配备“全能大脑”，使机器人像人一样先想象、再行动，任务完成准确率更高。

过去，机器人配备的往往是“散装大脑”，视觉、语言、动作等不同领域各有一个模型负责；而具身大一统模型则是“全能大脑”，把机器人的看、听、想、预判、动作控制全部装进一个“神经网络”，仅一个模型就能搞定。

其实，“散装大脑”源于具身智能的多条路线：VLM 模型擅长理解图像和指令，VLA模型能够将视觉语言输入映射为动作，世界模型能够预测未来状态。“但这些路线往往各自优化、分段连接，容易把机器人的看、想、动割裂起来。”北京人形机器人创新中心研发人员说。

该研发人员举例，如果让机器人把插头插进插座，即使插的位置错了，机器人也不知道，更无法改正。这是因为机器人是依靠数据模仿学习的，之前采集的数据都是人类正确操作的轨迹，没遇到插错的情况。所以机器人一旦做错，本身无法纠正偏差。

正如具身大一统模型的名字一样，Pelican-Unify 1.0的理解、推理、想象与行动均不再是孤立模块，而是实现统一理解、统一推理、统一生成，让机器人具备像人一样“先想象、再行动”的能力。

比如，让机器人把苹果放进碗里，机器人在执行前便会先“想”面前的苹果放进碗里是什么样子的。等把苹果放进碗里后，它再把实际画面和之前想象的画面对比。如果不一致，机器人便知道自己做错了，再修改调整。

“这是因为大模型进行了预训练，将人类日常遇到类似情况的操作轨迹数据补充给机器人。”该研发人员解释，该模型能在动作执行前生成未来视觉状态，让动作预测与未来想象相互对齐。

据悉，北京人形机器人创新中心已经尝试将该模型部署到人形机器人“天工”和机械臂上，当工作人员下达“插入接口”“防水处理”等指令后，机器人可以自己辨别动作的先后顺序，准确无误完成操作。

新闻链接

World Arena评测由清华大学联合普林斯顿大学、新加坡国立大学、北京大学、香港大学等8所顶尖机构共同发起，涵盖六大评测维度、16项细分指标、三大真实应用任务。因其学术严谨性与行业公信力，吸引了全球几乎所有头部世界模型团队参评。在激烈角逐中，“Pelican-Unify 1.0”的具身大一统模型脱颖而出，位列首位。此前，北京人形机器人创新中心研发的另一款模型也登顶World Arena评测的数据引擎赛道。

新闻链接

全部频道

京企首创具身大一统模型斩获全球评测冠军人形机器人有了“全能大脑”

热点排行

频道推荐

千龙网

全部频道

京企首创具身大一统模型斩获全球评测冠军 人形机器人有了“全能大脑”

热点排行

频道推荐

千龙网

京企首创具身大一统模型斩获全球评测冠军人形机器人有了“全能大脑”