二维码
×
希鸥网logo

具身智能遭遇“数据荒”:机器人如何跨越从“炫技”到“实干”的鸿沟?

作者 / 网络 发布时间 / 2026年05月14日 来源 / 网络 分类 / 产业观察

让机器人开一颗核桃,它却像磕鸡蛋一样把核桃砸向桌面;从冰箱里拿瓶矿泉水,耗时10分钟才完成;让机器人叠衣服,它煞有介事地不断瞄准、纠偏,最后却把衣服揉成一团……在成为“舞蹈演员”和“长跑健将”之后,机器人被要求做更多“务实”工作,却带来了很多令人哭笑不得的翻车场景。

“机器人要做到实用,必须面对丰富的物理世界,这需要大量的具身智能数据来学习训练。”复旦大学长聘特聘教授、飞捷科思智能科技(上海)有限公司创始人张立华表示。据不完全统计,全球研发端对高质量数据的需求量约为120万小时,而全行业每月数据产出量仅为25万—30万小时。高质量具身智能数据稀缺,已成为行业发展的关键瓶颈。

2026年被业界称为“具身智能数据元年”,行业正从算法驱动转向数据驱动。然而,现有数据严重不足。大语言模型靠海量文本学会了生成语言,基于同样的逻辑,具身智能机器人需要依靠海量的人类动作数据,才能学会在真实世界里干活。

“用手捡起干木耳”这个对人来说轻而易举的动作,机器人需要调动物体材质辨识、空间姿态匹配等多个技能。“台上一分钟”稳定可靠的执行,需要台下亿万真实、高质量的人类动作数据作为支撑。然而,机器人不像孩子一样“有样学样”,它们的数据集里需要位置坐标、力矩量化、触觉反馈的标注等。互联网上海量的文本、视频因缺乏动作数据,并不能直接“喂”给机器人。

“大语言模型使用的文本或影音数据,本质上是‘观察者视角’的静态数据,但具身智能需要‘交互者视角’的数据。一个符合要求的抓取动作数据,不仅要包含视觉信息,还应包含实时的力反馈、触觉感知以及电机扭矩的连续变化。”张立华介绍,目前互联网上几乎不存在现成的、能够直接映射到机器人感知与控制链路上的“多模态指令—动作”数据集,“我们面临的不是数据的优化,而是从零开始的原始积累”。

“完成一个高质量模型的训练,至少需要一千万小时量级的数据。”京东云产品经理蔡晨表示,当前市场上成熟的具身智能数据集只有几十万小时,远远不能支撑行业训练出高质量、通用的具身大模型。此外,数据具有极强的硬件依赖性。由于机器人构型的限制,数据难以在不同机器人之间复用。例如,身高1.2米和1.8米的机器人,即便抓取同等高度的物体,机械臂的运动行程也完全不同,数据难以迁移。

与此同时,机器人模型的飞速发展亦使得数据短缺愈发明显。具身智能大模型参数规模已从几百万提升到几亿量级,模型越复杂,需要的数据量就越大,数据短板问题日渐突出。

目前,高质量具身数据的获取手段极其繁琐且成本高昂。当前主要的采集方式包括四类:真机遥操作、动作捕捉采集、人类行为视频和仿真合成数据。真机遥操作数据质量高,但成本高、效率低;动作捕捉便于规模化,但需进行人机动作重定向;人类行为视频成本低、规模大,但缺乏精确标注;仿真合成数据可控可扩展,但存在仿真与现实的真实性鸿沟。

在业内专家看来,当前具身智能数据存在一个“不可能三角”,即高质量、大规模、低成本三大要素无法同时兼得。真机遥操作数据质量高,但面对数亿级样本需求无异于杯水车薪;低成本数据规模容易做大,但往往缺乏物理属性和可执行性,直接用于训练很容易造成模型“看起来会、做起来不稳”。

面对这一困局,行业共识正在从“单点采集”走向“多元数据融合互补”。京东云通过数据的全链路处理,能够“一站式”实现人类行为视频、仿真合成与真机操作三类数据的价值转化与泛化扩增。业内不少企业都采用递进式训练路径:先用低成本、大规模的视频数据打底,让机器人了解要干什么;再用高保真仿真模型生成大量可控数据,帮助机器人熟悉各种场景;最后用高价值、小体量的真机遥操作数据进行纠偏和校准,让机器人完成精细动作。

“目前行业主流采用的是混合训练策略。这种组合既保证了动作的精准度,又兼顾了场景的泛化能力,是目前破解数据难题的最有效手段。”中国科学院自动化研究所副研究员周明才说。

希鸥网观察认为,具身智能的数据稀缺,不是单纯的“量少”,而是能够支撑复杂物理推演的高质量、多模态、可对齐的数据极度匮乏。这种短缺本质上是技术演进的必然阶段,谁能率先在数据自动化采集、异构数据归一化以及仿真到真实(Sim-to-Real)的高效迁移上取得突破,谁就将掌握下半场竞争的主动权。

然而,在各自为战的模式下,大量资源被重复投入到相似的数据采集与技术研发中,造成严重浪费。“当前行业最紧迫的需求不是单纯增加采集设备或者增加仿真场景,而是建立一套贯穿‘采集、生成、标注、清洗、训练、评测、反馈’各环节的行业通用数据标准。”张立华表示,统一具身智能数据标准的难点在于,它不是静态数据,必须与任务、机器人本体、物理环境和模型能力紧密耦合。

机器人技术路线的分散也是另一大障碍。不同构型的机器人在自由度、连杆长度、传感器分布和减速器的精度上各不相同,导致采集的数据很难迁移利用。仅北京人形机器人创新中心数据基地,就采购了7个品牌120台不同构型的机器人开展真机遥操作数据采集,只为适配不同机器人企业的不同数据要求。

希鸥网观察指出,跨本体的数据如何复用,是制约行业发展的关键问题。如果要提高具身智能数据的流通性,机器人本身的构型标准也要相对统一。除了统一数据标准之外,还需要提高具身数据的高保真物理表达能力。机器人最终要在真实世界工作,数据必须反映真实世界的接触、力学、材质和因果关系。行业不能只看数据规模,而要看数据是否真正提升了模型在真实任务中的成功率、稳健性和安全性。

(本稿件整理自网络公开报道,将同步发布希鸥网、创新日报、锐CEO网、NasdaqLtd观察网、斯贝瑞品牌资讯、AI联播等网站,编辑:张多金,微信号:meisceo29,写稿、投稿咨询联系我。)

阅读量:1352
10秒生文 寻求报道 创业大集 报名活动 创业10年荣耀奖 城市合伙人 12000+媒体资源