具身智能遭遇“数据荒”：机器人如何跨越从“炫技”到“实干”的鸿沟？

让机器人开一颗核桃，它却像磕鸡蛋一样把核桃砸向桌面；从冰箱里拿瓶矿泉水，耗时10分钟才完成；让机器人叠衣服，它煞有介事地不断瞄准、纠偏，最后却把衣服揉成一团……在成为“舞蹈演员”和“长跑健将”之后，机器人被要求做更多“务实”工作，却带来了很多令人哭笑不得的翻车场景。

“机器人要做到实用，必须面对丰富的物理世界，这需要大量的具身智能数据来学习训练。”复旦大学长聘特聘教授、飞捷科思智能科技（上海）有限公司创始人张立华表示。据不完全统计，全球研发端对高质量数据的需求量约为120万小时，而全行业每月数据产出量仅为25万—30万小时。高质量具身智能数据稀缺，已成为行业发展的关键瓶颈。

2026年被业界称为“具身智能数据元年”，行业正从算法驱动转向数据驱动。然而，现有数据严重不足。大语言模型靠海量文本学会了生成语言，基于同样的逻辑，具身智能机器人需要依靠海量的人类动作数据，才能学会在真实世界里干活。

“用手捡起干木耳”这个对人来说轻而易举的动作，机器人需要调动物体材质辨识、空间姿态匹配等多个技能。“台上一分钟”稳定可靠的执行，需要台下亿万真实、高质量的人类动作数据作为支撑。然而，机器人不像孩子一样“有样学样”，它们的数据集里需要位置坐标、力矩量化、触觉反馈的标注等。互联网上海量的文本、视频因缺乏动作数据，并不能直接“喂”给机器人。

“大语言模型使用的文本或影音数据，本质上是‘观察者视角’的静态数据，但具身智能需要‘交互者视角’的数据。一个符合要求的抓取动作数据，不仅要包含视觉信息，还应包含实时的力反馈、触觉感知以及电机扭矩的连续变化。”张立华介绍，目前互联网上几乎不存在现成的、能够直接映射到机器人感知与控制链路上的“多模态指令—动作”数据集，“我们面临的不是数据的优化，而是从零开始的原始积累”。

“完成一个高质量模型的训练，至少需要一千万小时量级的数据。”京东云产品经理蔡晨表示，当前市场上成熟的具身智能数据集只有几十万小时，远远不能支撑行业训练出高质量、通用的具身大模型。此外，数据具有极强的硬件依赖性。由于机器人构型的限制，数据难以在不同机器人之间复用。例如，身高1.2米和1.8米的机器人，即便抓取同等高度的物体，机械臂的运动行程也完全不同，数据难以迁移。

与此同时，机器人模型的飞速发展亦使得数据短缺愈发明显。具身智能大模型参数规模已从几百万提升到几亿量级，模型越复杂，需要的数据量就越大，数据短板问题日渐突出。

目前，高质量具身数据的获取手段极其繁琐且成本高昂。当前主要的采集方式包括四类：真机遥操作、动作捕捉采集、人类行为视频和仿真合成数据。真机遥操作数据质量高，但成本高、效率低；动作捕捉便于规模化，但需进行人机动作重定向；人类行为视频成本低、规模大，但缺乏精确标注；仿真合成数据可控可扩展，但存在仿真与现实的真实性鸿沟。

在业内专家看来，当前具身智能数据存在一个“不可能三角”，即高质量、大规模、低成本三大要素无法同时兼得。真机遥操作数据质量高，但面对数亿级样本需求无异于杯水车薪；低成本数据规模容易做大，但往往缺乏物理属性和可执行性，直接用于训练很容易造成模型“看起来会、做起来不稳”。

面对这一困局，行业共识正在从“单点采集”走向“多元数据融合互补”。京东云通过数据的全链路处理，能够“一站式”实现人类行为视频、仿真合成与真机操作三类数据的价值转化与泛化扩增。业内不少企业都采用递进式训练路径：先用低成本、大规模的视频数据打底，让机器人了解要干什么；再用高保真仿真模型生成大量可控数据，帮助机器人熟悉各种场景；最后用高价值、小体量的真机遥操作数据进行纠偏和校准，让机器人完成精细动作。

“目前行业主流采用的是混合训练策略。这种组合既保证了动作的精准度，又兼顾了场景的泛化能力，是目前破解数据难题的最有效手段。”中国科学院自动化研究所副研究员周明才说。

希鸥网观察认为，具身智能的数据稀缺，不是单纯的“量少”，而是能够支撑复杂物理推演的高质量、多模态、可对齐的数据极度匮乏。这种短缺本质上是技术演进的必然阶段，谁能率先在数据自动化采集、异构数据归一化以及仿真到真实（Sim-to-Real）的高效迁移上取得突破，谁就将掌握下半场竞争的主动权。

然而，在各自为战的模式下，大量资源被重复投入到相似的数据采集与技术研发中，造成严重浪费。“当前行业最紧迫的需求不是单纯增加采集设备或者增加仿真场景，而是建立一套贯穿‘采集、生成、标注、清洗、训练、评测、反馈’各环节的行业通用数据标准。”张立华表示，统一具身智能数据标准的难点在于，它不是静态数据，必须与任务、机器人本体、物理环境和模型能力紧密耦合。

机器人技术路线的分散也是另一大障碍。不同构型的机器人在自由度、连杆长度、传感器分布和减速器的精度上各不相同，导致采集的数据很难迁移利用。仅北京人形机器人创新中心数据基地，就采购了7个品牌120台不同构型的机器人开展真机遥操作数据采集，只为适配不同机器人企业的不同数据要求。

希鸥网观察指出，跨本体的数据如何复用，是制约行业发展的关键问题。如果要提高具身智能数据的流通性，机器人本身的构型标准也要相对统一。除了统一数据标准之外，还需要提高具身数据的高保真物理表达能力。机器人最终要在真实世界工作，数据必须反映真实世界的接触、力学、材质和因果关系。行业不能只看数据规模，而要看数据是否真正提升了模型在真实任务中的成功率、稳健性和安全性。

（本稿件整理自网络公开报道，将同步发布希鸥网、创新日报、锐CEO网、NasdaqLtd观察网、斯贝瑞品牌资讯、AI联播等网站，编辑：张多金，微信号：meisceo29，写稿、投稿咨询联系我。）