大公报|优质数据可大幅提升模型精准度

2026年4月12日 20:39 • 来源 : 大公报

具身智能數據是支撐機器人實現自主感知、決策、執行與交互的核心生產資料，是機器人「大腦」進化的關鍵燃料，具備強物理屬性、高場景關聯性、多模態融合三大特徵。

具身智能數據主要包含真機實測數據與仿真合成數據兩類。真機數據來自機器人在真實場景中的作業採集，涵蓋深度視頻、關節電機、運動軌跡、語義交互、物理反饋等多維度信息，是模型訓練的核心優質數據，但採集成本高、效率低、規模有限；仿真數據通過虛擬環境生成，成本低、易規模化，可補充真機數據缺口，但存在「仿真到現實」的遷移誤差。

據百度智能雲泛科技創新行業負責人徐良介紹，當前行業數據面臨三大痛點：一是標準缺失，各企業傳感器、控制協議、標註規則互不兼容，數據難以互通復用；二是成本高企，真機設備昂貴，人工採集與標註耗時費力，中小企業難以承擔；三是孤島嚴重，企業數據自給自足，缺乏流通渠道，資源浪費與數據短缺並存。

具身智能數據的核心價值在於訓練機器人理解物理世界、執行複雜任務，從簡單動作執行邁向自主場景適配。優質數據可大幅提升模型精準度、魯棒性與泛化能力，推動機器人在工業、零售、家居、公共服務等場景落地。隨着數據超市等基礎設施完善，數據標準化、流通化、資產化將成為行業趨勢，為具身智能規模化落地提供持續動力。（大公報記者郭若溪）

大公报|优质数据可大幅提升模型精准度

相关推荐