智源研究院揭秘具身智能數據治理新路徑

未來將出現專業的具身數據服務機構,提供“場景定制采集+數據治理+模型訓練支持”的一體化服務。
文|錢麗娜
ID | BMR2004
“在人工智能技術飛速發展的今天,數據作為核心生產要素,其治理水平直接決定著大模型的性能與產業落地的深度。”北京智源人工智能研究院副院長兼總工程師林詠華在2025世界人工智能大會暨人工智能全球治理高級別會議(簡稱WAIC 2025)期間,接受《商學院》雜志專訪時表示。
作為國內人工智能領域的領軍機構,智源研究院在數據治理領域深耕多年,構建了一套涵蓋審查標準、管理規范、創新應用的完整體系。從開源數據的質量管控到具身智能的特殊數據治理,從多元數據使用模式到未來商業模式探索,智源的實踐為行業提供了寶貴的參考樣本,也深刻揭示了數據治理在智能時代的核心價值。
01
數據審查:以技術筑起質量與安全防線
開源數據因質量參差不齊、采集基準缺失等問題廣受詬病,建立科學的數據審查標準成為行業亟待解決的難題。
智源研究院從隱私保護、質量過濾、安全管控三個維度,構建了全流程的數據審查體系,為高質量數據應用奠定了基礎。
在隱私保護方面,智源對所有采集的數據實行“雙重篩查”機制。對于合作方提供的數據集,首先區分其使用權限——哪些可用于模型訓練但不可開源,哪些可部分開源,哪些完全禁止對外披露。例如,某企業提供的用戶行為數據,經過脫敏處理后可用于模型訓練,但原始數據因涉及個人隱私被嚴格限制在內部使用。這種分類處理既保障了數據的利用價值,又守住了隱私保護的紅線。
數據質量過濾則依托技術手段實現標準化。2023年初,智源研究院承擔國家級高質量語料庫建設與開源任務時,便意識到人工審核存在標準不統一、效率低下的問題。為此,研究院訓練出質量過濾模型,構建起完善的算法庫,通過機器審核實現數據質量的統一把控。當遇到新的數據質量問題時,算法庫會迅速迭代更新,將新規則納入模型訓練中。例如,在處理文本數據時,模型能自動識別并過濾掉重復內容、低信息密度文本以及涉黃、涉毒等違規信息,確保入庫數據的純凈度。
安全管控貫穿數據審查的全流程。除了常見的內容安全篩查,智源還針對不同數據類型制定了專項審查標準。對于多模態數據中的圖像、視頻,增加了對敏感場景、標識信息的識別;對于工業場景采集的數據,重點排查是否涉及企業商業機密。這種全方位的審查機制,為數據的安全合規使用提供了堅實保障。
林詠華同時也表示:“實際上我們在使用數據時,很多時候我們發現匯聚數據容易,但使用數據卻變成整個產業的問題。”
02
管理規范:創新數據使用模式破解產業難題
智源研究院在2024年聯合產業機構推出三種數據使用模式,通過開源共享、共建共享、數算一體的多元模式,破解數據流通與保護的難題。具體來看:
開源數據模式聚焦科研與產業普惠。智源將可開放的數據打包發布,支持學術界和產業界免費下載使用。
共建共享模式以積分制激發數據流通活力。針對不愿開源但愿意在可信機構間交換數據的企業,智源設計了一套基于數據質量和數量的積分體系——企業貢獻的數據經質量評估后轉化為積分,積分可用于兌換其他企業的共享數據。這種模式既保護了數據所有權,又打破了“數據壁壘”。
數算一體模式則為版權要求高的數據提供安全使用方案,數據和算力放在一起。對于來自影視作品的高質量的視頻和音頻數據,智源構建了“數據與算力綁定”的安全域,特定團隊可在安全域內使用數據訓練模型,但數據本身不可帶出,訓練成果(模型)則可自主帶走。這種模式在保護版權的同時,也實現了數據的高效利用。
三種模式的協同推進,形成了“分層分類、安全可控”的數據管理生態。這種生態既滿足了不同類型數據的使用需求,又通過規范的流程設計,降低了數據泄露、濫用的風險,為數據要素的市場化配置提供了重要支撐。
03
具身智能:數據治理的新挑戰與新突破
隨著具身智能的興起,數據治理進入更為復雜的新階段。與傳統大模型相比,具身智能的數據具有多模態、高維度、場景敏感等特點,智源研究院在繼承傳統治理經驗的基礎上,創新出一套適配具身智能的數據治理方法,為該領域的技術突破掃清了障礙。
林詠華指出,具身智能的數據多樣性遠超普通多模態模型。以機械臂數據為例,除了攝像頭采集的視頻信息,還涉及機械臂的運動軌跡、多自由度(XYZ軸)數據、加速度數據等傳感器信息。除了上述的單機數據采集,工程師還要跨機器人本體采集數據,增加了設備數據的采集,同時為了在真實場景中采集數據,公司還在實驗室里搭建仿真場景。可以說,具身智能的數據維度增加,格式各異,傳統的分類方法難以應對。
場景敏感性是具身智能數據治理的另一大挑戰。在工業場景采集數據時,部分企業因擔心流水線作業流程泄露,對數據采集持保守態度。智源通過“物理場景分級”策略解決這一問題。
智源為此建立了“行業+場景+操作復雜度” 的三維分類體系:按行業劃分為工業、家庭服務、醫療等領域;按場景細分為廚房操作、流水線作業等具體場景;按操作復雜度分為原子操作(如幾秒之內的一個抓取動作)、長程操作(如疊衣服,涉及多個步驟)、復雜組合操作(如整理房間的指令中涉及到疊衣服、整理被子、掃地等不同的操作)。
數據采集效率是制約具身智能發展的關鍵瓶頸。具身數據的采集依賴硬件設備,不同構型的機械臂(單臂、雙臂、輪式等)、不同類型的末端執行器(夾爪、靈巧手等),都需要針對性的采集方案。此外,遙操過程中的視角差異、設備校準誤差,進一步降低了采集效率。目前有一些解決方案,包括開發VR映射校準系統等。
具身智能的數據治理創新,不僅解決了該領域的技術痛點,更拓展了數據治理的邊界。這種創新證明,數據治理必須與具體技術場景深度融合,才能真正發揮支撐作用。
04
仿真數據:平衡真實與效率的治理探索
仿真合成數據的價值與局限,是行業爭論的焦點。智源研究院在實踐中形成了以“真機數據為核心、仿真數據為補充”的治理思路,通過二者的有機融合,既保證了數據的真實性,又提升了數據的覆蓋范圍,為模型訓練提供了更豐富的“養料”。
“真機采集很難構造所有的場景,所以這就是為什么大家覺得仿真數據很重要。但是仿真數據也有仿真不了的場景,例如真實物體的重量、摩擦力、質感等物理特性。”林詠華說。
仿真數據的價值在于“場景泛化”。通過數據增強技術,智源將單一真機數據擴展出多種場景變體:改變光線強度、替換背景顏色、調整物體擺放角度等。這種處理使得一條原始數據可生成多條有效訓練數據,大幅提升了數據的利用效率。
真機數據與仿真數據的融合是治理的關鍵。智源探索出“物理屬性保真+場景靈活替換”的融合策略:保留真機數據中的物理參數(如力量、速度),通過仿真技術替換場景背景、物體外觀等非關鍵信息。這種方法既保證了數據的物理真實性,又拓展了場景覆蓋范圍。
數據治理的終極目標是釋放數據價值。智源研究院在夯實治理基礎的同時,積極探索具身數據服務的商業模式,推動公共平臺建設,為數據要素的規模化應用描繪了清晰的路徑。
除《商學院》雜志署名文章外,其他文章為作者獨立觀點不代表《商學院》雜志立場,未經允許不得轉載。版權所有
歡迎關注平臺微信公眾號