不卡国产一区二区三区,日韩一区二区三区东京热,中文 在线 日韩 亚洲 欧美,亚洲精品中文字幕在线观,亚洲国产成人综合自在线,色一情一乱一区二区三区码,黄色不卡视频一区二区三区 ,在线免费成人亚洲av
                // 新刊推薦
                // 中經傳媒智庫

                智源研究院揭秘具身智能數據治理新路徑

                原創 作者:錢麗娜 / 發布時間:2025-08-15/ 瀏覽次數:0

                未來將出現專業的具身數據服務機構,提供“場景定制采集+數據治理+模型訓練支持”的一體化服務。

                 

                文|錢麗娜

                ID | BMR2004

                 

                “在人工智能技術飛速發展的今天,數據作為核心生產要素,其治理水平直接決定著大模型的性能與產業落地的深度。”北京智源人工智能研究院副院長兼總工程師林詠華在2025世界人工智能大會暨人工智能全球治理高級別會議(簡稱WAIC 2025)期間,接受《商學院》雜志專訪時表示。

                 

                作為國內人工智能領域的領軍機構,智源研究院在數據治理領域深耕多年,構建了一套涵蓋審查標準、管理規范、創新應用的完整體系。從開源數據的質量管控到具身智能的特殊數據治理,從多元數據使用模式到未來商業模式探索,智源的實踐為行業提供了寶貴的參考樣本,也深刻揭示了數據治理在智能時代的核心價值。

                 

                01

                數據審查:以技術筑起質量與安全防線

                 

                開源數據因質量參差不齊、采集基準缺失等問題廣受詬病,建立科學的數據審查標準成為行業亟待解決的難題。

                 

                智源研究院從隱私保護、質量過濾、安全管控三個維度,構建了全流程的數據審查體系,為高質量數據應用奠定了基礎。

                 

                在隱私保護方面,智源對所有采集的數據實行“雙重篩查”機制。對于合作方提供的數據集,首先區分其使用權限——哪些可用于模型訓練但不可開源,哪些可部分開源,哪些完全禁止對外披露。例如,某企業提供的用戶行為數據,經過脫敏處理后可用于模型訓練,但原始數據因涉及個人隱私被嚴格限制在內部使用。這種分類處理既保障了數據的利用價值,又守住了隱私保護的紅線。

                 

                數據質量過濾則依托技術手段實現標準化。2023年初,智源研究院承擔國家級高質量語料庫建設與開源任務時,便意識到人工審核存在標準不統一、效率低下的問題。為此,研究院訓練出質量過濾模型,構建起完善的算法庫,通過機器審核實現數據質量的統一把控。當遇到新的數據質量問題時,算法庫會迅速迭代更新,將新規則納入模型訓練中。例如,在處理文本數據時,模型能自動識別并過濾掉重復內容、低信息密度文本以及涉黃、涉毒等違規信息,確保入庫數據的純凈度。

                 

                安全管控貫穿數據審查的全流程。除了常見的內容安全篩查,智源還針對不同數據類型制定了專項審查標準。對于多模態數據中的圖像、視頻,增加了對敏感場景、標識信息的識別;對于工業場景采集的數據,重點排查是否涉及企業商業機密。這種全方位的審查機制,為數據的安全合規使用提供了堅實保障。

                 

                林詠華同時也表示:“實際上我們在使用數據時,很多時候我們發現匯聚數據容易,但使用數據卻變成整個產業的問題。”

                 

                02

                管理規范:創新數據使用模式破解產業難題

                 

                智源研究院在2024年聯合產業機構推出三種數據使用模式,通過開源共享、共建共享、數算一體的多元模式,破解數據流通與保護的難題。具體來看:

                 

                開源數據模式聚焦科研與產業普惠。智源將可開放的數據打包發布,支持學術界和產業界免費下載使用。

                 

                共建共享模式以積分制激發數據流通活力。針對不愿開源但愿意在可信機構間交換數據的企業,智源設計了一套基于數據質量和數量的積分體系——企業貢獻的數據經質量評估后轉化為積分,積分可用于兌換其他企業的共享數據。這種模式既保護了數據所有權,又打破了“數據壁壘”。

                 

                數算一體模式則為版權要求高的數據提供安全使用方案,數據和算力放在一起。對于來自影視作品的高質量的視頻和音頻數據,智源構建了“數據與算力綁定”的安全域,特定團隊可在安全域內使用數據訓練模型,但數據本身不可帶出,訓練成果(模型)則可自主帶走。這種模式在保護版權的同時,也實現了數據的高效利用。

                 

                三種模式的協同推進,形成了“分層分類、安全可控”的數據管理生態。這種生態既滿足了不同類型數據的使用需求,又通過規范的流程設計,降低了數據泄露、濫用的風險,為數據要素的市場化配置提供了重要支撐。

                 

                03

                具身智能:數據治理的新挑戰與新突破

                 

                隨著具身智能的興起,數據治理進入更為復雜的新階段。與傳統大模型相比,具身智能的數據具有多模態、高維度、場景敏感等特點,智源研究院在繼承傳統治理經驗的基礎上,創新出一套適配具身智能的數據治理方法,為該領域的技術突破掃清了障礙。

                 

                林詠華指出,具身智能的數據多樣性遠超普通多模態模型。以機械臂數據為例,除了攝像頭采集的視頻信息,還涉及機械臂的運動軌跡、多自由度(XYZ軸)數據、加速度數據等傳感器信息。除了上述的單機數據采集,工程師還要跨機器人本體采集數據,增加了設備數據的采集,同時為了在真實場景中采集數據,公司還在實驗室里搭建仿真場景。可以說,具身智能的數據維度增加,格式各異,傳統的分類方法難以應對。

                 

                場景敏感性是具身智能數據治理的另一大挑戰。在工業場景采集數據時,部分企業因擔心流水線作業流程泄露,對數據采集持保守態度。智源通過“物理場景分級”策略解決這一問題。

                 

                智源為此建立了“行業+場景+操作復雜度” 的三維分類體系:按行業劃分為工業、家庭服務、醫療等領域;按場景細分為廚房操作、流水線作業等具體場景;按操作復雜度分為原子操作(如幾秒之內的一個抓取動作)、長程操作(如疊衣服,涉及多個步驟)、復雜組合操作(如整理房間的指令中涉及到疊衣服、整理被子、掃地等不同的操作)。

                 

                數據采集效率是制約具身智能發展的關鍵瓶頸。具身數據的采集依賴硬件設備,不同構型的機械臂(單臂、雙臂、輪式等)、不同類型的末端執行器(夾爪、靈巧手等),都需要針對性的采集方案。此外,遙操過程中的視角差異、設備校準誤差,進一步降低了采集效率。目前有一些解決方案,包括開發VR映射校準系統等。

                 

                具身智能的數據治理創新,不僅解決了該領域的技術痛點,更拓展了數據治理的邊界。這種創新證明,數據治理必須與具體技術場景深度融合,才能真正發揮支撐作用。

                 

                04

                仿真數據:平衡真實與效率的治理探索

                 

                仿真合成數據的價值與局限,是行業爭論的焦點。智源研究院在實踐中形成了以“真機數據為核心、仿真數據為補充”的治理思路,通過二者的有機融合,既保證了數據的真實性,又提升了數據的覆蓋范圍,為模型訓練提供了更豐富的“養料”。

                 

                “真機采集很難構造所有的場景,所以這就是為什么大家覺得仿真數據很重要。但是仿真數據也有仿真不了的場景,例如真實物體的重量、摩擦力、質感等物理特性。”林詠華說。

                 

                仿真數據的價值在于“場景泛化”。通過數據增強技術,智源將單一真機數據擴展出多種場景變體:改變光線強度、替換背景顏色、調整物體擺放角度等。這種處理使得一條原始數據可生成多條有效訓練數據,大幅提升了數據的利用效率。

                 

                真機數據與仿真數據的融合是治理的關鍵。智源探索出“物理屬性保真+場景靈活替換”的融合策略:保留真機數據中的物理參數(如力量、速度),通過仿真技術替換場景背景、物體外觀等非關鍵信息。這種方法既保證了數據的物理真實性,又拓展了場景覆蓋范圍。

                 

                數據治理的終極目標是釋放數據價值。智源研究院在夯實治理基礎的同時,積極探索具身數據服務的商業模式,推動公共平臺建設,為數據要素的規模化應用描繪了清晰的路徑。

                除《商學院》雜志署名文章外,其他文章為作者獨立觀點不代表《商學院》雜志立場,未經允許不得轉載。版權所有

                歡迎關注平臺微信公眾號

                 點贊 30
                 收藏 20
                主站蜘蛛池模板: 中文字幕日韩有码国产| 久久国产综合精品swag蓝导航| 国产一区二区三区AV在线无码观看| japan黑人极大黑炮| 18禁国产一区二区三区| 亚洲国产日韩精品久久| 国产精品免费精品自在线观看| 国产一区二区三区视频| 亚洲一国产一区二区三区| 4虎四虎永久在线精品免费| 亚洲欧美日韩中文字幕网址| 国产毛片精品av一区二区| 久久婷婷五月综合97色直播| 国产精品无码素人福利不卡| 漂亮少妇高潮在线观看| 高清无打码一区二区三区| 40岁大乳的熟妇在线观看| 亚洲全网成人资源在线观看| 亚洲色无码专区在线观看精品| 国产蜜臀一区二区三区四区 | 99精品国产一区二区三区不卡 | 精选国产av精选一区二区三区| 欧美成年性h版影视中文字幕| 亚洲国产另类久久久精品小说| 国产一区精品综亚洲av| 国产av无码专区亚洲av软件| 99久久机热/这里只有精品| 中文字幕人成人乱码亚洲| 国产蜜臀av在线一区在线| 亚洲中文字幕无码爆乳APP| 精品国产污污免费网站| 国产精品国产自产拍高清| chinese性内射高清国产| 国产精品成熟老妇女| 国内不卡一区二区三区| 干老熟女干老穴干老女人| 免费永久在线观看黄网站| 粉嫩在线一区二区三区视频| 亚洲永久精品一区二区三区| 人妻少妇久久中文字幕| 国产午夜精品无码一区二区|