具身智能之心受邀參加WAIC 2025智啟具身論壇,并有幸采訪到了智元機器人首席科學家羅劍嵐博士。以下為采訪過程中羅博重點提到和探討的問題。
具身智能數據討論
1. 大家都知道數數據是提升智能燃料,然后傳感器又是采集數據的關鍵,想問一下智元在傳感器的研發采購上有什么規劃?如何增加產品數據的使用性?
羅劍嵐:我們已與多家傳感器供應商展開合作,重點聚焦視覺觸覺與高密度傳感器的聯合研發。同時,我們正在構建跨平臺的數據采集 API,實現任務語義的統一映射,為模型訓練提供標準化、可訓練的數據輸入。
2. 因為你剛才說的世界模型挺有用的,加入世界模型以后,加一些采集數據可以讓它變好了,我想知道完成這一步之后距離應用還有多遠,從采集完數據到應用之間還有什么門檻?
羅劍嵐:還有性能,機器人的性能要很高,真正變得有用,在你家里,給一個機器人掃地也好,或者裝洗碗機的機器人,要有95%的成功率,在100萬家庭里面,這是很難的問題。
3. Sergey Levine他有發過最新的一篇文章,提出了一個Sporks of AGI觀點。仿真會阻礙具身智能的scale。我想知道您怎么看待仿真環境的數據跟真實數據的使用整個比例,然后它們各自起到的作用是怎么樣的?然后怎么去看待這個觀點?
羅劍嵐:仿真確實是高效迭代模型的關鍵工具,我們也與多家仿真廠商合作購買其數據資產。但我們所有多模態大模型(包括 VLA 世界模型)訓練時,100% 使用真機真實數據。我基本贊同他的觀點所強調的:人為設計的仿真流水線,在擴展性上存在瓶頸,最終成為性能的限制環節。
4. 數據方面的問題之前跟你聊的時候你也提到堅持,包括智元也是堅持物理真實數據,其實真實世界也有很多企業用合成數據比較好,你們有和提供合成數據的廠商有合作的,想問一下你們合成數據和物理數據比例怎么樣?在什么階段使用真實數據,什么情況下使用合成數據?
合成與仿真數據用于工程迭代與模型調試,但大模型訓練階段 100% 使用真機真實數據。仿真用于早期測試,真正發布與部署階段依賴真實場景的數據支持。
追問:測試模型階段比較前期的階段需要用到?
羅劍嵐:主要用于工程迭代,仿真肯定是迭代比較快一些,但是我們的大模型都是100%用真機訓練。
5. 真實數據的問題,在真實場景100%采集數據,成本這一塊怎么樣?把這些數據的成本下降,現在有沒有新的一些?
羅劍嵐:真機數據難的核心不是價格,而是缺乏“數據工廠”式的標準化機制。我們正嘗試遠程搖操、自動部署機器人、機器人自主數據采集等方式,建立自動化、規模化的機器人基礎設施,實現閉環數據流。
6. 自動駕駛的類比與機器人數據瓶頸
羅劍嵐:自動駕駛與機器人雖有相似性,但也不同。自動駕駛要求幾乎 99.99% 的安全水平才能上路;機器人在操作開放環境時也需要高成功率。當前瓶頸是數據稀缺、性能優化難度大,同時涉及工程與倫理多方面挑戰。
具身大模型評估
1. 想問一個比較技術性的問題,因為我有聊過很多企業,但是他們對于具身智能大模型的評估沒有很好的一個標準,生成大模型那種,目前來說您從外界來說,你覺得有沒有必要建立這樣的benchmark,這個benchmark怎么建立?
羅劍嵐:過去十年,企業軟硬件環境差異大,測試平臺也不統一,因此尚無通用 benchmark。目前大多依賴自建平臺,在各自場景中進行評測。然而,也已有部分嘗試建立分布式真實環境下的標準化真機測試平臺。我們也計劃搭建一個統一的真機測試場,供不同模型共同評估,對此需要行業共同努力。
2. 目前來說,如何評判一個,包括他們家的工作做得比較好,我們有哪些不足?你們是怎么評價不同的大模型的表現優劣?
羅劍嵐:主要從兩個維度評估:
泛化能力:測試情景語義變化、物體變化下的適用性; 性能表現:關注任務成功率與執行速度和魯棒性。在足夠多且廣的測試場景中,這些數據才更具統計意義。
具身技術路線
1. 相較于去年覺得今年的機器人在整個技術理論方向上有沒有什么變化?以及現階段有什么新的機器人技術的挑戰來解決?
羅劍嵐:去年還處于 “秀 Demo” 階段,許多功能是拼接而成;今年開始從 Demo 炫技轉向產業閉環。從數據、策略到系統部署、模型融合,智元已進入全棧一體化階段,但仍面臨工程復雜性、多模態一致性、系統部署等挑戰。
2. 還是問剛才那個問題,他們現在在發世界模型,你們這個世界模型和其他的世界模型有什么不同?
羅劍嵐:我們的世界模型基于統一平臺,既能生成視頻,也能評測模型自身,還能訓練策略。我們處理復雜場景(如平整盒子的疊放)較容易,并將在近期發布詳細工作成果。
3. VLA路線,有一段時間它成為主流了,但是近段時間受到質疑,因為它不夠完善,你怎么看?
羅劍嵐:VLA 不是最終解決方案。機器人執行要求遠高于 ChatGPT 的 50%–60% 準確率——那是不夠的。未來的路線必須是“大模型 + 優化”,通過性能指標(成功率、速度等)持續優化,而不僅僅是數據。
4. 中美在具身智能領域應用領域或者技術路線方面大家有什么共識或者非共識?
美國更注重算法創新與開源生態,中國在工程集成、供應鏈與規模部署上更具優勢。中國市場驅動性強,產業化推進速度快,美國則更偏基礎科學探索。
遙操作vs自主決策
1. 之前您有聊過機器人的遙控跟自主決策這方面的區別,現在有一些機器人動起來是需要遙控的,我們對話驅動的那種,您覺得這兩個方式它的區別在哪兒?其實實現自主決策它的門檻是在哪兒?
遙控如同人類開車與自動駕駛的差別。自主決策要求機器人理解世界、生成策略、執行任務,真正擺脫遙控依賴。關鍵技術門檻在于多模態信息融合、任務泛化能力以及環境中高成功率執行。
2. 這種非遙操的,如果有自主意識,其實現在已經有自主意識了,如果插一個電池也可以自己動的話,這個是不是也有一些安全隱患?
目前所謂“失控”更多是軟件設計不完善的問題,而非機器人具備意識。我們通過模擬產線測試人與環境干擾,并設置安全兜底機制,確保軟硬件與現場協同運行安全。
追問:是通用的還是通過垂直特定場景?
羅劍嵐:在數據缺乏的情景下先通過各種垂直場景不斷積累逐漸變成通用,我們沒有辦法一上來就通用什么都不知道。
具身智能應用場景與落地
1. 請教一下這次展廳特地展示了各種場景的機器人在執行任務,具體場景部署它的工程流程大概是什么樣子?在這個過程中如何做一些人機協同安全保障方面的工作?
流程可歸納為四步:任務建模 → 場景遷移 → 場景適配 → 安全驗證。我們強調軟硬件協同、人機友好、安全保障層級齊備,包括仿真驗證+現場兜底確保系統安全穩定。
追問:這四步大概需要多少時間,已經成為行業固定標準?
目前各家廠商仍處于早期階段。每個場景的工程量極大,交付周期長。但未來通過“軟件定義硬件”與大模型通用性將顯著縮短部署時間、降低集成成本。
2. 我聽到一個廠商說把高成功率做到可落地,就是非常有成就的,你同意這個觀點嗎?
羅劍嵐:部分贊同。高成功率是關鍵,但更大的挑戰是開放世界操作的科學與工程難題。成功率高不是唯一指標,還需在泛化能力、魯棒性、實時性能等方面齊頭并進
3. 在工廠落地,在哪個場景里面比較快一些,比較接近成功的是哪些?
羅劍嵐:相對結構化的工業環境更易落地,數據采集容易、場景可控,但工廠要求近乎 100% 的性能與節拍一致性。我們在半開放環境中同步構建部署機制,但工程挑戰依舊存在。
4. 具身智能最快大規模落地的場景是在哪里,是在家庭還是在其他沒有意識到的?
羅劍嵐:應該是在工商業先落地,因為工業制造服務場景這些比較受限,或者說半開放的這些環境里面,這些場景結構化的程度相對比較高,需求也比較明確,商業需求比較明確,大家現在也對具身智能抱有比較大的期待,因為現在是短期,是比較理想的技術跳板,長期來看家庭來說具身智能是更大市場。
5. 受限空間結構化操作,工業場景落地VLA和傳統的跨越智能這種視覺方案它現在有什么差異?
羅劍嵐:單靠 VLA 無法完全落地,應結合大模型與優化策略。相比傳統依賴高精度定位與工裝設備的方案,我們的系統具備更強的泛化范圍、更低的調試成本與更短的換線周期。
6. 目前人形機器人的技術路線并沒有收斂,想問一下智元在關節驅動和感知能力方面是如何抉擇的?關于行業的,未來行業遍天下輕量化,強調取代設計,現在有沒有供應鏈能夠適配?關節驅動和感知能力方面智元這方面是怎么選擇的?
羅劍嵐:我們同時依賴外部廠商與自研技術,在尋找模塊化、通用化的關節和傳感器標準。未來如 USB Type C 那樣的可插拔標準尚需行業共同建設生態。
7. 家庭比較復雜,每一個家庭甚至戶型擺放都不一樣,對于具身的發展來說,你怎么看這種家庭的復雜性?
羅劍嵐:家庭環境異質性巨大,工程與科學挑戰復雜,且涉及社會與隱私問題。但我們的目標是通過不斷積累數據,從垂直場景逐步演化出通用能力。
8. 展區里面打爆米花和拿飲料的動作很慢,技術上還不能提速嗎?還是說提速不能那么準確,為什么速度這么慢?不是咱們智元的機器人。
羅劍嵐:如果系統僅依賴模仿學習,那么執行速度受限于搖操速度。如要提升速度和成功率,就必須引入專門的優化訓練,而不是僅模仿數據中的原始操作。
具身未來展望
1. 下一階段具身泛化能力的發展目標
我們追求的是 DeepSeek moment ——不是僅僅類似 ChatGPT 的泛化能力,而是具備接近 100% 成功率及高速執行能力的大模型系統,而非妥協在 50%、60%。
2. 你剛才其實有提到對機器人來說ChatGPT moment這個沒有那么重要,我們要做DeepSeek moment這種?
羅劍嵐:DeepSeek 重在 高成功率 + 泛化能力 + 速度 的統一提升。就象系鞋帶或打字,人類幾乎可達 99 100% 成功率,機器人真正有用的時刻,是執行日常任務接近人類標準,而非僅僅能做很多任務但成功率卻很低。
3. 是否 Data Driven 是科學正名?
羅劍嵐:是的,我們已邁入數據驅動的范式時代。不再依賴傳統假設-證明路徑,而是通過大規模數據與統計顯著性驗證建立科學結論,這是 AI 的一大轉變。
4. 您覺得未來的模型,世界模型和transformer哪個更接近?
羅劍嵐:成果層面,我們更追求類似 AlphaGo 的 moment:兼具泛化能力與性能,做到日常任務接近 100% 成功率。底層架構目前主流是 Transformer,但其計算效率與多模態能力仍有提升空間。未來可能會出現更符合具身智能需求的計算模型。
5. 你剛才提到bit lesson,到具身智能里面,會不會越多傳感器對于具身智能越好,越多傳感器對于智元智能的成功率或者說泛化能力,會有這樣一個現象?
羅劍嵐:不是越多越好,關鍵是“對的傳感器”。不同場景需求不同,核心在于方法論與算法架構,而不在于堆砌更多傳感器。
6. 還有一個小問題,機器人和人類學習做了類比,也有一塊做類腦,模擬大腦,這個相比transformer會不會更適合機器人的?
羅劍嵐:類腦架構確實有潛力,更貼近生物大腦處理模型。我們也在嘗試將“計算”與“身體能力”結合,探索超越傳統 Transformer 的真正智能系統,這也是未來十年機器人科研的核心課題。
具身軟硬件協同
1. 現在有很多創業公司專門做跨文體交互系統,想請教一下我們這邊各家核心的一些差異是什么?以及目前我們最新的一些嘗試過的進展是什么?
羅劍嵐:我們正在構建一個平臺化操作系統(類似“機器人 Android”),為各類硬件、傳感器、終端設備提供統一接口。與純軟件平臺廠商更多是合作共建而非對立。
2. 有專門做這種軟件系統的話,和他們之間會有競爭的關系嗎?
羅劍嵐:我覺得更多是開放包容的關系,因為這個事情不太可能是一家能夠做的,智元不可能把所有事情都做了。一定要有一個平臺公司牽引,因為你光做操作系統,你的真實的落地,軟硬件也沒有,這個是肯定行不通。
3. 模型的創新,單靠軟件操作系統沒有辦法滿足?
羅劍嵐:操作系統是基礎設施一部分,但真正的突破在算法與模型層面。現有研究在真實世界中已開始探索,而光憑系統平臺并不足以推動性能級模型創新。