人形機(jī)器人量產(chǎn)加速。近日,優(yōu)必選對外宣布獲得2.5億元大單,刷新全球人形機(jī)器人單筆合同紀(jì)錄;更早前,智元機(jī)器人和宇樹科技中標(biāo)中國移動1.24億元人形雙足機(jī)器人項(xiàng)目。
在生成式人工智能掀起新一輪技術(shù)革命后,具身智能被視為AI落地最具代表性的方向。今年以來,英偉達(dá)創(chuàng)始人黃仁勛也多次表態(tài)稱,“下一波浪潮是物理AI。”物理AI,也就是機(jī)器人的時代。
“具身智能機(jī)器人市場,到2040年年出貨量可能達(dá)到十億臺,市場規(guī)模高達(dá)二十萬億美元。即使我們只實(shí)現(xiàn)這一預(yù)測的10%,即2萬億美元,也遠(yuǎn)超智能汽車市場。”日前,在2025第十九屆沙利文全球增長、科創(chuàng)與領(lǐng)導(dǎo)力峰會暨第四屆新投資大會上,安永戰(zhàn)略與交易咨詢合伙人劉明瑞在演講中表示。
然而,洪流之下,仍有暗礁。當(dāng)前最大的挑戰(zhàn)來自“數(shù)據(jù)”——具身智能需要的是高維、連續(xù)、動態(tài)的場景數(shù)據(jù),而真機(jī)采集成本極高,仿真數(shù)據(jù)又難以完全彌合“虛擬與現(xiàn)實(shí)”的差距,目前情況較未來成熟應(yīng)用所需的數(shù)據(jù)量存在巨大的鴻溝。
面對這一核心瓶頸,行業(yè)正在摸索應(yīng)對策略。業(yè)內(nèi)普遍期待通過數(shù)據(jù)規(guī)模的積累,進(jìn)一步驅(qū)動算法迭代,使具身智能在技術(shù)上駛?cè)肟燔嚨溃铀賹?shí)現(xiàn)任務(wù)閉環(huán)。
大模型賦能,通用性增強(qiáng)
今年以來具身智能的突破,無疑得益于生成式AI的迅猛發(fā)展。
長期以來,機(jī)器人行業(yè)在技術(shù)上存在一個不可能三角:準(zhǔn)確性、執(zhí)行速度與通用性三者不可兼得。
上一代工業(yè)機(jī)器人已經(jīng)能夠在手術(shù)、自動駕駛和質(zhì)檢等特定場景以高速度、高精度完成任務(wù)。但這類機(jī)器人的運(yùn)行高度依賴預(yù)設(shè)系統(tǒng),難以應(yīng)對環(huán)境變化。谷歌推出的RT-2等通用型機(jī)器人雖然能完成跨任務(wù)的操作,但運(yùn)行效率很低,遠(yuǎn)不能滿足商業(yè)化需求。
生成式AI的引入,為機(jī)器人賦予了前所未有的泛化能力。隨著大模型的持續(xù)部署,機(jī)器人不僅能夠調(diào)用“全世界的知識”,更能在復(fù)雜環(huán)境中實(shí)現(xiàn)環(huán)境理解,認(rèn)知行為推理,以及長尾場景下的快速適應(yīng)與學(xué)習(xí)。
人形機(jī)器人公司擎朗智能COO萬彬在大會演講中介紹道,未來的機(jī)器人是一個能在非結(jié)構(gòu)化環(huán)境中工作的系統(tǒng),不是像工業(yè)機(jī)器人那樣在固定路線、固定環(huán)境中工作,而是能在動態(tài)變化的環(huán)境中感知、理解、行動。
機(jī)器人通用性的增強(qiáng),將推動機(jī)器人市場的整合,促進(jìn)市場結(jié)構(gòu)從“垂類細(xì)分”向“需求融合”的方向演進(jìn)。
生成式AI也將極大加速服務(wù)機(jī)器人普及的節(jié)奏。相較于工業(yè)機(jī)器人,服務(wù)機(jī)器人面對的是人與環(huán)境的高度交互性場景,對反應(yīng)和執(zhí)行能力提出更高要求。“過去一直是工業(yè)機(jī)器人占市場主導(dǎo)地位。隨著機(jī)器人智能水平不斷提升,到2030年服務(wù)型機(jī)器人在整體機(jī)器人市場中的占比有望超過50%,增速也將領(lǐng)先。”萬彬表示。
對于未來機(jī)器人形態(tài)的演化方向,萬彬進(jìn)一步指出:“未來也不會是通用機(jī)器人包打天下。我們會推進(jìn)通用型與專用型機(jī)器人的協(xié)同演進(jìn),從而實(shí)現(xiàn)效果、效率和成本的平衡,進(jìn)一步推動商業(yè)化落地。”
AI大模型的興起,為機(jī)器人企業(yè)構(gòu)筑技術(shù)壁壘提供了關(guān)鍵支點(diǎn)。各企業(yè)紛紛加碼布局,加快模型訓(xùn)練與部署,提升機(jī)器人的泛化能力,但這也為企業(yè)帶來了額外的硬件成本和系統(tǒng)復(fù)雜度。對此,萬彬向記者表示:“每家公司都需要找到研發(fā)成本和產(chǎn)品性能間的平衡點(diǎn)。最后比拼的是誰以更優(yōu)的方式達(dá)成了均衡。算法越強(qiáng),對算力和芯片的要求越低,軟件可以彌補(bǔ)硬件方面的不足。”
數(shù)據(jù)成為核心瓶頸
談及具身智能進(jìn)化的挑戰(zhàn),萬彬提到了物理世界數(shù)據(jù)不足的問題。這一差距,已成為制約人形機(jī)器人能力泛化的主要瓶頸。
數(shù)據(jù)是人工智能時代的石油。但石油的采集到加工應(yīng)用是一個極其復(fù)雜過程,用數(shù)據(jù)助力具身智能發(fā)展也是如此。
相比于訓(xùn)練大語言模型時使用的文本、圖片等靜態(tài)片段,具身智能訓(xùn)練需要連續(xù)的動態(tài)場景流,數(shù)據(jù)形態(tài)從一維、二維轉(zhuǎn)向空間和時間結(jié)合的三維、四維,數(shù)據(jù)的獲取難度大、代價(jià)高。
“整個行業(yè)現(xiàn)階段嚴(yán)重缺乏數(shù)據(jù),擁有的具身智能交互數(shù)據(jù)只有幾百萬條,實(shí)際所需的規(guī)模可能在上千萬甚至上億萬條。”物理AI仿真系統(tǒng)研發(fā)公司松應(yīng)科技創(chuàng)始人聶凱旋向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示。
效果最好、最真實(shí)可靠的是機(jī)器人真機(jī)采集數(shù)據(jù),但數(shù)據(jù)采集量有限,且成本高昂,難以滿足構(gòu)建通用智能的需要。行業(yè)嘗試了多種數(shù)據(jù)解決方案,如通過虛擬引擎、AIGC等合成仿真數(shù)據(jù)。仿真數(shù)據(jù)的優(yōu)勢是成本低且變量可控,適合具身智能模型預(yù)訓(xùn)練與技能驗(yàn)證。
“如果能用數(shù)據(jù)構(gòu)建來實(shí)現(xiàn)場景還原,效果肯定是最好的,”萬彬向記者表示,“如果真能做好,相當(dāng)于再造一個虛擬地球,我們一直在關(guān)注這個進(jìn)展。”
盡管仿真系統(tǒng)前景廣闊,但純粹依靠合成數(shù)據(jù)也存在局限。由于當(dāng)前仿真物理引擎與真實(shí)世界之間仍存在“現(xiàn)實(shí)差距”,僅靠虛擬數(shù)據(jù)訓(xùn)練的模型在真實(shí)環(huán)境中容易出現(xiàn)表現(xiàn)退化。
“真機(jī)數(shù)據(jù)和仿真數(shù)據(jù)并不是相互替代,而是組合的關(guān)系。”聶凱旋在大會發(fā)言中指出,“業(yè)界目前已經(jīng)逐漸形成共識,使用真實(shí)數(shù)據(jù)為輔,合成數(shù)據(jù)為主的訓(xùn)練模式。”
真機(jī)數(shù)據(jù)和仿真數(shù)據(jù)都有價(jià)值,應(yīng)基于經(jīng)濟(jì)性、安全性和可獲得性去組合兩者的比例。“我們認(rèn)為1:8:1是一個比較合理的結(jié)構(gòu)。”聶凱旋表示。“10%為專家視角數(shù)據(jù),通過真機(jī)或仿真操控采集;80%是利用機(jī)器人模型、AI等自動合成的仿真數(shù)據(jù);最后10%是物理微調(diào)數(shù)據(jù),用于最終驗(yàn)證與優(yōu)化模型。”
目前業(yè)界數(shù)據(jù)采集還存在著一系列問題。仿真數(shù)據(jù)對硬件穩(wěn)定性要求極高,行業(yè)硬件還未形成統(tǒng)一標(biāo)準(zhǔn),形態(tài)不穩(wěn)定;且各企業(yè)路線分化,算法尚未收斂。這些都可能導(dǎo)致采集的數(shù)據(jù)難以應(yīng)用到機(jī)器人真實(shí)訓(xùn)練場景中。而真機(jī)采集也面臨著機(jī)器人迭代等成本問題。要破解這一難題,需軟件、硬件企業(yè)和技術(shù)平臺形成協(xié)同,推動行業(yè)標(biāo)準(zhǔn)化建設(shè),才能真正打通數(shù)據(jù)與模型之間的通道。
總體來看,具身智能產(chǎn)業(yè)仍處于起步期。業(yè)內(nèi)人士估計(jì),當(dāng)前具身智能的發(fā)展階段相當(dāng)于生成式AI在GPT-2時期的狀態(tài)。未來一到兩年內(nèi),產(chǎn)業(yè)將突破數(shù)據(jù)障礙,某一通用算法或系統(tǒng)實(shí)現(xiàn)關(guān)鍵性突破,推動具身智能迎來屬于自己的“GPT-3”時刻。在2030年左右,消費(fèi)者和市場將有廣泛的感知,具身智能產(chǎn)業(yè)將迎來“GPT-3.5”時刻。
“具身智能市場有望成為下一個新能源汽車甚至更大市場。單人形機(jī)器人成本可能降至幾萬人民幣甚至更低。”劉明瑞在演講中表示,“當(dāng)機(jī)器人能完成買菜等任務(wù),價(jià)格又親民時,年出貨量達(dá)到十億臺并非遙不可及。”