導(dǎo)讀:具身智能作為人工智能領(lǐng)域的前沿方向,正從技術(shù)驗證邁向?qū)嶋H應(yīng)用,并深度融入各類實體場景,展現(xiàn)出廣闊的產(chǎn)業(yè)革新潛力。當(dāng)前,全球主要國家均已將具身智能納入科技發(fā)展戰(zhàn)略,推動相關(guān)技術(shù)突破與產(chǎn)業(yè)化落地。具身智能不僅是技術(shù)發(fā)展的必然趨勢,更是推動社會智能化轉(zhuǎn)型的重要力量。隨著應(yīng)用場景的不斷拓展和產(chǎn)業(yè)生態(tài)的完善,它將在全球范圍內(nèi)掀起新一輪科技革命,為經(jīng)濟(jì)高質(zhì)量發(fā)展注入強勁動能。
本篇將分享中國工程院院士于海斌、中國工程院院士,中國圖象圖形學(xué)學(xué)會理事長王耀南、中國科學(xué)院院士張鈸對于“具身智能”的見解。
2025具身智能與智能機(jī)器人技術(shù)演進(jìn)、
挑戰(zhàn)與未來趨勢研判
人工智能(AI)自1956年達(dá)特茅斯會議正式提出以來,經(jīng)歷了數(shù)次技術(shù)浪潮與寒冬。于海斌院士指出,AI的發(fā)展可分為四個階段:符號邏輯推理階段(1950s-1980s):以知識表達(dá)和專家系統(tǒng)為核心,但受限于知識獲取的困難,最終因?qū)嵱眯圆蛔氵M(jìn)入第一次寒冬。 神經(jīng)網(wǎng)絡(luò)連接階段(1980s-2000s):辛頓(Geoffrey Hinton)等人提出反向傳播算法,推動神經(jīng)網(wǎng)絡(luò)發(fā)展,但受限于算力和數(shù)據(jù),應(yīng)用場景有限。 深度學(xué)習(xí)階段(2010s至今):以卷積神經(jīng)網(wǎng)絡(luò)(CNN)和斯坦福大學(xué)李飛飛團(tuán)隊構(gòu)建的ImageNet數(shù)據(jù)庫為標(biāo)志,AI在圖像識別等領(lǐng)域?qū)崿F(xiàn)突破,識別率從60%提升至超越人類水平。具身智能(Embodied AI)階段(2020s起):AI從純數(shù)據(jù)驅(qū)動轉(zhuǎn)向與物理世界交互,強調(diào)智能體通過身體、環(huán)境與任務(wù)的協(xié)同實現(xiàn)認(rèn)知與行為進(jìn)化。
圖靈早在計算機(jī)理論初期即提出兩種智能路徑——“離身智能”(如ChatGPT依賴純數(shù)據(jù)推理)與“具身智能”(需與物理設(shè)備結(jié)合)。然而,具身智能因技術(shù)復(fù)雜度高長期滯后,直到機(jī)器人學(xué)、神經(jīng)科學(xué)和心理學(xué)的交叉融合為其提供了新思路。
環(huán)境交互與智能發(fā)育的必然性:以一項科學(xué)實驗來印證環(huán)境交互與智能發(fā)育呈現(xiàn)正相關(guān)性,該實驗反饋了智能的成長依賴與環(huán)境的動態(tài)互動作用。 來自麻省理工學(xué)院兩位研究人員,把兩只小貓放進(jìn)了一個圓桶內(nèi),兩只小貓都在圓筒內(nèi)部繞圈運動。第一只小貓是白己走的;第二只小貓則被放在與柱體中心軸相連的小盒子里。兩只小貓看到的東西完全相同。結(jié)果顯示只有靠自己身體運動的小貓發(fā)育出了正常的視力。這進(jìn)一步印證了“心靈手巧”的逆向邏輯——肢體動作的靈活性(如操作工具)會反向促進(jìn)認(rèn)知能力的提升。
具身智能三位一體的智能框架:具身智能強調(diào)“大腦-身體-環(huán)境”三位一體。其中大腦負(fù)責(zé)高層決策與意圖理解(如大語言模型),身體通過傳感器與執(zhí)行器實現(xiàn)物理交互(如機(jī)械臂、仿生關(guān)節(jié)),環(huán)境提供動態(tài)反饋與訓(xùn)練場景(如仿真平臺、真實物理空間)。三者協(xié)同構(gòu)成閉環(huán),使智能體能夠通過試錯學(xué)習(xí)適應(yīng)復(fù)雜任務(wù)。
從“感知智能”到“行動智能”的跨越:傳統(tǒng)AI擅長靜態(tài)感知(如圖像識別),但缺乏對物理世界的動態(tài)響應(yīng)能力。波士頓動力(Boston Dynamics)的Atlas機(jī)器人通過深度學(xué)習(xí)與強化學(xué)習(xí)結(jié)合,實現(xiàn)了翻越障礙、適應(yīng)地形變化等復(fù)雜動作,標(biāo)志著具身智能在運動控制領(lǐng)域的突破。
數(shù)字人:中國通用人工智能研究院開發(fā)的“數(shù)字人通通”模擬人類從嬰兒期開始的成長過程,通過與虛擬環(huán)境的交互(如聽覺、觸覺反饋)實現(xiàn)認(rèn)知進(jìn)化。這一嘗試為研究人類智能發(fā)育提供了新范式,但也引發(fā)倫理爭議——若機(jī)器人通過環(huán)境交互自主進(jìn)化,人類是否可能失去控制? ?
機(jī)械臂與大語言模型的融合:谷歌RT-X平臺將大語言模型(LLM)與機(jī)器人操作結(jié)合,使機(jī)械臂能夠理解自然語言指令(如“整理房間”),并自主分解任務(wù)步驟(識別雜物、分類歸置)。這一技術(shù)已在疊衣服、精細(xì)裝配等場景中展現(xiàn)潛力,但其泛化能力仍受限于物理規(guī)則與數(shù)據(jù)多樣性。
人形機(jī)器人的爭議與前景:馬斯克力推的Optimus人形機(jī)器人引發(fā)兩極評價。支持者認(rèn)為人形是通用化的終極形態(tài),可適配人類環(huán)境(如樓梯、工具),而質(zhì)疑者指出其成本高昂、技術(shù)冗余(如多關(guān)節(jié)驅(qū)動難題)。
人形機(jī)器人的核心價值在于“本體硬件”與“智能算法”的協(xié)同突破。例如,開源算法(如波士頓動力的運動控制模型)大幅降低了本體研發(fā)門檻,而黃仁勛(英偉達(dá)CEO)布局的具身智能訓(xùn)練平臺,或?qū)⑼苿有袠I(yè)標(biāo)準(zhǔn)化。
智能駕駛與低空經(jīng)濟(jì):盡管全無人駕駛面臨地面環(huán)境的極端復(fù)雜性(如突發(fā)行人、不規(guī)則道路),但網(wǎng)聯(lián)汽車的輔助駕駛(如車道保持、自動泊車)和低空經(jīng)濟(jì)(無人機(jī)物流、巡檢)已成為更可行的商業(yè)化方向。
在機(jī)器人技術(shù)路徑未來發(fā)展趨勢探討方面,于海斌院士表示未來人形機(jī)器人肢體部分有很大的提升空間,如基于高能量密度的仿生驅(qū)動肢體。仿照人類心臟的高效供能機(jī)制,研發(fā)微型液壓驅(qū)動與仿生肌肉,如德國費斯托的氣動機(jī)械臂就是一個很好的參考方向,該機(jī)械臂核心優(yōu)勢在于其高精度控制與仿生設(shè)計的融合,擁有12個自由度,動作柔性且穩(wěn)定,部分型號搭載AI技術(shù)實現(xiàn)自我學(xué)習(xí)優(yōu)化,電磁閥壽命超3000萬次,具備良好的性能和耐用性。
此外,生物融合也是未來機(jī)器人發(fā)展趨勢。未來,我們可以通過培養(yǎng)生物細(xì)胞構(gòu)建具有感知與驅(qū)動能力的“類器官”產(chǎn)品,盡管其生存環(huán)境要求苛刻,但為軟體機(jī)器人提供了新思路。
小腦主要作用在于提升人形機(jī)器人的運動協(xié)調(diào)能力,運動控制依賴海量物理數(shù)據(jù),而真實環(huán)境訓(xùn)練成本過高。目前國內(nèi)已經(jīng)有相對成熟的平臺進(jìn)行機(jī)器人的模擬訓(xùn)練,如國家地方共建人形機(jī)器人創(chuàng)新中心開發(fā)的,異構(gòu)人形機(jī)器人訓(xùn)練場通過“虛擬-現(xiàn)實”遷移學(xué)習(xí)(Sim2Real),使機(jī)器人能在低成本場景中預(yù)訓(xùn)練動作(如行走、跳躍),再遷移至真實環(huán)境微調(diào)。
大腦提供決策模型與機(jī)器人的認(rèn)知能力,目前多模態(tài)感知技術(shù)是主要方案,該方案融合視覺、觸覺、力覺傳感器,提升環(huán)境理解的全面性。在具體案例方面,北京大學(xué)電子學(xué)院程翔教授團(tuán)隊提出的“機(jī)器聯(lián)覺”系統(tǒng),通過智能融合通信與多模態(tài)感知信息,有效提升了機(jī)器人在復(fù)雜環(huán)境中的感知、決策與通信能力。
如何解決大模型“災(zāi)難性遺忘”問題,實現(xiàn)機(jī)器人的終身學(xué)習(xí)方式。愛丁堡大學(xué)提出的增量強化學(xué)習(xí)框架是一個很好的解決“災(zāi)難性遺忘”的解決方案。它能夠在保持已有知識的基礎(chǔ)上,通過逐步增量式地更新策略,快速適應(yīng)新環(huán)境或新任務(wù),從而顯著提升機(jī)器人在動態(tài)變化環(huán)境中的學(xué)習(xí)效率和性能表現(xiàn),無需從頭開始重新訓(xùn)練整個模型。
未來十年,具身智能的算法與訓(xùn)練平臺將快速發(fā)展,而硬件(如高精度傳感器、仿生關(guān)節(jié))受限于材料與工藝,進(jìn)步速度相對緩慢。企業(yè)需優(yōu)先布局軟件生態(tài)(如仿真平臺、數(shù)據(jù)鏈),而非盲目投入硬件研發(fā)。
此外具身智能缺乏統(tǒng)一理論體系(如認(rèn)知科學(xué)的世界模型),但場景驅(qū)動的工程化應(yīng)用(如倉儲機(jī)器人、醫(yī)療外骨骼)將率先落地。國家需推動跨機(jī)構(gòu)協(xié)作,解決數(shù)據(jù)確權(quán)與模型共享難題。
在通用終端的終極形態(tài)方面,人形機(jī)器人未必是唯一答案,具身智能可能通過“一腦多機(jī)”模式賦能多樣化設(shè)備(如工業(yè)機(jī)床、家用電器)。例如,同一AI核心可同時調(diào)度無人機(jī)群與地面機(jī)器人,實現(xiàn)任務(wù)協(xié)同。
在倫理與安全方面,若具身智能體通過環(huán)境交互自主進(jìn)化,可能超出人類預(yù)設(shè)的邊界。行業(yè)需提前建立倫理規(guī)范(如行為約束算法、人機(jī)權(quán)責(zé)界定),避免技術(shù)失控風(fēng)險。
具身智能正在讓AI從“虛擬大腦”向“物理實體”迭代,在技術(shù)演化的道路上,需要更加關(guān)注技術(shù)創(chuàng)新的有效性與產(chǎn)業(yè)化的可落地性。正如于海斌院士所言:“藍(lán)海的意義在于未知,而未知需要勇氣與智慧并存。”對產(chǎn)業(yè)從業(yè)者而言,打破學(xué)科壁壘、深化理論突破,聚焦場景剛需、參與生態(tài)共建或?qū)⒊蔀閾屨枷葯C(jī)的關(guān)鍵。
中國工程院院士于海斌在沈陽“創(chuàng)新聚沈·向陽而行”大會上的分享實錄
我們正處于智能化時代,從機(jī)械化時代的工業(yè)1.0,到電氣化時代的工業(yè)2.0,再到信息化的工業(yè)3.0,現(xiàn)在我們正邁向工業(yè)4.0智能化的時代。在這個時代背景下,工業(yè)機(jī)器人、服務(wù)機(jī)器人和特種機(jī)器人發(fā)揮著越來越重要的作用。智能機(jī)器人已廣泛應(yīng)用于工業(yè)制造、國防安全、智能服務(wù)和智慧農(nóng)業(yè)等各個行業(yè),呈現(xiàn)出同步發(fā)展的趨勢,并具有廣闊的應(yīng)用前景。
在過去的幾十年里,工業(yè)機(jī)器人發(fā)揮了重要作用。而為了解決服務(wù)機(jī)器人的問題,人類與我們共同走向了人形機(jī)器人的研發(fā)之路。
那么,為什么要發(fā)展人形機(jī)器人?人形機(jī)器人主要模仿人的形態(tài)、運動和功能,可以與人進(jìn)行交流。它不僅模仿了人的外形、外觀和行為,還是一種通用的智能機(jī)器人,是國際公認(rèn)的人工智能、高端制造新材料等尖端技術(shù)的集成者,也是科技競爭的制高點和未來的新賽道。
我們預(yù)判人形機(jī)器人將成為繼個人計算機(jī)、手機(jī)和智能汽車之后新一代智能終端,可能形成萬億級市場。因此,我們關(guān)注產(chǎn)業(yè)化路徑,提出了人形機(jī)器人發(fā)展的主要動力來自于需求牽引和整機(jī)帶動。應(yīng)用場景,如智慧農(nóng)業(yè)、醫(yī)療、家庭服務(wù)等,是推動人形機(jī)器人發(fā)展的關(guān)鍵。整機(jī)研發(fā)是主攻方向,軟件和硬件必須協(xié)同,以培育一個完整的生態(tài),進(jìn)而帶動產(chǎn)業(yè)鏈、創(chuàng)新鏈和人才鏈的發(fā)展轉(zhuǎn)型升級。
在關(guān)鍵技術(shù)突破方面,我們將人形機(jī)器人的發(fā)展劃分為大腦、小腦和肢體三個方面。大腦主要解決復(fù)雜環(huán)境感知決策、人機(jī)交互以及提升機(jī)器人的學(xué)習(xí)適應(yīng)能力。小腦,即過去的控制系統(tǒng),主要負(fù)責(zé)運動建模、復(fù)雜控制以及各種形態(tài)的控制。而肢體方面則是整機(jī)和部件的共同發(fā)展。
未來,人形機(jī)器人開發(fā)工具要形成大產(chǎn)業(yè),必須具備大模型訓(xùn)練數(shù)據(jù)標(biāo)注軟件和應(yīng)用軟件。這樣我們可以將機(jī)電一體化考慮在內(nèi),形成人形機(jī)器人的發(fā)展路線。
我們2020年提出的人形機(jī)器人架構(gòu)是一個云網(wǎng)端架構(gòu)的系統(tǒng),大腦負(fù)責(zé)多模態(tài)模型建模、強化學(xué)習(xí)、地圖創(chuàng)建和數(shù)據(jù)訓(xùn)練。數(shù)據(jù)訓(xùn)練端作為云端大腦,訓(xùn)練完成后,通過網(wǎng)絡(luò)高速互聯(lián)互通進(jìn)入人形機(jī)器人機(jī)構(gòu)本體。機(jī)構(gòu)本體的小腦則重點管理表情計算、視覺控制、感知信息等各種驅(qū)動手和關(guān)節(jié)的控制,形成一體的小腦控制。
環(huán)境感知:人形機(jī)器人的環(huán)境感知部分主要涉及各種傳感器的研發(fā),包括內(nèi)部傳感器、慣導(dǎo)傳感器、立位傳感器、皮膚傳感器、外部傳感器、視覺傳感器、激光雷達(dá)傳感器以及聲學(xué)傳感器等。
執(zhí)行器:執(zhí)行器部分涉及驅(qū)動電機(jī)和靈巧手等執(zhí)行機(jī)構(gòu)。研發(fā)動力部件、驅(qū)動減速器等關(guān)鍵零部件對于人形機(jī)器人的發(fā)展至關(guān)重要。
小腦開發(fā):小腦負(fù)責(zé)機(jī)器人的運動控制,從傳統(tǒng)的模型驅(qū)動轉(zhuǎn)向數(shù)據(jù)驅(qū)動。通過強化學(xué)習(xí),機(jī)器人小腦變得更加靈活,加速了控制器的開發(fā)。
大腦開發(fā):大腦負(fù)責(zé)感知、控制、傳感和控制一體,涉及高級決策核心。通過多模態(tài)模型建模、強化學(xué)習(xí)、地圖創(chuàng)建和數(shù)據(jù)訓(xùn)練,大腦能夠管理和協(xié)調(diào)機(jī)器人的各種功能。
近年來,人形機(jī)器人發(fā)展迅速。通過感知、傳動、算一體的端到端大模型學(xué)習(xí)和訓(xùn)練大腦,人形機(jī)器人得到了更多的活力。大模型使人形機(jī)器人可以解決復(fù)雜規(guī)劃問題,具備情感、精準(zhǔn)執(zhí)行能力和理解人的意圖等優(yōu)勢。此外,具身智能的發(fā)展也加速了人形機(jī)器人的多模態(tài)交互和學(xué)習(xí)能力。
經(jīng)過研判,今年人形機(jī)器人規(guī)模發(fā)展非常迅速,但仍處于艱苦的爬坡過坎階段。從市值分析,目前中國在人形機(jī)器人產(chǎn)值尚未達(dá)到預(yù)期。從分布角度來看,國內(nèi)人形機(jī)器人的地域分布相對集中,主要集中在沿海發(fā)達(dá)地區(qū),包括重慶中部地區(qū)和南部地區(qū)。我們更多地需要通過形成產(chǎn)業(yè)生態(tài)鏈、創(chuàng)新鏈和上下游聯(lián)動,以推動人形機(jī)器人的大發(fā)展,形成真正的新三板。
回顧過去,我們團(tuán)隊在1985年就開始研發(fā)機(jī)器人,主要采用模型驅(qū)動,如神經(jīng)網(wǎng)絡(luò)模型驅(qū)動的機(jī)器人智能控制。然而,開發(fā)周期緩慢,需要完成多個程序。為了改善控制能力,我們設(shè)計了模糊神經(jīng)網(wǎng)絡(luò)控制系統(tǒng)作為輔助修正學(xué)習(xí)。現(xiàn)在,我們需要融入新技術(shù),如深度強化學(xué)習(xí)和大模型驅(qū)動,以加速人形機(jī)器人的開發(fā)周期。
那么,AI大模型如何賦能人形機(jī)器人開發(fā)?將AI大模型賦能到人形機(jī)器人,需要注意幾個方面。首先,通過這個模型提升人形機(jī)器人的自然語言交互,使機(jī)器人能夠與人進(jìn)行自然語言的交互理解。其次,需要識別復(fù)雜場景視覺感知。第三,需要對動作和規(guī)劃進(jìn)行精準(zhǔn)把控。最后,需要進(jìn)行自主學(xué)習(xí)提升來完成任務(wù)。
人形機(jī)器人與其他機(jī)器人的最大不同,在于它需要具備情感計算和表達(dá)能力。大模型為機(jī)器人注入了新的活力,使人形機(jī)器人具備了情感表達(dá)和分析能力。
未來,人形機(jī)器人行業(yè)還有很多工作需要完成。我們應(yīng)該聯(lián)合企業(yè)、政府、高校和研究所,共同梳理和發(fā)力,讓人形機(jī)器人真正走向生活、智能制造和國防等領(lǐng)域。
首先,我們需要打破訓(xùn)練數(shù)據(jù)大模型之下的壁壘,充分利用他人的優(yōu)勢進(jìn)行開發(fā)。其次,我們可以采用小模型進(jìn)行分布式開發(fā)。最后,我們需要探討如何高效地應(yīng)對大模型的多模態(tài)企業(yè)特征、提升端到端控制的通用性和訓(xùn)練效率、保障模型的泛化能力和可解釋性等問題。
為了實現(xiàn)這些目標(biāo),我們需要研究人工智能大模型,推動人形機(jī)械一體化發(fā)展。我們需要設(shè)立一個開源數(shù)字底座,涵蓋計算智能、感知智能、認(rèn)知智能、決策智能、行為智能以及真正的具身智能。這個底座應(yīng)該具備感知、認(rèn)知、思考、分析、判斷、推理和交互功能,以推動人形機(jī)器人具備智能自主操控性。
此外,未來的人形機(jī)器人還需要具備情商和智商兼?zhèn)涞奶攸c。數(shù)字人與機(jī)器人的有機(jī)結(jié)合將是未來的發(fā)展趨勢。數(shù)字人已經(jīng)在各個領(lǐng)域廣泛應(yīng)用并形成產(chǎn)業(yè)化,我相信實體人形機(jī)器人也將與數(shù)字人一樣在數(shù)字空間和實際中發(fā)揮作用。為了實現(xiàn)這一目標(biāo),我們需要取得突破,在數(shù)字人具備群智兼?zhèn)涞幕A(chǔ)上,還需要解決腦認(rèn)知驅(qū)動的情感激勵、多模態(tài)前置大模型融合的解釋建議以及個性化情感的表征與動態(tài)等科學(xué)問題。
總之,通用人形機(jī)器人的發(fā)展需要多學(xué)科交叉協(xié)同創(chuàng)新,突破運動、操作、智能三大專業(yè)技術(shù)。我們應(yīng)該攜手共進(jìn),無論是企業(yè)、高校還是科研院所,都應(yīng)該共同努力推進(jìn)人形機(jī)器人的發(fā)展。讓我們攜手艱苦攻關(guān),實現(xiàn)通用人形機(jī)器人的夢想!
中國工程院院士、中國圖象圖形學(xué)學(xué)會理事長王耀南在2024機(jī)器人和智能制造技術(shù)與標(biāo)準(zhǔn)創(chuàng)新發(fā)展(杭州)大會上的報告實錄
具身智能是指一種思想或者理論。它強調(diào)認(rèn)知受智能體的感知與動作的影響,主張智能或智能行為來自智能體身體與周圍環(huán)境的交互,而不僅僅是大腦的功能。這種思想與建立在笛卡爾身心二元論基礎(chǔ)上的離身智能不同,后者沒有考慮大腦與身體之間的聯(lián)系。具身智能理論對認(rèn)知科學(xué)、心理學(xué)、人類學(xué)、藝術(shù)等都產(chǎn)生了深刻的影響,由此誕生了具身認(rèn)知、具身心理學(xué)等分支學(xué)科。當(dāng)前,具身智能理論深入到大眾關(guān)注的人工智能、機(jī)器人技術(shù)等領(lǐng)域,并產(chǎn)生重大影響。
早期人工智能研究者認(rèn)為,機(jī)器可以通過對符號的操作實現(xiàn)對人類思考(理性行為)的模擬,即讓機(jī)器像人類那樣思考,無需考慮身體和環(huán)境。他們把人工智能定義為模擬人類的智能行為,除了模擬思考之外,還包括感知、動作,以及情感與靈感等。由于他們認(rèn)為思考和身體、環(huán)境是分離的,因此在模擬這些行為時,是各自獨立進(jìn)行,沒有考慮行為之間的相互聯(lián)系。人工智能的另一學(xué)派內(nèi)在主義,主張人工智能應(yīng)該模擬人類大腦的工作原理,我們通常稱之為類腦計算。這個學(xué)派也沒有考慮思考、感知與身體的關(guān)系。因此傳統(tǒng)人工智能中的兩大學(xué)派都屬于離身智能。
具身智能則認(rèn)為人類的智能行為不僅依賴大腦的思考,還需要通過與物理環(huán)境的交互來進(jìn)行學(xué)習(xí)和決策,最后通過感知將執(zhí)行的結(jié)果反饋到大腦,形成閉環(huán),構(gòu)成一個智能體,這樣才能真正實現(xiàn)模擬人類智能行為的目標(biāo)。具身智能這種思想的提出,與傳統(tǒng)人工智能不同,將推動人工智能向更高的水平——通用人工智能發(fā)展。
人工智能的發(fā)展歷史,經(jīng)歷過三個階段。第一代人工智能提出以知識與經(jīng)驗為基礎(chǔ)的推理模型,通過這一模型來模擬人類的思考。這一模型具有可解釋性與可理解性的優(yōu)點,但由于知識表示與獲取的困難,該模型在應(yīng)用和產(chǎn)業(yè)化上受到很大限制。第二代人工智能提出數(shù)據(jù)驅(qū)動的模型,通過基于大數(shù)據(jù)的機(jī)器學(xué)習(xí),實現(xiàn)對人類感性和情感行為的模擬。由于模型的圖像、語音等輸入數(shù)據(jù)來自客觀世界,因此具有很大的應(yīng)用潛力,但由于模型本身存在不安全、不可靠、不可信(不可解釋)、不可控和不易推廣等缺陷,因此應(yīng)用范圍有限。雖然科學(xué)家在這期間也進(jìn)行過模擬人類動作,比如手的操作與腳的步行等研究,但沒有將這些研究與思考、感知等其他方面聯(lián)系起來。總之,這兩代人工智能都有很大的局限性,而且只針對特定領(lǐng)域、利用特定模型去解決特定任務(wù)。
2020 年大語言模型的出現(xiàn),把人工智能推向新的發(fā)展階段——第三代人工智能。大語言模型具有強大的語言生成能力,使機(jī)器能夠在開放領(lǐng)域下實現(xiàn)與人類的自由交互,這表明機(jī)器已經(jīng)完全掌握了人類的語言。此事意義重大。正如哲學(xué)家維特根斯坦所言:“我的語言界限,就是我的世界界限。”機(jī)器一旦掌握了人類的語言,也就在某種程度上理解了人類的世界。大語言模型向通用人工智能邁出了關(guān)鍵一步。
盡管人工智能在語言生成上取得成功,在許多其他任務(wù)上還不能實現(xiàn)領(lǐng)域的通用性。比如醫(yī)療診斷,目前我們還沒有開發(fā)出適用于各種疾病的計算機(jī)醫(yī)療診斷系統(tǒng)。另外,大語言模型只會說(生成語言),不會干(行動)。還有大量的任務(wù),特別是復(fù)雜的任務(wù),人工智能目前還無法完成。我們離真正的通用人工智能仍有一定距離,其原因就在于,傳統(tǒng)人工智能對人類(大腦)的思考、感知與動作等方面的模擬是相互分開的,而且與環(huán)境隔離。具身智能則強調(diào)物理身體、環(huán)境感知與反饋的重要性,并通過它們實現(xiàn)與外部世界的交互。這正好彌補了傳統(tǒng)人工智能的不足,使機(jī)器通過與環(huán)境的反復(fù)交互,逐漸學(xué)習(xí)適應(yīng)環(huán)境并優(yōu)化其決策和行動,不斷迭代,完成更多、更復(fù)雜的任務(wù),這就是新的學(xué)習(xí)范式——強化學(xué)習(xí)。由此可見,具身智能將使人工智能在更廣泛的環(huán)境下,完成更多的任務(wù),向通用人工智能邁進(jìn)。
機(jī)器人的研究遠(yuǎn)在人工智能誕生之前。 1954 年,科學(xué)家發(fā)明數(shù)字控制可編程的機(jī)械臂,為現(xiàn)代工業(yè)機(jī)器人打下基礎(chǔ),也預(yù)示著現(xiàn)代機(jī)器人的真正誕生。 在人工智能的發(fā)展過程中,雖然也將模仿人類動作納入研究范圍,但由于當(dāng)時研究的重點是思考與感知,動作(身體)并沒有受到很大關(guān)注。 后來,機(jī)器人研究慢慢形成一個新領(lǐng)域——機(jī)器人學(xué),與人工智能中的動作研究同時存在。 機(jī)器人學(xué)研究的范圍更寬,也更多關(guān)注技術(shù)、實際應(yīng)用和產(chǎn)業(yè)化。 1986 年,移動機(jī)器人的先驅(qū)羅德尼·布魯克斯提出了行為主義機(jī)器人學(xué)的主張,他認(rèn)為傳統(tǒng)的符號主義人工智能過于依賴復(fù)雜的推理系統(tǒng),忽視了身體與環(huán)境的互動對智能行為的關(guān)鍵性貢獻(xiàn)。 可以說,這是在機(jī)器人領(lǐng)域首次提出具身智能思想。
其一是推動機(jī)器人技術(shù)從單一感知(如視覺或觸覺)向多模態(tài)感知發(fā)展。 自動駕駛汽車需要在各種氣候條件和復(fù)雜環(huán)境下行駛,全天候的環(huán)境感知極為重要。目前除了利用單一的攝像機(jī)之外,人們更多地考慮多傳感器融合,即除攝像機(jī)之外,還要綜合利用激光掃描儀、雷達(dá)、聲吶、衛(wèi)星定位等不同傳感器,以保證感知的可靠性。同樣,對機(jī)械手來講,也需要利用觸覺、力覺、力矩覺等多傳感器的融合,以便在復(fù)雜環(huán)境下實現(xiàn)復(fù)雜操作,比如,裝配、搶險救災(zāi)、排雷等。
其二是推動機(jī)器人技術(shù)更加關(guān)注軟件與硬件的高度整合。 為了適應(yīng)不同工作任務(wù)的需求,我們需要設(shè)計不同類型的機(jī)器人,如為家庭服務(wù)的人形機(jī)器人,擁有靈巧雙手的裝配機(jī)器人,擁有特殊功效的仿生機(jī)器人等。不同類型的機(jī)器人需要不同的控制技術(shù),也會導(dǎo)致不同的學(xué)習(xí)和感知方式,這反過來又影響機(jī)器人形態(tài)的設(shè)計。這些都屬于機(jī)器人軟硬件協(xié)同的問題。
其三,具身智能中的智能體概念對機(jī)器人技術(shù)也將產(chǎn)生重要影響。 根據(jù)智能體這一概念,機(jī)器人將思考、感知和動作連為一體,既可以在數(shù)字世界中也可以在物理世界中完成任務(wù),利用數(shù)字世界又可以對物理世界進(jìn)行仿真,這些對推動機(jī)器人的發(fā)展意義重大。比如,無人車的實驗如果在物理世界中進(jìn)行,就要受到氣候條件、突發(fā)事件等諸多因素限制,利用仿真模擬則會大大提高效率,節(jié)省時間與費用。利用智能體理論,我們可以讓機(jī)器人相互之間進(jìn)行博弈,實現(xiàn)機(jī)器的自我進(jìn)化(迭代),使機(jī)器人的性能不斷提高。
中國科學(xué)院院士、清華大學(xué)教授張鈸在《人民日報》發(fā)表的文章