• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

具身智能的“ChatGPT時刻”何時到來?

03/31 09:40
358
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

具身智能的“ChatGPT時刻”何時到來?在2025中關(guān)村論壇“未來人工智能先鋒論壇”上,上海交通大學(xué)教授、穹徹智能聯(lián)合創(chuàng)始人盧策吾,星動紀(jì)元創(chuàng)始人陳建宇,銀河通用創(chuàng)始人兼CTO王鶴,樂聚機器人創(chuàng)始人、董事長冷曉琨,北京智源人工智能研究院院長王仲遠圍繞這一熱點話題分別表達了自己的觀點和預(yù)測。

盧策吾:我認(rèn)為,具身智能的“ChatGPT時刻”不是一蹴而就的,它應(yīng)該是通過突破一批又一批成熟的應(yīng)用場景推動實現(xiàn)階梯上升的。當(dāng)大家發(fā)現(xiàn)身邊越來越多的應(yīng)用場景使用了具身智能技術(shù)的時候,“ChatGPT時刻”很可能就會伴隨一個更大技術(shù)創(chuàng)新和機會而來。時間點我不好預(yù)測,但是我認(rèn)為未來每1~2年具身智能就會實現(xiàn)階梯性的進步,這是確定性比較高的。目前來看,從我公司的發(fā)展角度,我認(rèn)為物流PMP抓取放、食品加工等應(yīng)用場景會實現(xiàn)具身智能應(yīng)用的率先突破。

陳建宇:我覺得實現(xiàn)的時間點要看如何定義具身智能機器人的“ChatGPT時刻”,如果標(biāo)準(zhǔn)比較高那么它突破性爆發(fā)的時間點就會比較遠。如果要達到類比語言模型的“ChatGPT時刻”——這個Agent可以開放給每一個人用,大家都可以去問他任意的問題,Agent都能回答得不錯,可以為用戶帶來驚喜的標(biāo)準(zhǔn)。一個具身智能機器人放到任意某個家庭的某個場景里,用戶要讓他隨便干活,這個機器人都可以完成得不錯。如果要實現(xiàn)上述的功能,這還是一個比較高的標(biāo)準(zhǔn),大概要三年以上的時間實現(xiàn)。不過這并不妨礙我們近1~2年就在特定場景中去應(yīng)用具身智能機器人,因為語言模型的1.0和2.0已經(jīng)可以在一些垂直場景中使用了。

王鶴:盡管現(xiàn)在人形機器人全面應(yīng)用的呼聲很高,但是我認(rèn)為它發(fā)展到“ChatGPT時刻”還是有很長的路要走。因為具身智能和人形機器人產(chǎn)業(yè)中,人工智能和硬件是相互聯(lián)系的,它倆是會輪流成為產(chǎn)業(yè)發(fā)展的瓶頸,也是需要共同進步的。目前在中關(guān)村論壇的場館內(nèi),銀河通用的輪式機器人已經(jīng)可以給大家在貨架上拿取物品。在這種無人零售的貨架場景基本用不到腿,我們認(rèn)為這種輪式機器人便宜可靠續(xù)航時間還長,已經(jīng)可以滿足基本需求了。我們預(yù)計在2026年人形機器人在智能貨架場景的應(yīng)用將全面實現(xiàn)突破,如果輪式人形機器人在這單一場景的出貨量已經(jīng)達到十萬級別,那它算不算“ChatGPT時刻”?它雖然沒有讓每個人都用上人形機器人,但是對于24小時的值守店來說是有很高的價值的事情。當(dāng)人形機器人走入家庭場景,這個場景就會對硬件提出更高的要求——成本高、噪聲小、續(xù)航高,甚至還有更多想不到的需求——例如人形機器人應(yīng)用在養(yǎng)老場景,需要抱起老人,那么鋼材質(zhì)的機械臂就不符合人們預(yù)期了,就需要進一步去完善……從這個角度實現(xiàn)具身智能“ChatGPT時刻”的就會在更遙遠的時間點。

冷曉琨:我認(rèn)為大語言模型的“ChatGPT時刻”在具身智能產(chǎn)業(yè)中大概無法復(fù)制。因為具身智能是一個軟件硬件相互耦合的產(chǎn)業(yè),AI某個領(lǐng)域的最新Demo產(chǎn)生后,軟件就會迎來一個爆發(fā)。但是具身智能機器人涉及硬件的部分,硬件產(chǎn)業(yè)的發(fā)展規(guī)律是無法跨越的——我認(rèn)為具身智能機器人從實驗室產(chǎn)品發(fā)展到產(chǎn)業(yè)化產(chǎn)品,至少要走3~5年的時間。等硬件真正實現(xiàn)產(chǎn)業(yè)化后,還要再將AI智能的部分耦合進入硬件本體中不斷調(diào)試,軟硬件相互融合后,才能最終迎來這種大規(guī)模爆發(fā)。我也一直認(rèn)為,具身智能機器人的爆發(fā)可能沒有突然眼前一亮的時刻,而是一個潤物細(xì)無聲的過程——可能在5年或者10年后的某一天,人們會發(fā)現(xiàn)具身智能已經(jīng)應(yīng)用在社會各個場景之中了。

王仲遠:我想從人工智能的第三次浪潮的發(fā)展脈絡(luò)來推測一下具身智能的發(fā)展時間。2006年,由圖靈獎獲得者Geoffrey Hinton教授及其學(xué)生在Science雜志上發(fā)表的一篇重要論文引發(fā)深度學(xué)習(xí)的真正突破。但是直到2012年,Geoffrey Hinton團隊在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽上獲得冠軍后,神經(jīng)網(wǎng)絡(luò)才受到產(chǎn)業(yè)界的廣泛關(guān)注。以2012年為起點,隨后深度學(xué)習(xí)在語音識別接連突破、Google先后推出Transformer模型架構(gòu)、Bert預(yù)訓(xùn)練語言模型??……直到2022年ChatGPT出現(xiàn),成為人工智能的一個標(biāo)志性里程碑。事實上,從2012年到2022年,深度學(xué)習(xí)1.0時代已經(jīng)過了10年。

類比人工智能的發(fā)展脈絡(luò),具身智能現(xiàn)階段不僅受限于AI模型的發(fā)展,還受限于硬件的發(fā)展程度。所以具身智能既存在“先有雞先有蛋”的問題,也存在(軟硬件)相互制約的問題,當(dāng)然可能也存在相互促進的情況。我認(rèn)為,具身智能比較可能率先在受限的場景下先具備可用性、一定的智能以及一定的泛化程度。隨著產(chǎn)業(yè)熱度提升資源的匯集,具身智能也許會比人工智能的發(fā)展更快一點,例如相比人工智能發(fā)展到1.0時代歷經(jīng)10年,具身智能也許只用5年就完成,但是不會特別快實現(xiàn)。

作者丨王偉編輯丨邱江勇美編丨馬利亞監(jiān)制丨連曉東

相關(guān)推薦