作者|Jessica,郵箱|Jessica@pingwest.com
“CVPR的注冊隊伍現(xiàn)在在大廳里來回繞了2.5圈。如果你還沒到,可以睡個懶覺——等待時間至少45分鐘?!?/p>
6月14日,全球計算機(jī)視覺頂會CVPR 2025在美國納什維爾落下帷幕的前一天,社交媒體上仍有人在“抱怨”著入場的長隊,而這只是今年大會火爆程度的一個縮影。
整座城市都因上萬名 AI 研究者的涌入改變了節(jié)奏:機(jī)場里,背著電腦包、戴著參會證的人隨處可見;市中心的酒店幾乎全滿;會場走廊里,抱著電腦席地工作的研究者、匆匆穿梭于各個分會場的人群、永遠(yuǎn)排成長龍的咖啡區(qū),共同構(gòu)成了這場 AI 盛會最典型的風(fēng)景。
今年 CVPR 的競爭異常激烈。官方數(shù)據(jù)顯示,大會共收到創(chuàng)紀(jì)錄的 13,008 篇論文投稿,最終錄取率則是歷屆新低,僅為 22.1%。能獲得口頭報告(Oral)機(jī)會的更是鳳毛麟角,只有 96 篇,占比約 3.3%。
在海量的論文和討論中,兩大技術(shù)風(fēng)向標(biāo)尤為明確。其一,3D視覺正迎來爆發(fā)前夜,成為高質(zhì)量研究成果和demo展示最密集的領(lǐng)域。本屆的最佳論文VGGT,就是一個能高效地從2D圖片中重建3D信息的端到端方案,一作王建元是華人研究員。其二,“世界模型”一詞無處不在,頻繁出現(xiàn)在各種論文、海報和研討會中,成為全場熱議的焦點。另外,包括謝賽寧、蘇昊、鄭奇立在內(nèi)的多位華人學(xué)者亦獲得多項獎項與提名,中國研究員的活躍度和影響力持續(xù)提升。
與此同時,一個更宏觀的趨勢是:CVPR的學(xué)術(shù)界與產(chǎn)業(yè)界邊界正在快速模糊。會場隨處可見Meta、Google、NVIDIA的logo,大量參會者佩戴企業(yè)工牌,“從論文到產(chǎn)品”成為熱門議題。一位連續(xù)參會者告訴我們,今年的CVPR更像是一場技術(shù)和產(chǎn)業(yè)界緊密結(jié)合的大集市,一個全球視野下技術(shù)人才、成果、場景三位一體的競速場。
而就在“前沿技術(shù)趨勢”、“產(chǎn)業(yè)深度融合”和“華人力量崛起”這三大焦點的交匯處,一個來自中國的身影顯得尤為特別。
在今年CVPR自動駕駛分論壇(WAD)上,小鵬世界基座模型負(fù)責(zé)人劉先明發(fā)表了題為《Scaling up Autonomous Driving via Large Foundation Models》的主題演講。與眾多“論文參會型”企業(yè)不同,小鵬汽車是作為唯一受邀的中國車企,帶著在工業(yè)領(lǐng)域的重磅實踐經(jīng)驗登場。當(dāng)其他參會者分享還在探討“如何將研究成果應(yīng)用于產(chǎn)業(yè)”時,他們的主題恰恰相反:如何用產(chǎn)業(yè)的真實數(shù)據(jù)和研發(fā)經(jīng)驗,來推動基礎(chǔ)科研的邊界。
講臺上,劉先明的開場白簡單直接:“我大概是今天唯一一個來自大規(guī)模量產(chǎn)汽車公司的分享者。”
這番話點明了演講的獨特視角:接下來的內(nèi)容,將來自一個每天處理真實道路、真實用戶和海量量產(chǎn)車數(shù)據(jù)的研發(fā)團(tuán)隊。在場的AI學(xué)者們將聽到的,不再是純粹的理論推演,而是一套在產(chǎn)業(yè)一線被反復(fù)捶打和驗證過的解題思路。
這是小鵬自今年 4 月發(fā)布 720 億參數(shù)的“世界基座模型”以來,首次在國際學(xué)術(shù)頂會上完整披露其自動駕駛研發(fā)進(jìn)展。不僅帶來了工業(yè)界首次對“擴(kuò)展法則”(Scaling Law)在自動駕駛領(lǐng)域的系統(tǒng)性驗證,結(jié)合“云端基座模型 + 強(qiáng)化學(xué)習(xí)”的方法論,還公開了已被 DeepSeek 驗證的“知識蒸餾”路徑,將 VLA(Visual-Language-Action)模型高效部署在自研芯片上的最新實踐。
一場由“工業(yè)界反哺學(xué)術(shù)界”的大型案例分享,就此展開。
軟件3.0:先造好“駕駛大腦”,再考慮怎么上車
在劉先明看來,自動駕駛軟件正在經(jīng)歷一場范式革命。從十年前靠C++ 規(guī)則堆砌的“軟件 1.0”, 到引入模型來逐步替代軟件、漸漸發(fā)展到“模型即軟件”的“軟件 2.0”,再到如今小鵬全面投入的“軟件 3.0”階段,核心理念已經(jīng)發(fā)生了根本性轉(zhuǎn)變,“軟件3.0”時代的最大特點是用模型生產(chǎn)模型。
在小鵬汽車的實踐中,就是先“不計成本”地把最聰明、最強(qiáng)大的“駕駛大腦”在云端訓(xùn)練出來,暫時不用考慮車上那塊小芯片的計算能力。等到云端模型能力足夠強(qiáng)大,再通過技術(shù)手段將其蒸餾成適合車端運行的版本。目前,小鵬訓(xùn)練的這個“完全體”基座模型,參數(shù)規(guī)模高達(dá)720億(72B),是現(xiàn)在行業(yè)主流VLA模型的35倍以上。
模型背后,是一座真正意義上的“云端模型工廠:它擁有算力達(dá)10EFLOPS、上萬張GPU卡的智算集群,并采用專門優(yōu)化的數(shù)據(jù)傳輸架構(gòu),將訓(xùn)練速度提升了5倍。更重要的是它的“數(shù)據(jù)引擎”——一個龐大且持續(xù)運轉(zhuǎn)的數(shù)據(jù)飛輪。
相比很多公司要依賴有限的公開數(shù)據(jù)集或單次采集任務(wù),小鵬的一大優(yōu)勢在于,其數(shù)據(jù)采集能力“不受限制”,直接來自大規(guī)模量產(chǎn)車隊。小鵬汽車的基座模型累計處理了超過5000萬段30秒視頻片段,總計超40萬小時訓(xùn)練數(shù)據(jù),平均每天上傳數(shù)據(jù)達(dá)600TB,這些數(shù)據(jù)全都來自真實世界、真實場景。這些數(shù)據(jù)采集由超過100種觸發(fā)機(jī)制驅(qū)動,確保了數(shù)據(jù)的多樣性和價值。
更重要的是,這些數(shù)據(jù)并非“采了就用”,而是通過一套?“內(nèi)外雙循環(huán)系統(tǒng)”?持續(xù)驅(qū)動模型進(jìn)化。
劉先明在演講中介紹,“我們的基座模型不是靜態(tài)的,它在持續(xù)學(xué)習(xí)、循環(huán)進(jìn)化(Continued Online Learning)??梢园涯P偷牡^程分成內(nèi)、外兩個循環(huán),內(nèi)循環(huán)是指包含預(yù)訓(xùn)練、后訓(xùn)練(包括監(jiān)督精調(diào)SFT和強(qiáng)化學(xué)習(xí)RL)和蒸餾部署的模型訓(xùn)練過程;外循環(huán),是指模型在車端部署之后,持續(xù)獲取新的駕駛數(shù)據(jù)和用戶反饋,數(shù)據(jù)回流云端,繼續(xù)用于云端基模的訓(xùn)練?!?/p>
正是這種“數(shù)據(jù)飛輪”機(jī)制,讓小鵬的大模型訓(xùn)練始終處在動態(tài)進(jìn)化狀態(tài),也為攻克自動駕駛行業(yè)長期面臨的“長尾場景”難題提供了充足的數(shù)據(jù)保障。
現(xiàn)場觀眾評價小鵬汽車“軟件3.0”觀點。| 來源:硅星人
擴(kuò)展法則鐵證:為自動駕駛領(lǐng)域的“暴力美學(xué)”正名
支撐這套“先做大、再做小”邏輯的,是一項關(guān)鍵的實驗結(jié)果,也是小鵬此次分享最核心的貢獻(xiàn)之一:擴(kuò)展法則(Scaling Law)在自動駕駛領(lǐng)域是有效的。
在語言大模型(LLM)領(lǐng)域,擴(kuò)展法則已被反復(fù)驗證,即模型性能隨著計算量、數(shù)據(jù)量、參數(shù)規(guī)模增加而系統(tǒng)性提升。但在充滿不確定性的自動駕駛物理世界里,輸入是復(fù)雜的多模態(tài)信號,輸出需要實時行為決策,“越大越強(qiáng)”是否依然是鐵律?
小鵬團(tuán)隊此次通過大規(guī)模實驗首次公開驗證了這一點。
他們在CVPR展示的圖表顯示,當(dāng)模型參數(shù)量從10億增加到720億,以及訓(xùn)練視頻片段數(shù)量從100萬增加到3000萬時,衡量軌跡預(yù)測精準(zhǔn)度的關(guān)鍵指標(biāo)——縱向平均位移誤差(Long ADE)——呈現(xiàn)出一條近乎完美的、持續(xù)下降的曲線。這意味著模型預(yù)測未來軌跡的精準(zhǔn)度,確實隨著其規(guī)模增加而系統(tǒng)性提升。劉先明補(bǔ)充道:“目前為止,我們還沒有看到這個趨勢出現(xiàn)飽和?!?/p>
這為小鵬“軟件 3.0”路線提供了強(qiáng)有力的數(shù)據(jù)支撐,也向整個行業(yè)證明,在自動駕駛這條賽道上,依賴“海量高質(zhì)量數(shù)據(jù)+大模型驅(qū)動”,是一條清晰可見、回報確定的技術(shù)路徑。
CoT鏈?zhǔn)酵评?+ 強(qiáng)化學(xué)習(xí),教汽車“思考”怎么開
但光有規(guī)模還不夠,如何讓這個“大力士”擁有“繡花針”般的精細(xì)操作能力?小鵬展示了其在大模型能力塑造中的關(guān)鍵策略組合——鏈?zhǔn)酵评恚–hain of Thought, CoT)+強(qiáng)化學(xué)習(xí)(RL)。
這就好比是教一個新手司機(jī)成長為老司機(jī)的過程。
第一步:用CoT,讓AI學(xué)會分步驟思考
新手司機(jī)開車,往往是“看到障礙物,踩剎車”的本能反應(yīng);老司機(jī)則會在腦中進(jìn)行一連串的思考:“前方有障礙,我需要減速??匆谎酆笠曠R,右后方?jīng)]車。打轉(zhuǎn)向燈,平穩(wěn)地向右并線繞行?!盋oT正是要賦予AI這樣的能力。
在模型訓(xùn)練中,先通過大規(guī)模圖文數(shù)據(jù)建立基礎(chǔ)語義理解;接著在監(jiān)督微調(diào)(SFT)階段引入CoT機(jī)制,讓模型在做出關(guān)鍵決策前生成一段推理鏈,包括環(huán)境描述、邏輯分析和動作規(guī)劃,提升可解釋性和魯棒性。劉先明說:“很多復(fù)雜場景需要分步驟思考,CoT正好賦予了模型這種思考時間?!?/p>
第二步:用RL,讓AI在試錯中進(jìn)化
思考能力有了,但面對未知極限場景,模仿學(xué)習(xí)難以應(yīng)對——“L3/L4自動駕駛很多極端情況是靠模仿學(xué)不會的,”劉先明坦言。這時RL就派上用場了。類似教孩子騎車,騎得穩(wěn)有“愉悅”的獎勵,快摔倒有“恐懼”的懲罰,最終在不斷的試錯和調(diào)整中學(xué)會。RL也是同理,通過“獎勵與懲罰”機(jī)制,讓模型在虛擬環(huán)境中不斷試錯,自主尋找最優(yōu)駕駛策略。劉先明舉例說:在一個U型掉頭場景,未優(yōu)化的模型動作僵硬,甚至可能撞上路沿;而經(jīng)過RL訓(xùn)練后,模型會主動減速,以優(yōu)雅平滑的路線完成掉頭。
為實現(xiàn)這一點,小鵬打造了完整的RL訓(xùn)練體系,包括:Reward Function(強(qiáng)化安全、效率、合規(guī)駕駛能力)、Reward Model(從真實用戶接管和反饋數(shù)據(jù)中學(xué)習(xí)“好駕駛”行為)、World Model(虛擬博弈環(huán)境,支持高復(fù)雜動態(tài)交互)。可以說,RL讓大模型真正具備了面對復(fù)雜現(xiàn)實場景“悟”出解決方案的能力。
最后一公里:從云端大模型到車端自研芯片
有了這個既會“思考”、又能進(jìn)化的云端大腦,下一個挑戰(zhàn)也是最現(xiàn)實的問題——如何將它裝進(jìn)每一輛車?yán)铩?/p>
小鵬的軟件解法,是通過“知識蒸餾”路徑,將 720 億參數(shù)的基座模型能力提煉為適配車端算力的小型模型。在部分實車測試中,甚至實現(xiàn)了未蒸餾小尺寸模型的直接控車,顯著提升駕駛的平滑性與安全性。
而硬件解法,則是另一張王牌:自研芯片。就在 CVPR 舉辦期間的 6 月 11 日晚,小鵬正式發(fā)布其最新車型 G7——全球首款 L3 級AI汽車,首發(fā)搭載三顆自研圖靈 AI 芯片。
這款芯片在性能上尤為引人注目:單顆芯片有效算力達(dá)到英偉達(dá) Orin的三倍;三顆協(xié)同工作后的總算力達(dá) 2200 TOPS,相當(dāng)于 9 顆 Orin-X 的效能。集成小鵬自研智駕系統(tǒng)后可實現(xiàn)接近 100% 的算力利用率(相比通用芯片約 70%–80%),最高可在本地實時運行 300 億參數(shù)大模型,為高階自動駕駛提供了充足的冗余能力。
這塊強(qiáng)大的端側(cè)基石,配合小鵬云端具備5天一輪迭代能力的“云端工廠”,以及年內(nèi)將突破2億clips的訓(xùn)練數(shù)據(jù)目標(biāo),最終構(gòu)建出了一套“云端訓(xùn)練-車端部署、軟件定義-硬件優(yōu)化”的自循環(huán)完整技術(shù)路徑。
結(jié)語:一份來自真實世界的行車報告
小鵬汽車的這場CVPR分享,并沒有太多華麗辭藻。它更像一位資深研發(fā)員攤開設(shè)計圖與實驗數(shù)據(jù),向同行們細(xì)致講述團(tuán)隊是如何一步步解決問題的。從驗證Scaling Law,到拆解“思考型”模型的訓(xùn)練細(xì)節(jié),再到公布軟硬一體的部署方案,小鵬帶來的是一套完整的、在真實世界里跑出來的工程體系。
更重要的是,它打破了“學(xué)術(shù)→工業(yè)”單向傳導(dǎo)的慣性,展示了工業(yè)界如何通過海量真實數(shù)據(jù)、扎實工程實踐,反哺學(xué)術(shù)探索、為物理世界AI打開全新可能性。
當(dāng)理論照進(jìn)現(xiàn)實,那些來自道路的真實挑戰(zhàn)和數(shù)據(jù),正在定義著自動駕駛的下一程。