我萬萬沒想到,除夕當(dāng)天我會跑到咖啡店寫公眾號文章。
因為萬萬沒想到,Deepseek這幾天以如此迅猛的速度刷爆朋友圈,也沒想到這股神秘的東方力量在昨晚直接拉爆了以英偉達(dá)和臺積電為代表的AI芯片科技股。
三個沒想到,完美構(gòu)成了一條思維鏈(Chain of Thoughts,COT)。
我用Deepseek一段時間了,已經(jīng)深度沉迷在最它的深度思考模式。也就是說,在給出它的回答之前,它會先詳細(xì)闡述自己的思考過程,類似面試的時候應(yīng)聘者不僅給出問題的結(jié)果,還給考官一步一步的描述自己如何把一個問題拆解成若干小問題、基于怎樣的原理、參考了什么內(nèi)容,最終推動問題的解決。這就是所謂的思維鏈。
經(jīng)常跳槽的朋友應(yīng)該清楚,這樣的選手是面試官最喜歡的。即使最后答案不是完美正確,只要中間過程靠譜、邏輯清晰,也能體現(xiàn)選手的能力,也大概率會得到錄用。
Deepseek就是這樣的選手。
我們都知道傳統(tǒng)大模型會一本正經(jīng)的胡說八道,要命的是我們不知道為什么大模型會一本正經(jīng)的胡說八道。導(dǎo)致這個痛點的本質(zhì)原因,就是模型本身思維方式的不可解釋性。你可以把AI當(dāng)成是個薛定諤的黑盒,輸入一個指令,輸出一個結(jié)果,但得到什么結(jié)果全憑模型素質(zhì)和運氣。
但有了思維過程,你就能(在某種程度上)理解AI是怎么思考的,就可以根據(jù)這個思考過程看出來到底哪里對了、哪里開始胡扯了,然后根據(jù)這個觀察針對性的調(diào)整和AI的互動,引導(dǎo)選手得到更靠譜的答案。很重要的是,它的思維過程說的是人話。
Deepseek的優(yōu)點還有很多,特別擅長邏輯、編程、數(shù)學(xué)相關(guān)的問題,和我的日常使用場景幾乎完美吻合。比如它已經(jīng)給我想了很多蠻靠譜的科研idea,還給出了實現(xiàn)這些想法的技術(shù)路線。我還用它在整一些小活,如果做成了就第一時間分享給大家,如果做不成就當(dāng)沒做過……
有人說,Deepseek的火爆出圈,代表了東大在A國芯片禁運、人才封鎖等重重技術(shù)封鎖下的突破。黑神話悟空制作人馮驥說,Deepseek屬于國運級的創(chuàng)新成果。如果我們繼續(xù)挖掘這個國運級突破背后的本質(zhì),可以看到其實是大洋兩岸的兩國在大模型技術(shù)路線上的三個競爭。
1、暴力堆料與極致工程之爭。《孟子》說,達(dá)則兼濟天下,窮則獨善其身。這句話在大模型領(lǐng)域也同樣適用:卡多則暴力堆料,卡少則工程優(yōu)化。當(dāng)OpenAI的Scaling Law向業(yè)界釋放出強烈明示——即模型性能和算力成正比時,本質(zhì)上也給不明就里的投資人提出了一個簡單粗暴的計算投資回報ROI的公式,只要堆卡、堆算力,就能實現(xiàn)模型性能的不斷提升。反過來,這同樣也給A國政府提供了絕佳的卡點,即封鎖算力就等同于封鎖模型性能。但Deepseek從極致工程優(yōu)化入手,通過純強化學(xué)習(xí)方法實現(xiàn)思考和頓悟,僅用十分之一的成本就達(dá)到了GPT-o1級別的性能表現(xiàn)。
結(jié)果投資人有點慌,之前讓我燒錢暴力堆卡的時候,沒說還有這種騷操作;搞技術(shù)封鎖的人也有點慌,沒想到這個行業(yè)的護(hù)城河也太不穩(wěn)了,這么隨意就被繞了,封了半天封了個寂寞。
之前英偉達(dá)、博通、臺積電這些半導(dǎo)體公司的高估值,以至于美股過去幾年超過十萬億美元的市值增長,很大程度都建立在美國技術(shù)遙領(lǐng)的基礎(chǔ)上,也都建立在暴力堆料的技術(shù)路線之上。但Deepseek的出現(xiàn),打破了這種信仰。
這也是昨晚美國科技股集體撲街的本質(zhì)原因(之一,其他原因可以在評論區(qū)補充)。
但我同樣覺得,Deepseek的爆發(fā)并不代表算力的落寞,恰恰相反會給芯片端帶來全新的機會。一方面,極致工程優(yōu)化和暴力堆料二者本身并不沖突,只是在特定歷史條件下出現(xiàn)了割裂,如果二者能進(jìn)行結(jié)合,或許能創(chuàng)造出新的突破。另一方面,算法的創(chuàng)新降低了門檻,會吸引更多參與者,從而進(jìn)一步提升對算力的需求。
2、先發(fā)優(yōu)勢與后發(fā)優(yōu)勢之爭。過去幾年,A國在AI領(lǐng)域一直保持半年到N年的先發(fā)優(yōu)勢。作為引領(lǐng)者的好處,在于方便跑馬圈地、制定規(guī)則。你入局早,嗓門大,就能制定游戲規(guī)則,后來的小弟都得按你的規(guī)則跟你混。這方面A國的科技公司很擅長,比如谷歌、Meta、蘋果、微軟、亞馬遜,到芯片行業(yè)的英偉達(dá)、EDA巨頭們等,都是這個套路。經(jīng)常有人說為什么歐洲和日本沒有做社交媒體、電商、搜索引擎、大算力芯片等公司,就是因為被A國占據(jù)了先發(fā)優(yōu)勢。
但另一方面,一朝引領(lǐng),就想一直引領(lǐng)。當(dāng)帶頭大哥的代價也是很大的,比如前面說的模型推理性能優(yōu)化的技術(shù)路線到底選哪條,引領(lǐng)者很多時候也是懵b的,也只能靠燒錢堆卡去試。試出來一個好用的,還容易形成路徑依賴。
這個時候,后發(fā)者的最大優(yōu)勢就體現(xiàn)出來了,那就是摸著帶頭大哥過河,少踩坑、少走很多彎路。另外敵在明我在暗,看清了前人的技術(shù)路線,更容易形成自己的差異化。這方面東大的公司有很多經(jīng)驗,比如pdd對淘寶,比如小米汽車的迅速崛起。
不過,從目前的形勢來看,Deepseek更多是實現(xiàn)了后發(fā)者的追趕,還尚未實現(xiàn)反超。如何從追隨者變成引領(lǐng)者,如何將后發(fā)優(yōu)勢轉(zhuǎn)換成領(lǐng)先優(yōu)勢、并一直保持下去,或許是他們遲早要(或許很快就要)面對的問題。
3、閉源模式與開源模式之爭。OpenAI這個公司的名字已經(jīng)成了一個繞不過去的梗,與之并列的就是Robin對開源模型的一系列神預(yù)言,以及老石對芯片公司股價走勢封神的反向預(yù)測。當(dāng)大佬們都認(rèn)為未來大模型會逐漸走向封閉,Deepseek以它的開源屬性強力打破了這個偏見,不僅模型開源、供全球用戶無限使用(當(dāng)然現(xiàn)在由于需求過大,開啟了地域保護(hù),僅供+86手機注冊,真的過年了),還把模型參數(shù)、訓(xùn)練數(shù)據(jù)、論文文檔都開源,API調(diào)用還打了骨折,基本免費。
你想給信仰充值,都找不到地方。
開源有兩個顯而易見的好處,一個是能快速匯聚各種科技力量,另一個就是從根本上打破技術(shù)封鎖。因為Deepseek的開源屬性,已經(jīng)出現(xiàn)了幾百個模型的精調(diào)版本,人們也可以把它部署在自己的PC、Mac Mini、Raspberry Pi等等各種設(shè)備上,各種整活層出不窮。比如有老外在twitter上立Flag,說誓死也要把Deepseek部署到多個Mac Mini組成的集群上(目前好像已經(jīng)實現(xiàn)了)。
圖靈獎得主、Meta AI首席科學(xué)家楊立昆(Yann LeCun)也表達(dá)了對開源精神的支持,他說「與其說是中國勝過美國,更該說是開源模型超過了私有模型」。
開源模式對于東大的科技發(fā)展來說,有著非常重要的意義,我在之前的文章中也多次介紹過。不僅模型、算法、軟件適合開源,其實硬件、芯片也同樣適合探索開源模式。孫凝輝院士提出要構(gòu)建開源開放的「C體系」,本質(zhì)上就是以引領(lǐng)性的技術(shù)成果和開源模式構(gòu)建廣泛技術(shù)生態(tài),實現(xiàn)技術(shù)的普惠。
最后的問題是,人工智能的「奇點」,真的來了嗎?
在紛繁復(fù)雜鋪天蓋地的Deepseek內(nèi)容中,我看到一篇小紅書的帖子,是一個大廠工程師在用Deepseek后感到一種巨大的失落。帖子中寫到:
如果創(chuàng)作不如AI、寫代碼不如AI、報告總結(jié)不如AI,那人類在這個世界存在的價值、個人存在的價值到底是什么?
除夕看到這個問題,更有一種特別的感受。我讓Deepseek列舉了幾個和春節(jié)相關(guān)的詩詞,它依然穩(wěn)定輸出了很多我聽過或從未聽過的詩。但不知AI能否理解「爆竹聲中一歲除,春風(fēng)送暖入屠蘇」中萬象更新的感覺;能否理解甄嬛除夕夜在梅園說出「逆風(fēng)如解意,容易莫摧殘」的心境;能否理解明明是普通的一次地球自轉(zhuǎn),人類這個生物為何要給它賦予如此特殊的意義。
我讓Deepseek為這篇文章起一個標(biāo)題,覺得很快AI會在創(chuàng)意上替代我。但至少,我還能喝一杯AI喝不了的酒。
記得點擊下面視頻號領(lǐng)紅包封面。祝大家新春快樂,萬事如意~
(注:本文不代表老石任職單位的觀點。)