• 正文
    • 01.GPT-4.5兩年前已啟動(dòng),項(xiàng)目耗時(shí)遠(yuǎn)超預(yù)期
    • 02.如今訓(xùn)練GPT-4級(jí)別模型,僅需5-10人即可完成
    • 03.數(shù)據(jù)效率是大模型突破關(guān)鍵,新一代硬件帶來(lái)諸多挑戰(zhàn)
    • 04.計(jì)算資源不再是主要瓶頸,算法尚未觸及理論上限
    • 05.模型整體性能提升可預(yù)測(cè),智能提升路徑難以預(yù)測(cè)
    • 06.機(jī)器學(xué)習(xí)與系統(tǒng)團(tuán)隊(duì)合作密切,不會(huì)“自掃門(mén)前雪”
    • 07.GPT-4.5預(yù)訓(xùn)練是最周密的計(jì)劃,絕不放過(guò)任何異常
    • 08.我們離理想系統(tǒng)還很遠(yuǎn)
    • 09.算法改進(jìn)產(chǎn)生疊加效應(yīng),推動(dòng)數(shù)據(jù)效率提高
    • 10.智能的本質(zhì)是壓縮,數(shù)據(jù)長(zhǎng)尾效應(yīng)讓Scaling Law持續(xù)有效
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

OpenAI揭秘GPT-4.5訓(xùn)練:10萬(wàn)塊GPU,幾乎全員上陣,出現(xiàn)“災(zāi)難性問(wèn)題”

04/14 10:00
361
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

編譯 | ?陳駿達(dá) 陳家陽(yáng),編輯 | ?Panken

我們離理想中的訓(xùn)練系統(tǒng)還很遙遠(yuǎn)。

智東西4月13日消息,近日,在OpenAI史上最貴模型GPT-4.5發(fā)布1個(gè)多月后,OpenAI聯(lián)合創(chuàng)始人兼CEO薩姆·阿爾特曼(Sam Altman)與GPT-4.5的3位核心技術(shù)人員進(jìn)行了一場(chǎng)45分鐘的高信息量對(duì)談,首次披露了這款模型研發(fā)耗時(shí)嚴(yán)重超期計(jì)算集群頻繁故障、提升路徑難以預(yù)測(cè)等諸多不為人知的細(xì)節(jié)。

GPT-4.5項(xiàng)目啟動(dòng)于兩年前,是OpenAI迄今為止最周密的計(jì)劃,涉及數(shù)百人團(tuán)隊(duì)協(xié)作,阿爾特曼稱OpenAI為了這一項(xiàng)目幾乎是“全員上陣”。研發(fā)過(guò)程中,OpenAI團(tuán)隊(duì)遇到了不少“災(zāi)難性問(wèn)題”。10萬(wàn)卡集群暴露了基礎(chǔ)設(shè)施的隱藏的小概率、深層次故障,為了權(quán)衡時(shí)效與性能,OpenAI的系統(tǒng)團(tuán)隊(duì)不得不“邊修邊訓(xùn)”。其中,有一個(gè)隱藏的小bug讓集群頻繁報(bào)錯(cuò),直到訓(xùn)練進(jìn)度條走過(guò)約40%才被揪出。

不過(guò),這也幫助OpenAI打造了更為強(qiáng)大的技術(shù)棧:如今可以僅用5-10人便復(fù)刻出GPT-4級(jí)別的大模型。GPT-4至GPT-4.5的性能提升約為10倍,獲得了“難以量化但全方位增強(qiáng)的智能”,這點(diǎn)讓OpenAI員工們都感到意外。

OpenAI團(tuán)隊(duì)已經(jīng)意識(shí)到,要實(shí)現(xiàn)下一個(gè)10倍乃至百倍的性能提升,算力已不是瓶頸,關(guān)鍵在于數(shù)據(jù)效率,即開(kāi)發(fā)出能夠利用更多算力,從同樣數(shù)量的數(shù)據(jù)中學(xué)到更多知識(shí)的方法。同時(shí),系統(tǒng)正從單集群轉(zhuǎn)向多集群架構(gòu),未來(lái)的訓(xùn)練可能涉及1000萬(wàn)塊GPU規(guī)模的協(xié)作學(xué)習(xí),其容錯(cuò)能力需要進(jìn)一步提升。對(duì)談中,OpenAI員工們還分享了數(shù)據(jù)長(zhǎng)尾效應(yīng)與Scaling Law之間的關(guān)系、機(jī)器學(xué)習(xí)與系統(tǒng)團(tuán)隊(duì)深度協(xié)同設(shè)計(jì)(co-design)模式的優(yōu)勢(shì)、無(wú)監(jiān)督學(xué)習(xí)的本質(zhì)與“絕不放過(guò)任何異常”的問(wèn)題排查文化,全方位展現(xiàn)了GPT-4.5研發(fā)期間的OpenAI的思考與收獲。除了阿爾特曼之外,參與本次對(duì)談的3位OpenAI員工分別為Alex Paino(負(fù)責(zé)GPT-4.5的預(yù)訓(xùn)練機(jī)器學(xué)習(xí)算法)、Amin Tootoonchian(OpenAI首席系統(tǒng)架構(gòu)師)與Daniel Selsam(研究數(shù)據(jù)效率與算法)。以下是阿爾特曼與OpenAI GPT-4.5團(tuán)隊(duì)對(duì)談視頻的完整編譯(為提高可讀性,智東西在不違背原意的前提下進(jìn)行了一定的增刪修改):

01.GPT-4.5兩年前已啟動(dòng),項(xiàng)目耗時(shí)遠(yuǎn)超預(yù)期

Sam Altman:打造一個(gè)如此龐大的模型(GPT-4.5),究竟需要什么呢?

Alex Paino:大約兩年前,我們開(kāi)啟了這一項(xiàng)目。當(dāng)時(shí),OpenAI即將上線一個(gè)新的大型計(jì)算集群,我們團(tuán)隊(duì)看到了這個(gè)機(jī)會(huì),做了一系列工作來(lái)確定模型需要包含的功能,進(jìn)行了大量降低風(fēng)險(xiǎn)的運(yùn)行測(cè)試。我們?yōu)榇酥贫艘粋€(gè)很長(zhǎng)的計(jì)劃,涉及從系統(tǒng)到機(jī)器學(xué)習(xí)的整個(gè)技術(shù)棧。為了降低風(fēng)險(xiǎn)和為訓(xùn)練做準(zhǔn)備是一個(gè)漫長(zhǎng)的執(zhí)行過(guò)程,而訓(xùn)練本身也是一個(gè)非常大的工程。

Amin Tootoonchian:我認(rèn)為這個(gè)過(guò)程從一開(kāi)始,就需要機(jī)器學(xué)習(xí)團(tuán)隊(duì)和系統(tǒng)團(tuán)隊(duì)密切合作,直到我們明確了想要訓(xùn)練什么模型,然后開(kāi)始訓(xùn)練。我們已經(jīng)在機(jī)器學(xué)習(xí)和系統(tǒng)方面都做了預(yù)測(cè),試圖盡量縮小預(yù)期和現(xiàn)實(shí)之間的差距。但由于我們的工作節(jié)奏很快,還要利用最新的計(jì)算資源,模型訓(xùn)練就成了難以提前完美規(guī)劃的事情。我們幾乎總是帶著許多未解決的問(wèn)題開(kāi)啟訓(xùn)練,并試圖在運(yùn)行過(guò)程中克服挑戰(zhàn),取得進(jìn)展。主要解法就是增加更多的計(jì)算資源。最后階段是執(zhí)行,這需要很多人長(zhǎng)期投入大量精力和動(dòng)力,才能完成訓(xùn)練過(guò)程。

Sam Altman:你覺(jué)得我們的預(yù)期和現(xiàn)實(shí)的差距到底有多少?

Amin Tootoonchian:系統(tǒng)方面,在開(kāi)始的時(shí)候,我們通常離預(yù)期的狀態(tài)很遠(yuǎn)。我們總是面臨一個(gè)選擇:到底是推遲啟動(dòng),等待問(wèn)題解決,還是提早啟動(dòng)并在過(guò)程中解決問(wèn)題。這總是需要權(quán)衡,要避免不合理地延遲進(jìn)程。但幾乎總是會(huì)遇到一些意想不到的問(wèn)題,我們要做的就是盡可能地處理好這些節(jié)點(diǎn),處理好未知因素,并為模型訓(xùn)練制定計(jì)劃。

Alex Paino:在這個(gè)項(xiàng)目中,我們的目標(biāo)是做出GPT-4.5,這意味著其能力要比GPT-4聰明10倍。這是我們大約2年前設(shè)定的初始目標(biāo)。這個(gè)過(guò)程中發(fā)生了很多事情,我們?cè)谒伎嫉降啄茏龅酶?,還是會(huì)不如預(yù)期?這是一條非常復(fù)雜的過(guò)程,但最終,就我們投入的有效計(jì)算而言,我們得到了一個(gè)我們認(rèn)為達(dá)到了比GPT-4聰明10倍的模型。

Amin Tootoonchian:在執(zhí)行方面,GPT-4.5項(xiàng)目的耗時(shí)與我們一開(kāi)始預(yù)計(jì)的相去甚遠(yuǎn)。

02.如今訓(xùn)練GPT-4級(jí)別模型,僅需5-10人即可完成

Sam Altman:集群在從1萬(wàn)卡拓展到10萬(wàn)卡的時(shí)候,為什么遇到了這么多問(wèn)題?

Amin Tootoonchian:我認(rèn)為,如果系統(tǒng)開(kāi)發(fā)者足夠敏銳,大部分問(wèn)題是能在小規(guī)模階段就觀察出來(lái)的。還有些問(wèn)題并不是大規(guī)模訓(xùn)練階段獨(dú)有的,而是原本就經(jīng)常出現(xiàn),但規(guī)模提升后就會(huì)變成災(zāi)難性問(wèn)題,特別是當(dāng)團(tuán)隊(duì)并未提前預(yù)料到這些問(wèn)題會(huì)惡化到如此程度。

Sam Altman:有哪些事情造成了災(zāi)難性的后果?

Amin Tootoonchian:我認(rèn)為基礎(chǔ)設(shè)施的問(wèn)題是眾所周知的,無(wú)論是故障率、故障類型還是故障總量都很高。10萬(wàn)卡集群是一個(gè)大規(guī)模的樣本池,因此我們也發(fā)現(xiàn)了算力供應(yīng)商都沒(méi)有觀察到的問(wèn)題。網(wǎng)絡(luò)是其中一環(huán),單個(gè)加速器也會(huì)出問(wèn)題。不過(guò)這也是這種系統(tǒng)的美妙之處——幾乎所有組件都需要按預(yù)期工作,才能產(chǎn)生預(yù)期結(jié)果。我們的工作就是要盡量減少這種問(wèn)題。

Sam Altman:在集群規(guī)模的極限上開(kāi)展工作的確很困難,但我也注意到,做那些不再是技術(shù)前沿的事情變得容易多了,訓(xùn)練GPT-4.5需要數(shù)百人,OpenAI幾乎全員上陣。但今天如果讓你們從OpenAI中挑選出一個(gè)最小的團(tuán)隊(duì),用我們所知道的一切知識(shí)和所有的系統(tǒng)工作從頭開(kāi)始重新訓(xùn)練GPT-4,需要多少人?

Alex Paino:我認(rèn)為現(xiàn)在要做出GPT-4級(jí)別的模型,可能需要5到10人左右。在完成GPT-4.5的過(guò)程中,技術(shù)棧已經(jīng)有了很大改進(jìn)。其實(shí),在我們?cè)谟?xùn)練GPT-4.5的過(guò)程中已經(jīng)做了類似的事情——我們訓(xùn)練了GPT-4o,這是一個(gè)GPT-4級(jí)別的模型,使用了很多來(lái)自GPT-4.5研究項(xiàng)目的相同內(nèi)容重新訓(xùn)練。進(jìn)行那次訓(xùn)練所用的人要少得多。

03.數(shù)據(jù)效率是大模型突破關(guān)鍵,新一代硬件帶來(lái)諸多挑戰(zhàn)

Sam Altman:從你的角度來(lái)看呢,Dan?為什么訓(xùn)練大模型很難?

Daniel Selsam:我認(rèn)為做任何新事物都很難。我認(rèn)為即使只是發(fā)現(xiàn)別人做了某事,它也會(huì)變得容易得多,因?yàn)樽铍y的部分是一開(kāi)始就有做某事的信念。我覺(jué)得僅僅是知道某事是可行的,就是一個(gè)超強(qiáng)的作弊碼,讓事情變得容易許多。

Alex Paino:我們正在將GPT預(yù)訓(xùn)練運(yùn)行擴(kuò)展到之前的10倍,總是會(huì)發(fā)現(xiàn)一些有趣的新東西,這些東西你不一定能預(yù)料到。

Sam Altman:在預(yù)訓(xùn)練規(guī)模上實(shí)現(xiàn)下一個(gè)10倍或100倍的增長(zhǎng)需要什么?Daniel Selsam:數(shù)據(jù)效率。Transformer架構(gòu)(也就是GPT)在利用數(shù)據(jù)方面非常高效,它能很好地吸收和壓縮信息,并實(shí)現(xiàn)泛化。它最大的特點(diǎn)就是能用計(jì)算資源高效地吸收信息。但是,它從數(shù)據(jù)中獲得洞察力的深度是有限的。當(dāng)計(jì)算能力快速增長(zhǎng),而數(shù)據(jù)增長(zhǎng)相對(duì)緩慢時(shí),數(shù)據(jù)就會(huì)成為這種標(biāo)準(zhǔn)模式的瓶頸。這就需要算法創(chuàng)新,開(kāi)發(fā)出能夠利用更多算力從同樣數(shù)量的數(shù)據(jù)中學(xué)到更多知識(shí)的方法。Sam Altman:你們認(rèn)為除此之外我們還需要什么來(lái)保持?jǐn)U展?

Amin Tootoonchian:我的答案是關(guān)于系統(tǒng)的。我認(rèn)為GPT-4.5所需的巨大工作量,本質(zhì)上是模型規(guī)格帶來(lái)的必然結(jié)果。我們無(wú)法用與GPT-4完全相同的技術(shù)架構(gòu)來(lái)訓(xùn)練GPT-4.5。在狀態(tài)管理方面,由于所需計(jì)算資源已超出單集群承載能力,我們不得不轉(zhuǎn)向多集群訓(xùn)練架構(gòu)。為了實(shí)現(xiàn)這一目標(biāo),我們必須在短時(shí)間內(nèi)整合多個(gè)不同的工作流。雖然這確實(shí)幫助我們?nèi)〉昧穗A段性突破,但要實(shí)現(xiàn)下一個(gè)數(shù)量級(jí)的性能提升,仍需解決若干已知但被暫時(shí)擱置的技術(shù)難題——這些問(wèn)題是無(wú)法回避的。正是這類技術(shù)權(quán)衡不斷延長(zhǎng)著完美系統(tǒng)的研發(fā)周期,我們始終在追求最優(yōu)實(shí)施方案的過(guò)程中做出策略性取舍。需要明確的是,系統(tǒng)本身并非終極目標(biāo),其實(shí)際產(chǎn)出價(jià)值才是核心考量。就下一個(gè)10倍性能提升而言,我認(rèn)為容錯(cuò)能力的突破至關(guān)重要。我們需要構(gòu)建與工作負(fù)載深度協(xié)同的容錯(cuò)機(jī)制,以顯著降低運(yùn)維焦慮。當(dāng)前超大規(guī)模系統(tǒng)的運(yùn)維復(fù)雜度,與既往系統(tǒng)存在本質(zhì)差異。

Sam Altman:你知道在GPT-4.5訓(xùn)練中,由于某些組件導(dǎo)致失敗的比例是多少嗎?

Amin Tootoonchian:我沒(méi)有具體數(shù)字可供分享,但一般而言,在新一代硬件部署初期,系統(tǒng)運(yùn)行往往面臨諸多未被充分認(rèn)知的技術(shù)挑戰(zhàn)。我們選擇在問(wèn)題尚未完全明確的情況下推進(jìn)項(xiàng)目,這導(dǎo)致初期運(yùn)行失敗率居高不下。但經(jīng)驗(yàn)表明,隨著根本原因的識(shí)別和解決,故障率會(huì)顯著降低。這一現(xiàn)象本質(zhì)上反映了我們對(duì)基礎(chǔ)設(shè)施認(rèn)知的深化過(guò)程——有些人稱之為基礎(chǔ)設(shè)施的清理或理解基礎(chǔ)設(shè)施的基本問(wèn)題。執(zhí)行的早期階段幾乎總是相當(dāng)痛苦,我們?cè)谕七M(jìn)項(xiàng)目的同時(shí),也在持續(xù)發(fā)現(xiàn)和解決新型故障模式,但最終失敗率會(huì)逐漸下降,正常運(yùn)行的時(shí)間變多。這本質(zhì)上是個(gè)優(yōu)先級(jí)權(quán)衡的問(wèn)題:在基礎(chǔ)設(shè)施生命周期的早期階段,其故障風(fēng)險(xiǎn)往往難以準(zhǔn)確預(yù)估;而如果過(guò)度追求終極理想狀態(tài)(原文為“City Estate”,理想城邦式設(shè)計(jì)),反而可能導(dǎo)致系統(tǒng)在初期階段的可用性表現(xiàn)極差。

04.計(jì)算資源不再是主要瓶頸,算法尚未觸及理論上限

Sam Altman:雖然推理模型是我們未來(lái)技術(shù)棧的關(guān)鍵組成部分,但讓我們暫時(shí)聚焦于傳統(tǒng)預(yù)訓(xùn)練模型的發(fā)展邊界。假設(shè)我們擁有無(wú)限的GPU算力、無(wú)限的網(wǎng)絡(luò)帶寬和無(wú)限的電力供應(yīng),但仍受限于當(dāng)前存在的技術(shù)瓶頸——包括系統(tǒng)可靠性問(wèn)題、容錯(cuò)訓(xùn)練方法的缺失,以及現(xiàn)有數(shù)據(jù)集的限制。按照我們每個(gè)主要GPT版本號(hào)實(shí)現(xiàn)100倍規(guī)模提升的演進(jìn)規(guī)律,基于當(dāng)前的技術(shù)邊界,預(yù)訓(xùn)練模型的發(fā)展究竟能達(dá)到什么水平?具體到GPT系列模型,以我們現(xiàn)有的知識(shí)體系,理論上究竟能夠訓(xùn)練出什么樣的模型?能做出GPT-5.5嗎?

Alex Paino:從機(jī)器學(xué)習(xí)和算法發(fā)展的角度來(lái)看,我們尚未觸及明確的理論上限。事實(shí)上,我們才剛剛開(kāi)始探索數(shù)據(jù)效率更高的算法,以及如何更充分地利用現(xiàn)有數(shù)據(jù)資源。這個(gè)現(xiàn)狀非常有趣——即便是像GPT-4這樣的模型,很大程度上仍是在計(jì)算資源受限的條件下開(kāi)發(fā)的,這也決定了此前大多數(shù)研究的方向。但現(xiàn)在的局面已經(jīng)完全不同。自GPT-4.5以來(lái),在某些關(guān)鍵維度上,數(shù)據(jù)而非計(jì)算正成為主要的制約因素。這種轉(zhuǎn)變讓相關(guān)研究變得不那么令人興奮。

Sam Altman:不過(guò)這確實(shí)是一個(gè)驚人的進(jìn)展,而世界可能還沒(méi)完全意識(shí)到:在我們能夠構(gòu)建的最佳模型上,計(jì)算資源已不再是主要瓶頸。這個(gè)轉(zhuǎn)變意味深長(zhǎng),畢竟我們已經(jīng)在計(jì)算受限的環(huán)境中生活了太久太久。

05.模型整體性能提升可預(yù)測(cè),智能提升路徑難以預(yù)測(cè)

Sam Altman:在訓(xùn)練GPT-4.5過(guò)程中,我們學(xué)到的最有意思的機(jī)器學(xué)習(xí)經(jīng)驗(yàn)是什么?說(shuō)說(shuō)你們想分享的就行。

Amin Tootoonchian:總的來(lái)說(shuō),最引人深思的是那些偏離我們預(yù)測(cè)的情況——特別是當(dāng)我們?cè)噲D理解為什么實(shí)際表現(xiàn)會(huì)偏離預(yù)期曲線時(shí)。

Alex Paino:最讓我們驚訝的發(fā)現(xiàn)之一是:不同機(jī)器學(xué)習(xí)組件的擴(kuò)展性表現(xiàn)差異巨大。有些部分能很好地?cái)U(kuò)展,有些則不行。這是我們?cè)趯?shí)際訓(xùn)練過(guò)程中才真正認(rèn)識(shí)到的。這段經(jīng)歷給了我們很多啟發(fā)。

Daniel Selsam:我認(rèn)為GPT范式的兩大核心特征在于:其一,測(cè)試損失(衡量模型在未見(jiàn)過(guò)的測(cè)試數(shù)據(jù)上表現(xiàn)好壞的指標(biāo))可被準(zhǔn)確預(yù)測(cè);其二,模型性能隨規(guī)模擴(kuò)大呈現(xiàn)可預(yù)測(cè)的提升。更神奇的是,測(cè)試損失的降低會(huì)以種種難以量化卻又令人驚嘆的神秘方式,轉(zhuǎn)化為全方位增強(qiáng)的智能水平。

Sam Altman:你是否對(duì)此持絕對(duì)樂(lè)觀態(tài)度?完全認(rèn)同這一觀點(diǎn)嗎?

Daniel Selsam:其實(shí)我想說(shuō)的是,從GPT-4.5測(cè)試中我們發(fā)現(xiàn)了特別有趣的現(xiàn)象——重新測(cè)試后,模型展現(xiàn)出的諸多精妙能力完全超出了所有人的預(yù)期。我們確信它會(huì)以各種難以預(yù)先定義的方式變得更智能,而實(shí)際部署后,從用戶滿意度中就能觀察到這些微妙層面的提升:更強(qiáng)的常識(shí)儲(chǔ)備、更精準(zhǔn)的語(yǔ)境理解能力、更細(xì)膩的語(yǔ)義把握——這正是那些額外測(cè)試損失帶來(lái)的魔力。在我看來(lái),Scaling Law在這一維度上得到了完美驗(yàn)證。

06.機(jī)器學(xué)習(xí)與系統(tǒng)團(tuán)隊(duì)合作密切,不會(huì)“自掃門(mén)前雪”

Sam Altman:整個(gè)訓(xùn)練過(guò)程中最積極的時(shí)刻是什么?最喜歡的記憶是什么?顯然有很多痛苦,但希望那些痛苦已經(jīng)有所緩解了。

Alex Paino:我確實(shí)有一個(gè)這樣的時(shí)刻。我們?cè)谟?xùn)練期間做了很多機(jī)器學(xué)習(xí)方面的工作,我認(rèn)為我們?cè)谶\(yùn)行過(guò)程中做出的一些改變產(chǎn)生了相當(dāng)好的影響,可能比預(yù)期的還要好,這對(duì)我們來(lái)說(shuō)是一個(gè)非常令人興奮的時(shí)刻。

Amin Tootoonchian:對(duì)我來(lái)說(shuō),在訓(xùn)練的同時(shí),我們也同時(shí)在構(gòu)建基礎(chǔ)設(shè)施。我們堅(jiān)信能越過(guò)這個(gè)性能懸崖,且我們有計(jì)劃,每個(gè)人都在執(zhí)行,但這需要很長(zhǎng)時(shí)間。這是艱苦的工作,絕對(duì)比我想象的要難。我的預(yù)測(cè)是錯(cuò)的,我低估了解決這些問(wèn)題需要的時(shí)間。當(dāng)團(tuán)隊(duì)終于攻克了那些關(guān)鍵問(wèn)題,性能得到顯著提升的那一刻,至今讓我記憶猶新。你能明顯感受到整個(gè)團(tuán)隊(duì)的能量轉(zhuǎn)變——所有人突然充滿了干勁,帶著全新的動(dòng)力向最終目標(biāo)沖刺。

最神奇的是,我們狀態(tài)跟蹤器上顯示的預(yù)計(jì)完成時(shí)間從最初的兩年開(kāi)始不斷縮短,最終鎖定在一個(gè)明確的時(shí)間節(jié)點(diǎn)上。這種可見(jiàn)的進(jìn)展對(duì)團(tuán)隊(duì)士氣的提振是難以估量的。我認(rèn)為這就是它的美妙之處。我想特別強(qiáng)調(diào)的是,機(jī)器學(xué)習(xí)的工作從未停滯。即使在訓(xùn)練啟動(dòng)后,這種機(jī)器學(xué)習(xí)協(xié)同設(shè)計(jì)的過(guò)程仍在持續(xù)。機(jī)器學(xué)習(xí)團(tuán)隊(duì)不僅主動(dòng)跟進(jìn)那些曾被標(biāo)記為“后續(xù)處理”的問(wèn)題,還持續(xù)交付了真正優(yōu)化訓(xùn)練時(shí)間的改進(jìn)。這完美體現(xiàn)了我們的團(tuán)隊(duì)精神——這里不存在“各人自掃門(mén)前雪”的工作界限,而是一種真正無(wú)縫的協(xié)作,這種凝聚力正是我們最強(qiáng)大的優(yōu)勢(shì)。

07.GPT-4.5預(yù)訓(xùn)練是最周密的計(jì)劃,絕不放過(guò)任何異常

Daniel Selsam:外界對(duì)于這次訓(xùn)練本身的挑戰(zhàn)性和預(yù)測(cè)準(zhǔn)確性已經(jīng)討論很多。但事實(shí)上,這一切都建立在極其周密的規(guī)劃基礎(chǔ)上——你要不再詳細(xì)談?wù)勥@方面?Alex Paino:這絕對(duì)是我們迄今為止最周密的計(jì)劃。正如我所說(shuō),早在正式啟動(dòng)訓(xùn)練前一年,我們就已經(jīng)開(kāi)始籌備這個(gè)項(xiàng)目。期間我們進(jìn)行了多次大規(guī)模的風(fēng)險(xiǎn)控制測(cè)試運(yùn)行。我們特別注重循序漸進(jìn)地引入所有改進(jìn):從高置信度的基礎(chǔ)配置開(kāi)始——可以理解為類似GPT-4的成熟架構(gòu),這個(gè)配置在機(jī)器學(xué)習(xí)層面我們已經(jīng)完全掌握——然后像疊積木般層層疊加新特性。

關(guān)鍵是要嚴(yán)格驗(yàn)證每個(gè)改進(jìn)在不同規(guī)模下的擴(kuò)展性:不僅要看到性能提升,更要確保這些提升能隨著模型規(guī)模擴(kuò)大而持續(xù)有效。很多改進(jìn)在小規(guī)模測(cè)試時(shí)表現(xiàn)良好,但在大規(guī)模應(yīng)用中就會(huì)失效。因此整個(gè)過(guò)程中我們都保持著高度警惕,不斷迭代完善我們的擴(kuò)展定律方法論。通過(guò)這次風(fēng)險(xiǎn)控制實(shí)踐,我們積累了大量寶貴經(jīng)驗(yàn),這些經(jīng)驗(yàn)將繼續(xù)指導(dǎo)未來(lái)GPT系列模型的開(kāi)發(fā)。

Amin Tootoonchian:我記得有個(gè)特別有趣的瞬間讓我很是懷念。要知道我們每次啟動(dòng)訓(xùn)練任務(wù)幾乎都免不了遇到各種bug,這已經(jīng)是家常便飯了。但關(guān)鍵是要確保進(jìn)展不受阻,得時(shí)刻確認(rèn)當(dāng)前進(jìn)度是否確實(shí)在正軌上,這些bug會(huì)不會(huì)對(duì)訓(xùn)練健康度造成致命影響。雖然我們最初非常確信存在重大缺陷,但通過(guò)搭建的整套監(jiān)控體系,我們已經(jīng)能夠精準(zhǔn)區(qū)分問(wèn)題根源:是硬件故障?哪類硬件故障?是數(shù)據(jù)損壞?還是機(jī)器學(xué)習(xí)模型本身的bug?或者是代碼中的競(jìng)態(tài)條件?當(dāng)時(shí)的情況是,我們同時(shí)開(kāi)著多個(gè)問(wèn)題討論區(qū),各種癥狀五花八門(mén)。

經(jīng)過(guò)一系列bug修復(fù)后,我們陷入了僵局:眼前堆疊著多個(gè)未解問(wèn)題,所有人都在苦思冥想——這些是不同bug導(dǎo)致的?還是某一個(gè)bug在作祟?后來(lái)我們搞了個(gè)投票,讓團(tuán)隊(duì)成員票選最可能的根源。結(jié)果最不被看好的選項(xiàng)反而命中真相:竟然是PyTorch上游的torch.sum函數(shù)出了問(wèn)題,一個(gè)簡(jiǎn)單的求和運(yùn)算。這個(gè)bug特別有意思。要知道我們主要使用Triton內(nèi)核,只有在某些無(wú)關(guān)緊要的邊緣場(chǎng)景才會(huì)回退到torch運(yùn)算。而我們的特定代碼路徑觸發(fā)的這個(gè)torch.sum函數(shù)bug,會(huì)因數(shù)據(jù)分布特性極偶然地引發(fā)非法內(nèi)存訪問(wèn)——它在計(jì)算內(nèi)存偏移量時(shí)出了差錯(cuò)。

最戲劇性的是,當(dāng)某位工程師終于定位到問(wèn)題并提交修復(fù)后,所有癥狀各異的報(bào)錯(cuò)竟然全部消失了。大家興奮地把Slack頻道從“多bug理論”集體改名為“單bug理論”,場(chǎng)面特別歡樂(lè)。這個(gè)bug潛伏了多久呢?從訓(xùn)練早期就存在,直到進(jìn)度條走過(guò)約40%才被揪出來(lái)。發(fā)現(xiàn)過(guò)程也充滿戲劇性:當(dāng)時(shí)有個(gè)復(fù)雜內(nèi)核連續(xù)調(diào)用序列,第二個(gè)調(diào)用觸發(fā)了非法內(nèi)存訪問(wèn)。雖然這種崩潰頻率極低(每幾百甚至上千步訓(xùn)練才出現(xiàn)一次),很容易被當(dāng)作偶發(fā)故障忽略,但我們的團(tuán)隊(duì)準(zhǔn)則就是:絕不放過(guò)任何異常。這個(gè)故事最精彩的部分就在于這種不輕言放棄的堅(jiān)持。

08.我們離理想系統(tǒng)還很遠(yuǎn)

Sam Altman:GPT-4.5預(yù)訓(xùn)練啟動(dòng)后,大家還要做哪些工作?

Alex Paino:我們所有人都需要經(jīng)常觀察損失曲線。除此之外,還要持續(xù)優(yōu)化系統(tǒng),改進(jìn)在訓(xùn)練啟動(dòng)前未能完成的協(xié)同設(shè)計(jì)(co-design)。我們密切監(jiān)控訓(xùn)練過(guò)程中的各類統(tǒng)計(jì)指標(biāo),確保沒(méi)有出現(xiàn)預(yù)期外的異常趨勢(shì)。同時(shí)從機(jī)器學(xué)習(xí)角度探索可能的改進(jìn)方案。雖然預(yù)訓(xùn)練啟動(dòng)后數(shù)據(jù)層面的工作會(huì)暫時(shí)減少,但仍有大量任務(wù)需要處理。

Amin Tootoonchian:我認(rèn)為機(jī)器學(xué)習(xí)很大程度上依賴于正確性判斷。預(yù)訓(xùn)練啟動(dòng)后,面對(duì)大量噪聲信號(hào),我們就像解讀茶葉渣的占卜師,需要判斷系統(tǒng)是否健康,這就是我們的職責(zé)所在。

Sam Altman:在系統(tǒng)層面,什么會(huì)限制我們進(jìn)行模型訓(xùn)練?是芯片、處理器、內(nèi)存、網(wǎng)絡(luò)還是電源?

Amin Tootoonchian:系統(tǒng)的美妙之處在于,在進(jìn)行協(xié)同設(shè)計(jì)時(shí),工作負(fù)載可以適應(yīng)你構(gòu)建的基礎(chǔ)設(shè)施。這里沒(méi)有普遍的說(shuō)法說(shuō)網(wǎng)絡(luò)是瓶頸,或者內(nèi)存帶寬是瓶頸之類的。即使是對(duì)于同一規(guī)格的模型,我們可以選擇轉(zhuǎn)移資源需求,我們可以選擇創(chuàng)建一個(gè)更加平衡的系統(tǒng),但擁有更多的內(nèi)存帶寬總是有益的。在沒(méi)有限定條件的情況下很難回答這一問(wèn)題。在設(shè)計(jì)GPT-4.5時(shí),我們可能系統(tǒng)方面要具備某種屬性,這種屬性要經(jīng)過(guò)人的引導(dǎo)才能產(chǎn)生。所以協(xié)同設(shè)計(jì)對(duì)形成模型架構(gòu)和架構(gòu)元素很重要,某種程度上將系統(tǒng)和機(jī)器學(xué)習(xí)方面聯(lián)系在一起。如果系統(tǒng)有一種我們不太希望擁有的屬性。我理想的情況是,一切都應(yīng)該是解耦的,以給彼此最大的空間。有時(shí)候事情會(huì)聯(lián)系在一起,我們需要滿足基礎(chǔ)設(shè)施的要求,或者說(shuō)事情本應(yīng)如此。很多時(shí)候,我們需要一個(gè)平衡的系統(tǒng)、平衡的通信。而我們擁有的最好的調(diào)節(jié)手段就是所有這些協(xié)同設(shè)計(jì)。

Sam Altman:我們距離這樣理想的系統(tǒng)目標(biāo)還有多遠(yuǎn)?

Amin Tootoonchian:離那個(gè)目標(biāo)還很遠(yuǎn)。構(gòu)建系統(tǒng)的過(guò)程總是這樣的:先有一個(gè)關(guān)于事物應(yīng)該如何運(yùn)作的理想化觀點(diǎn),然后用現(xiàn)有資源去調(diào)和那些差異。我認(rèn)為我們并不是為了理論而理論,只是為了討論我們希望它變成什么樣子,讓它實(shí)現(xiàn),并盡可能地接近那個(gè)理想。這可能是系統(tǒng)領(lǐng)域中最令人興奮的部分。以前人們會(huì)說(shuō)這是一個(gè)優(yōu)雅的系統(tǒng)設(shè)計(jì),而最終歷史會(huì)告訴我們這個(gè)選擇是正確還是錯(cuò)誤的。

Sam Altman:如果能在下次大型訓(xùn)練前獲得一個(gè)機(jī)器學(xué)習(xí)問(wèn)題的答案,你們最想知道什么?

Alex Paino:我想知道在有限數(shù)據(jù)和特定領(lǐng)域下,我們應(yīng)該采用哪些算法。這雖然是個(gè)寬泛的問(wèn)題,但確實(shí)是最關(guān)鍵的。

Sam Altman:今后會(huì)進(jìn)行1000萬(wàn)塊GPU或更大的同步預(yù)訓(xùn)練嗎?Alex Paino:我認(rèn)為會(huì)有,但未必是傳統(tǒng)預(yù)訓(xùn)練模式,它的形式可能與現(xiàn)有技術(shù)截然不同,但仍會(huì)保留無(wú)監(jiān)督學(xué)習(xí)的內(nèi)核。

Amin Tootoonchian:我傾向于半同步模式。受物理規(guī)律限制,完全同步不太現(xiàn)實(shí)。

Daniel Selsam:我認(rèn)為這更可能是去中心化的。肯定會(huì)有1000萬(wàn)塊GPU共同工作在一個(gè)學(xué)習(xí)和執(zhí)行任務(wù)的AI系統(tǒng)上,但像大腦的各個(gè)部分一樣,彼此并不一定會(huì)相互交流

09.算法改進(jìn)產(chǎn)生疊加效應(yīng),推動(dòng)數(shù)據(jù)效率提高

Sam Altman:當(dāng)前最先進(jìn)的算法和人類的數(shù)據(jù)效率相差多少?未來(lái)有望追趕上嗎?

Daniel Selsam:兩者很難直接比較。語(yǔ)言學(xué)習(xí)層面上的差距肯定是巨大的,關(guān)鍵在于如何定義人類視覺(jué)神經(jīng)接收的信息量。我認(rèn)為總體上算法的數(shù)據(jù)效率比人類低許多。幾十年來(lái),深度學(xué)習(xí)一直關(guān)注算力效率。除了數(shù)據(jù)和算力的增長(zhǎng),真正讓人驚喜的是算法改進(jìn)產(chǎn)生的疊加效應(yīng)。算法性能每次提高10%或20%,疊加在數(shù)據(jù)效率上就會(huì)有顯著效果。到目前為止,還沒(méi)有圍繞數(shù)據(jù)效率進(jìn)行這樣的動(dòng)員,因?yàn)樵跀?shù)據(jù)不流通且計(jì)算能力受限時(shí),這一做法并不值得?,F(xiàn)在,我們正在進(jìn)入AI研究的新階段,我們將開(kāi)始積累數(shù)據(jù)效率的勝利。我認(rèn)為,現(xiàn)在就預(yù)測(cè)我們會(huì)遇到無(wú)法逾越的障礙是有些愚蠢的。人類大腦的運(yùn)行方式肯定與我們算法改進(jìn)不同,在這方面我們要保持謹(jǐn)慎。但我認(rèn)為要對(duì)算法未來(lái)發(fā)展保持樂(lè)觀。

Sam Altman:更大規(guī)模的預(yù)訓(xùn)練與模型更強(qiáng)的學(xué)習(xí)推理能力之間有什么相關(guān)性嗎?

Alex Paino:我們觀察到的是,更好的預(yù)訓(xùn)練和無(wú)監(jiān)督學(xué)習(xí)往往會(huì)提升模型的整體智能,并在泛化方面有很大幫助,這與推理能力是相輔相成的,而推理在提高智能方面可能會(huì)更遲鈍一些。我認(rèn)為它們是互補(bǔ)的關(guān)系。

Sam Altman:預(yù)訓(xùn)練似乎在很多事情上能夠通用,而訓(xùn)練一個(gè)模型只能讓它在某一類事情上做得很好,是這樣嗎?

Alex Paino:這點(diǎn)很有趣,不過(guò)當(dāng)你看到訓(xùn)練它們的數(shù)據(jù)時(shí),就不會(huì)對(duì)這種情況驚訝了。預(yù)訓(xùn)練的數(shù)據(jù)集范圍非常大,我們追求的是廣度和多樣性。而當(dāng)談到模型強(qiáng)化學(xué)習(xí)并讓它可以清晰地獲得良好獎(jiǎng)勵(lì)信號(hào)和良好的訓(xùn)練環(huán)境時(shí),我認(rèn)為很難兼顧數(shù)據(jù)集的廣度。

Daniel Selsam:我同意,但我認(rèn)為還有一個(gè)因素,預(yù)訓(xùn)練本質(zhì)上是在壓縮數(shù)據(jù),從而發(fā)現(xiàn)不同事物之間的聯(lián)系。它關(guān)乎類比,更加抽象。推理是在特定問(wèn)題上需要謹(jǐn)慎思考的一種技能,也能夠獲得許多類型問(wèn)題的解決方法。但在預(yù)訓(xùn)練過(guò)程中,在跨越不同領(lǐng)域進(jìn)行數(shù)據(jù)壓縮時(shí),可以學(xué)到更抽象層面的知識(shí)。

10.智能的本質(zhì)是壓縮,數(shù)據(jù)長(zhǎng)尾效應(yīng)讓Scaling Law持續(xù)有效

Sam Altman:無(wú)監(jiān)督學(xué)習(xí)為什么有效呢?

Daniel Selsam:關(guān)鍵是壓縮。理想的智能形態(tài)是所羅門(mén)諾夫歸納(Solomonov induction),一般而言,機(jī)器學(xué)習(xí)會(huì)考慮所有的可能性,但傾向從更簡(jiǎn)單的程序開(kāi)始檢驗(yàn)。當(dāng)前預(yù)訓(xùn)練的本質(zhì)正是一個(gè)壓縮的過(guò)程,通過(guò)找到一個(gè)最簡(jiǎn)程序來(lái)解釋人類迄今為止產(chǎn)生的所有數(shù)據(jù),以此實(shí)現(xiàn)近似表達(dá)。

Sam Altman:下一個(gè)Token預(yù)測(cè)如何協(xié)助實(shí)現(xiàn)壓縮?Daniel Selsam:統(tǒng)計(jì)學(xué)里有一個(gè)悖論——為什么深度網(wǎng)絡(luò)看似無(wú)法壓縮卻能實(shí)現(xiàn)泛化?正常來(lái)講,當(dāng)擁有大量數(shù)據(jù)和一些小模型時(shí),這些模型一定要經(jīng)歷壓縮才學(xué)到了東西。在預(yù)訓(xùn)練中,數(shù)據(jù)和模型的規(guī)模都很大,有些人就認(rèn)為這種訓(xùn)練只是記憶和插值學(xué)習(xí),其實(shí)他們忽視了壓縮的另一種理解視角——序貫壓縮(pre-quential compression),它像一個(gè)壓縮器,即使數(shù)據(jù)權(quán)重很大,二進(jìn)制也無(wú)需存儲(chǔ)這些信息,利用下一個(gè)Token預(yù)測(cè)的結(jié)果可以快速檢索出有用信息,提高壓縮效率。

Sam Altman:訓(xùn)練GPT-4.5的過(guò)程耗費(fèi)了大量人力、時(shí)間和金錢(qián),這其實(shí)可以看做是一次驗(yàn)證Scaling Law的實(shí)驗(yàn),而結(jié)果證明它是有效的,并且還會(huì)持續(xù)很長(zhǎng)時(shí)間。Scaling Law為什么可以被稱之為宇宙規(guī)律?

Daniel Selsam:壓縮程度越高,智能就越強(qiáng)大,這具有很深刻的哲學(xué)內(nèi)涵。為什么訓(xùn)練更大的模型時(shí)間越長(zhǎng),壓縮率就越高?這涉及到很多理論,其中我喜歡的是稀疏表示(Sparse Representations)?,F(xiàn)實(shí)中的關(guān)鍵概念遵循冪律分布(power law),比如第100個(gè)重要概念可能在每100個(gè)文檔里才出現(xiàn)一次,存在明顯的長(zhǎng)尾效應(yīng)。這種分布特性導(dǎo)致需要大規(guī)模數(shù)據(jù)和算力來(lái)有效捕捉所有關(guān)鍵概念,也決定了Scaling Law長(zhǎng)期有效存在。

(本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)

相關(guān)推薦