“這一票,我想投給阿里。”? ? ? ? ???
作者 | 孫溥茜編輯 | 陳彩嫻
ChatGPT正在變成一場競賽,中國企業(yè)爭先恐后搶發(fā)“自研”的ChatGPT,爭當所謂的贏家。但實際上,ChatGPT并非競賽的終點,而是起點,只是堪堪拉開了人工智能新時代的一角序幕。這場對于通用人工智能的角逐,實際上是一場無盡的長跑、而非百米沖刺。假設真有一個這樣新的時代到來,哪些力量可以一爭高下?此前,雷峰網盤點了追趕「ChatGPT」的學術、創(chuàng)業(yè)與大廠三派力量:學術一派,清華大學一騎絕塵;創(chuàng)業(yè)一派,王小川、王慧文財大氣粗;大廠一派,則以百度、阿里為代表,它們在 2020 年就已經開始布局大模型研究。
其中,大廠派有技術、有資源、有產品,最為突出。如同微軟之于 OpenAI,谷歌之于 DeepMind,大廠與科研團隊合作成為群雄逐鹿的主要形式。由于 ChatGPT 的成功背后是強科研投入與新產品優(yōu)化的結合,大廠的資源(數據、算力)與產品平臺,將扮演至關重要的角色。有小型初創(chuàng)團隊就告訴雷峰網,大廠下場是意料之中,國內 AI 小公司囿于客觀條件,如 OpenAI 依靠微軟也是它們發(fā)展與生存的必要條件。
人工智能的市場很大,每個公司都可以在其中找到自己的位置,區(qū)分的關鍵點其實只在于:能否在未來的持續(xù)競爭中保持投入,并最終以最低的成本提供最好的體驗。
01、ChatGPT 的本質
關于 ChatGPT 的討論中,有一個常見的問題是:OpenAI 的 ChatGPT 這么火,我們(中國)還有機會嗎?就模型來看,對 ChatGPT 來說,語言大模型是起碼的敲門磚。作為 ChatGPT 的技術基礎,GPT-3 在 2020 年首次面世,以 1750 億參數,在多項語言任務(包含文字理解、文本生成、智能問答、文本續(xù)寫、文本總結等等)中取得優(yōu)異表現。從此,以 GPT-3 為代表的語言大模型成為自然語言處理研究者(NLPer)的兵家必爭之地。在區(qū)分各家的 ChatGPT 實力時,大模型的實力也就成為重要考量??萍即髲S中,目前在大模型上有布局的企業(yè)包括阿里(通義)、百度(文心)、華為(盤古)等。自研大模型的訓練難度并不低,涉及數據、算法與算力三個維度,傳言全球不超過 200 人能從頭自研、訓練一個大模型:
?數據層面:對于深度學習,當樣本數量較少時,不正確的模型復雜度會導致過擬合和欠擬合。當樣本數量增多時,這種風險就會變小,因此,大模型對數據的數量與質量要求都極高。GPT-3有1750億參數,數據量達到45TB,表現出色。而對數據的采集、清洗與標注,需要人力,也需要資金。
?算法層面:除了海量數據,大模型訓練對 AI 框架的深度優(yōu)化和并行能力提出更高要求。這一塊對 AI 人才的科研與工程能力要求最高,也是近日各大廠搶人才的源頭。
?算力層面:這一塊參差不齊,但公開消息表明,為了 OpenAI 訓練 GPT-3,微軟幫忙建設了一個搭載 1 萬張顯卡,價值 5 億美元的算力中心,模型在訓練上則消耗了 355 個GPU年的算力,單獨一次的訓練成本則是 1200 萬美金。OpenAI 的 GPT-4 還未揭曉,面對較為確定的不確定,企業(yè)的 AI 底層建設也顯得尤為關鍵,算力就是其中之一。算力層面,據雷峰網了解,早年各大廠雖然如火如荼地建設各自的 AI Lab,但在計算資源的投入上卻參差不齊,還有的知名大廠連一萬張顯卡都沒有。
除了顯卡數量的不足,企業(yè)與企業(yè)拉開差距的地方還可能體現在:往期算力積累,以及運用有限算力資源訓練無限大模型的應對能力。這波 ChatGPT 中,除了「利好英偉達」的聲量,國內眾多云計算廠商與計算服務商的聲量微弱,本質在于:芯片需要與算法適配。也就是說,有算力固然重要,但找到適合大模型訓練、能讓大模型訓練的芯片更為重要。尤其是前兩年大模型的風潮中,部分大廠由于成本顧慮、沒有入局,已經落后一大截,難以追趕。模型與算力的高壓之下,團隊與團隊之間的天花板其實已昭然若揭。在這波ChatGPT浪潮中,阿里頗為低調,但因為在大模型和基礎設施上長期積累的優(yōu)勢,阿里是一個絕不容忽視的重要玩家,一舉一動都牽動著整個AI行業(yè)的神經。
02、長跑者阿里
誠如上文所言,大模型的研究難度極大,門檻極高。大多數中小企業(yè)在聲稱「自研大模型」時,往往是基于已開源的大模型與數據集,用監(jiān)督學習算法進行微調,獲得一個新的模型后,然后基于這個模型來開發(fā)產品。雖然性價比高,但由于底層基礎差異化不大,上層建筑在產品體驗上也難以區(qū)分開來。這就造成了,若要從數據、算法與算力的底層部署開始深耕,大模型的開發(fā)注定是大廠與大廠之間的軍備競賽(人力、資本、數據)。而且,開始地越早,越有先發(fā)優(yōu)勢。
圖注:大模型訓練需要解決的數據、算法與算力難題(源于心辰科技分享)作為國內最早入局語言大模型的團隊之一,阿里在超越 ChatGPT 上有領先其他團隊的優(yōu)勢,也意味著其在數據、算法與算力上有先行試錯與解決問題的經驗,甚至在產品落地上有探索與實驗。
公開資料表明,阿里在大模型的研究上有深厚基礎:
?阿里早在 2020 年 1 月前便開始研發(fā)多模態(tài)大模型(MultiModality-to-MultiModality Multitask Mega-transformer,簡稱為「M6」),6 月研發(fā)出 3 億參數的 M6,有了一個好的開端;
?2021 年是阿里大模型的快速騰飛時期:3 月發(fā)布千億參數多模態(tài)大模型 M6,4 月發(fā)布首個中文語言大模型 PLUG(270億參數,號稱中文版「GPT-3」),5月發(fā)布萬億參數大模型 M6,10 月又發(fā)布 10 萬億參數大模型 M6……
?2022 年,阿里「通義」大模型體系出世,囊括被谷歌、微軟、DeepMind、Mega等國際頂尖團隊引用的通用統(tǒng)一模型M6-OFA 。當年云棲大會期間推出國內首個 AI 模型社區(qū)魔搭 ModelScope,貢獻 300 多個優(yōu)質 AI 模型,百億參數以上大模型超過10個……對比國內其他互聯網科技大廠在大模型上的投入與產出,阿里的模型研究在前沿領域走得最遠,成果間隔產出時間最短,中文語言模型意識突出,多模態(tài)結合與通用架構的研發(fā)落實也最透明(尤其體現在魔搭社區(qū)上),很難不被人關注。
單看阿里的大模型成果數量,實際不足以窺見它的研發(fā)差異化。雷峰網試著從以下幾個角度分析:首先,阿里大模型從M6、PLUG發(fā)展到通義,在訓練方法上已經歷經了一個明顯的轉變:從 BERT 到自回歸。國內的大模型開發(fā),尤其是 2021 年出現的許多大模型,基本是以 BERT 為先鋒基礎,而阿里在 2021 年開始從 BERT 轉向自回歸,復刻 GPT-3。鑒于大多數對 GPT-3 的復刻均以失敗告終,阿里想必也是試錯多次才成功。目前,在魔搭社區(qū)上,我們可以看到復刻成功的 GPT-3 多個中文版本,參數從base直到175B。這些版本已經開源開放,最高的下載量達到72k,可見受到 AI 算法開發(fā)者的廣泛肯定。
圖注:中文 GPT-3 在魔搭社區(qū)上的頁面(源于魔搭社區(qū))
Google發(fā)布的 BERT(Bidirectional Encoder Representation from Transformers)是首個預訓練大模型,BERT 沒有采用傳統(tǒng)的單向語言模型,或者將兩個單向語言模型進行淺層拼接的方法進行預訓練,而是采用MLM(masked language model)以生成深度的雙向語言表征。OpenAI 發(fā)布的 GPT-3 后來者居上,GPT-3 延續(xù)了單向語言模型訓練方式,但是將模型尺寸擴充到1750億參數。
GPT-3聚焦于更加通用的NLP模型,解決了目前BERT類模型的兩大缺點:對領域內有標簽的數據過分依賴,以及對于領域數據分布的過分擬合。BERT 與自回歸的區(qū)別在于,基于 BERT 架構訓練的語言大模型更擅長「理解」,而基于自回歸(即 GPT-3 的方法)更擅長「生成」。達摩院成為國內少有的布局自回歸的大模型團隊。此外,值得注意的是,谷歌的一項研究(論文「Emergent Abilities of Large Language Models」)表明,模型的規(guī)模從 700 億參數到 2800 億參數會有明顯質變,驗證了千億級參數是大模型從量變到質變的一個坎。而阿里是國內第一個做出千億參數大模型的團隊。
其次,從大模型背后最關鍵的算力技術來看,阿里在訓練大模型上的工程積累也有明顯提升,這主要體現在算力的部署上。從 2020 年 GPT-3 的出現以來,大模型「大力出奇跡」就成為 AI 領域公認最有前景的方向之一,但大模型的訓練難度大,算力要求高。尤其當模型的參數超過萬億、十萬億(如阿里的 M6),訓練過程中,已經不是單純靠堆算力就行。
實驗表明,工程師在算法上下功夫,是可以降低計算能耗的。例如,GPT-3 推出兩年后,2022 年 Meta 參照它所研發(fā)的 OPT 模型計算量就降低到了 1/7。2022 年還有文章表明,2018 年需要幾千塊 GPU 訓練的 BERT 大模型,如今只需要單卡 24 小時就能訓練完。類似的例子不勝枚舉。提升訓練速度、降低訓練成本的途徑主要有兩種,一種是注重對訓練數據的優(yōu)化,而非參數規(guī)模;另一種則是依賴算法與架構的創(chuàng)新,如 ALBERT、「孟子」等工作。而這兩種方法,都對研發(fā)團隊的技術經驗有要求。據公開資料,阿里在大模型訓練這塊有「兩把刷子」。一方面,阿里從數據、算法上入手,降低計算能耗。
2021 年 5 月,阿里達摩院的團隊僅用 480 卡 GPU 就訓練出萬億參數多模態(tài)大模型 M6,與英偉達、谷歌等公司實現萬億參數規(guī)模相比,能耗降低超八成。同年 10 月,他們把 M6 的參數規(guī)模擴大到 10 萬億,訓練號稱只用了 512 卡 GPU。另一方面,阿里在云計算上加大投入,專門建設了一個智能算力系統(tǒng)——飛天智算平臺。飛天智算融合了通用計算、異構計算等多種計算形態(tài),單集群算力峰值高達12 EFLOPS,對萬卡規(guī)模的 AI 集群提供無擁塞、高性能的集群通訊能力,其中專設的機器學習平臺 PAI 部署了分布式訓練框架 EPL(訓練 M6 的功臣)能大幅度能耗、提升速度。
一個公開的數據是,截至 2023 年 1 月底,ChatGPT 官網總訪問量超過 6.16 億次,每一次與 ChatGPT 的互動,算力云服務成本在 0.01 美元,如果用總投資在 30.2 億元、算力 500P 的數據中心支撐 ChatGPT 的運行,這樣的數據中心至少需要 7-8 個,基礎設施投入數以百億。如果不是依托微軟的 Azure 云平臺,ChatGPT 難以提供穩(wěn)定服務。而阿里云在云計算產品這塊,是國內第一、全球第三,對于之后支持類似 ChatGPT 的產品有天然優(yōu)勢。
最后,阿里從大模型研究中體現的另一個特點,是「模型服務」與「中文生態(tài)建設」的意識。阿里注重大模型的落地,解決行業(yè)問題,在 2022 年 9 月推出「通義」大模型系列,劃分三層:模型底座層、通用模型層和行業(yè)模型層。
圖注:阿里通義大模型架構
模型底座上,他們以統(tǒng)一學習范式OFA(One-For-All)等關鍵技術為支撐,在業(yè)界首次實現模態(tài)表示、任務表示、模型結構的統(tǒng)一。M6-OFA 模型在不引入新增結構的情況下,可以同時處理圖像描述、視覺定位、文生圖等10余項單模態(tài)和跨模態(tài)任務。2021 年,OpenAI 推出文生圖產品 DALL·E,其背后的關鍵技術是為文字與圖像兩種模態(tài)搭建橋梁的架構 CLIP。
阿里達摩院是國內最早注意到 CLIP 對多模態(tài)影響的團隊,投入研發(fā),在2022年推出了中文版 CLIP(ChineseCLIP),對中文跨模態(tài)有重要作用。這為提升模型泛化能力有很大影響。舉例而言,在文本、圖像、語音、視頻等模態(tài)結合的基礎上,任務表示和結構統(tǒng)一的設計可以讓上層模型不僅服務單一領域(如電商),還能服務其他領域(如金融、醫(yī)療、法律等等)。在中文生態(tài)的建設上,阿里的另一個貢獻是建設魔搭社區(qū),對標 HuggingFace。魔搭社區(qū)成立不到半年,在促進中文 AI 模型的開源上,以清晰的文檔格式、豐富的模型種類、優(yōu)質的中文模型(包括大模型)吸引了許多開發(fā)者。
語言大模型的研究中,中文語料的短缺一直是行業(yè)難題。阿里帶頭貢獻自家模型和數據集,促進 AI 應用開發(fā),推廣 AI 產品與用戶的交互,促進整個中文語言研究的語料積累,并開源布公。用一位 AI 從業(yè)者的評價來形容,在國內追趕 ChatGPT 的前赴后繼中,阿里武器齊全,數據、算法、算力三風具備,場景豐富,很難缺席和失敗。
03、假如 AIGC 時代全面來臨
ChatGPT 雖然是一款智能對話機器人,但提供問題的能力,本質上還是文本生成,即 AIGC 的一個分支。無論是文本生成,還是圖像生成、文生圖、文生視頻,甚至早已出現的各類語音生成,其技術的成熟與產品的薄發(fā),都代表了人工智能生成數字內容的無限想象力。AIGC,正在造出一個新的賽道,正在改變傳統(tǒng)產品的形態(tài)。比如,語音音箱的市場將被激活和重塑。以天貓精靈為例,其家庭用戶超過4000萬,月交互次數超過80億,這還是在原來AI對話能力下的情況。通過大模型的底座訓練,再結合聲音這種富有情緒的信息媒介,天貓精靈有可能升級成真正的家庭伴侶,成為包含知識、情感、個性、記憶的全新家庭交互系統(tǒng),展現超乎期待的能力。更重要的是,我們正在一個轉折點上,AI不僅是產品,更有可能變成一種服務「AI as Service」,這將成為科技大廠競爭的核心戰(zhàn)場。
如何對外輸出AI能力,怎樣以最低的成本來提供最好的體驗,將成為大廠競爭的關鍵。擅長「為他人做嫁衣」的阿里,已經通過算力基礎設施為客戶減少研發(fā)成本。從之前情況來看,目前國內只有阿里一家具備支撐超萬億參數大模型研發(fā)的「云 + AI」全棧技術實力。同時,因為過去支持超大模型研發(fā)的經驗,阿里練出了AI訓練提效11倍、推理提效6倍的獨家本領。這種「低碳訓練」技術,后續(xù)無疑也將為阿里云的客戶提供具有高性價比的AI算力。在提供產品體驗上,阿里的策略不是與生態(tài)鏈伙伴搶終端客戶,而是先做大生態(tài)。魔搭社區(qū)就是一個典型例子,讓沒有自研能力的 AI 開發(fā)者或中小企業(yè)在魔搭平臺上就能體驗五花八門的 AI 模型,構建自己所需的AI能力。
換言之,在 AI 深入行業(yè)的藍圖上,阿里的策略貌似也是為 B 端客戶提供技術服務,通過 B 端去觸動 C 端,形成一張網。在魔搭社區(qū),廣大開發(fā)者或者中小企業(yè)主可以下載使用免費開源的模型,可以對模型進行二次優(yōu)化,無需布卡就能快速生成基于 AI 模型的服務應用,使 AI 真正成為一種觸手可及的生產要素。截至現在,已經有瀾舟科技、深勢科技、智譜AI、啟智社區(qū)、嗶哩嗶哩、IDEA研究院等等十多家知名機構貢獻模型,魔搭社區(qū)模型量已超過600個,較 2022 年 11 月上線之初翻了一番。除去用大模型服務自己的淘寶、天貓、天貓精靈、釘釘等等業(yè)務,阿里安心做一個 AI 時代的模型基礎設施服務商,也不失為一個明智的選擇。
根據阿里 2022 財年全年財報,過去一年,阿里在技術相關成本費用上的投入超過 1200 億元,全球設立 7 個研究中心,開源技術項目超 3000 個、開源活躍度國內企業(yè)排名第一,其中相當比例的投入進入人工智能領域。對于需要極高投入的 AI 研發(fā)來說,可以看出,阿里也具備了在這場長跑中堅持到底的決心。在最近一片喧囂沸騰中,真正的主角可能還尚未亮劍,大戲才剛剛開始。