自2022年11月ChatGPT發(fā)布以來,AIGC(生成式人工智能)成為各行各業(yè)密切關注的熱點,醫(yī)療、金融、交通、通信等領域的AI(人工智能)大模型層出不窮,輿論稱之為“千模大戰(zhàn)”,更有觀點認為“萬模大戰(zhàn)”將是AI產業(yè)化的必然趨勢。
新業(yè)務的算力之困
與傳統AI側重圖像分類、語言識別、故障診斷等分類預測型任務不同,AIGC更關注如何利用深度神經網絡自動生成新的創(chuàng)作內容,例如創(chuàng)作文章、圖像、音樂等。前者往往在小數據集下也能得到較高準確率的輸出,而后者則需要依賴大規(guī)模高質量的訓練數據,海量數據的背后,是算力需求的爆發(fā)式增長。以目前業(yè)界分析較多的通用語言模型GPT-3為例,它擁有1750億個參數,僅訓練階段就需要10000張V100GPU持續(xù)運行約14.8天,整體算力消耗為625PFlops。而于今年3月發(fā)布的GPT-4不僅參數量增加了10余倍,其對應的算力需求也大幅增加。盡管現階段仍有專家對ChatGPT類語言大模型的可用性提出質疑,但要提升AIGC的性能,最直接且最可行的方案就是增加訓練參數的數量,并投入更多的訓練數據和算力資源,以期待“從量變到質變”的轉變,進而滿足千行百業(yè)的需求。過去,規(guī)模效應支撐算力水平持續(xù)提升,而伴隨大模型參數量越來越大,智能化程度越來越高,行業(yè)對存儲、網絡、計算等底層基礎硬件能力,以及擴展性、靈活性的要求也越來越高。算力建設不能局限于CPU、GPU、NPU等計算芯片的簡單堆疊,如何勘破計算芯片協同的難點與要點,運用多種技術構建資源整合型的超級計算機以提升算力服務水平,是當前產業(yè)重要的研究方向。
算力供給模式創(chuàng)新是破局關鍵
在新形勢下,依賴單體算力的傳統供給模式顯然已經難以為繼,以AIGC為代表的新型業(yè)務在算力需求和算力應用兩個維度存在明顯差異,這些差異點正是破解大模型時代算力困局的關鍵。首先,用戶量、訪問速度、訓練模式等成為算力需求的影響因素,因此,在新業(yè)務執(zhí)行的不同階段,對算力的需求各有不同。以ChatGPT為例,其全生命周期包括數據獲取、模型訓練、模型推理和迭代微調四個階段,對算力的消耗主要集中在模型的訓練和推理兩個階段。在模型訓練階段,大算力用于支持訓練數據處理和海量參數優(yōu)化等數據密集型操作,對算力基礎設施的運行效率、性能穩(wěn)定性和彈性擴縮容能力有較高要求;在模型推理階段,大算力主要用于執(zhí)行前向傳播計算,對算力位置、交互實時性和準確性有較高要求。根據測算,模型訓練所需的算力規(guī)模是模型推理的10倍左右,且其對資源的占用周期也遠超后者。其次,從業(yè)務運行周期看,傳統基于CPU的通用計算任務往往對應著相對平滑的負載曲線,且對算力的需求在時間上呈現連續(xù)波動的趨勢;而新興業(yè)務的算力使用可能出現“短時高量”的特點,這意味著在特定時段,新興業(yè)務的算力需求會突然增加到高位水平,后續(xù)又會快速收斂到低值。針對算力需求的脈沖效應,“分時復用”是一種行之有效的資源配置策略。
具體而言,借助需求預測和任務調度的方法,在高峰期給新興業(yè)務分配更多算力資源,以滿足其高算力需求;而在低峰期則將多余的算力資源重新分配給其他業(yè)務或用戶,以提高整體的算力使用效率。從上述分析可知,為適配新業(yè)務的發(fā)展節(jié)奏,算力資源供給模式亟需從以前的剛性化、“孤島”式、資源式,向彈性化、網絡化和任務式演進。彈性化是資源提供方根據工作負荷進行算力擴展和收縮,當需求增加時,動態(tài)增加算力資源以滿足更高的計算要求;當需求減少時,適時釋放空閑算力資源以消納更多用戶。網絡化是采用網絡手段組織和管理算力資源,將分散在不同地理位置和組織機構間的計算、存儲資源進行有效調配,形成泛在融合的算力供給網絡。任務式是新型算力供給體系的重要特征,算力提供方將自有算力資源以任務的形式發(fā)布到算力交易中心,供需雙方可根據業(yè)務特點進行匹配和一鍵訂購。同為社會高質量發(fā)展的重要驅動力,算力和電力有諸多相似之處,例如電力的調度需要電網作支撐,而算力的調度同樣需要將分布式的算力中心匯聚成“一張網”,因此業(yè)內可以借鑒電力行業(yè)的發(fā)展經驗來構建新型算力供給體系。基于多級、多方、多樣的算力資源新型供給體系如圖1所示。
圖1??基于多級、多方、多樣的算力資源新型供給體系
構建算力供給體系的關鍵技術
在現有多級、多方、多樣算力并存的情況下,將算力供應與算力調配充分解耦,是推動算力資源從高門檻應用到融入千行百業(yè)、進入普惠共享新階段的必經之路,也是構建創(chuàng)新型算力供給體系的重要措施。在推進算力提供方、運營方、使用方等供需各環(huán)節(jié)解耦的過程中,算力度量、算力路由感知、算網編排、算力交易、確定性網絡等技術得到廣泛關注。
算力度量技術
旨在量化評估異構算力資源以及多樣化業(yè)務需求,通過建立一致的描述語言,在賦能算力流通屬性的同時,為算力的感知、管控、服務提供基礎和標準。將不同芯片提供的算力通過度量函數映射到統一量綱,用戶多樣化的需求映射為實際所需的算網資源,從而實現按需服務,對不同算法的算力需求進行度量,有效調用算法所需的算力。當前業(yè)界衡量算力大小通常采用的單位是Flops,即每秒浮點運算的次數,而在現有云計算方案中,則以虛機、容器等粗粒度的衡量單位為主。
算力路由感知技術
是實現算力網絡化的核心功能,能夠支持對網絡、計算、存儲等多維度資源、服務的感知與通告,從而實現網絡和算力資源的調度優(yōu)化。目前的主流方案是將云計算領域的算力因子等概念引入網絡領域,提出綜合算力因子和網絡因子的多重考量方案,再基于BGP、IGP等路由協議報文進行擴展,通過新增路徑屬性來承載算力信息和網絡信息。
算網編排技術
是根據網絡感知動態(tài)數據,實現算力解構調度、網絡智能選路、資源自動調度開通以及實時端到端透明可視。算網編排將網絡、算力、數據、服務、應用、安全等多要素融合,實現從需求、流程、產品到運維、監(jiān)控、自服務等多場景的跨云、跨網、跨域、跨用戶編排。
算力交易技術
是指將算力提供方的各類算力資源,按需提供給算力消費方,包括對算力消費方的資源需求解析,提供可視化交易視圖、訂單管理等功能。確定性網絡技術不同于傳統IP網絡“盡力而為”的轉發(fā)方式,可為網絡提供“準時、準確”的可靠性數據傳輸服務,是構建下一代網絡基礎設施體系、提升數據傳輸服務質量的關鍵技術之一。
結語
未來,隨著算力需求的逐步增長和計算機硬件的不斷發(fā)展,大模型的規(guī)模和性能將持續(xù)提升。高性能的計算環(huán)境為大模型的訓練和應用帶來諸多優(yōu)勢,再配以彈性化、網絡化、任務式的算力供給體系,可以充分盤活算力資源的每一個浮點能力,加速新業(yè)務開拓數字經濟新“藍?!?。