• 正文
    • 大模型從云向端側(cè)滲透,正在倒逼軟硬件重新設(shè)計(jì)
    • Armv9 在云端率先開(kāi)啟了 AI 時(shí)代
    • 在端側(cè),Arm 終端 CSS讓大模型跑出“加速度”
    • 在軟件層面,KleidiAI正在助力開(kāi)發(fā)者實(shí)現(xiàn)AI普惠
    • 寫(xiě)在最后
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

誰(shuí)在推動(dòng)大模型落地?

原創(chuàng)
4小時(shí)前
214
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

近年來(lái),半導(dǎo)體產(chǎn)業(yè)經(jīng)歷周期性調(diào)整,2023 年產(chǎn)業(yè)收入同比下滑 11%,降jknok至 5300 億美元,但2024 年實(shí)現(xiàn)了約 20% 的增長(zhǎng)。國(guó)際半導(dǎo)體產(chǎn)業(yè)協(xié)會(huì) (SEMI ) 預(yù)測(cè),2025年半導(dǎo)體產(chǎn)業(yè)收入將實(shí)現(xiàn)兩位數(shù)增長(zhǎng),并有望在 2030 年突破萬(wàn)億美元關(guān)口,發(fā)展前景十分廣闊。

然而,在 2024 年半導(dǎo)體產(chǎn)業(yè)復(fù)蘇的表象之下,若剔除 AI 相關(guān)產(chǎn)品營(yíng)收,整體增長(zhǎng)實(shí)則呈現(xiàn)負(fù)向態(tài)勢(shì)。這表明,自去年起的行業(yè)回暖,本質(zhì)上是 AI 產(chǎn)業(yè)高速發(fā)展驅(qū)動(dòng)的增長(zhǎng)。

大模型從云向端側(cè)滲透,正在倒逼軟硬件重新設(shè)計(jì)

近年來(lái),以大語(yǔ)言模型(LLM)為代表的生成式 AI 技術(shù)蓬勃發(fā)展,成為推動(dòng)技術(shù)演進(jìn)和行業(yè)變革的關(guān)鍵力量。根據(jù) IDC 預(yù)測(cè),到 2028 年,中國(guó) AI 大模型解決方案市場(chǎng)規(guī)模將達(dá)到 211 億元人民幣,包括提供云服務(wù)模式交付的中國(guó)模型即服務(wù)(MaaS),以及提供模型框架、大模型、大模型生命周期工具鏈等的AI大模型解決方案,這充分顯示出 AI 技術(shù)在云端的強(qiáng)大發(fā)展?jié)摿蛷V泛應(yīng)用前景。

與此同時(shí),隨著AI技術(shù)的飛速發(fā)展,其產(chǎn)業(yè)格局正在經(jīng)歷深刻的變革,呈現(xiàn)出從云端向端側(cè)延伸的顯著趨勢(shì)。

根據(jù) Counterpoint 的預(yù)測(cè),2024 年端側(cè)大模型參數(shù)量將達(dá)到 130 億,而到 2025 年,這一數(shù)字將增長(zhǎng)至 170 億。這表明,AI 技術(shù)正在加速向端側(cè)滲透,從云端的強(qiáng)大計(jì)算能力和數(shù)據(jù)處理能力,到端側(cè)的高效本地化應(yīng)用,AI 產(chǎn)業(yè)發(fā)展正朝著更加多元、靈活和高效的方向邁進(jìn)。

以上種種趨勢(shì),都在倒逼端側(cè)的軟硬件進(jìn)行重新設(shè)計(jì)與升級(jí)。在這一過(guò)程中,經(jīng)過(guò)市場(chǎng)驗(yàn)證的底層計(jì)算技術(shù)架構(gòu)成為推動(dòng)產(chǎn)業(yè)發(fā)展的關(guān)鍵基石。這些架構(gòu)能夠?yàn)?a class="article-link" target="_blank" href="/tag/%E8%8A%AF%E7%89%87%E8%AE%BE%E8%AE%A1/">芯片設(shè)計(jì)和系統(tǒng)開(kāi)發(fā)提供可靠的底層支持,降低研發(fā)風(fēng)險(xiǎn),縮短開(kāi)發(fā)周期,并顯著提升系統(tǒng)的整體性能和穩(wěn)定性。

Arm作為全球領(lǐng)先的計(jì)算平臺(tái)公司,正通過(guò)其創(chuàng)新的計(jì)算架構(gòu)平臺(tái),加上軟硬件協(xié)同以及系統(tǒng)級(jí)思維,為釋放 AI 大模型的潛能提供強(qiáng)大的支持,助力大模型從云到端的部署與高效運(yùn)行。

Armv9 在云端率先開(kāi)啟了 AI 時(shí)代

算力需求激增的背景下,云服務(wù)提供商需要進(jìn)一步優(yōu)化數(shù)據(jù)中心架構(gòu),提升計(jì)算資源的彈性調(diào)度能力,以應(yīng)對(duì)大規(guī)模 AI 模型訓(xùn)練和推理任務(wù)的高并發(fā)需求。

而對(duì)于芯片廠商來(lái)講,他們需要研發(fā)更高性能、更大算力的通用或?qū)S眯酒婢吒咄掏铝?、低延遲和高能效比,以支持大規(guī)模并行計(jì)算和復(fù)雜模型的高效訓(xùn)練與推理,應(yīng)對(duì)數(shù)據(jù)中心能耗挑戰(zhàn)。

在這樣的背景下,Armv9 架構(gòu)應(yīng)運(yùn)而生,并開(kāi)啟了AI時(shí)代。此時(shí),Armv8架構(gòu)已經(jīng)服役10年,與上一代經(jīng)典架構(gòu)相比,Armv9 架構(gòu)最大的特色就是集成了用于加速和保護(hù) LLM 等先進(jìn)的生成式 AI 工作負(fù)載的特性,比如可伸縮矩陣擴(kuò)展 (SME) 和可伸縮矢量擴(kuò)展 (SVE2) 兩大關(guān)鍵特性。

其中,SME 使用量化(通常是從浮點(diǎn)表示法轉(zhuǎn)換為定點(diǎn)表示法)來(lái)減少 AI 和 ML 模型的內(nèi)存帶寬、占用空間以及計(jì)算復(fù)雜性,進(jìn)而提高其效率; SVE2有助于提升DSP 任務(wù)性能,該特性使得處理復(fù)雜算法更加快速、高效。

提到SVE技術(shù),其起源可以追溯到2016年Arm與富士通的合作,該技術(shù)在富士通的A64FX CPU內(nèi)核中首次實(shí)現(xiàn)商業(yè)化應(yīng)用,并為曾登頂全球超算榜首的"富岳"(Fugaku)超級(jí)計(jì)算機(jī)提供了核心算力支撐。2019年,Arm在Armv9架構(gòu)引入SVE2,正式確立其作為繼Neon技術(shù)之后的新一代矢量處理標(biāo)準(zhǔn)。面向AI負(fù)載,SVE2的加持有助于提升DSP 任務(wù)的性能,使得處理復(fù)雜算法更加快速、高效,比如阿里巴巴達(dá)摩院就將其開(kāi)源大模型 FunASR跑在Arm Neoverse 服務(wù)器上實(shí)現(xiàn)了高效運(yùn)行。

其實(shí)早在 AI 時(shí)代全面到來(lái)之前,Arm Neoverse 平臺(tái)就已憑借其在云端的通用計(jì)算性能和高能效,在AI推理場(chǎng)景中展現(xiàn)出獨(dú)特優(yōu)勢(shì)。

筆者在兩年以前曾采訪過(guò)阿里云視頻云,探討其快速發(fā)展背后的硬實(shí)力是什么。除了強(qiáng)大的軟件、算法支撐能力以外,阿里云視頻云負(fù)責(zé)人致凡還提到了倚天710。他說(shuō),視頻編碼對(duì)算力的要求很高,所以常常會(huì)試圖用算力換存儲(chǔ),用算力換傳輸帶寬。而提升CPU算力的“捷徑”就是選擇更適配的內(nèi)核架構(gòu)。

當(dāng)時(shí)在視頻領(lǐng)域,傳統(tǒng)架構(gòu)已經(jīng)有三十幾年的歷史,市占率在90%以上,但也背負(fù)著沉重的向后兼容包袱。因此,倚天710在預(yù)研階段就錨定了Armv9架構(gòu),旨在解決歷史包袱問(wèn)題,同時(shí)還可以根據(jù)需求增加寄存器。

此外,致凡表示:“不管是Hyper-Threading還是其他,采用傳統(tǒng)架構(gòu)的CPU走的都是提高主頻的路子,這在視頻處理時(shí)就會(huì)遇到一些問(wèn)題,比如視頻壓縮的過(guò)程中,視頻畫(huà)面會(huì)被分成I幀、P幀、B幀,不同幀的算力并不是平均分配的,這就導(dǎo)致算力需求極不穩(wěn)定。所以為了讓芯片不跑超頻,往往就需要做一些降頻處理,這時(shí)候它的算力就可能達(dá)不到相應(yīng)的編碼需求。在實(shí)際業(yè)務(wù)中,由于視頻業(yè)務(wù)不是單機(jī)運(yùn)行的,會(huì)有很多的服務(wù)器集群配合來(lái)處理,為了避免CPU超頻等復(fù)雜情況的出現(xiàn),就不得不把服務(wù)器集群的水位降低,這是傳統(tǒng)架構(gòu)CPU比較大的問(wèn)題?!?/p>

“然而Arm整體的設(shè)計(jì)是穩(wěn)定的,不管任務(wù)有多復(fù)雜,都能實(shí)現(xiàn)穩(wěn)定輸出,做到良好的資源調(diào)配和水位調(diào)配,不用預(yù)留很多冗余來(lái)防止芯片超頻,這對(duì)于to B業(yè)務(wù)來(lái)說(shuō)非常重要?!?致凡補(bǔ)充道。

除了主頻高以外,傳統(tǒng)架構(gòu)CPU的核不多,通常是兩個(gè)vCPU/HT共享一個(gè)物理核、1份ALU,但Arm可以支持128/256/512或更多的核,類似GPU的設(shè)計(jì),如此一來(lái),對(duì)于不同應(yīng)用場(chǎng)景而言,就可以用少核應(yīng)對(duì)低算力需求的場(chǎng)景,多核應(yīng)對(duì)高算力需求的場(chǎng)景,實(shí)現(xiàn)更優(yōu)的業(yè)務(wù)調(diào)配,降低投入成本。

而在用電成本占據(jù)運(yùn)營(yíng)成本60%-70%的數(shù)據(jù)中心中,基于 Arm Neoverse 架構(gòu)的服務(wù)器所具備的低功耗特性,能帶來(lái)更優(yōu)異的能效比。

如今,兩年過(guò)去,目前已有更多頭部云服務(wù)提供商和服務(wù)器制造商推出了基于 Arm Neoverse 平臺(tái)的服務(wù)器產(chǎn)品,并提供了完整的軟硬件支持和優(yōu)化。比如,基于Arm Neoverse V2的AWS Graviton4 C8g.x16large 實(shí)例上運(yùn)行 Llama 3 70B,每秒可生成 10 個(gè)詞元,該速度超過(guò)了人類可讀性水平;而基于 Arm Neoverse N2 架構(gòu)的倚天 710,也在運(yùn)行 Llama 3 和 Qwen1.5 等業(yè)內(nèi)標(biāo)準(zhǔn)大語(yǔ)言模型時(shí)展現(xiàn)了極高的靈活性和可擴(kuò)展性。

從某種程度上來(lái)說(shuō),Arm Neoverse 平臺(tái)已逐漸成為云數(shù)據(jù)中心領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。Arm在上個(gè)月公開(kāi)宣布,2025 年出貨到頭部超大規(guī)模云服務(wù)提供商的算力中,將有近 50% 是基于 Arm 架構(gòu)。

在端側(cè),Arm 終端 CSS讓大模型跑出“加速度”

隨著生成式AI和大模型技術(shù)向終端設(shè)備滲透,計(jì)算架構(gòu)的能效比與本地化處理能力愈發(fā)關(guān)鍵。

由于端側(cè)設(shè)備的內(nèi)存帶寬范圍通常在50-100GB/s之間,端側(cè)大模型的參數(shù)規(guī)模一般被限制在1B至3B,而7B是臨界值。

在此背景下,當(dāng)大模型下潛到芯片層面,如何讓大模型在AI芯片上運(yùn)行得更快、調(diào)優(yōu)得更好,成為當(dāng)前人工智能落地的關(guān)鍵難題,采用更經(jīng)濟(jì)的AI專用芯片將成為必然趨勢(shì)。

在端側(cè),Arm 終端計(jì)算子系統(tǒng) (CSS for Client) 囊括了最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 與 Arm Mali GPU、CoreLink 互連系統(tǒng) IP,甚至還包含知名代工廠采用3nm工藝生產(chǎn)就緒的 CPU 和 GPU 物理實(shí)現(xiàn),可以直接用于SoC集成,為手機(jī)、平板、智能可穿戴設(shè)備等端側(cè)AI提供了堅(jiān)實(shí)的計(jì)算基礎(chǔ)。

以基于Armv9.2架構(gòu)的Cortex-X925為例,該CPU實(shí)現(xiàn)了Cortex-X系列推出以來(lái)最高的同比性能提升。尤其在AI性能方面,相比前代Cortex-X4 CPU,Cortex-X925的 TOPS 提高了 50%。

通過(guò)與Meta的合作優(yōu)化,Arm CPU在移動(dòng)設(shè)備上實(shí)現(xiàn)了Llama 3.2 3B模型的5倍提示處理加速與3倍詞元生成提速,生成階段可達(dá)每秒19.92個(gè)詞元,這將直接減少在設(shè)備上處理AI工作負(fù)載的延遲,大大提升用戶整體體驗(yàn)。

對(duì)于參數(shù)規(guī)模更大的Llama 2 7B模型,Arm CPU同樣展示了端側(cè)部署的可行性:與Llama 2 7B LLM 中的原生實(shí)現(xiàn)相比,詞元首次響應(yīng)時(shí)間縮短50%,文本生成速率提升至每秒10個(gè)詞元,已超越人類平均閱讀速度。這一成果得益于Arm工程團(tuán)隊(duì)對(duì)計(jì)算例程的深度優(yōu)化,證明了純CPU架構(gòu)在邊緣AI場(chǎng)景下的潛力。

值得一提的是,就在上個(gè)月底,Arm 高級(jí)副總裁兼終端產(chǎn)品事業(yè)部總經(jīng)理 Chris Bergey在出席媒體活動(dòng)期間透露:代號(hào)為 "Travis" 的Arm 新一代旗艦 CPU 將于今年晚些時(shí)候推出,對(duì)比現(xiàn)有 Cortex-X925 ,將繼續(xù)實(shí)現(xiàn)兩位數(shù)的 IPC 提升。

在軟件層面,KleidiAI正在助力開(kāi)發(fā)者實(shí)現(xiàn)AI普惠

在云端,軟件開(kāi)發(fā)者需要不斷優(yōu)化算法框架,提高模型的訓(xùn)練效率和推理性能,以降低云端計(jì)算成本并提升響應(yīng)速度。在端側(cè),他們需要設(shè)計(jì)出更輕量級(jí)、更適應(yīng)端側(cè)環(huán)境的算法和框架,以實(shí)現(xiàn)快速響應(yīng)和低延遲的用戶體驗(yàn)。

為了助力開(kāi)發(fā)者們更快、更好地實(shí)現(xiàn)大模型的性能提升與落地加速,Arm 在 2024 年推出了KleidiAI軟件庫(kù),以其全棧優(yōu)化能力重塑大模型落地范式。

KleidiAI的獨(dú)特之處在于其高度適配Arm架構(gòu)的優(yōu)化能力,無(wú)論是Neon指令集還是SVE2和SME2擴(kuò)展,從移動(dòng)端到數(shù)據(jù)中心領(lǐng)域,它都能充分發(fā)揮硬件潛能。同時(shí),它對(duì)PyTorch、TensorFlow、MediaPipe等主流AI框架的兼容性,讓開(kāi)發(fā)者無(wú)需重寫(xiě)代碼即可享受性能躍升。這種“開(kāi)箱即用”的特性,使其迅速成為Meta Llama 3、微軟Phi-3、騰訊混元等大模型的首選加速方案。

更值得關(guān)注的是,KleidiAI并非局限于單一場(chǎng)景。從智能終端、物聯(lián)網(wǎng)設(shè)備到汽車和云端服務(wù)器,它的優(yōu)化能力覆蓋了Arm的全部業(yè)務(wù)領(lǐng)域,確保AI計(jì)算無(wú)論在哪里運(yùn)行,都能以最高效率執(zhí)行。

以與阿里巴巴淘天集團(tuán)的合作為例,KleidiAI與輕量級(jí)深度學(xué)習(xí)框架MNN結(jié)合,成功讓通義千問(wèn)Qwen2-VL-2B-Instruct多模態(tài)模型在移動(dòng)設(shè)備上高效運(yùn)行。實(shí)測(cè)數(shù)據(jù)顯示,模型預(yù)填充速度提升57%,解碼速度提升28%,這意味著更快的圖像識(shí)別、更流暢的交互體驗(yàn),為阿里“以用戶為中心“的應(yīng)用帶來(lái)質(zhì)的飛躍。

無(wú)獨(dú)有偶,騰訊則借助KleidiAI優(yōu)化其自研Angel框架,使混元大模型在移動(dòng)端的推理速度實(shí)現(xiàn)驚人提升——預(yù)填充性能翻倍,解碼效率提高10%。這一進(jìn)步讓其眾多APP 實(shí)現(xiàn)出色的 AI 體驗(yàn),同時(shí)降低設(shè)備功耗,延長(zhǎng)續(xù)航。

作為 Arm Kleidi 技術(shù)的一部分,Arm Compute Library (ACL) 通過(guò)利用 BF16 MMLA 指令,提供了優(yōu)化的 BF16 通用矩陣乘法 (GEMM) 內(nèi)核。阿里云倚天710 CPU,搭配 BF16 Fast Math 內(nèi)核,使得 paraformer 自動(dòng)語(yǔ)音識(shí)別模型的推理性能較同等級(jí)別的 x86 云實(shí)例有高達(dá) 2.4 倍的優(yōu)勢(shì)。從基準(zhǔn)測(cè)試結(jié)果來(lái)看,倚天 710 在自動(dòng)語(yǔ)音識(shí)別推理部署的 TCO 方面具有顯著優(yōu)勢(shì),其性價(jià)比較同等級(jí)別 x86 和 GPU 平臺(tái)高出 3.5 倍。這不僅驗(yàn)證了Arm架構(gòu)在AI計(jì)算中的高效能,也為企業(yè)提供了更具成本優(yōu)勢(shì)的云端推理選擇。

未來(lái),隨著KleidiAI持續(xù)迭代,Arm正構(gòu)建起橫跨千億級(jí)芯片設(shè)備的智能計(jì)算網(wǎng)絡(luò),這樣一種"硬件架構(gòu)+軟件生態(tài)"的雙輪驅(qū)動(dòng)模式,或?qū)⒊蔀锳I普惠化進(jìn)程的核心加速器。

寫(xiě)在最后

當(dāng)大模型的算力需求從云端涌向端側(cè),從數(shù)據(jù)中心滲透至手機(jī)、汽車、物聯(lián)網(wǎng)設(shè)備的每一個(gè)角落,這場(chǎng)技術(shù)變革的核心驅(qū)動(dòng)力,正來(lái)自于軟硬件協(xié)同創(chuàng)新的深度融合。

作為 AI 技術(shù)創(chuàng)新的核心基座,Arm 計(jì)算平臺(tái)以其通用化架構(gòu)與生態(tài)兼容性,正成為全球企業(yè)部署大模型的標(biāo)配選擇。

 

Arm

Arm

ARM公司是一家知識(shí)產(chǎn)權(quán)(IP)供應(yīng)商,主要為國(guó)際上其他的電子公司提供高性能RISC處理器、外設(shè)和系統(tǒng)芯片技術(shù)授權(quán)。目前,ARM公司的處理器內(nèi)核已經(jīng)成為便攜通訊、手持計(jì)算設(shè)備、多媒體數(shù)字消費(fèi)品等方案的RISC標(biāo)準(zhǔn)。公司1990年11月由Acorn、Apple和VLSI合并而成。

ARM公司是一家知識(shí)產(chǎn)權(quán)(IP)供應(yīng)商,主要為國(guó)際上其他的電子公司提供高性能RISC處理器、外設(shè)和系統(tǒng)芯片技術(shù)授權(quán)。目前,ARM公司的處理器內(nèi)核已經(jīng)成為便攜通訊、手持計(jì)算設(shè)備、多媒體數(shù)字消費(fèi)品等方案的RISC標(biāo)準(zhǔn)。公司1990年11月由Acorn、Apple和VLSI合并而成。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄