邊緣人工智能作為將AI能力下沉至終端設(shè)備的核心技術(shù),雖然在實時性、隱私保護和帶寬節(jié)省方面具有顯著優(yōu)勢,但其工作負載和場景應(yīng)用仍面臨多重挑戰(zhàn)。
首先是計算資源有限與模型優(yōu)化的矛盾。邊緣設(shè)備的計算能力、存儲容量和內(nèi)存資源遠低于云端服務(wù)器,這限制了復(fù)雜AI模型的部署。例如,許多邊緣設(shè)備(如傳感器、攝像頭)需運行輕量化模型,但模型壓縮(如量化、剪枝)可能犧牲精度。此外,專用硬件(如NPU)的普及尚未覆蓋所有場景,導(dǎo)致部分設(shè)備難以高效處理高算力需求的任務(wù)(如生成式AI)。
以工業(yè)自動化為例,實時監(jiān)測設(shè)備故障需要高精度模型,但邊緣設(shè)備的算力可能無法滿足需求。又如在智能交通系統(tǒng)中,復(fù)雜的環(huán)境感知算法需在低功耗硬件上運行,需平衡性能與資源占用。
能源效率與功耗管理也是一個困擾。多數(shù)邊緣設(shè)備依賴電池供電,而AI模型的高能耗可能縮短設(shè)備壽命。例如,連續(xù)運行的智能攝像頭需在低功耗模式下完成視頻分析,這對芯片設(shè)計和算法優(yōu)化提出了更高要求。盡管低功耗芯片和能效優(yōu)化算法有所發(fā)展,但實際應(yīng)用中仍需在性能與能耗間權(quán)衡。
另一個壓力來自數(shù)據(jù)安全與隱私保護。盡管邊緣AI減少了數(shù)據(jù)上傳云端的需求,但本地設(shè)備仍面臨物理攻擊(如傳感器篡改)和網(wǎng)絡(luò)攻擊(如中間人攻擊)。例如,醫(yī)療設(shè)備中的患者數(shù)據(jù)若未加密存儲,可能因設(shè)備失竊導(dǎo)致隱私泄露。此外,邊緣設(shè)備的安全認證機制尚未全面普及,也進一步加劇了風(fēng)險。
因此,在邊緣側(cè)解決這些痛點已迫在眉睫。
全新Armv9邊緣AI計算平臺
近日,Arm推出了全球首個Armv9邊緣AI計算平臺,該平臺以全新的Arm Cortex-A320 CPU和對Transformer網(wǎng)絡(luò)具有原生支持的邊緣AI加速器Arm Ethos-U85 NPU為核心,可支持運行超10億參數(shù)的端側(cè)AI模型。
Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健表示,該邊緣AI計算平臺不是CPU和AI加速器的簡單堆疊,而是實現(xiàn)了深度配合,讓CPU和NPU相得益彰。Cortex-A320可為Ethos-U85提供更高的內(nèi)存容量與帶寬,讓大模型在Ethos-U85上的執(zhí)行如虎添翼。任何開發(fā)者們不希望在Ethos-U85上運行的AI操作,可以回退到Cortex-A320,利用其Neon/SVE2引擎更靈活有效地在CPU上執(zhí)行。這使智能物聯(lián)網(wǎng)與消費類電子生態(tài)系統(tǒng)能夠在正確的時間,并在合適的地方運行最適合的工作負載。Arm相信,這一創(chuàng)新將推動邊緣AI領(lǐng)域在未來多年內(nèi)的持續(xù)發(fā)展。
該全新平臺將覆蓋多個應(yīng)用場景,實現(xiàn)包括視覺和自然語言在內(nèi)的多模態(tài)的環(huán)境感知與理解,進而運行智能體AI、自主規(guī)劃、執(zhí)行復(fù)雜任務(wù)。該平臺具備強大的計算能力,比去年的基于Cortex-M85搭配Ethos-U85的平臺提升了八倍的ML計算性能,帶來了顯著的AI計算能力突破,可以賦能邊緣AI設(shè)備輕松運行超過10億參數(shù)的大模型,助力大模型與生成式AI在物聯(lián)網(wǎng)領(lǐng)域的落地。
去年Arm推出的集成了Cortex-M85和Ethos-U85的Arm Corstone物聯(lián)網(wǎng)參考設(shè)計平臺,顯著提升了端側(cè)Transformer網(wǎng)絡(luò)的執(zhí)行效率。如今,Ethos-U85驅(qū)動程序已經(jīng)更新,使得Cortex-A320能夠直接驅(qū)動Ethos-U85,無需額外搭載Cortex-M。這一更新降低了延遲,并使Arm的合作伙伴可以去掉用于驅(qū)動AI加速器的額外控制器,從而降低成本和系統(tǒng)復(fù)雜性。
全新的超高能效CPU Cortex-A320
從Arm發(fā)布的信息看,此次全新發(fā)布的Cortex-A320是首個專為物聯(lián)網(wǎng)優(yōu)化的,基于Armv9架構(gòu)的超高能效CPU。相較于前代產(chǎn)品Cortex-A35,ML性能提升高達10倍,標(biāo)量性能提升了30%。其能效比較Cortex-A520提升了50%。Cortex-A320充分利用了Armv9增強的安全性和AI計算特性,這些特性已經(jīng)在其他市場得到廣泛應(yīng)用,而Arm現(xiàn)在也將其引入物聯(lián)網(wǎng)領(lǐng)域。
在安全性方面,Cortex-A320引入了多項安全特性,包括Secure EL2,它增強了TrustZone內(nèi)部的隔離性,支持更安全地運行軟件容器;指針驗證/分支目標(biāo)識別(PACBTI),這一特性有效緩解了跳轉(zhuǎn)和返回編程中的指針安全隱患;內(nèi)存標(biāo)記擴展(MTE),通過內(nèi)存標(biāo)記機制,使得黑客更難利用軟件漏洞進行攻擊,從而顯著提高了整體系統(tǒng)的安全性。
與此同時,Cortex-A320在AI計算能力方面也實現(xiàn)了顯著提升,增強的Neon和SVE2技術(shù),提供更高效的ML計算能力;同時,它還支持新的數(shù)據(jù)類型,如BFloat16,進一步提高了AI計算的精度和能效;此外,新增的矩陣乘法指令優(yōu)化了AI和ML計算性能,加速了神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。
在軟件兼容性與生態(tài)方面,Armv9架構(gòu)的優(yōu)勢明顯:支持Armv9架構(gòu)的軟件可無縫運行在所有這些處理器上,極大降低了物聯(lián)網(wǎng)服務(wù)部署與交付的總體擁有成本(TCO)。此外,開源操作系統(tǒng)項目和編譯器已支持Armv9的特性,進而大幅縮短產(chǎn)品開發(fā)周期。不僅如此,軟件發(fā)行版本在整個Armv9架構(gòu)設(shè)備內(nèi)也保持兼容,這不僅簡化了開發(fā)流程,同時也減少了物聯(lián)網(wǎng)生態(tài)伙伴在解決方案交付上的整體成本。
具備靈活性是邊緣AI計算平臺的剛需,使工作負載既可以運行在CPU,也可以運行在AI加速器。例如,在連續(xù)圖像檢測任務(wù)中,通常會優(yōu)先在AI加速器上運行,以提高能效。
然而,對于單張圖像的處理,在CPU上執(zhí)行可能更高效。而對于在CPU上運行的AI任務(wù),開發(fā)者希望能夠獲得最優(yōu)的性能,這正是Arm Kleidi發(fā)揮作用之處。
Arm去年推出了Kleidi軟件庫,并將其引入了智能手機和服務(wù)器市場,包含優(yōu)化 AI 負載在Arm CPU上執(zhí)行的KleidiAI和加速機器視覺的KleidiCV。如今,Arm也將Arm Kleidi擴展到了物聯(lián)網(wǎng)。
KleidiAI是一套專為AI框架開發(fā)者設(shè)計的計算內(nèi)核,讓開發(fā)者可以無縫地在Arm CPU上獲取最佳性能,適用于各類設(shè)備。它支持如Neon和SVE2等Armv9架構(gòu)的關(guān)鍵特性,大幅提升了AI的計算效率。此外,KleidiAI已經(jīng)集成到多個主流AI框架,包括Llama.cpp、ExecuTorch和LiteRT(通過 XNNPACK)。它可以加速Meta Llama 3和Phi-3等主流AI大模型,進一步釋放AI計算性能。
靈活性也體現(xiàn)在對多種操作系統(tǒng)的支持。無論是如FreeRTOS和Zephyr的實時操作系統(tǒng)(RTOS),還是如Linux和Android的功能豐富的操作系統(tǒng),Cortex-320都能提供高效支持。
Cortex-A320還為現(xiàn)有的物聯(lián)網(wǎng)領(lǐng)域的Cortex-A產(chǎn)品提供了靈活的升級路徑。無論是從Cortex-A35遷移,還是從全球出貨量最高的基于Armv8架構(gòu)的Cortex-A處理器Cortex-A53升級,Cortex-A320都提供了理想的Armv9遷移方案,并帶來了眾多優(yōu)勢,包括更先進的安全性、廣泛的Armv9軟件生態(tài)的支持,以及更高的計算性能。
克服碎片化
場景碎片化與標(biāo)準(zhǔn)化缺失一直是物聯(lián)網(wǎng)系統(tǒng)開發(fā)需要克服的瓶頸。馬健表示,Arm一直聚焦軟件生態(tài),過去幾年中,Arm在IoT標(biāo)準(zhǔn)化方面推出了Arm SystemReady,希望在不同的IoT平臺上可以支持各種主流軟件和操作系統(tǒng),確?!伴_機即用”。Arm SystemReady 項目在全球的推廣非常成功,目前已經(jīng)累計頒發(fā)了超過了 160 張認證。
在中國市場,去年11月Arm攜手中科創(chuàng)達成立了中國大陸首個Arm SystemReady Devicetree合規(guī)實驗室。該實驗室融合了中科創(chuàng)達在操作系統(tǒng)和工程方面全方位的專業(yè)能力,以及Arm經(jīng)過全球驗證的SystemReady項目,為芯片廠商、OEM/ODM 廠商、系統(tǒng)集成商提供端到端的測試和技術(shù)支持服務(wù),為智能設(shè)備啟動固件的標(biāo)準(zhǔn)化,加速萬物智能互聯(lián)時代的到來。
同時,Arm與中國市場的本地認證機構(gòu)進行了深度合作,推廣PSA Certified認證。獲得PSA Certified認證后,產(chǎn)品通過歐美市場的電子產(chǎn)品認證流程將更為順暢,為中國芯片和電子產(chǎn)品出海提供了一條便捷的通道。目前,截至目前,全球已有101家企業(yè)成功取得PSA Certified認證,其中累計獲得認證數(shù)量已達241項。許多中國的合作伙伴也通過了PSA Certified認證,包括瑞芯微的RK3588/RK356X系列芯片、涂鴉智能的TS24-U模組等。
結(jié)語
展望未來,AI的未來趨勢將轉(zhuǎn)向邊緣,這一點是顯而易見的。全新Arm邊緣AI計算平臺將成為新一輪物聯(lián)網(wǎng)創(chuàng)新的催化劑。Armv9架構(gòu)的特性、先進的AI功能和全面軟件支持的結(jié)合,將為OEM廠商和開發(fā)者創(chuàng)造新的可能性。