作者 |??ZeR0,編輯?|??漠影
芯東西7月30日報道,今日下午,上海通用智能CPU創(chuàng)企此芯科技發(fā)布AI PC戰(zhàn)略及其首款芯片“此芯P1”,并全面開啟AI PC產(chǎn)業(yè)鏈戰(zhàn)略合作。這意味著AI PC芯片市場迎來又一重要玩家!
歷經(jīng)15個月研發(fā)、4個月生產(chǎn)、3個月測試,此芯科技推出專為AI PC打造的高能效AI CPU芯片——此芯P1。該芯片采用6nm制程工藝、12核Arm架構(gòu)CPU(包含AI指令加速)、10核桌面級GPU設(shè)計,內(nèi)置多媒體引擎、高性能的訪存子系統(tǒng)和豐富的AI異構(gòu)計算資源。其端側(cè)AI異構(gòu)算力達45TOPS,滿足Windows AI PC提出的40TOPS算力要求,可運行100億參數(shù)以內(nèi)的端側(cè)大模型,跑大語言模型吞吐量可達30tokens/s以上。
“此芯P1”一次性流片成功,經(jīng)嚴格測試,完全達到量產(chǎn)要求,將正式進入產(chǎn)品化階段。三年磨一劍。此芯科技創(chuàng)立于2021年10月,“此芯P1”于今年4月成功點亮,距今剛過100天。此芯科技創(chuàng)始人兼CEO孫文劍特別感謝了聯(lián)想集團、蔚來汽車、Arm、安謀科技、Cadence等對此芯芯片的定義、研發(fā)、方案提供的大力支持,并對眾多投資方的理解與信任予以感謝。
01.基于“一芯多用”發(fā)展戰(zhàn)略,打造新一代AI PC算力底座
“三年前的一個夏天,我和我的伙伴們勇敢踏上這條充滿不確定性因素和挑戰(zhàn)的道路,創(chuàng)立了此芯?!睂O文劍回憶道。三年前,當看到AI技術(shù)蓬勃發(fā)展,他萌生了成立一家AI CPU芯片企業(yè)的念頭。那時生成式AI還沒興起,無論是國際大廠還是國內(nèi)創(chuàng)企都將注意力放在數(shù)據(jù)中心服務器芯片、云端AI訓練或推理芯片上,真正在做AI CPU的企業(yè)寥寥無幾。
在孫文劍看來,時至今日,在國內(nèi)這條賽道上,此芯科技依然是孤獨的前行者。在產(chǎn)品開發(fā)及與客戶深入合作的過程中,此芯科技快速形成了“一芯多用”的發(fā)展戰(zhàn)略,此芯定義的AI CPU可用于AI PC、服務器、智能座艙和元宇宙,一方面因為其定義的產(chǎn)品能滿足這些場景的需求,另一方面多場景落地能增加銷量,攤薄前期研發(fā)成本,帶給客戶更高性價比的產(chǎn)品。
在研發(fā)方面,此芯將堅定做多元異構(gòu),讓CPU、GPU、NPU在一顆復雜的SoC上發(fā)揮優(yōu)勢。同時,此芯既擁抱全球生態(tài),又與本土生態(tài)緊密結(jié)合,為不同用戶群體打造有競爭力的產(chǎn)品。孫文劍坦言,一款有競爭力的CPU,面對的生態(tài)地位非常高,需要的人才密度特別大,所需要的資金體量也很大,產(chǎn)品的導入周期很長,難點多到能列出一大長串。此芯科技深知路要一步一步的走,首先會聚焦于AI PC產(chǎn)業(yè)變革,與合作伙伴一起打造出有競爭力的產(chǎn)品,同時有序開展其他平臺和解決方案的建設(shè),最終實現(xiàn)個人計算、車計算、元宇宙計算和工業(yè)計算四大平臺范圍的多元發(fā)展。孫文劍認為,PC是人類過去40年最重要的發(fā)明之一,PC產(chǎn)業(yè)發(fā)展可分為圖形界面革命、互聯(lián)網(wǎng)革命、生成式AI革命三個階段。端側(cè)生成式AI正在推動PC產(chǎn)業(yè)的第三次革命。
在三年前做產(chǎn)品定義時,此芯科技就將PC作為主場景,充分利用AI技術(shù)來打造新一代算力解決方案,并在思路上逐步形成了新一代AI PC算力底座的五大特點——異構(gòu)算力,高能效,面向生成式AI構(gòu)建豐富的軟硬件開放生態(tài),混合AI,提供系統(tǒng)級安全和隱私保障。
據(jù)孫文劍分享,此芯科技有一支非常優(yōu)秀的SoC團隊,不但完成了前端的架構(gòu)和設(shè)計驗證,而且獨立打造了此芯自己的后端處理流程,高質(zhì)量完成了芯片后端的設(shè)計,確保芯片的性能、功耗、面積在先進制程下達到最優(yōu)。此芯科技的首款芯片“此芯P1”,便是在此基礎(chǔ)上設(shè)計而成。
02.首款AI CPU詳解:12核CPU、10核GPU,能跑百億參數(shù)大模型
作為一款專為AI PC打造的高能效CPU,此芯P1采用6nm制程、Arm架構(gòu)多核CPU、全新架構(gòu)的高性能桌面級GPU,還有強大的多媒體引擎、豐富的AI異構(gòu)計算資源和高性能的訪存子系統(tǒng)。該芯片的具體特性如下:
1、CPU:12核Arm CPU(8個性能核+4個能效核大小核設(shè)計),主頻最高可達3.2GHz,針對PC場景優(yōu)化的多級緩存設(shè)計,還有高效的機器學習指令增強,集成2個SVE2向量加速單元,并有硬件級安全特性保障。
站在用戶角度考慮,CPU核心有兩點很重要:高能效,生態(tài)豐富。這也是為什么此芯科技選擇采用Arm架構(gòu)。孫文劍認為Arm架構(gòu)有機會在AI計算時代成為端邊云一體的統(tǒng)一算力架構(gòu)。
2、GPU:旗艦系列10核桌面級GPU,滿足極致桌面渲染與通用AI計算需求;新一代硬件光線追蹤,能實現(xiàn)媲美主機級別的游戲體驗;采用新型幾何圖形處理流程,功耗節(jié)省可達40%以上;靈活的可變速率渲染(VRS),性能提升可達50%以上;面向多場景的此芯GO圖形引擎,滿足行業(yè)應用需求。據(jù)孫文劍透露,此芯團隊正與產(chǎn)業(yè)伙伴合作,實現(xiàn)超出大家預期的GPU性能水準。
3、異構(gòu)AI引擎:端側(cè)AI異構(gòu)算力達45TOPS,可運行100億參數(shù)以內(nèi)的端側(cè)大模型,運行大語言模型吞吐量可達30tokens/s以上,支持Stable Diffusion文生圖。其AI處理能力由CPU內(nèi)置的SVE2向量加速擴展、GPU支持OpenCL/Vulkan加速、30TOPS算力NPU、對音頻視頻處理更高速高效的專用DSP、NeuralOne AI軟件棧高效的異構(gòu)調(diào)度等共同實現(xiàn)。
此芯P1已完成對多種開源大模型的適配優(yōu)化,比如Llama、通義千問等端側(cè)大模型。SVE2在預填充(Prefill)階段帶來32%~2.2倍的性能提升,在解碼(Decode)階段可帶來27%~42%的性能提升。后續(xù)此芯科技將繼續(xù)引入Arm AI加速,結(jié)合GPU和NPU的異構(gòu)算力,進一步加強端側(cè)大模型的支持。
4、多媒體引擎:具備4K120幀顯示,最多支持10路外接顯示;支持8K60幀視頻解碼、8K30幀視頻編碼;支持PC級別的高保真應急處理,內(nèi)置專用DSP;支持4K30幀ISP和多攝像頭輸入。
5、高性能的訪存子系統(tǒng):128-bit LPDDR5低功耗內(nèi)存,數(shù)據(jù)傳輸率可達6400Mbps,帶寬可達100GB/s,容量可達64GB。
6、高效的功耗管理:精準的動態(tài)調(diào)頻調(diào)壓,多電源域和動態(tài)的電源門控,支持標準的PC電源工作模式,通過綜合設(shè)計來實現(xiàn)功耗和性能的調(diào)配和平衡。
7、全方位的安全引擎:生態(tài)完善的CPU安全特性,滿足認證需求的高密和國密算法,靈活的TPM/TCM安全方案,從底層保證數(shù)據(jù)安全。
8、多樣化的外設(shè)接口:支持PCIe 4.0、AI加速卡、4x USB-C、2x GMAC等,通過不同配置靈活擴展了AI運算、圖形圖像渲染、不同類型外部存儲控制等功能,結(jié)合NPU可提供5路高清流暢視頻剪輯對比。
9、多操作系統(tǒng)支持:是全球為數(shù)不多采用統(tǒng)一固件支持多桌面操作系統(tǒng)產(chǎn)品,其軟件團隊對內(nèi)核及框架層做了全棧優(yōu)化?!霸诘谝淮a(chǎn)品中,我們的團隊就前瞻性地采用了許多業(yè)界一流的技術(shù),讓此芯P1成為一個有競爭力的產(chǎn)品。”孫文劍說。
03.融合兩大架構(gòu)優(yōu)勢,融入PC產(chǎn)業(yè)朋友圈
此芯科技不止是交付芯片,還有完善、成熟的解決方案。除了有競爭力的硬件平臺、標準的軟件SDK、標準的BIOS外,此芯科技還與操作系統(tǒng)和大模型進行了開發(fā)、適配與優(yōu)化,秉承開放心態(tài)與產(chǎn)業(yè)伙伴一起打造越來越有競爭力的AI PC產(chǎn)品。據(jù)此芯科技聯(lián)合創(chuàng)始人、系統(tǒng)工程副總裁褚染洲分享,此芯AI PC平臺有三個策略:融合x86和Arm架構(gòu)優(yōu)勢,融入PC產(chǎn)業(yè)朋友圈,融通AI的世界。褚染洲說,此芯科技集合了眾多新興產(chǎn)業(yè)的研發(fā)老兵和移動設(shè)備領(lǐng)域的佼佼者,從一開始甩開各種包袱,融合吸納各家之所長,更好地實現(xiàn)此芯Arm架構(gòu)CPU芯片在PC領(lǐng)域的普及和融入?;凇叭诓呗浴保诵就瞥隽?strong>新一代高能效AI PC平臺解決方案。
其一大特點是可擴展異構(gòu)計算,可通過PCIe接口擴展的獨立GPU和獨立NPU來進一步提升異構(gòu)算力。另外,此芯平臺標配高帶寬存儲,大容量空間作為主內(nèi)存池,同時還支持高速USB接口,可擴展外部存儲,提供大容量的存儲平臺。
此芯的一款芯片就能支持筆記本、迷你電腦、一體機、臺式機、家庭娛樂主機、企業(yè)邊緣側(cè)主機等多種產(chǎn)品形態(tài)。
為了支持多種產(chǎn)品形態(tài),此芯創(chuàng)新性地推出了彈性化電源設(shè)計方案:左邊VR+DrMOS常見于高性能、主流x86 PC設(shè)計中,右邊PMIC是極致輕薄本、二合一等移動設(shè)備的主要電源供電方式,中間便是此芯獨創(chuàng)的混合VR+DrMOS、PMIC模式,能提供更大的彈性,以應對復雜供電能力、功耗、性能、散熱和空間要求之間的平衡。
褚染洲說,三種組合設(shè)計都已經(jīng)在平臺上面充分驗證過了,這離不開此芯自主研發(fā)的集成在此芯P1的系統(tǒng)管理單元和優(yōu)秀的電源管理架構(gòu)。電源在高性能芯片和終端產(chǎn)品里是最具挑戰(zhàn)的技術(shù)之一,也是此芯在融合路上堅定的第一步。此芯科技積極融入PC產(chǎn)業(yè)鏈,能夠支持新興廠商從x86 CPU無縫切換到此芯P1。如果采用此芯P1的合作模式,能以較低成本快速完成一個產(chǎn)品的研發(fā)生產(chǎn)和上市周期。
此芯已引入ODM、IBV、IHV等產(chǎn)業(yè)伙伴,推動Arm端側(cè)UEFI+ACPI標準(Arm SystemReady認證、多桌面操作系統(tǒng)支持),兼容PC全供應鏈,并能做到8~12次通孔、高密度板等PC類產(chǎn)品常用全類型PCB的使用。褚染洲承諾,此芯科技會提供全面的設(shè)計文檔、完整的開發(fā)工具、研究的參考設(shè)計、可靠的固件和驅(qū)動、快速高效的客戶響應,歡迎大家接洽。
04.自研全棧軟件方案,加速AI PC行業(yè)創(chuàng)新
此芯科技聯(lián)合創(chuàng)始人、軟件工程副總裁劉鋼談道,在芯片公司里,軟件工程師的首要工作是發(fā)揮硬件的全部能力,不同用戶場景往往意味著不同的軟件解決方案,此芯科技的AI PC軟件解決方案首先面對的就是生態(tài)話題。據(jù)他分享,這些年Arm逐漸發(fā)展向高性能領(lǐng)域,結(jié)合高能效優(yōu)勢,在PC領(lǐng)域占據(jù)一席之地,此外Arm提前多年在異構(gòu)計算方面進行了技術(shù)和生態(tài)積累,而且是一個從硬件到軟件都開放合作的生態(tài),有利于集眾人之力進行突破和創(chuàng)新。此芯科技希望建設(shè)一個關(guān)于PC的新生態(tài),這個生態(tài)既不像x86那樣封閉固化,又不像其他新興生態(tài)那樣被動,既有x86生態(tài)帶來的高性能體驗,又有開放協(xié)作的特點。在劉鋼看來,Arm正是新生態(tài)的最佳選擇。
除了機遇外,還有一些PC固有挑戰(zhàn),比如啟動固件、統(tǒng)一內(nèi)核等方案需要全行業(yè)一起推進,新型的端側(cè)AI方向更需要大家緊密協(xié)作。作為AI PC芯片領(lǐng)域新勢力,此芯科技重點聚焦這四大方向進行軟件優(yōu)化:用UEFI統(tǒng)一固件解決多桌面操作系統(tǒng)的支持問題,用統(tǒng)一內(nèi)核支持DT/ACPI、拉通移動端和PC端,用此芯前沿的解決方案(此芯GO圖形引擎、此芯NeuralOne AI軟件棧)和Arm及眾多生態(tài)合作伙伴一起擁抱標準化的機制,加速AI PC行業(yè)創(chuàng)新。
移動端與PC端的啟動固件不同,安卓和嵌入式世界的標準接口是Device Tree,PC世界用的是ACPI接口。兩套做法對應兩個生態(tài)的不同規(guī)則,移動端更強調(diào)垂直整合,PC端更強調(diào)通用性。芯片原廠也需要更多啟動固件來支撐。
通過此芯各團隊的創(chuàng)新,此芯實現(xiàn)了通過一套固件支持多桌面操作系統(tǒng)啟動和一套內(nèi)核同時支持ACPI和Device Tree兩個規(guī)范的重要突破。此芯科技現(xiàn)場演示了由此芯P1驅(qū)動的電腦從BIOS到操作系統(tǒng)的完整啟動過程,BIOS會對系統(tǒng)進行初始化和質(zhì)檢的動作,然后切換到操作系統(tǒng)的啟動過程中,會出現(xiàn)多個操作系統(tǒng)的選擇畫面。從演示來看,此芯P1運行流暢,能跑網(wǎng)頁瀏覽、本地和在線視頻播放、辦公套件等不同PC應用。
這意味著其可以通過一個固件支持不同的國產(chǎn)和國際操作系統(tǒng)。劉鋼強調(diào)說,做到這一點意義重大,一方面兼顧多個生態(tài),為此芯進行了研發(fā)的最大化資源復用,另一方面幫助解決了行業(yè)痛點,極大降低合作伙伴進行產(chǎn)品化的難度。此芯也會與上下游一起用UEFI+ACPI的解決方案,推進AI PC系統(tǒng)底座的標準化建設(shè)。
在GPU圖形領(lǐng)域,好的GPU往往伴隨著好的視覺體驗,但GPU的開發(fā)和調(diào)試充滿挑戰(zhàn),比如兼容各類桌面環(huán)境、適應傳統(tǒng)應用、支持OpenGL標準、不同多媒體框架協(xié)同等問題。“在業(yè)內(nèi),有能力、有勇氣、有動力去解決這些難題的公司屈指可數(shù)?!眲撜劦?,此芯在合作伙伴的支持下,自己設(shè)計的此芯GO圖形引擎引入了中間的應用兼容層,并在核心驅(qū)動層實現(xiàn)了原創(chuàng)優(yōu)化,目標是一站式解決行業(yè)痛點,實現(xiàn)桌面級GPU極致體驗。
此芯同樣通過PPT演示了效果,左邊代表生產(chǎn)力相關(guān)的工程建模渲染軟件,中間是桌面PC上的傳統(tǒng)3A游戲大作,右邊兩個是GPU桌面級基準測試,此芯P1都能流暢運行。
隨后,此芯還演示了此芯P1能夠在三路并發(fā)的情況下很好支撐高畫質(zhì)游戲。
針對AI應用,此芯推出了面向不同硬件單元的NeuralOne AI軟件棧,來幫助開發(fā)者隱藏所有的硬件信息,降低開發(fā)難度,并對不同類型的主流模型和推理框架提供廣泛支持。
現(xiàn)場演示了在此芯AI助手上,用NeuralOne AI軟件棧適配阿里通義千問近百億參數(shù)的大語言模型的效果,從左到右分別涉及數(shù)學物理題、高考作文題、中國人文經(jīng)典迷惑性問題,此芯AI助手都可以用中文游刃有余地與用戶交流。
除了大語言模型外,文生圖模型也能跑在此芯P1上。該芯片可本地支持把復雜的提示詞轉(zhuǎn)化成一幅富有中國山水意境的精美圖片。此芯希望其AI PC芯片能處理不同類型的AI需求,受益于大內(nèi)存帶寬和容量,將來擴展到更加復雜的任務。此芯科技期待共建AI PC開放生態(tài),包括用此芯P1打造Arm原生開發(fā)套件,重點布局異構(gòu)AI端側(cè)生態(tài),繼續(xù)貢獻國內(nèi)外上游開源社區(qū),推動產(chǎn)業(yè)聯(lián)盟和標準化。
05.結(jié)語:國產(chǎn)AI CPU迎來歷史機遇
生成式AI技術(shù)正推動個人計算體驗的重大變革,AI PC已經(jīng)開啟PC市場新的增長空間,給企業(yè)和用戶帶來更高效的生產(chǎn)力和更自然的使用體驗。據(jù)市研機構(gòu)Canalys預測,2027年全球AI PC出貨將超過1.7億臺,占比超過60%。
此前蘋果自研M1芯片已經(jīng)在市場上證明了Arm架構(gòu)芯片在高性能和高能效比上的出色表現(xiàn),搭載高通驍龍X平臺的筆記本電腦進一步掀起了由Arm架構(gòu)驅(qū)動的AI PC的熱潮。安謀科技銷售及商務執(zhí)行副總裁徐亞濤認為,今天此芯同樣證明了Arm可以成為PC向AI革命的一個重要助力。
市研機構(gòu)Counterpoint Research的初步數(shù)據(jù)顯示,2024年第二季度,全球PC出貨量同比增長3.1%,AI PC仍然是PC行業(yè)最熱門的話題。該機構(gòu)預測基于Arm架構(gòu)的AI筆記本電腦將成為Arm PC的一大驅(qū)動因素,基于Arm架構(gòu)的PC設(shè)備到2027年或?qū)⒄紦?jù)超過25%的市場份額。
如今,隨著高能效通用CPU“此芯P1”走向商業(yè)化落地,AI PC芯片市場增加了一款有競爭力的國產(chǎn)芯片選擇。
孫文劍認為CPU正在經(jīng)歷一個巨大的歷史變革:普通CPU變革為AI CPU,封閉生態(tài)變革為開放生態(tài),高能耗CPU變革為高能效CPU。他相信在這場變革中,中國一定會誕生優(yōu)秀的AI CPU企業(yè),成為全球信息產(chǎn)業(yè)當中不可或缺的一環(huán)。