9 月 16 日,蘋果秋季新品發(fā)布會如約而至,但傳聞中的 iPhone12 卻要等到下個月才能見到。發(fā)布會僅上新了兩款智能手表和兩款 iPad 平板電腦,新品 iPad Air 4 則搭載了最新的處理器芯片 A14 Bionic(仿生)處理器。這幾款新產品香不香另說,A14 Bionic 處理器卻成為了此次發(fā)布會的最大亮點。
根據蘋果的介紹,A14 Bionic 處理器是蘋果首款采用 5nm 工藝打造移動設備芯片,晶體管數量相較于 A13 Bionic 處理器的 7nm 芯片增加了近 40%,晶體管數量達到了驚人的 118 億顆。
僅憑工藝制程的提升,A14 在性能和功耗表現上自然會有一定的提升。官方宣稱,在性能比較上,CPU 提升 40%,全新 GPU 構架提升 30%。不過,讓外界吐槽的是,這一數據是 A14 跟 A12 比較得出來的。這讓 A13 情何以堪呢?
而根據蘋果之前公布的數據,A13 相比 A12 在 CPU 和 GPU 性能上都提高了 20%。因此,如果這兩代的處理器性能指標測量標準一致的話,則 A14 的 CUP 性能僅比 A13 快了約 16%,GPU 性能僅比 A13 提升了約 8.3%??梢哉f,如果排除掉 5nm 工藝本身所帶來的改進,相對 A13 來說,A14 在 CPU 和 GPU 核心本身性能上的提升其實并不高。
不過,在 AI 算力上,A14 相比 A13 則有了非常大的提升,從之前的 8 核 NPU 直接翻倍提升到 16 核 NPU。根據蘋果的測試,A14 的 AI 運算能力也提升到了 11.8 萬億次,機器學習速度提升了 70%,機器學習加速器則令運算速度快達 10 倍,將各種機器學習應用的性能表現提升至全新水平。
如果留意就會發(fā)現,蘋果從 A11 到 A14,每一次在 AI 運算性能上都做了大幅地提升。盡管我們看到蘋果并不總是以 AI 芯片或者 AI 智能終端為噱頭來做宣傳,但事實上蘋果 iOS 系統(tǒng)上已經遍布各種 AI 應用或者功能,對 AI 算力增長提出了超高的需求;與此同時,安卓陣營高端芯片廠商在 AI 芯片上面的頻頻發(fā)力,正在縮短甚至追上與蘋果的 A 系列芯片的差距,這些可能都是構成蘋果移動終端芯片的 AI 算力爆發(fā)式增長的緣由。
從 A11 到 A14,蘋果的 AI 算力進化
2017 年,AI 已經成為大眾熱議的話題。此時沒有一家終端芯片廠商不是以 AI 作為產品的新噱頭,但真正能在 AI 芯片方面拿得出手的廠商也沒有幾家。這一年華為的麒麟 970 橫空出世,搶到了首發(fā)。10 天后,蘋果的 A11 Bionic 也正式發(fā)布,A11 采用 10nm 工藝制程、六核 CPU、自研三核心 GPU 設計。
之所以可以稱為“AI 芯片”,就在于 A11 首次搭載神經網絡引擎處理器單元(Neural Network Processing Unit,NPU),并且在新的神經網絡引擎上蘋果發(fā)布了第一代 Core ML,運用本地化人工智能加速器進行機器學習。
A11 搭載的 NPU 采用雙核設計,每秒運算次數 6000 億次,主要處理機器學習任務,能夠識別人物,地點和物體,主要針對的應用是 iPhone 新推出的人臉識別鎖屏 FaceID 以及人臉關鍵點追蹤 Animoji,且 NPU 算力并不對第三方應用開放。
蘋果 A11 處理器的標志意義,除了成為蘋果自主研發(fā)程度最高的一代處理器之外,其實也和華為一起真正地打開了移動終端的 AI 時代。此后幾乎所有手機廠商都把 AI 運算能力當作宣傳賣點和升級點。
蘋果在 2018 年推出的 A12 Bionic,采用了臺積電當時最新的 7nm 工藝制程,蘋果自研的 Fusion 架構,而神經網絡引擎從雙核直接升級到八核,能夠實現每秒 5 萬億次計算,比較上一代有了 8.3 倍的提升。第二代神經網絡引擎才是在算力和性能上能夠實現更多 AI 功能。另外,A12 采用了全新的智能 HDR 算法以及 core ML 帶來的圖像識別、第三方 APP 垃圾信息處理等功能,AI 應用開始普及。
2019 年發(fā)布的 A13 Bionic 處理器,CPU、GPU 和 NPU 的核心數都與 A12 相同,只是采用了臺積電升級版 7nm 工藝,集成 85 億個晶體管,性能、功耗都有了一定提升,而神經網絡引擎的峰值算力提升到每秒 6 萬億次計算,提升幅度并不顯著,同樣是為面容 ID、三攝系統(tǒng)、AR 類 APP 等機器學習應用提供算力支持。不過值得一提的是,通過在 CPU 中加入 2 個機器學習加速器,讓 CPU 可以達到每秒 1 萬億次的矩陣數學運算。同時,Core ML3 可以與機器學習控制器配合,自動為 CPU、GPU 和 NPU 分配任務。
這次發(fā)布的 A14 處理器芯片上,神經引擎核心數再次翻倍達到 16 個,每秒運算次數達到了驚人的 11.8 萬億次,機器學習速度提升了 70%,機器學習加速器則令運算速度快達 10 倍,將各種機器學習應用的性能表現再次大幅提升。
AI 應用的“猛虎”,蘋果 AI 芯片大規(guī)模升級的內因
根據資料,早在 2014 年,蘋果已經在新一代架構芯片 Soc 的開發(fā)中加入專門的 AI 芯片。而在此之前,蘋果的 AI 算力是由“CPU+GPU”實現,其自主開發(fā) AI 芯片的設計思路則是由 CPU 和 GPU 處理的 AI 任務轉向由專門的 AI 芯片進行處理,最終將芯片集成到終端設備上。
與此同時,隨著蘋果移動終端在拍照攝影、圖形處理等應用上面越來越需要用到神經網絡和機器學習、深度學習的算法運算,這些需求使得蘋果開始考慮將 AI 應用的運算必須采用神經引擎這一專門定制的處理器單元來完成這些計算。
2017 年,蘋果的神經引擎處理器正式落地。
不過讓外界驚訝的是,為何短短三年之中,A 系列芯片的 AI 算力得到了將近 20 倍的提升,遠遠超出 Soc 芯片其他處理器的性能提升幅度?
一方面是 CPU 和 GPU 的性能,在現有的工藝制程進化和既定架構的約束上提升已經非常困難。隨著半導體工藝從 7nm 向 5nm、3nm 工藝升級,難度會越來越大,而可預期的提升卻可能并不顯著。反而 AI 加速器還會有相當大的設計提升空間。
另一方面是,終端應用對于動用 CPU 和 GPU 的需求正在達到一個用戶的使用極限,因此也沒有快速增長的需求,但是這些應用的 AI 算力需求則在大幅增長。
如果對蘋果 iOS 系統(tǒng)中的用到機器學習相關的功能和應用進行分析的話,我們看到最新兩代的 iPhone 和 iPad 已然是一部各個部分和細節(jié)都在使用 AI 的終端了。
在蘋果終端的細節(jié)體驗,已經有大量機器學習算法的加持,但相應的體驗難以被用戶察覺。
比如,機器學習用于幫助 iPad 的軟件區(qū)分用戶在使用 Apple Pencil 繪圖時到底是不小心將手掌壓在屏幕上還是有意提供輸入的按壓?;蛘呤窃诒O(jiān)控用戶使用習慣,以優(yōu)化設備的電池壽命和充電頻次,既可以改善用戶在兩次充電之間的時間,又可以保證電池的使用壽命。
還有像 iPhone 的拍照,用戶每次按下快門,設備會快速連續(xù)拍攝很多張照片,然后經過機器學習訓練的算法會分析每個圖像,并將其認為是每個圖像的最佳部分合成為一個結果。也就是 iPhone 拍照的卓越效果很大程度是靠“計算”出來的。蘋果正是通過 iPhone 中對圖像信號處理器(ISP)和神經引擎的協(xié)同處理,才使得照片質量獲得大幅提升。
蘋果在終端本地大幅提升神經引擎的運算能力,以及配合圖形計算引擎和 AI 加速等功能,可以在移動終端中執(zhí)行非常高難度的機器學習任務。比如在 iPad Pro 上,通過神經引擎的計算能力,結合 Project Aero 軟件,iPad Pro 能將 PSD 中創(chuàng)作的每一個圖層以獨立的 AR 對象呈現在屏幕上,每個圖層都分離成一幕栩栩如生的景觀,這對創(chuàng)作者來說相當具有吸引力。
此外,蘋果已經加入的顯著的 AI 新功能,諸如機器學習在翻譯、內置聽寫、輸入預測、健康特性分析與預測上面,都需要大量的機器學習參與。
而蘋果選擇在機器學習任務的本地化計算的另一大原因,可能是為了將數據留在本地,用以保護用戶隱私。我們知道,機器學習的本質就是對海量數據進行學習,而數據的采集和分析一直是谷歌、facebook 這些互聯(lián)網公司的“原罪”,作為承諾嚴格遵守用戶隱私數據保護的蘋果,自然要做出保證,盡量將機器學習算法所需要的用戶數據留在用戶的移動終端當中,但與此同時要保證 AI 算法的有效,就必須對終端芯片的 AI 算力引擎做出大幅提升。
當然,蘋果自身終端系統(tǒng)對于 AI 算力升級的要求,只是一只內生的吞噬算力的“猛虎”,在外部競爭中,蘋果還要面對一群實力強勁的“追龍”,在 AI 算力提升上不斷地應戰(zhàn)。
安卓陣營的“追龍”,蘋果 AI 算力快速升級的外因
蘋果自研的 A 系列處理器芯片,一直以來以創(chuàng)新和高性能著稱,雖然最近兩年,安卓系的高端芯片,諸如高通的驍龍芯片、聯(lián)發(fā)科 Helio 芯片、華為海思的麒麟芯片則大有追趕之勢。
如果拋去綜合性能的討論,但是在 AI 芯片算力上面,高通的驍龍?zhí)幚砥髟谛阅苌虾蛿盗可隙家呀浻谐^蘋果 A 系列芯片的可能。
比如在 2019 年上半年手機 AI 芯片排行榜上,排名前十的智能手機 AI 芯片,其中前四名分別是高通驍龍 855、蘋果 A12 Bionic、聯(lián)發(fā)科 Helio P90 和海思麒麟 980。但值得關注的是,除了第二、三、四名,這份榜單中的其他位置都被高通驍龍芯片占據。
與蘋果采取專用 NPU 芯片來提供 AI 算力不同的是,高通的驍龍?zhí)幚砥鞑捎昧水悩嬘嬎愕姆绞?,推出了自研?AI 引擎,通過 CPU、GPU 和 DSP(Hexagon 處理器)組合相互配合,運行神經網絡計算的效率,根據不同的應用場景來安排工作負載。
而預計在今年年底發(fā)布的高通驍龍 875,同樣采用了 5nm 制程工藝,與 7nm 相比邏輯密度提高 80%,其基礎性能較上代提升 15%,功耗降低 30%。非常激進的是,高通這次采用了 ARM 的 Cortex X1 超大核心設計,為“1+3+4”八核心三簇設計模式,其中 1 為 Cortex X1 超大核心,3 為大核,采用 Cortex A78,4 為能效核心。據業(yè)界的預測,驍龍 875 無論在綜合性能還是在 AI 算力上都有超越 A14 的可能。
此外,高通通過 AI 引擎的的高、中端芯片布局,與不同的軟硬件企業(yè)一起,從底層框架、硬件核心、軟件等層面,將 AI 能力應用到了海量的移動終端和智能設備上,形成基于 AI 應用的合作生態(tài)。
高通在 AI 算力上的激進演化以及在 AI 能力上的不斷賦能,已經開始形成對于蘋果的 A 系列芯片領導力的巨大威脅。在面臨安卓陣營這些“追龍”對手如此“給力”的努力下,蘋果自然也會有強大的外部動力來大幅升級自身的性能優(yōu)勢。就像驍龍 875 這樣的性能怪獸的出現,始終會追在蘋果身后,準備吊打蘋果。
反過來看蘋果,其 NPU 的性能升級戰(zhàn)略也并未顯露頹勢。根據專業(yè)人士的說法,目前,蘋果 A 系列芯片上 NPU 占芯片總面積約為 5%,未來 NPU 的面積能夠達到類似 GPU 占有的 20%的面積的程度,AI 算力至少還有 4 倍的提升空間,此外還有提升算法和芯片之間的協(xié)同設計,同時通過 Core ML 的進化來加強不同 AI 模型的異構設計,同樣可以發(fā)揮其他 SoC 芯片部分的潛在算力。總體來說,蘋果在 AI 算力的提升上面還有巨大的增長空間。
我們看到,蘋果和安卓陣營在高端芯片廠商在芯片性能的升級,正在從 CPU 所引領的摩爾定律的賽場轉向以 AI 算力增長為代表的新賽道上。而從 AI 算力的增長潛力來看,這一升級戰(zhàn)在未來幾年會更趨激烈。
然而最可惜的是,這場終端芯片 AI 角逐賽里,未來會缺席一位來自中國的實力選手。