12月14日下午,2021年度“OPPO未來科技大會”正式在深圳召開。在本次會議上,OPPO正式發(fā)布了傳聞已久的首款自研芯片——6nm工藝的馬里亞納MariSilicon X。
△OPPO芯片產(chǎn)品高級總監(jiān)姜波展示MariSilicon X
據(jù)介紹,MariSilicon X是全球首款專為影像而生的專用NPU芯片,其AI算力高達18TOPs,超過蘋果A15,能效比也達到了11.6TOPs/W。同時還支持高達20bit Ultra HDR及實時RAW計算,能最大程度發(fā)揮OPPO定制的RGBW傳感器的能力,破解了傳統(tǒng)手機影像的諸多難題。
為了詳細地揭秘OPPO的首款自研芯片MariSilicon X,在一周之前,芯智訊對OPPO芯片產(chǎn)品高級總監(jiān)姜波進行了專訪。
一、為什么要自研芯片?
對于全球頭部的智能手機廠商來說,自研芯片早已是一項不可或缺的核心競爭力。不論是在自研芯片上早已獲得成功的三星、蘋果、華為,還是正在努力當中的小米、OPPO和vivo。特別是在人工智能時代,自研芯片不僅能夠更好地實現(xiàn)自身軟硬件的協(xié)同,解決用戶關心的痛點,同時也能夠為手機品牌廠商帶來更多的差異化。
在OPPO芯片產(chǎn)品高級總監(jiān)姜波看來,像OPPO這種一線的終端公司,本原就是從消費者角度出發(fā)的,對于硬件能力的認知和需求,很多也是從用戶場景反推過來的,并不是簡單地判斷需要什么樣規(guī)格的芯片,再看可以用在哪些場景、技術的選擇更多是為了解決用戶的痛點。所以,當OPPO發(fā)現(xiàn)這些痛點及面臨的問題難以使用通用SoC解決時,自研芯片就成為了一個必然。
“我們在最初做這顆芯片的時候,終端產(chǎn)品線的同事會問我們,額外增加這個芯片之后對電池容量有多少影響?包括對手機整個的DoU(Day of Usage)有什么影響?我們就需要去看各種場景下帶來的DoU損失是多少,以及帶來的好處是多少,這樣問題才能解決。所以這樣的好處是,任何問題都是從用戶視角出發(fā)的。”姜波表示:“我個人認為,行業(yè)里像OPPO這樣的廠商,恰恰是因為在一線接近消費者,有自己的算法能力、硬件設計能力,甚至是上游攝像頭、傳感器的整合能力,當你處在一個產(chǎn)業(yè)鏈里非常重要的一環(huán)時,你有機會做到更深度的整合、更優(yōu)化的設計的時候,就一定會去做。”
至于自研芯片帶來的成本及投資回報問題,姜波表示,“只要做自研芯片,投入就會很大,如果這顆芯片可以幫我們解決一些我們在用戶側的一些痛點和價值點,那就值得去投入。”
二、為什么是影像NPU?
對于智能手機廠商來說,自研芯片并不是一個新鮮事。
不過,從小米澎湃S1手機SoC芯片的經(jīng)驗來看,對于原本在手機芯片研發(fā)上并沒有太多積累的手機品牌廠商來說,貿然就開始研發(fā)手機SoC主芯片,則具有非常高的難度和風險。
2014年,小米就成立了松果電子研發(fā)手機SoC芯片,隨后在2017年,小米正式推出了首款自研手機SoC芯片“澎湃S1”,并由小米5C首發(fā)搭載。但是,這款歷時28個月研發(fā)制造的芯片整體表現(xiàn)并不理想,在小米5C之后就再也沒有被商用。而后續(xù)傳聞中的澎湃S2似乎也因為多次流片失敗而終結。
相比之下,先從手機SoC主芯片以外的外圍芯片切入則相對簡單,也更容易獲得成功。
在目前用戶對于手機影像性能要求越來越高的背景之下,很多手機廠商也選擇了從影像相關芯片方面進行入手。
比如,小米和vivo都紛紛選擇從關乎手機影像拍攝質量的關鍵芯片——ISP(圖像信號處理器)芯片入手。今年3月底,小米就發(fā)布了自研的手機ISP芯片澎湃C1。9月初,vivo也發(fā)布了自研的手機ISP芯片V1。小米和vivo均表示,自研的ISP芯片結合自研的算法,可以幫助手機進行更精細、更先進的圖像處理。
同樣,OPPO也認為,影像能力一直是智能手機用戶最為關心的痛點之一。因此,我們也可以看到,過去十年來,在OPPO不同的旗艦產(chǎn)品上,為了提升影像拍攝能力,除了配備旗艦級的SoC之外,OPPO還在不斷通過定制圖像傳感器、定制攝像頭模組、定制鏡頭來推動影像硬件上的創(chuàng)新。
資料顯示,僅僅是為了完成將RGBW影像技術寫入傳感器硬件這一操作,OPPO就在近3年的時間內投入了300位影像工程師以及億元級別的成本,積累了87項技術專利。
隨著手機影像技術的發(fā)展,由于智能手機的內部空間的限制,單純依靠提升圖像傳感器尺寸及其他光學單元的性能,來提升拍攝的影像效果已經(jīng)遇到了瓶頸,于是通過AI算法來對拍攝效果進行優(yōu)化的“計算影像”就成為了新的方向。
所以,OPPO并未選擇跟小米、vivo一樣自研ISP芯片,而是結合了過去在圖像傳感器定制、攝像頭模組定制、鏡頭定制方面的技術積累,更進一步選擇了難度更高的影像NPU。因為OPPO認為,未來計算影像將主導整個影像新的技術發(fā)展,傳統(tǒng)ISP解決不了的暗光視頻等需要AI才能解決的難題,影像NPU完全有機會給出一個更好的解答。
但是,通用的手機SoC當中的包括NPU在內的各類計算單元通常都只是針對通用的AI影像算法進行優(yōu)化,而手機廠商的自研AI影像算法與通用SoC芯片之間很難做到相互的完全開放、完全的緊密耦合,這也使得通用SoC芯片無法發(fā)揮出手機廠商自研AI影像算法的最大能力。
為此,姜波展示了一組實際測試數(shù)據(jù)。以OPPO目前在Find X3 Pro上商用落地的OPPO AI降噪算法為例,雖然Find X3 Pro搭載的是高通的旗艦芯片驍龍888,其內部也擁有獨立的NPU,結合高通第六代AI引擎,整體AI算力高達26 TOPS,但是在跑OPPO自研的AI降噪算法時,最多可以跑2fps(幀/秒),而且功耗也接近了1.7W。
這也意味著該AI降噪算法只能運用到拍照降噪上,不能運用到視頻降噪上。因為,視頻最少需要30fps的幀率,要基于OPPO的自研AI降噪算法在驍龍888平臺上做到30fps的降噪,就需要將算力提升到現(xiàn)有算力的15倍,即使驍龍888的算力可以繼續(xù)提升,但是這也意味著功耗也將達到1.7W的很多倍,顯然這對于智能手機來說是難以接受的。
另一方面,比如OPPO還與索尼有合作定制圖像傳感器,而定制化的圖像傳感器也需要手機SoC的緊密配合才能發(fā)揮出最大的效果,而手機SoC的開發(fā)周期非常長,而定制圖像傳感器的開發(fā)周期則相對較短,這也使得雙方很難實現(xiàn)很好的配合。
“所以,OPPO為了能夠充分發(fā)揮定制圖像傳感器以及自研AI影像算法的能力,選擇從一顆影像專用NPU入手,希望通過AI的方式去解決一些還沒有被解決的手機影像問題。同時,也只有通過影像專用NPU,才能解決目前ISP和通用算力不足難題,這才是未來影像發(fā)展的主流方向。”姜波說道。
三、為什么采用成本高昂的6nm工藝?
作為OPPO的首款自研芯片,MariSilicon X一開始的定位就比較高端,采用的是目前領先的臺積電6nm制程工藝。這對于初入自研芯片領域的OPPO來說可謂是極具挑戰(zhàn)的。
首先,越先進的制程工藝,往往意味著設計的難度越高,可以用到的第三方的成熟IP也就越少。
其次,越先進的制程工藝的芯片開發(fā),往往也需要更多的研發(fā)投入,同時在流片和制造成本上也是非常的高。
根據(jù)幾年前國外Semiengingeering網(wǎng)站曾發(fā)布過一篇工藝和芯片開發(fā)費用的文章顯示,28nm節(jié)點的芯片開發(fā)成本約為5130萬美元;16nm節(jié)點則需要1億美元;7nm節(jié)點需要2.97億美元;5nm節(jié)點,開發(fā)芯片的費用將達到5.42億美元;3nm的開發(fā)費用有可能超過10億美元??紤]到這是數(shù)年前的數(shù)據(jù),再加上MariSilicon X并不是一款SoC芯片,在設計開發(fā)上沒有那么的復雜,其開發(fā)費用可能并沒有那么高,但估計也需要到1億美元以上級別。
另外,對于先進制程的芯片來說,越先進的制程工藝,其流片和制造的成本也就越高。有消息顯示,6nm芯片的一次流片費用就高達1500萬美元。
所以,我們也可以看到,不論是小米澎湃C1還是vivo V1都沒有選擇6nm工藝,而是采用了成熟的12nm工藝。
那么為什么OPPO 的MariSilicon X還是選擇了6nm工藝?
對此,OPPO芯片產(chǎn)品高級總監(jiān)姜波在接受芯智訊采訪時也表示,OPPO在最開始評估采用何種工藝制程時確實評估過12nm制程的可能性:如果做一顆12nm的芯片,不僅可選擇的基礎IP更多,資源的可獲取性(比如一些接口IP)也更好,而且整個產(chǎn)品的開發(fā)周期也要短很多。但是,12nm工藝很難達到OPPO預期的在終端層面的極致性能和功耗要求,所以最終選擇了6nm工藝,實現(xiàn)了同級最好的能效比,也得以在RAW域能夠實現(xiàn)復雜AI算法的處理。
選擇6nm工藝,也給OPPO帶來了很多的難題。
比如,MariSilicon X需要峰值吞吐量非常高的MIPI接口。如果選擇12nm工藝,雖然很容易能夠找到第三方MIPI接口IP,但能效遠超預期。雖然6nm工藝節(jié)點上也有一些第三方MIPI接口IP,但是可選擇范圍較小,且依然是滿足不了OPPO估算的數(shù)據(jù)量要求。因此,OPPO的芯片研發(fā)團隊最終選自了自研MIPI IP。
“用12nm可以更容易的做出一顆商用的芯片。但是,我們發(fā)現(xiàn)用12nm做完之后在很多場景下出來的效果,可能還不如之前單純靠5nm SoC做出來的整體效果,那么增加一顆NPU芯片就沒有意義。那就喪失了我們做一顆芯片的初心和原點了。“姜波坦言。
四、MariSilicon X有何過人之處?
對于MariSilicon X這款芯片的優(yōu)勢,可以總結為以下幾大核心能力突破:
1、核心自研IP加持,帶來極致能效比
據(jù)介紹,MariSilicon X的AI算力可達18TOPS@int8(72TOPS@int4 equivalent),高于蘋果A15的15.8TOPS。在供強大AI算力的同時,MariSilicon X功耗也得到了很好的控制,其能效比達到驚人的11.6TOPS/W。
要知道,目前絕大多數(shù)NPU能效比都在10TOPS/W以內。比如IBM今年初推出的基于7nm工藝的“全球首款”高能效AI芯片,其在int4 精度下的能效為 8.9TOPS/W;7nm NVIDIA A100 GPU在int4精度下的能效比為 3.12TOPS/W;7nm的聯(lián)發(fā)科處理器(應該是天璣1200)在int8精度下能效比為3.42TOPS/W。
▲IBM 7nm高能效AI芯片與7nm芯片性能及能效比參數(shù)對比
姜波強調,:“對于手機NPU來說,AI算力的提升并不是難點,因為這是可以通過增加NPU的面積把算力堆起來的。但是,手機內部的空間是有限的,并且有著嚴苛的功耗及熱性能的限制,所以高能效比才是關鍵。而要想實現(xiàn)11.6TOPS/W能效比則是非常難的。
“而且這個能效比是基于隨機生成圖片(人眼難以識別的)實測得到的,如果是基于現(xiàn)實世界里的人像、風景等真實的圖片進行處理,這個能效比將超過12TOPS/W。”
雖然,MariSilicon X 的6nm工藝所帶來的提升,也是其高能效比的一個因素,但是更為關鍵的還是MariSilicon X當中NPU單元并沒有采用第三方的NPU IP,而是采用了OPPO自研的MariNeuro IP,以達到OPPO需要的最優(yōu)能效比。
那么,之前在驍龍888上只能跑2fps、功耗達到1.7W的OPPO自研的AI降噪算法在MariNeuro NPU上能有多大的提升呢?答案是速度提升了20倍達到了40fps,使得OPPO自研AI降噪算法可以應用到視頻降噪當中,同時功耗僅有800mW,能效比更是提升了40倍。顯然OPPO自研影像NPU所帶來的實際提升是非常驚人的。
△基于MariSilicon X的4K Ultra HDR視頻降噪效果
△基于MariSilicon X的4K AI夜景視頻效果
2、多級專用高速內存系統(tǒng)
除了NPU本身的架構使得它能夠有更高的能耗效率和更高的利用率之外,內存子系統(tǒng)也是極為關鍵的,因為內存和運算對于AI整個系統(tǒng)是相輔相成的,如果內存變成瓶頸,形成“內存墻”的話,即使有再高的算力也無法發(fā)揮。
所以,OPPO還為MariNeuro NPU定制了一個Tb/秒級的片上內存子系統(tǒng),這也使得NPU架構設計在與算法緊密耦合的同時,內存系統(tǒng)也是根據(jù)算法和場景要求進行相應定制優(yōu)化的。
姜波解釋稱:“我們根據(jù)自己的算法和網(wǎng)絡模型,我們知道它的網(wǎng)絡復雜度有多少,需要多大容量和速度的片上內存去處理,才能達到一個最優(yōu)的目標。其數(shù)據(jù)傳輸速度可達數(shù)萬億比特/秒(Tb/s),遠高于外部的DDR內存。”
在配備片上內存的同時,OPPO還設計了一個多級的內存控制系統(tǒng),并針對MariSilicon X配備了獨立DDR帶寬,這個采用了LPDDR4X的DDR帶寬為8.5Gb/s,是與MariSilicon X的Die封裝在一起的,對于一些速度要求沒那么高的數(shù)據(jù)可以跑在專用的內存上去做。
OPPO表示,從整個系統(tǒng)層面來看,當MariSilicon X跟一個SoC主芯片搭載在一起使用的時候,整個系統(tǒng)的DDR吞吐率增加了17%。
3、20bit Ultra HDR
目前智能手機在繼屏幕尺寸、分辨率及材質的持續(xù)提升之后,屏幕的高動態(tài)范圍 (HDR)顯示效果,正在成為智能手機廠商及用戶追逐的熱點。同樣,對于手機影像拍攝來說,HDR效果也已經(jīng)成為了關鍵點。
所謂HDR(High-Dynamic Range,高動態(tài)范圍),是一種能夠提供更大的動態(tài)范圍以及圖像細節(jié)的顯示技術,可根據(jù)不同的曝光時間的LDR(Low-Dynamic Range,低動態(tài)范圍圖像),并利用每個曝光時間相對應最佳細節(jié)的LDR圖像來合成最終HDR圖像。HDR能夠更好地反映出真實環(huán)境中的視覺效果,即實現(xiàn)接近人眼所能覆蓋的色域,亮度和對比度范圍。
高通最新發(fā)布的新一代驍龍8就集成了三核18-bit ISP,且支持18bit RAW格式拍攝。同樣,聯(lián)發(fā)科發(fā)布的天璣9000的第七代的Imagiq ISP,也支持18bit HDR。
不過,OPPO此次推出的MariSilicon X則更進一步,帶來了更為極致的支持人眼級別的20bit的計算位寬以及20bit Ultra HDR,能覆蓋100萬:1的最大亮度范圍,即一張照片當中最暗和最亮的部分相差了100萬倍,達到了新一代驍龍8及天璣9000的4倍。
而這其中主要得益于MariSilicon X當中另外一個非常重要的OPPO自研IP——MariLumi影像處理單元,其信噪比處理能力達到了120db。相比新一代驍龍8等能夠帶來至少有8dB信噪比的增強,相當于2.6倍的提升。
4、實時RAW計算
對于經(jīng)常玩單反相機的朋友來說,RAW格式并不陌生,這是一種未經(jīng)過壓縮的無損原生照片格式,它完整地記錄了CMOS或者CCD圖像傳感器將捕捉到的光信號轉化為數(shù)字信號的原始數(shù)據(jù)。
相對于其他的例如JPG等壓縮照片格式,RAW格式的優(yōu)勢在于,其是未經(jīng)過任何的處理和壓縮的無損原生格式,最大程度保留了照片拍攝的原始信息,這也使得其擁有更大的后期制作空間。此外,RAW還支持無損調節(jié),同時也使得前期拍攝的環(huán)境色溫、曝光度等參數(shù)能夠有更多的容忍度(后期可以調整)。
隨著智能手機影像技術的發(fā)展,RAW計算也開始被引入到智能手機的拍照當中。OPPO也認為,RAW域是計算影像的黃金點,因為這給了后期的計算影像處理帶來了更大的發(fā)揮空間。
傳統(tǒng)的手機影像計算,通常是將圖像傳感器輸出的RAW信息經(jīng)過SoC當中的ISP轉換成RGB信息,再轉換成YuV(比如MPEG、JPEG等格式),這其中每一步的轉換都是有信息損耗的?,F(xiàn)在手機做AI降噪的算法也是放在YuV階段來做的,HDR也是在YUV里合成的,而這種做法做多只能做到18bit HDR。
MariSilicon X之所以能夠支持20bit Ultra HDR,是因為其將傳統(tǒng)只能在YuV后處理階段完成的AI計算放到了最前端的RAW域計算,即圖像傳感器記錄的原始RAW影像信息直接傳輸給MariSilicon X進行處理,之后再輸出給SoC中的ISP。
具體來說,OPPO的做法是將YUV的算法做成RAW算法,通過MariSilicon X直接在RAW域進行AI計算,即通過在無損的原生數(shù)據(jù)基礎上進行AI處理,從而得到效果更好的影像處理結果。MariSilicon X可以支持20bit RAW實時處理,并且在RAW域合成HDR Fusion。為整個影像鏈路輸出無損計算后的高質量數(shù)據(jù)。這樣的好處,就是在4k場景下,讓圖像亮部有8dB的增強,暗部可以有12dB的增強,也就是說圖像暗部的信噪比可以達到4倍的有效提升。
雖然在RAW域計算能夠帶來更好的影像效果,但是這也使得算法復雜度大大增加,同時20bit RAW的數(shù)據(jù)量非常大,要在RAW域進行大量的實時AI算法計算,也使得MariSilicon X的強大算力及高能效比特性變得尤為重要。只有比原來的SoC直接處理效果更好、速度更快、更低功耗,加入自研芯片才更意義。
5、RGBW傳感器能力全面釋放
對于智能手機來說,暗光拍攝效果的提升一直是一個難點,雖然可以通過采用更大光圈、更大尺寸的傳感器來有效提升進光量,從而提升暗光拍攝表現(xiàn),但是由于手機內部空間及厚度的限制,使得這方面的提升也受到了限制。
于是乎,通過從底層改變傳感器排列,進而提升進光量的方法也成為了另外一個方向。比如RGBW傳感器的像素陣列,就是通過引入對光線更加敏感的白色子像素(W)顯著提升感光能力,從而在暗光環(huán)境下拍攝出更亮的照片。
2019年,OPPO研發(fā)團隊受到當時流行的像素聚合技術的啟發(fā),又創(chuàng)造性地提出了四合一像素聚合技術與RGBW技術相結合,即全新RGBW傳感器在每組4個子像素中引入2個W像素,從而讓每個像素都能具備R(紅)、G(綠)、B(藍)和W(白)信號的識別能力。這也就是今年8月發(fā)布的新一代RGBW捕光傳感器IMX709。
但是,由于OPPO與索尼聯(lián)合定制的RGBW傳感器屬于新的傳感器,并且應用量也相對有限,所以目前通用的手機SoC并不能很好地發(fā)揮出OPPO定制的RGBW傳感器的最大能力。
“如果想要用上RGBW傳感器,第一步要做的就是在傳感器端把RGBW做一個remosaic,變成傳統(tǒng)的RGGB信息,再傳送給SoC處理。實際上這個處理過程中,已經(jīng)丟失了一些有用的信息。雖然,我們希望讓RGBW sensor pattern(傳感器像素排列)發(fā)揮最大價值,但為了與通用的SoC配合,我們必須要做一些妥協(xié)和損耗,才能達到可以用上RGBW。”姜波解釋道。
為了更好發(fā)揮出OPPO定制的RGBW傳感器的能力,MariSilicon X在設計時就充分考慮了這一點,將MariSilicon X與RGBW傳感器進行了緊密的耦合和最大限度的優(yōu)化。
比如,在設計圖像處理pipeline的時候,OPPO做了兩條鏈路,一路是做RGGB信號處理,同時有一路是做White信號處理,這兩路都是進行RAW計算,所以對于處理能力的要求也要增加數(shù)倍。
根據(jù)OPPO公布的實測數(shù)據(jù)顯示,相比一路pipeline效果,通過MariSilicon X進行兩路pipeline的處理,可以得到8.6dB的信噪比提升。同時,在紋理細節(jié)上,通過兩路pipeline的超采樣,可以到1.7倍的解析力的增強。
姜波自豪地說到:“我們通過自研芯片和定制化sensor相互的化學反應和相互耦合,真正將sensor在最初設計時候的最大能力充分發(fā)揮。”
小結:
通過上面的介紹及官方公布的相關參數(shù),我們不難看出,MariSilicon X這款影像NPU確實非常的強大。雖然,OPPO在MariSilicon X的研發(fā)當中也是獲得了很多合作伙伴的幫助,但是核心IP基本都是OPPO自研的,這也主要得益于OPPO強大的芯片研發(fā)團隊的自研能力。
據(jù)芯智訊了解,OPPO是2019年開始研發(fā)芯片的,為了開發(fā)MariSilicon X,OPPO組建的芯片研發(fā)團隊高達2000人(不排除同時有研發(fā)其他芯片),其中很多核心人員都是來自于一線的半導體大廠,比如OPPO芯片產(chǎn)品高級總監(jiān)姜波就來自于高通。
作為對比,vivo自研的ISP芯片V1,300人研發(fā)團隊,歷時2年時間研發(fā)完成。不過,這里需要補充的是,根據(jù)網(wǎng)上的爆料顯示,vivo V1并不是由vivo獨立完成的,而是與聯(lián)詠合作設計的,采用了很多第三方的IP。
另外,比起其他綜合型的NPU,MariSilicon X專注在影像上的設計也實現(xiàn)了更強的視頻性能。
不過,姜波也坦言:“雖然如語音識別等AI算法也可以在MariSilicon X的NPU上來跑,但是肯定不會像影像AI算法跑得那么好。“因為在設計這款芯片時,我們就已經(jīng)有所取舍,我們在影像上,尤其是針對視頻上,要做很大的優(yōu)化和投入,所以針對視頻和照片相關的影像處理,它是擁有極佳功耗的性能的NPU。反過來,像語音這種,它就不是最佳的,所以它的靈活性也是有一定限制的。”
總結來說,MariSilicon X是一款性能強大且擁有極致能效比的影像專用NPU。并且MariSilicon X還首次將20bit RAW計算、Ultra HDR、4K AI HDR視頻降噪集成在一起,使得不論是拍照還是視頻錄制體驗都能夠帶來顯著的提升。
“馬里亞納MariSilicon X是 OPPO未來十年影像的開篇之作,它的問世標志著OPPO在計算影像領域首次實現(xiàn)了全鏈路垂直整合,將完全服務于OPPO定制化的計算影像需求。 隨著明年一季度搭載MariSilicon X的全新Find系列旗艦推出,將推動安卓終端第一次實現(xiàn)計算攝影的里程碑式躍遷,這將為整個行業(yè)的計算影像提供一個新的標桿,相信未來整個行業(yè)都會朝著這個方向發(fā)展。”姜波總結道。
作者:芯智訊-浪客劍