色妞AV永久一区二区国产AV,东京热人妻欧美一区2区3区

今年1月，英特爾正式發(fā)布了第四代英特爾至強可擴展處理器（代號Sapphire Rapids）。日前，英特爾市場營銷集團副總裁、中國區(qū)數據中心銷售總經理兼中國區(qū)運營商銷售總經理莊秉翰、及英特爾多位技術專家，從本地實踐應用案例入手，詳細解讀了第四代至強可擴展處理器的技術特性及價值。

“東數西算”引導下，IT市場大有可為

聚焦數據中心和基礎設施建設方向，我國去年推出了“東數西算”重要戰(zhàn)略，強調算力的平衡、以及可持續(xù)性的發(fā)展。莊秉翰談到，“東數西算”對數據中心進行合理分布，再通過高速網絡，可以把東西部的數據資源和數據中心很合理地結合在一起，從而達到數據中心和IT產業(yè)的持續(xù)增長。他認為“東數西算”作為國家級的整體戰(zhàn)略，在政府指導下，在運營商、互聯(lián)網廠商等共同協(xié)作下將發(fā)揮有力作用。

莊秉翰認為，今年下半年市場有望出現(xiàn)正向的回暖跡象，我國在IT方面的支出也會比去年有所增加，“東數西算”戰(zhàn)略將大有可為。

“加速器”成為新一代CPU重要趨勢

第四代至強可擴展處理器是一個高度創(chuàng)新的平臺，采用Intel 7制程工藝制造，擁有全新的芯片架構。通過集成高性能核、更多內核數量、業(yè)內高需求的數據中心工作負載的相關加速器，以及業(yè)界領先的DDR5、CXL1.1、PCIe 5.0等，致力于讓加速無所不在。

“加速器”是第四代至強可擴展處理器最突出的創(chuàng)新點。目前，在數據中心常用的工作負載中，大數據、數據庫、網絡、人工智能等帶來了全新功能。通過融入加速器，可以更高效、更低能耗地處理這些工作負載。莊秉翰指出，以前如果要處理一個工作負載，可能需要多個核，而在第四代至強可擴展處理器平臺上，通過加速器，有可能只用一個核或部分核就可以處理很復雜的業(yè)務。

英特爾技術專家也表示，CPU的發(fā)展一度是核心數量越變越多、主頻越變越高。但是隨著數據中心應用需求的演變，有時候需要做一些壓縮/解壓縮、加/解密，或者會有內存搬移的工作。對于這些工作負載來說，增加CPU核心并不一定是高效的，反而是專有的加速器更高效。與此同時，通過增加加速器，可以提升每瓦性能，提升能效比。

至于內置和外置加速器有什么區(qū)別，對英特爾來說有什么難度和挑戰(zhàn)？英特爾技術專家表示，如果是外置的加速器，可以通過類似PCIe卡的形態(tài)實現(xiàn)。而內置加速器雖然挑戰(zhàn)更大，但是可以帶來如下好處：首先是可以節(jié)約功耗，因為PCIe卡的功耗還是很高的。第二，加速器內置在CPU里面，離內存更近，可以實現(xiàn)大幅的性能提升。

不過，增加加速器的同時，一方面增加了CPU設計的難度，會對設計、驗證的時間有一些影響；另一方面，由于每一個硬件加速器都要和廣大的產業(yè)伙伴或終端用戶進行適配，需要英特爾充分發(fā)揮在業(yè)內的影響力，在整個生態(tài)系統(tǒng)去構建對加速器的支持，才能保證加速器在上市的同時就有大量的軟件去進行支撐。據介紹，英特爾為了解決加速器帶來的開發(fā)和應用挑戰(zhàn)，也在強調使用Chiplet的設計理念，I/O die也將會和Core die做分解，來幫助業(yè)界應對挑戰(zhàn)。

此外，莊秉翰強調，隨著算力市場的需求越來越多，傳統(tǒng)的虛機依然存在很大需求。因此未來CPU的目標，除了對傳統(tǒng)的虛機性能進一步提升之外，也會基于對多核需求的場景，更有針對性地進行開發(fā)。

“算力神器”詳解和應用案例

第四代至強可擴展處理器具備眾多內置加速器，包括AMX、IAA、DLB、DSA、QAT等“七大算力神器”，可提高AI、數據分析、網絡、存儲和科學計算等眾多的性能。值得一提的是，英特爾在MWC 2023期間，發(fā)布集成vRAN Boost的第四代至強可擴展處理器，它可以將物理層加速功能完全集成到芯片中，而無需外置加速卡，從而使得運營商能夠在通用虛擬化平臺上整合所有基站層，帶來很大的性價比提升。

AMX將進一步提升 AI 性能

據英特爾技術專家介紹，第四代至強可擴展處理器內置了全新的英特爾高級矩陣擴展（AMX）。它是首次在CPU平臺上應用的矩陣運算單元，支持兩種數據精度：8bit整型數據（INT8）和16bit浮點數據（即BF16）。人工智能通常有兩種運算場景，一種是訓練，即根據數據不斷迭代出一個模型；另一種場景是推理，就是基于已有模型，針對場景做出一個判斷。訓練時模型的數據精度要得到保證，通常需要BF16以上的數據精度進行運算；而對于推理來說，由于運算量相對較小，通常INT8就可以滿足要求。

以阿里的應用為例，英特爾技術專家分享了雙方是如何展開合作，特別是基于第四代至強可擴展處理器的AMX單元實現(xiàn)了整體的性能提升。

首先是地址標準化，一個典型應用就是淘寶用戶在增加新的收貨地址時，淘寶系統(tǒng)會不斷給出提示，最終幫助用戶定位到某一地址。這個業(yè)務涉及到語義分析，在淘寶中的應用相當廣泛，每天有著千萬級的服務量。而評價該業(yè)務的關鍵性能指標是單位時間內查詢數，希望每秒能夠提供查詢的數量越多越好。

以這個需求為導向，英特爾與阿里展開合作，基于AMX INT8數據類型的精度，同時輔以軟件優(yōu)化手段（例如軟件運算時的層級融合技術，以及英特爾開發(fā)的高性能運算優(yōu)化庫），最終實現(xiàn)了比第三代Ice Lake整機2.48倍的性能提升。

第二個優(yōu)化案例是手機淘寶APP為客戶推薦的定制化首頁。這個業(yè)務的服務量更為龐大，每天服務請求數高達億次。基于AMX BF16數據類型的精度，同時結合軟件優(yōu)化、操作融合，以及在AVX-512的深入調優(yōu)，最終性能達到了原來的3倍。

第三個優(yōu)化案例是由太極機器學習平臺支撐的搜索和廣告業(yè)務，其對性能指標有兩方面要求：首先是能夠滿足的搜索次數越多越好；其次是搜索的延時要小于5毫秒。與前面兩個部署在物理機上的應用實例不同，該業(yè)務部署在騰訊云上。由于客戶的云服務實例有高精度和低精度兩種，高精度實例就可以采用BF16進行數據處理，低精度實例就可以選擇INT8數據處理。經過優(yōu)化，最終不僅降低了對云服務實例CPU數量的需求，同時性能上也得到了提升（高精實例性能是原來的3倍，低精實例性能是原來的2倍）。

結合現(xiàn)在非?；鸬?a class="article-link" target="_blank" href="/tag/AIGC/">AIGC應用，英特爾技術專家表示，Stable Diffusion正在驅動業(yè)務創(chuàng)新和模型創(chuàng)新，它作為一種深度學習模型，有兩個典型的應用場景：一是輸入文本生成高清圖片，二是輸入圖片和提示詞生成另外一個圖片。這一類生成式模型，不論Stable Diffusion還是熱度更高的大語言模型，從技術角度來說，其中大量使用了注意力機制，特別是在Stable Diffusion中，注意力機制的占比較高，通?？梢赃_到50%-80%。

而這個注意力機制其實主要包括了矩陣相乘運算和大量的指數運算。在這類應用中，AMX BF16可以加速矩陣計算，AVX-512指令可以加速指數計算。在使用英特爾PyTorch擴展插件的情況下，可以在512×512這類圖生成上，獲得3.82倍的吞吐提升；在720P上，可以獲得5.26倍的吞吐提升。

目前人工智能OCR/文本識別領域（例如醫(yī)療領域票據的識別、用于交通領域車牌和路標的識別、以及卷宗電子化等應用），都可以引入AMX進行軟硬件方面的優(yōu)化，實現(xiàn)數倍的性能提升。

針對大數據和內存應用的IAA和DSA

IAA（In-Memory Analytics Accelerator），顧名思義是針對大數據、內存分析類型等數據場景，例如數據的解壓、查詢、過濾等，都可以交由加速器完成，從而釋放CPU的計算資源，發(fā)揮整體計算的最大性能，提升能效比。

國內互聯(lián)網廠商、云廠商等應用較多的Clickhouse，在針對大數據分析的應用實例中，一度有一個痛點，就是對數據進行壓縮/解壓縮的同時，勢必會帶來性能損失，因為這個過程會占用CPU資源，基于此，就可以用IAA的壓縮/解壓縮功能去進行加速。

通過在Clickhouse中加入支持IAA -Deflate的插件，從而實現(xiàn)了IAA功能。目前這部分功能已經在社區(qū)開源，便于業(yè)界應用Clickhouse的最新功能。

DSA全稱是Data Streaming Accelerator，這個加速器旨在加速針對內存的搬移和傳輸等工作，從而可以將CPU核心資源釋放出來，去做更多業(yè)務上的場景。目前英特爾有自己的軟件庫DML，同時業(yè)界廣泛應用的DPDK、SPDK等軟件，都已經集成了DSA。

英特爾技術專家還分享了數據中心業(yè)務中大范圍應用的數據服務類應用，包括內存數據庫、關系型數據庫、大數據分析、數據倉庫等，以及基于數據服務類應用之上的企業(yè)關鍵業(yè)務系統(tǒng)，比如ERP、SCM和CRM系統(tǒng)等，它們的性能都非常依賴于底層硬件平臺的支撐。

在大數據分析的應用中，因為對性能有比較高的要求，因此越來越傾向于把數據都緩存在內存中，這實際對內存的帶寬帶來非常高的要求。比如大數據分析中常見的SPARK應用，在CPU核性能提升的情況下，內存帶寬往往是瓶頸。

因此，第四代至強可擴展處理器將內存從DDR4升級到DDR5，得到了50%的內存帶寬的提升。此外，從PCIe 4.0提升到PCIe 5.0，帶來了兩倍的I/O帶寬提升；而除了CPU核數提升之外，CPU單核性能也進行了優(yōu)化，提高了CPU各級緩存的大小。

通過這些CPU內核的升級，根據多種應用的平均值，總體實現(xiàn)了15%的單核性能提升。除此之外，利用DSA加速器，在處理大的數據報文的時候，可以達到1.6倍的性能提升、以及37%的延時降低。在應用QAT加速時，對于數據壓縮場景，可以達到2倍的壓縮吞吐提升，同時帶來95%核占用率的降低。

國內的并行數據庫廠商Gbase，其旗艦產品Gbase 8a在業(yè)內的分析型數據庫評測TPC-DS中，排名世界第三。Gbase 8a專門針對第四代至強可擴展處理器的IAA加速器進行了優(yōu)化，相比第三代Ice Lake，基于兩種不同的加速算法：一是南大通用自研的壓縮算法RapidZ，也是Gbase 8a默認的壓縮算法，在沒有任何加速器優(yōu)化的情況下，可以獲得1.58倍的性能提升；對另一種業(yè)內常用的壓縮算法ZSTD，在沒有進行加速器優(yōu)化的情況下，可獲得1.64倍的性能提升。

在此基礎上如果使用IAA加速器，對于ZSTD可獲得1.84倍的性能提升，并且可以達到與ZSTD相似的壓縮率；而相對于Gbase 8a默認的壓縮算法RapidZ來說，性能提升則是1.66倍。同時，RapidZ為了追求高性能，在壓縮率上做了一些犧牲，而基于第四代至強可擴展處理器，可以在保持較高性能提升的基礎上，壓縮率提高1.51倍。

此外，還有Microsoft SQL Server，通過第四代至強可擴展處理器的QAT加速器用于數據的壓縮、解壓縮、加解密等，可以使備份時間降低至小于原來1/3的時間，同時該服務器基于第四代至強可擴展處理器，還可獲得1.34倍的性能提升。

寫在最后

盡管英特爾至強系列面向的是通用市場，但是，針對千行百業(yè)、越來越細分的計算場景，英特爾通過內置豐富的加速器來提供更有針對性、更為差異化的加速功能，來應對不同的應用負載需求。

此外在軟件方面，英特爾也在加大開源領域的投入，通過優(yōu)化通用軟件，讓上層應用更為容易，為更多計算工作賦能。

器件型號	數量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
ATMEGA1284P-AUR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 44TQFP	ECAD模型下載ECAD模型	$7.15	查看
STM32F429IGT6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT	ECAD模型下載ECAD模型	$14.94	查看
ATXMEGA128A3U-MH	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64		$6.98	查看

器件型號

數量

器件廠商

器件描述

數據手冊

ECAD模型

風險等級

參考價格

更多信息

ATMEGA1284P-AUR

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 44TQFP

$7.15

查看

STM32F429IGT6

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT

$14.94

查看

ATXMEGA128A3U-MH

Atmel Corporation

RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64

$6.98

查看

新算力時代，CPU如何“加速”演進

“東數西算”引導下，IT市場大有可為

“加速器”成為新一代CPU重要趨勢

“算力神器”詳解和應用案例

寫在最后

推薦器件

相關推薦

新算力時代，CPU如何“加速”演進

“東數西算”引導下，IT市場大有可為

“加速器”成為新一代CPU重要趨勢

“算力神器”詳解和應用案例

寫在最后

推薦器件

相關推薦

新算力時代，CPU如何“加速”演進