• 正文
    • 企業(yè)生成式AI——開(kāi)放平臺(tái),互聯(lián)互通
    • 算力升級(jí)——至強(qiáng)6、Gaudi 3齊開(kāi)“卷”
    • AI高速互聯(lián),推動(dòng)開(kāi)放式以太網(wǎng)網(wǎng)絡(luò)創(chuàng)新
    • 寫(xiě)在最后
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

英特爾火力全開(kāi),打造生成式AI開(kāi)放競(jìng)技場(chǎng)

原創(chuàng)
2024/04/16
3966
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

日前,英特爾舉辦了面向客戶和合作伙伴的英特爾on產(chǎn)業(yè)創(chuàng)新大會(huì)(Intel Vision)。這次大會(huì),英特爾面向生成式AI火力全開(kāi),CPU、AI加速器、AI互連網(wǎng)絡(luò)、AI軟件等都有重要升級(jí)。

大會(huì)期間,中國(guó)區(qū)幾大業(yè)務(wù)線相關(guān)負(fù)責(zé)人(數(shù)據(jù)中心、行業(yè)云、網(wǎng)絡(luò)與邊緣、軟件、大數(shù)據(jù)等)集體亮相,接受了<與非網(wǎng)>等媒體采訪。從這次發(fā)言人的陣容,也可管窺英特爾在生成式AI的全棧戰(zhàn)略,畢竟未來(lái)不是單點(diǎn)技術(shù)的比拼,更是全局戰(zhàn)略和技術(shù)平臺(tái)的較量。

企業(yè)生成式AI——開(kāi)放平臺(tái),互聯(lián)互通

關(guān)于生成式AI在企業(yè)中的應(yīng)用,英特爾市場(chǎng)營(yíng)銷(xiāo)集團(tuán)副總裁、中國(guó)區(qū)數(shù)據(jù)中心銷(xiāo)售總經(jīng)理、中國(guó)區(qū)運(yùn)營(yíng)商銷(xiāo)售總經(jīng)理莊秉翰分享了幾組數(shù)據(jù)洞察:預(yù)計(jì)2026年,80%的企業(yè)將會(huì)使用生成式AI,50%的企業(yè)會(huì)在邊緣計(jì)算部署中涵蓋機(jī)器學(xué)習(xí)。而企業(yè)在生成式AI的投資,預(yù)計(jì)今年達(dá)到400億美元規(guī)模,2027年則會(huì)達(dá)到1510億規(guī)模。

在企業(yè)生成式AI這個(gè)大市場(chǎng),英特爾首先洞察到了“數(shù)據(jù)”蘊(yùn)藏的巨大機(jī)遇。Accenture首席AI官Lan Guan在和英特爾CEO帕特·基辛格(Pat Gelsinger)的對(duì)談中,提到了企業(yè)部署AI的三個(gè)常見(jiàn)挑戰(zhàn):首先是企業(yè)難以從AI投資中實(shí)現(xiàn)更大價(jià)值,即使他們有明確定義的AI KPI,但這些通常只是任務(wù)為導(dǎo)向的方法,缺乏整體層面的聚合價(jià)值;其次是數(shù)據(jù)質(zhì)量不足,大多數(shù)都是基于互聯(lián)網(wǎng)通用數(shù)據(jù),而企業(yè)的隱私數(shù)據(jù)和通用模型結(jié)合是一個(gè)很大的挑戰(zhàn);第三是AI技能缺口,企業(yè)需要額外的培訓(xùn)或是專(zhuān)門(mén)的人才來(lái)構(gòu)建、運(yùn)營(yíng)和管理AI,以便從項(xiàng)目中獲取到相關(guān)的數(shù)據(jù)或反饋。

那么,企業(yè)究竟該如何部署生成式AI?如何幫助他們釋放龐大的、專(zhuān)有的數(shù)據(jù)集的價(jià)值?帕特·基辛格認(rèn)為,不論是從經(jīng)濟(jì)性、即時(shí)響應(yīng)能力還是數(shù)據(jù)的安全角度,邊緣AI都已是大勢(shì)所趨。

正因如此,英特爾首先希望通過(guò)AI幫助企業(yè)提升在數(shù)據(jù)檢索和增強(qiáng)生成方面的能力,幫助他們?cè)谡麄€(gè)工作流程中順暢地實(shí)施AI。

RAG(檢索增強(qiáng)生成)技術(shù)——是英特爾最新推出的用于解鎖企業(yè)數(shù)據(jù)資產(chǎn)的生成式AI系統(tǒng)。通過(guò)聯(lián)合Anyscale、Articul8、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、VMware、Yellowbrick和Zilliz,這一開(kāi)放的、多供應(yīng)商的系統(tǒng),可使企業(yè)在標(biāo)準(zhǔn)云基礎(chǔ)設(shè)施上運(yùn)行的大量現(xiàn)存專(zhuān)有數(shù)據(jù)源得到開(kāi)放大語(yǔ)言模型(LLM)功能的增強(qiáng)。

英特爾院士、大數(shù)據(jù)技術(shù)全球首席技術(shù)官、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長(zhǎng)戴金權(quán)認(rèn)為,構(gòu)建生成式AI應(yīng)用不僅僅是擁有一個(gè)大模型那么簡(jiǎn)單,實(shí)際上涉及創(chuàng)建一個(gè)完整的AI系統(tǒng),其中包括大模型和其他組件,以形成一個(gè)工作流。RAG就是一個(gè)典型的例子,它解決了如何對(duì)大模型進(jìn)行知識(shí)增強(qiáng)的問(wèn)題,通過(guò)結(jié)合個(gè)人、私有或垂直領(lǐng)域的知識(shí),以及使用增強(qiáng)數(shù)據(jù)庫(kù)、知識(shí)圖譜和規(guī)劃方法等技術(shù),構(gòu)建復(fù)雜的AI系統(tǒng)。

近期一些新的應(yīng)用場(chǎng)景,如Copilot,無(wú)論是用于編寫(xiě)代碼還是個(gè)人電腦使用,都體現(xiàn)了生成式AI的實(shí)際應(yīng)用。“在這些復(fù)雜的AI系統(tǒng)中,大模型充當(dāng)著核心控制器或大腦的角色,與個(gè)人和私有知識(shí)以及其他工具相結(jié)合,以解決各種應(yīng)用場(chǎng)景的問(wèn)題,這是生成式AI發(fā)展的趨勢(shì)”,戴金權(quán)表示。

英特爾公司副總裁、英特爾中國(guó)軟件和先進(jìn)技術(shù)事業(yè)部總經(jīng)理李映補(bǔ)充,RAG能夠?qū)ζ髽I(yè)內(nèi)部私有數(shù)據(jù)和公開(kāi)的大模型進(jìn)行整合。通過(guò)開(kāi)放聯(lián)盟的形式,英特爾旨在建立一個(gè)開(kāi)放平臺(tái),促進(jìn)不同RAG組件之間的互聯(lián)互通,共同推動(dòng)企業(yè)AI架構(gòu)的構(gòu)建和發(fā)展。這一戰(zhàn)略不僅加強(qiáng)了企業(yè)內(nèi)部數(shù)據(jù)的利用,還推動(dòng)了整個(gè)AI生態(tài)系統(tǒng)的創(chuàng)新和協(xié)作。

李映也分享了英特爾的AI軟件戰(zhàn)略,他表示,未來(lái),英特爾軟件業(yè)務(wù)非常重要的一方面是如何通過(guò)軟件加速企業(yè)AI的發(fā)展。而企業(yè)AI的軟件發(fā)展方向集中在如何將傳統(tǒng)的云架構(gòu)與新興的、基于大數(shù)據(jù)和大模型的AI架構(gòu)相融合。

軟件在此過(guò)程中扮演著加速器的角色,確保無(wú)論是CPU還是GPU,硬件性能得到最大化利用,并促進(jìn)不同硬件架構(gòu)之間的互操作性。此外,軟件還負(fù)責(zé)在傳統(tǒng)架構(gòu)和AI應(yīng)用之間進(jìn)行資源的高效分配和管理。英特爾不僅是AI軟件創(chuàng)新的推動(dòng)者,例如在PyTorch框架中的重要貢獻(xiàn),而且還致力于將最新的技術(shù)成果集成到開(kāi)源框架中,如oneAPI的推廣和應(yīng)用。

算力升級(jí)——至強(qiáng)6、Gaudi 3齊開(kāi)“卷”

至強(qiáng)6品牌煥新

在大模型和生成式AI智力涌現(xiàn)的背后,算力是行業(yè)關(guān)注的重點(diǎn)。英特爾的至強(qiáng)系列推出第六代產(chǎn)品,不同于以往單一產(chǎn)品的推出,此次是基于兩種微架構(gòu)設(shè)計(jì):性能核(P-core)和能效核(E-Core)的產(chǎn)品組合,旨在解決數(shù)據(jù)中心在性能、功耗和多樣化工作負(fù)載等方面的挑戰(zhàn)。

配備能效核的英特爾至強(qiáng)6處理器(此前代號(hào)為Sierra Forest),可將機(jī)架密度提高2.7倍;客戶能以近3:1的比例替換舊系統(tǒng),大幅降低能耗,幫助其實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)。這意味著,如果使用第二代至強(qiáng)可擴(kuò)展處理器需要200個(gè)服務(wù)器機(jī)架的話,轉(zhuǎn)而使用能效核只需要72個(gè)服務(wù)器機(jī)架。這樣的改進(jìn)不僅大幅減少了所需的物理空間,還節(jié)省了超過(guò)1兆瓦的功耗。

配備性能核的英特爾至強(qiáng)6處理器(此前代號(hào)為Granite Rapids),包含了對(duì)MXFP4數(shù)據(jù)格式的軟件支持,與使用FP16的第四代至強(qiáng)處理器相比,可將下一個(gè)令牌(token)的延遲時(shí)間最多縮短6.5倍,能夠運(yùn)行700億參數(shù)的Llama-2模型。

英特爾市場(chǎng)營(yíng)銷(xiāo)集團(tuán)副總裁、中國(guó)區(qū)云與行業(yè)解決方案部總經(jīng)理梁雅莉,首先以金山云的合作案例,介紹了至強(qiáng)在提升云服務(wù)性能方面的重要作用。通過(guò)與金山云的合作,英特爾針對(duì)X7云服務(wù)器進(jìn)行了優(yōu)化,顯著提高了Stable Diffusion、Llama2和ChatGLM2等大模型的推理性能,其中Stable Diffusion的性能提升了4.96倍。這種優(yōu)化不僅使算力更易于獲取、具有通用性和可靠性,還簡(jiǎn)化了部署過(guò)程,降低了成本,并允許靈活運(yùn)行其他負(fù)載。

此外,京東云基于搭載至強(qiáng)的基礎(chǔ)設(shè)施,在智能營(yíng)銷(xiāo)和客服等領(lǐng)域?qū)崿F(xiàn)了AI的廣泛應(yīng)用,新一代云服務(wù)器性能提升23%。

除了云服務(wù),英特爾在智能制造、醫(yī)療和教育等多個(gè)關(guān)鍵行業(yè)在推動(dòng)AI技術(shù)的應(yīng)用。在智能制造領(lǐng)域,與TCL華星合作提升生產(chǎn)效率、降低成本;在醫(yī)療領(lǐng)域,與英矽智能共同利用AI加速藥物發(fā)現(xiàn)過(guò)程;在教育領(lǐng)域,與華東師范大學(xué)合作開(kāi)發(fā)大模型一體機(jī),提高教師工作效率并支持終身學(xué)習(xí)。

梁雅莉表示,去年,“百模大戰(zhàn)”重點(diǎn)關(guān)注AI大模型的訓(xùn)練;而今年,頭部互聯(lián)網(wǎng)和大模型公司面臨的挑戰(zhàn)是如何將生成式AI落地并變現(xiàn);其他企業(yè)則需要考慮如何選擇適合的大模型來(lái)融入生產(chǎn)或業(yè)務(wù)流程中創(chuàng)造價(jià)值。

“這要求企業(yè)根據(jù)具體情況選擇最合適的AI策略和基礎(chǔ)設(shè)施,企業(yè)需要考慮如何在確保經(jīng)濟(jì)適用性的同時(shí),找到最合適的方案來(lái)實(shí)現(xiàn)AI的實(shí)際價(jià)值”,她補(bǔ)充,“英特爾致力于將AI技術(shù)落地,為行業(yè)帶來(lái)實(shí)際價(jià)值?!?/p>

用于AI訓(xùn)練和推理的Gaudi 3

再來(lái)看最新發(fā)布的英特爾Gaudi 3 AI加速器。與上一代產(chǎn)品相比,英特爾Gaudi 3將帶來(lái)4倍的BF16 AI計(jì)算能力提升,以及1.5倍的內(nèi)存帶寬提升。該加速器將為尋求大規(guī)模部署生成式AI的企業(yè)帶來(lái)AI訓(xùn)練和推理方面的重大飛躍。

另?yè)?jù)英特爾公布的Gaudi 3芯片英偉達(dá)H100芯片的比較,推理能力平均提高50%,能效平均提高40%,運(yùn)行人工智能模型的速度是H100的1.5倍。

在訓(xùn)練70億和130億參數(shù)Llama2模型、以及1750億參數(shù)GPT-3模型時(shí),英特爾Gaudi 3可大幅縮短訓(xùn)練時(shí)間。此外,在Llama 7B、70B和Falcon 180B大語(yǔ)言模型(LLM)的推理吞吐量和能效方面也展現(xiàn)了出色性能。

值得一提的是,Gaudi 3 AI加速器采用以太網(wǎng)通用標(biāo)準(zhǔn)連接,這一被廣泛應(yīng)用的行業(yè)標(biāo)準(zhǔn)有助于單個(gè)節(jié)點(diǎn)向擁有數(shù)千個(gè)節(jié)點(diǎn)的集群進(jìn)行擴(kuò)展,比如在AI系統(tǒng)中連接多達(dá)數(shù)萬(wàn)個(gè)加速器,支持大規(guī)模的推理、微調(diào)和訓(xùn)練。

英特爾還將首次提供采用PCIe規(guī)格的Gaudi 3版本,HL-338卡是一款10.5英寸的全高雙槽PCIe卡,提供與OAM Gaudi 3相同的所有硬件,甚至可達(dá)到1835 TFLOPS FP8的峰值性能。

AI高速互聯(lián),推動(dòng)開(kāi)放式以太網(wǎng)網(wǎng)絡(luò)創(chuàng)新

AI系統(tǒng)目前主要還是基于馮·諾依曼架構(gòu),依賴(lài)于計(jì)算能力和數(shù)據(jù)傳輸性能。隨著大模型的規(guī)模增長(zhǎng)至萬(wàn)億參數(shù),分布式并行系統(tǒng)成為滿足推理和訓(xùn)練需求的關(guān)鍵。由于訓(xùn)練過(guò)程中產(chǎn)生的大量中間結(jié)果需要在多個(gè)加速卡之間共享,導(dǎo)致網(wǎng)絡(luò)流量呈現(xiàn)瞬時(shí)并發(fā)特征,易造成擁塞,因此解決網(wǎng)絡(luò)擁塞問(wèn)題成為提升大模型性能和擴(kuò)展規(guī)模的核心挑戰(zhàn)。

當(dāng)前,在AI大模型系統(tǒng)的互連技術(shù)中,主要存在兩種方法:縱向(Scale up)和橫向(Scale out)。Scale up專(zhuān)注于單個(gè)計(jì)算節(jié)點(diǎn)內(nèi)部的互連,它主要處理的是節(jié)點(diǎn)內(nèi)部不同加速卡之間的數(shù)據(jù)傳輸和通信。在AI應(yīng)用中,Scale up允許多個(gè)處理器或加速器在同一節(jié)點(diǎn)內(nèi)高效地共享數(shù)據(jù),這對(duì)于保持高性能計(jì)算至關(guān)重要。例如,在訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)時(shí),節(jié)點(diǎn)內(nèi)部的多個(gè)GPU需要頻繁交換大量數(shù)據(jù),Scale up技術(shù)能夠確保這些交換快速且無(wú)縫進(jìn)行,減少數(shù)據(jù)瓶頸和延遲。

而Scale out關(guān)注的是計(jì)算節(jié)點(diǎn)之間的互連。這種方法涉及將多個(gè)計(jì)算節(jié)點(diǎn)連接起來(lái),形成一個(gè)強(qiáng)大的分布式計(jì)算網(wǎng)絡(luò)。在AI領(lǐng)域,Scale out支持大規(guī)模并行處理,使得可以同時(shí)在多個(gè)節(jié)點(diǎn)上運(yùn)行不同的計(jì)算任務(wù)。這種方法對(duì)于處理龐大的數(shù)據(jù)集和復(fù)雜的AI模型尤為重要,因?yàn)樗试S系統(tǒng)擴(kuò)展到更多的硬件資源,從而提高整體的處理能力和效率。

為了支持大規(guī)模scale-up和scale-out高速互聯(lián),英特爾正在通過(guò)超以太網(wǎng)聯(lián)盟(UEC),驅(qū)動(dòng)面向AI高速互聯(lián)技術(shù)(AI Fabrics)的開(kāi)放式以太網(wǎng)網(wǎng)絡(luò)創(chuàng)新,并推出一系列針對(duì)AI優(yōu)化的以太網(wǎng)解決方案。英特爾的產(chǎn)品組合包括英特爾AI網(wǎng)絡(luò)連接卡(AI NIC)、集成到XPU的AI連接芯粒、基于Gaudi加速器的系統(tǒng),以及一系列面向英特爾代工的AI互聯(lián)軟硬件參考設(shè)計(jì)。

英特爾中國(guó)網(wǎng)絡(luò)與邊緣事業(yè)部首席技術(shù)官、英特爾高級(jí)首席AI工程師張宇表示,當(dāng)前在Scale out互連技術(shù)領(lǐng)域,InfiniBand較為封閉,而以太網(wǎng)雖然生態(tài)龐大、產(chǎn)品多樣,但最初設(shè)計(jì)并未針對(duì)復(fù)雜應(yīng)用場(chǎng)景,更適用于互聯(lián)網(wǎng)這種可容忍數(shù)據(jù)包丟失的場(chǎng)景。但是在AI大模型訓(xùn)練中,數(shù)據(jù)包丟失可能導(dǎo)致巨大開(kāi)銷(xiāo),因此需要一個(gè)可靠的網(wǎng)絡(luò)系統(tǒng)來(lái)應(yīng)對(duì)瞬時(shí)并發(fā)和脈沖式尖峰的網(wǎng)絡(luò)流量。目前,以太網(wǎng)方案如RoCE V2協(xié)議已有所改進(jìn),但仍不完善。

超以太網(wǎng)聯(lián)盟旨在改進(jìn)以太網(wǎng)技術(shù),創(chuàng)建端到端的協(xié)議,以應(yīng)對(duì)大模型中的網(wǎng)絡(luò)挑戰(zhàn)。目前聯(lián)盟已發(fā)布相關(guān)白皮書(shū),英特爾在其中做出了貢獻(xiàn),并希望將這些開(kāi)放協(xié)議應(yīng)用于產(chǎn)品中,實(shí)現(xiàn)不同廠商和合作伙伴產(chǎn)品的協(xié)同工作,構(gòu)建完整網(wǎng)絡(luò)。“開(kāi)放的好處在于提供更多選擇,能夠降低成本,歷史已多次證明這一點(diǎn)”,張宇強(qiáng)調(diào)。

今年下半年,英特爾將推出第一代基于ASIC IPU的產(chǎn)品,也就是基礎(chǔ)架構(gòu)處理器產(chǎn)品。它能夠提供200GB/s的速度,同時(shí)能夠提供靈活的包處理能力,滿足大模型時(shí)代的網(wǎng)絡(luò)要求。

另?yè)?jù)透露,AI NIC會(huì)有兩種形態(tài):一是獨(dú)立網(wǎng)卡,可以和不同加速器進(jìn)行對(duì)接;另一種是芯粒形態(tài),不同AI加速器甚至可以把AI NIC集成到SoC芯片中,英特爾2026年推出的AI加速器將會(huì)集成AI NIC。

寫(xiě)在最后

如果要描述英特爾生成式AI的戰(zhàn)略方向,個(gè)人認(rèn)為“開(kāi)放、生態(tài)、系統(tǒng)化”比較有代表性。面對(duì)生成式AI對(duì)更高、更強(qiáng)算力的狂熱追求,英特爾更加注重發(fā)揮開(kāi)放平臺(tái)和強(qiáng)大生態(tài)的力量,并且正在通過(guò)旗下的全棧技術(shù)去形成更有競(jìng)爭(zhēng)力的系統(tǒng)化方案。

帕特·基辛格演講中的一張圖令人印象深刻,針對(duì)企業(yè)AI,英特爾聯(lián)合了近20家公司去構(gòu)建了一個(gè)開(kāi)放平臺(tái)。

生成式AI趨勢(shì)下,開(kāi)放、開(kāi)源、閉源技術(shù)在并行演進(jìn),玩家越來(lái)越多,在這個(gè)自然演變的過(guò)程中,難以預(yù)測(cè)誰(shuí)是未來(lái)的大贏家,也正是如此,這個(gè)聯(lián)盟初次亮相就有如此豐富的陣容。而包括英特爾在內(nèi)的聯(lián)盟成員,如何推動(dòng)標(biāo)準(zhǔn)框架的演進(jìn),融入更多、更開(kāi)放的玩家,保證產(chǎn)業(yè)進(jìn)程整體的發(fā)展方向,將是一場(chǎng)誰(shuí)都不能丟棒的接力賽。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
ATMEGA1284P-AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$7.15 查看
STM32F429IGT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT

ECAD模型

下載ECAD模型
$14.94 查看
ATXMEGA128A3U-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64
$6.98 查看
英特爾

英特爾

英特爾在云計(jì)算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計(jì)算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄