當前位置:首頁(yè) > 原創(chuàng ) > 劉巖軒
[導讀]大數據集計算的真正限制來(lái)自網(wǎng)絡(luò )和內存兩大瓶頸,而AMD Alveo V80則能夠處理掉這兩大瓶頸,并且幫助客戶(hù)大幅降低TCO。

為提高特定類(lèi)型的計算負載,在數據中心中存在著(zhù)大量的加速卡,包括GPU、FPGA和ASIC等多種不同的類(lèi)型。GPU憑借著(zhù)更高的并行計算能力聞名,對于深度學(xué)習和機器學(xué)習能夠提供更好的效能優(yōu)勢;而FPGA則具備高度可編程性和可配置性,可針對特定任務(wù)進(jìn)行硬件優(yōu)化來(lái)顯著(zhù)提高性能、優(yōu)化延遲并帶來(lái)成本效益。

全球數據中心加速器市場(chǎng)預計將以24%的年增長(cháng)率飛速發(fā)展,到2032年達到1300億。這背后不僅是生成式AI的訓練來(lái)推動(dòng),還包括了各類(lèi)的推理場(chǎng)景的落地。而在像銀行業(yè)的高頻交易、電信行業(yè)的網(wǎng)絡(luò )虛擬化和安全加密、醫學(xué)和科研領(lǐng)域的大規模數據分析和實(shí)時(shí)洞見(jiàn)等具備大規模數據集和低延遲需求的應用中,FPGA加速卡憑借著(zhù)靈活計算和低延遲的優(yōu)勢,通常會(huì )為計算負載帶來(lái)著(zhù)更好的加速表現。

近日AMD發(fā)布了其最新的基于Versal HBM自適應SoC的加速卡——AMD Alveo V80加速卡,這是其第一款面向大規模市場(chǎng)的加速卡產(chǎn)品,旨在幫助突破計算和存儲密集型工作負載中的網(wǎng)絡(luò )和內存帶寬瓶頸,幫助客戶(hù)實(shí)現性能最大化的同時(shí)減少功耗、占板面積和時(shí)延。


大數據集計算的真正限制——網(wǎng)絡(luò )和內存瓶頸

一個(gè)高性能計算架構需要包含數據的輸入、前級處理、主處理單元、內存和高速互聯(lián)輸出等多個(gè)部分,而限制整個(gè)計算加速的瓶頸,其實(shí)并不出現在計算部分。如下圖所示,傳統的架構中,網(wǎng)絡(luò )的輸入帶寬較低,僅支持25G和100G兩個(gè)通路的數據輸入,這為整個(gè)計算架構帶來(lái)了第一個(gè)瓶頸;而計算單元還需要和DDR進(jìn)行反復的數據讀寫(xiě)。但其實(shí)DDR內存的帶寬,遠低于計算單元計算帶寬,這就又產(chǎn)生了第二個(gè)瓶頸。

網(wǎng)絡(luò )帶寬不足可能會(huì )成為整個(gè)系統性能的瓶頸,限制數據處理的速度和效率。內存速度和容量如果不足,將影響數據的快速訪(fǎng)問(wèn)和處理,尤其是在涉及大規模數據集或需要復雜計算的應用中。在這兩個(gè)瓶頸的限制下,即使計算單元有著(zhù)更高的計算速度、后端的PCIe和Interlaken與其他芯片有著(zhù)更快的連接速度,也無(wú)法完全釋放整個(gè)計算架構的真正能力。從整個(gè)架構來(lái)看,要實(shí)現數據流的管理和優(yōu)化,讓其保持與計算單元相匹配的快速響應。

在像高性能科學(xué)模擬、視頻處理和分析、金融技術(shù)等大型計算任務(wù)中,對于網(wǎng)絡(luò )帶寬和內存瓶頸尤其敏感。網(wǎng)絡(luò )和內存性能不足都會(huì )直接影響到任務(wù)的處理速度、系統的響應時(shí)間以及最終的輸出質(zhì)量。因此,在設計和部署這些應用時(shí),優(yōu)化網(wǎng)絡(luò )和內存配置是關(guān)鍵。

“通過(guò)Versal HBM,也就是今天給大家介紹的Alveo V80計算加速卡,能夠主要解決高性能計算工作負載的內存和網(wǎng)絡(luò )訪(fǎng)問(wèn)方面形成瓶頸的這兩個(gè)問(wèn)題?!癆MD 自適應和嵌入式計算事業(yè)部(AECG )高級產(chǎn)品線(xiàn)經(jīng)理Shyam Chander在發(fā)布會(huì )上分享到,“V80芯片支持的工作負載非常廣泛,可以從10G到800G,范圍非常廣泛,而且速率有所提高,能夠支持不同的協(xié)議。HBM再加上其他各種Versal器件,它可以處理掉剛剛提到的瓶頸問(wèn)題,所以不再需要DDR4或其他外部芯片。把安全連接再加上靈活應變的計算,再加上HBM,我們可以幫助用戶(hù)實(shí)現性能的最大化,同時(shí)減少功耗、占板面積以及時(shí)延?!?


Alveo V80加速卡:靈活硬件加速和低時(shí)延處理

Alveo V80加速卡上搭載的加速芯片是來(lái)自AMD的一顆7nm Versal系列自適應SoC,其中包含了260萬(wàn)LUT可編程邏輯資源,以及集成了32GB的HBM2e,能夠達到820GB/s的數據帶寬。此外,該SoC上還集成了400G加密引擎和600G以太網(wǎng)的高帶寬核心,還包括了DDR控制器、PCIe5等硬核資源。

整個(gè)加速卡上除了這顆Versal自適應SoC外,還具備豐富的拓展和連接能力。板載高帶寬收發(fā)器和光纖模塊,能夠支持800G(4X200G)網(wǎng)絡(luò )帶寬、PCIe Gen5金手指、32GB DDR4 DIMM拓展插槽和MCIO拓展插槽等。

據Shyam Chander介紹,相比上一代的Alveo U55C加速卡,Alveo V80的提升明顯。通過(guò)參數對比可以看到存儲器帶寬方面,V80是至高1.8倍,邏輯密度是至高2倍,網(wǎng)絡(luò )帶寬從200GB每秒升至800GB每秒,至高4倍,在PCle帶寬方面至高2倍。

【FPGA加速卡的獨特優(yōu)勢】

網(wǎng)絡(luò )附接加速卡需要與本地的CPU進(jìn)行連接,而受限于CPU的連接能力,所以不能夠無(wú)限增加加速卡的數量。而如果選擇Alveo V80作為網(wǎng)絡(luò )附接加速卡,那么就可以以以網(wǎng)絡(luò )限速加速傳入數據,避開(kāi)CPU至加速器的PCle的瓶頸,實(shí)現每服務(wù)器卡數和計算密度的最大化。

憑借著(zhù)靈活的存儲器層次,自適應計算架構相比傳統架構有著(zhù)更低的時(shí)延和功耗。在傳統的CPU/GPU架構中,計算核心和緩存之間有著(zhù)固定的層次結構,大數據量的讀寫(xiě)必然需要夸層訪(fǎng)問(wèn),這種不規則的訪(fǎng)問(wèn)模式會(huì )帶來(lái)了潛在的低效率。而在自適應計算架構中,內存可以部署地更靠近計算核心,這能夠大大降低了數據遷移的成本。


加速傳感器處理和數據壓縮分析等工作負載,大幅降低客戶(hù)總體擁有成本

憑借著(zhù)Alveo V80的獨特優(yōu)勢,不少客戶(hù)已經(jīng)獲得了更好的加速體驗。AMD在發(fā)布會(huì )現場(chǎng)展示了多個(gè)不同類(lèi)型的案例。一個(gè)非常適合FPGA加速卡的場(chǎng)景是在傳感器處理方面,Alveo V80能夠強化處理相信你,且大幅降低客戶(hù)的成本。

聯(lián)邦科學(xué)與工業(yè)研究組織(CSIRO)需要在每平方公里的面積上部署131000個(gè)天線(xiàn),以15TB/s的速率進(jìn)行次序的傳感器數據采集和傳輸。此前CSIRO選擇的是420塊Alveo U55C卡用于波束成形和相關(guān)器計算,總計需要占用21臺服務(wù)器和4個(gè)機架。而在更新到ALveo V80之后,通過(guò)單卡的密集計算簡(jiǎn)化了整個(gè)新系統的集成、擴展和集群。最終僅需140張V80加速卡就可以完成之前420張U55C才能完成的計算,服務(wù)器數量也減少至14臺,電力消耗也節省了一半以上。換算總擁有成本預計至高可以降低21%。

另一個(gè)典型的用例是在具備壓縮與數據分析功能的服務(wù)器存儲節點(diǎn)上,V80加速卡可用于數據壓縮和分析的功能。NVMe SSD可以直接透過(guò)MICO連接器將數據傳入V80上的Versal SoC中進(jìn)行壓縮、分析和解壓縮等操作,然后將數據通過(guò)PCIe 5傳輸給主機CPU。因為Versal SoC中集成了HBM,所以大大減少了數據遷移,加速了數據查詢(xún)的效率。

據Shyam Chander分享,通過(guò)Alveo V80帶來(lái)的壓縮加速和存儲容量增加,傳統上需要55臺服務(wù)器、1303個(gè)SSD驅動(dòng)器才能完成的計算負載,現在僅需21臺服務(wù)器、504個(gè)SSD驅動(dòng)器和42張V80加速卡即可完成。服務(wù)器成本降低了44%,功耗降低了55%,總擁有成本最高可以降低56%。

除此外,在網(wǎng)絡(luò )安全和金融科技方面,V80加速卡也有著(zhù)不可替代的價(jià)值。憑借著(zhù)硬化的加密引擎和靈活的數據檢測、協(xié)議和安全策略,以及來(lái)自HBM帶來(lái)的緩沖和流量表儲存功能,Alveo V80可以推動(dòng)下一代800G網(wǎng)絡(luò )防火墻的構建。在金融建模和算法交易方面,Alveo V80中的FPGA和DSP計算資源可用于建模仿真和回測,而HBM資源則可用于大數據集和歷史定價(jià)數據存儲,此外還有752Mb的RAM用于定價(jià)數據、交易記錄。


結語(yǔ)

FPGA加速卡相比GPU加速卡,在某些工作負載方面有著(zhù)獨特的優(yōu)勢。而Alveo V80還集成了HBM,因此在提供靈活計算能力的同時(shí),還大大降低了處理的時(shí)延和能效。但不可否認的是,FPGA加速卡對于開(kāi)發(fā)者的硬件編程能力要求更高,純軟件工程師上手可能還需要一些學(xué)習成本。AMD也表示,Alveo V80針對傳統FPGA開(kāi)發(fā)者提供了更為優(yōu)化的開(kāi)發(fā)流程,當他們需要針對自定義工作負載進(jìn)行硬件優(yōu)化的時(shí)候,可以通過(guò)AMD VVivado設計套件來(lái)優(yōu)化RTL設計,快速完成啟動(dòng)項目的示例設計。

Shyam Chander表示,根據不同的工作負載會(huì )有不同的計算加速需求,未來(lái)各種類(lèi)型的加速卡將會(huì )共存。GPU主要擅長(cháng)浮點(diǎn)、并聯(lián)、定點(diǎn)計算,可以提供大量的HBM。FPGA主要擅長(cháng)線(xiàn)上訪(fǎng)問(wèn)的實(shí)時(shí)處理,而且具備低時(shí)延、靈活應變特點(diǎn),有非常豐富的存儲器架構資源,就像樂(lè )高積木一樣,可以自定義進(jìn)行拼接和拼裝?!癋PGA的自適應SoC能降低時(shí)延,也能進(jìn)行實(shí)時(shí)的傳入數據的處理,同時(shí)還能夠減少功耗。所以我覺(jué)得對于硬件開(kāi)發(fā)者來(lái)說(shuō),FPGA為基礎的加速器卡是最為適用的?!?

本站聲明: 本文章由作者或相關(guān)機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀(guān)點(diǎn),本站亦不保證或承諾內容真實(shí)性等。需要轉載請聯(lián)系該專(zhuān)欄作者,如若文章內容侵犯您的權益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

7月8日消息,據國外媒體報道稱(chēng),雖然美國對俄羅斯各種制裁,但依然有很多美國公司堅守在這個(gè)市場(chǎng)。

關(guān)鍵字: AMD 光電模塊 賽靈思

據媒體報道,摩根士丹利的最新報告,NVIDIA特供中國市場(chǎng)的人工智能芯片H20系列,已經(jīng)開(kāi)始吸引包括百度、阿里巴巴、騰訊和字節跳動(dòng)在內的中國科技巨頭的采購興趣。

關(guān)鍵字: NVIDIA AMD 顯卡

7月3日消息,據媒體報道,NVIDIA未來(lái)幾年將面對一個(gè)尷尬的情況,那就是有太多現金。

關(guān)鍵字: NVIDIA AMD 顯卡

在全球經(jīng)濟放緩和內存芯片過(guò)剩庫存的雙重打擊下,SK海力士在2022年遭遇了十年來(lái)的首次虧損。然而,這家韓國芯片巨頭并未因此氣餒,反而宣布了一項高達103萬(wàn)億韓元(約合746億美元)的巨額投資計劃,旨在未來(lái)三年內重塑其在半...

關(guān)鍵字: SK海力士 HBM 高帶寬

杭州2024年7月3日 /美通社/ -- 2024年6月28日,杭州,這座全球矚目的科技創(chuàng )新城市,迎來(lái)了紫光股份旗下新華三集團Digital Tour 2024大會(huì )。本次大會(huì )吸引了近300位來(lái)自世界各地的行業(yè)客戶(hù)、合作伙...

關(guān)鍵字: DIGITAL 數字化 AMD H3C

AMD 與全球領(lǐng)先的高級交易和執行系統提供商 Exegy 合作,取得了創(chuàng )世界紀錄的 STAC-T0 基準測試結果,實(shí)現了最低 13.9 納秒 ( ns ) 的交易執行操作時(shí)延。

關(guān)鍵字: AMD STAC-T0

這幾年,國產(chǎn)芯片公司如雨后春筍般涌現,有的打出了名號,有的因為各種原因經(jīng)營(yíng)不善、偃旗息鼓,比如曾經(jīng)號稱(chēng)“芯片大牛股”、“NVIDIA競爭對手”的左江科技,即將黯然退市。

關(guān)鍵字: NVIDIA AMD 顯卡

在FPGA上實(shí)現AXI總線(xiàn)與DDR3 SDRAM的讀寫(xiě)通常涉及幾個(gè)關(guān)鍵步驟,包括配置DDR3控制器、編寫(xiě)AXI接口邏輯以及編寫(xiě)測試程序或主應用以讀寫(xiě)DDR3內存。下面我將提供一個(gè)簡(jiǎn)化的概述和示例代碼框架,但請注意,具體的...

關(guān)鍵字: FPGA DDR3

FPGA(現場(chǎng)可編程門(mén)陣列)中的一段式狀態(tài)機(也稱(chēng)為簡(jiǎn)單狀態(tài)機或單進(jìn)程狀態(tài)機)通常用于描述具有有限數量狀態(tài)的系統行為。這種狀態(tài)機通常包括一個(gè)狀態(tài)寄存器、一個(gè)輸入信號、一個(gè)輸出信號以及用于狀態(tài)轉換的邏輯。

關(guān)鍵字: FPGA 一段式狀態(tài)機

隨機數是專(zhuān)門(mén)的隨機試驗的結果,產(chǎn)生隨機數有多種不同的方法。這些方法被稱(chēng)為隨機數生成器。隨機數最重要的特性是它在產(chǎn)生時(shí)后面的那個(gè)數與前面的那個(gè)數毫無(wú)關(guān)系。隨機數分為三類(lèi),分別是偽隨機數、密碼學(xué)安全的偽隨機數以及真隨機數。

關(guān)鍵字: FPGA 偽隨機數發(fā)生
關(guān)閉