性能超越H100!老黃的勁敵來了一文了解Intel最新Gaudi3AI加速芯片

蜂子說電腦 2024-04-12 19:41:49

AI的紛爭越來越激烈,老黃跟蘇媽都相繼推出了自家的AI加速器。不過大家似乎忘記了還有一個芯片巨頭——Intel。

在美國亞利桑那州Intel Vision 2024會議上,Intel發布性能最強的新一代Gaudi3 AI 加速芯片。當然,也包括全新的下一代英特爾至強6處理器等産品。

不過,我們今天的重點還是看看這個號稱“超越H100”的Gaudi3 AI 加速芯片。

Intel的Gaudi AI加速芯片已經推出了三代了,現有的Gaudi2芯片已經是兩年前的産物,在2023年7月才正式引入國內,不錯的性能與性價比一度成爲不少大廠的優選。

從下圖可以看到,Gaudi2 AI芯片爲台積電7nm工藝制造,集成24個可編程的Tenor張量核心(TPC)、48MB SRAM緩存、21個10萬兆內部互連以太網接口(ROCEv2 RDMA)、96GB HBM2E高帶寬內存(總帶寬2.4TB/s)、多媒體引擎等,支持PCIe 4.0 x16,最高功耗800W。

而全新一代的Gaudi3 AI芯片顯然更勝一籌,專爲高性能、高效率的生成式 AI 計算而生。其采用台積電5nm工藝打造,每個加速器都具有獨特的異構計算引擎,由64個AI定制和可編程TPC和8個MME組成,支持128GB HBMe2內存以及配備96MB SRAM緩存。

相比上代産品,Intel的 Gaudi 3帶來了4倍的BF16 AI計算能力提升,1.5 倍的內存帶寬以及 2 倍的網絡帶寬提升。

同時,每個Gaudi 3當中都集成24個200 Gb以太網端口,提供靈活且開放標准的網絡。而Gaudi 3 的PCIe 功率爲600w,帶寬爲每秒 3.7TB。

當然,AI芯片最重要的還是性能表現,在AI模型算力中,相比NVIDIA的H100 GPU,Gaudi3 AI芯片的模型訓練速度、推理速度都更出色,分別提升了40%和50%,平均性能提升達到了50%,能效更是提高了40%,更重要的是,Gaudi3 AI芯片的成本比H100更低,妥妥的性能更強,價格更低。

即使是面對NVIDIA的H200 GPU,Gaudi 3也毫不遜色。在LLAMA-7B以及LLAMA-70B的部分場景與H200基本是伯仲之間,差距基本在10%以內。如果是在Faicon 180B的大模型裏,Gaudi 3的推理吞吐量和能效則非常出色,最高甚至可以領先H200 30%以上。

性能表現想必已經足夠驚豔你了,Intel還爲Gaudi 3提供多種靈活的形態,包括OAM兼容夾層卡、通用基板、PCIe擴展卡。其中OAM的型號是HL-325L,其實就是單顆Gaudi 3的性能表現,TDP設定爲900W,一般用于風冷型服務器。

更高端的HLB-325則包含八顆 Gaudi 3芯片,提供 14.6 PFLOPS FP8 性能,1TB帶寬速率達 29.6TB/s的HBM2e 內存,64個線性計算引擎,192條200GbE 網絡總線,9.6TB/s吞吐能力。

當然,還有更加精致小巧的版本,適合普通用戶選用。PCIe 版本型號爲 HL-338,提供單卡 1835 TFLOPS FP8 峰值性能,128GB HBM2e 內存,8個線性計算引擎,24條200GbE網絡總線,600W TDP,整張卡僅有兩槽寬。

硬件夠硬,軟件也要夠軟。軟件生態方面,Intel也在發力,Gaudi 3將針對生成式AI提供端到端全棧AI軟件解決方案,包括嵌入式軟件、軟件套件、AI軟件、AI應用等。

Gaudi 3 AI加速芯片兼具高性能、經濟實用、節能、可快速部署等優點,能夠充分滿足複雜性、成本效益、碎片化、數據可靠性、合規性等AI應用需求。

Intel在Vision 2024上也同步介紹了這款芯片的生産節點,計劃在今年第三季度向客戶發貨Gaudi 3 AI芯片,包括聯想、惠普、Dell和Supermicro等OEM廠商都會使用這款新品構建系統。

隨著Gaudi 3的正式發布,當前AI芯片市場呈現出NVIDIA B200、AMD MI300系列和Intel Gaudi 3三足鼎立的格局。

Intel希望能夠利用長期的 AI 技術積累,通過開放生態系統的力量以及出色的Gaudi 3硬件基礎,乘上AI的熱潮。

此次的Gaudi 3 AI加速芯片雖然有著出色的性能與極具競爭力的定價,不過AI領域繞不開的還有生態,這方面NVIDIA依舊是遙遙領先與紅藍兩家,現在AMD與Intel在硬件層面已經追上來了,在軟件層面我們也期待它們能夠持續進步,讓AI新技術普及、普惠到各行各業。

0 阅读:3

蜂子說電腦

簡介:致力分享電腦DIY心得、硬件測評、軟件使用技巧程等教程