“圍獵”英偉達H100

芯潮IC 2023-09-26 11:48:12

作者 | 十巷 ; 報道 | 芯潮IC

近段時間以來,以ChatGPT爲首的生成式AI席卷全球,技術升級帶來的生産力巨大提升,也正在對各個産業帶來革命性改變,甚至産業邏輯也需要被重估。

而AI浪潮背後的“賣鏟人”,英偉達一舉邁入了萬億美元市值俱樂部。

英偉達最近一個財季的業績數據同樣令人吃驚。財報數據顯示,英偉達第二財季收入爲135.07億美元,創下紀錄新高,這使分析師給出的110.4億美元預期顯得極爲保守。

英偉達2023財年Q2營收數據

整體來看,英偉達的業務規模基本達到去年同期的兩倍,這幾乎完全要歸功于市場對其AI芯片的旺盛需求,無論是初創企業,還是打造生成式AI服務的科技巨頭們都在瘋狂搶購這些AI芯片。

市場研究公司Omdia近日發布報告稱,預計英偉達二季度用于AI和高性能計算應用的H100 GPU的出貨量超過了900噸。並且預計其在未來幾個季度的GPU銷量將大致相同,因此英偉達今年將銷售約3600 噸重的H100 GPU。

並且還不止這些,還有H800,以及上一代的A100、A800等GPU産品。因此,可以預計,隨著英偉達從生成式AI熱潮中獲利,未來一年的出貨量將會加快。

據行業內部消息透露,2023年英偉達H100的産量早已銷售一空,現在交錢訂購,至少要到2024年中才能拿到貨。

誰將獲得多少A100、H100 GPU,以及何時獲得,都是硅谷當前最熱門的話題。

英偉達最大的客戶們似乎也認可這一點。微軟、亞馬遜、谷歌和Meta等國際巨頭最近發布截至6月的財季的財報時都暗示,它們有強烈意向繼續在生成式AI能力上投入資金,盡管在其他領域的資本投資放緩。

AI教父Sam Altman就曾自曝,GPU已經告急,希望用ChatGPT的用戶能少一點。Sam表示,受GPU限制,OpenAI已經推遲了多項短期計劃。

據消息人士透露,中國的科技巨頭百度、騰訊、阿裏巴巴以及字節跳動公司今年向英偉達下達的交付訂單金額已超過10億美元,總共采購約10萬張A800和H800芯片;明年交付的AI芯片價值更是達到40億美元。

不光是科技公司在排隊購買H100,沙特阿拉伯、阿聯酋等中東國家也勢頭強勁,一次性就買了幾千塊H100 GPU。其中,阿聯酋阿布紮比技術創新研究所開發的“獵鷹40B”模型是近期開源社區中炙手可熱的商用大模型,反映阿聯酋在增強基礎算力方面不遺余力。

在一篇業內熱轉的《Nvidia H100 GPU:供需》文章中,作者也深度剖析了當前科技公司們對GPU的使用情況和需求。文章推測,小型和大型雲提供商的大規模H100集群容量即將耗盡,H100的需求趨勢至少會持續到2024年底。

正如英偉達CEO黃仁勳說:“我們目前的出貨量遠遠不能滿足需求。”

英偉達GPU芯片不光不愁賣,利潤率還高得嚇人。業內專家曾表示,英偉達H100的利潤率接近1000%。消息公布後,迅速引發了芯片戰場上的熱議。

美國金融機構Raymond James在近期的一份報告中透露,H100芯片成本僅約3320美元,但英偉達對其客戶的批量價格仍然高達2.5萬-3萬美元,高達1000%的利潤率導致H100幾乎成爲了有史以來“最賺錢”的一款芯片。

這一點從季度財報中也能得到充分印證,英偉達Q2財季淨利潤高達61.8億美元,同比上升843%。據悉,英偉達最近一個財季的調整後營業利潤率達到了58%,這是至少十年來的最高水平,並且較其之前八個財季平均39%的營業利潤率有大幅躍升。

英偉達井噴式的業績增長和長期展望表明,AI需求並非昙花一現。巨大的市場空間,以及超乎想象的前景,吸引諸多廠商參與其中,將進一步刺激行業競爭。

“圍剿”英偉達

在此趨勢下,AI芯片的戰役正愈演愈烈。

AMD、Intel、IBM等科技巨頭以及新晉企業正陸續推出新的AI芯片,試圖與英偉達AI芯片抗衡;谷歌、微軟、亞馬遜、阿裏、百度等公司也紛紛布局自研芯片,以減少對外部供應商的依賴。

AMD:GPU市場的“二號玩家”

當前的AI芯片市場可以說是英偉達的天下,每一位挑戰者想要動搖其根基都並非易事。AMD作爲英偉達的老對手,自然不會放任其獨攬如此龐大且增速超快的市場。

對于這位GPU市場的“二號玩家”,大家都期待其能拿出撼動英偉達“算力霸主”地位的“終極武器”。

今年6月,備受業界矚目的AMD發布了Instinct MI300系列産品。Instinct MI300系列産品主要包括MI300A、MI300X兩個版本,以及集合了8個MI300X的Instinct Platform。

針對MI300A,AMD CEO蘇姿豐聲稱,這是全球首個爲AI和HPC打造的APU加速卡,采用了“CPU+GPU+內存”的一體化組合形式,擁有13個小芯片,總共包含1460億個晶體管,24個Zen 4 CPU核心,1個CDNA 3圖形引擎和128GB HBM3內存。

Instinct MI300X是一款直接對標英偉達H100芯片,專門面向生成式AI推出的加速器。該産品采用了8個GPU Chiplet加4個I/O內存Chiplet的設計,總共12個5nm Chiplet封裝在一起,使其集成的晶體管數量達到了1530億,高于英偉達H100的800億晶體管,是AMD投産以來最大的芯片,可以加速ChatGPT等大模型應用。

與英偉達的H100芯片相比,AMD Instinct MI 300X的HBM密度是前者的2.4倍,帶寬則爲前者的1.6倍,理論上可以運行比H100更大的模型。

此外,AMD還發布了“AMD Instinct Platform”,集合了8個MI300X,可提供總計1.5TB的HBM3內存。

蘇姿豐表示,隨著模型參數規模越來越大,就需要更多的GPU來運行。而隨著AMD芯片內存的增加,開發人員將不再需要那麽多數量的GPU,能夠爲用戶節省成本。此外,她還透露,MI300X將于今年第三季度向一些客戶提供樣品,並于第四季度量産。

那麽,性能優異的MI300X能否與H100一較高下呢?

有業內專家表示,雖然本次AMD的MI300X采用了更大的192GB HBM3,但英偉達的産品也在叠代,等未來MI300X正式發售時,英偉達可能已經推出了參數更強的産品。而且由于AMD未公布新品價格,采用192GB HBM3的MI300X成本可能與H100相比可能不會有顯著的價格優勢。

其次,MI300X沒有H100所擁有的用于加速Transformer大模型的引擎,這也意味著用同樣數量的MI300X將花費更長的訓練時間。當前,用于AI訓練的GPU供不應求,價格水漲船高,MI300X的推出無疑將利于市場的良性競爭,但短期來看,AMD的MI300X可能更多是作爲客戶買不到H100的“替代品”。

至頂智庫首席分析也表示,盡管從AMD本次公開的性能參數來看,MI300X在很多方面都優于英偉達的H100,但並不是性能越高,就越多人用,這不是一個正向關系。英偉達深耕GPU領域多年,所擁有的市場認可度和産品穩定性都是AMD所不具備的。另外在軟件生態的建立和開發方面,英偉達的CUDA經過十幾年積累已構建其他競爭對手短時間難以逾越的護城河。

雖然AMD目前也已經擁有了一套完整的庫和工具ROCm,也能完全兼容CUDA,爲AMD提供了說服客戶遷移的條件和理由,但兼容只屬權宜之計,只有進一步完善自己的生態才能形成競爭優勢。未來,ROCm需支持更多的操作系統,在AI領域開拓更廣泛的框架,以此吸引更多的開發者,相較于硬件參數,軟件方面的門檻和壁壘更高,AMD需要較長的時間來完善。

Cambrian-AI Research LLC首席分析師Karl Freund在《福布斯》雜志的最新報道中也指出,與英偉達的H100相比,MI300X面臨著一些挑戰。

一方面,英偉達H100已滿載出貨,而MI300X尚處于“襁褓之中”;其次,在AI産業裏,英偉達具有最大的軟件生態系統和最多的研究人員,而AMD的軟件生態沒有那麽完善。並且,AMD還未公開任何基准測試,而訓練和運行AI大模型不僅僅取決于GPU性能,系統設計也尤爲重要。

至于MI300X在內存上的優勢,Karl Freund認爲,英偉達也將提供具備相同內存規格的産品,因此這不會成爲絕對優勢。

綜合來看,AMD想要撼動如日中天的英偉達,並非易事。

不過,不可否認的是,雖然短期內英偉達的“AI王座”難以撼動,但MI300X依舊是英偉達H100的有力競爭者,MI300X將成爲除了英偉達H100以外的“第二選擇”。

從長遠來看,對于英偉達而言,AMD也是值得警惕的競爭對手。

Intel:爭奪AI算力市場寶座

衆所周知,目前GPU資源緊缺,英偉達的100系列在國內禁售,而百模大戰之下算力的需求還在飙升。對于中國市場而言,當前急需AI芯片“解渴”,對于英特爾而言,眼下正值算力緊缺的窗口期,也是進攻的絕佳時機。

今年7月,英特爾面向中國市場推出了AI芯片Habana Gaudi 2,直接對標英偉達GPU的100系列,欲爭奪AI算力市場的寶座。

在發布會現場,英特爾直接將Gaudi 2和英偉達的A100進行比較,其野心可見一斑。根據英特爾公布的數據,Gaudi 2芯片是專爲訓練大語言模型而構建,采用7nm制程,有24個張量處理器核心。從計算機視覺模型訓練到1760億參數的BLOOMZ推理,Gaudi 2每瓦性能約A100的2倍,模型訓練和部署的功耗降低約一半。

英特爾執行副總裁、數據中心與人工智能事業部總經理Sandra Rivera表示,在性能上,根據機器學習與人工智能開放産業聯盟ML Commons在6月底公布的AI性能基准測試MLPerf Training 3.0結果顯示,Gaudi 2是除了英偉達産品外,唯一能把MLPerf GPT 3.0模型跑起來的芯片。

隨著大模型的日新月異,英特爾在近幾個月內圍繞著Gaudi 2繼續進行優化。

據介紹,相比A100,Gaudi 2價格更有競爭力,且性能更高。接下來采用FP8軟件的Gaudi 2預計能夠提供比H100更高的性價比。

事實上,去年英特爾就已經在海外發布了Gaudi 2,此次在中國推出的是“中國特供版”。

英特爾強調,目前在中國市場上,英特爾已經和浪潮信息、新華三、超聚變等國內主要的服務器廠商合作。Sandra Rivera表示:“中國市場對人工智能解決方案的需求非常強勁,我們正在與幾乎所有傳統客戶洽談。雲服務提供商、通信服務提供商都是企業客戶,因此對人工智能解決方案有著強烈的需求。”

另一方面,在産品路線上,英特爾近年一直強調XPU,即多樣化、多組合的異構計算。在AI相關的産品線上,既有集成AI加速器的CPU處理器、有GPU産品,以及Habana Gaudi系列代表的ASIC類型AI芯片。

大模型的火熱還在持續拉動AI芯片的需求。

據了解,英特爾的Gaudi 2處理器自7月份推出以來銷量一直強勁,英特爾首席財務官David Zinsner在早些時候的一次會議上表示,已經看到越來越多的客戶尋求其Gaudi芯片作爲供應短缺的處理器的替代品。

Gaudi是一個人工智能加速的專屬産品。在英特爾産品裏,Gaudi是針對大模型工作負載中性能最佳、最優的一個産品。據Sandra Rivera表示:“明年我們還會有下一代産品Gaudi 3發布。在2025年的時候,我們會把Gaudi的AI芯片跟GPU路線圖合二爲一,推出一個更整合的GPU的産品。”

日前,英特爾在舊金山舉行的“Intel Innovation”盛會上透露,下一代使用5nm工藝打造的Gaudi 3將在性能方面大幅提升。其中,BF16下的性能提升了四倍、計算能力提升了2倍、網絡帶寬的1.5倍以及HBM容量的提升1.5倍。

展望未來,在Gaudi 3之後, 英特爾計劃推出一個代號爲Falcon Shores 的繼任者。

關于Falcon Shores,英特爾沒有披露太多細節。但按照其最初規劃,英特爾會于2024 年推出Falcon Shores芯片、原計劃爲“XPU”設計,即集成CPU和GPU。但在上個月的財報會上,英特爾調整了Falcon Shores的計劃,並隨後將其重新定位爲獨立GPU,並將于2025年發布。

整體來看,Gaudi系列作爲英特爾AI的一艘旗艦,外界也拭目以待Gaudi 2在實際應用中的性能表現和算力實力。從硬件叠代到軟件生態,AI芯片的競爭故事還將繼續。

IBM:模擬AI芯片,引領行業趨勢

人工智能的未來需要能源效率方面的新創新,從模型的設計方式到運行模型的硬件。

IBM最近公布了一款新的模擬AI芯片,據稱其能效比當前業界領先的英偉達H100高出14倍,這款新芯片旨在解決生成式人工智能的主要問題之一:高能耗。這意味著在相同的能量消耗下,它能夠完成更多的計算任務。

這對于大型模型的運行來說尤爲重要,因爲這些大型模型通常需要更多的能量來運行。IBM的這款新芯片有望緩解生成式AI平台企業的壓力,並可能在未來取代英偉達成爲生成式AI平台的主導力量。

這是由于模擬芯片的構建方式造成的。這些組件與數字芯片的不同之處在于,數字芯片可以操縱模擬信號並理解0和1之間的灰度。數字芯片在當今時代應用最廣泛,但它們只能處理不同的二進制信號,在功能、信號處理和應用領域也存在差異。

IBM聲稱其14nm模擬AI芯片每個組件可以編碼3500萬個相變存儲設備,可以建模多達1700萬個參數。同時,該芯片模仿了人腦的運作方式,微芯片直接在內存中執行計算,適用于節能語音識別和轉錄。

IBM在多個實驗中展示了使用這種芯片的優點,其中一個系統能夠以非常接近數字硬件設置的准確度轉錄人們說話的音頻。此外,語音識別速度也得到了顯著提升,提高了7倍。這對于許多需要實時響應的應用場景,如語音助手和智能音箱等,將帶來更加順暢的用戶體驗。

IBM這款模擬AI芯片的發布,標志著模擬芯片成爲人工智能領域的新趨勢。通過集成大量的相變存儲單元,該芯片能夠實現更高效的計算和能效。隨著技術的不斷發展,預計未來模擬芯片有望成爲人工智能領域的新趨勢,成爲推動人工智能技術發展的核心驅動力。

總之,IBM的新型模擬AI芯片有望爲生成式AI領域帶來重大突破。英偉達GPU芯片是爲當今許多生成式AI平台提供動力的組件。如果IBM叠代該原型並爲大衆市場做好准備,它很可能有一天會取代英偉達的芯片成爲當前的中流砥柱。

SambaNova:新型AI芯片,挑戰英偉達

高端GPU持續缺貨之下,一家要挑戰英偉達的芯片初創公司成爲行業熱議焦點。

這家獨角獸企業SambaNova剛發布的新型AI芯片SN40L,該芯片由台積電5nm工藝制造,包含1020億晶體管,峰值速度638TeraFLOPS,高達1.5T的內存,支持25.6萬個token的序列長度。

與主要競品相比,英偉達H100最高擁有80GB HBM3內存,AMD MI300擁有192GB HBM3內存。SN40L的高帶寬HBM3內存實際比前兩者小,更多依靠大容量DRAM。

SambaNova CEO Rodrigo Liang表示,雖然DRAM速度更慢,但專用的軟件編譯器可以智能地分配三個內存層之間的負載,還允許編譯器將8個芯片視爲單個系統。

除了硬件指標,SN40L針對大模型做的優化還有同時提供密集和稀疏計算加速。

Gartner分析師認爲,SN40L的一個可能優勢在于多模態AI。GPU的架構非常嚴格,面對圖像、視頻、文本等多樣數據時可能不夠靈活,而SambaNova可以調整硬件來滿足工作負載的要求。

相比其他芯片供應商,SambaNova業務模式也比較特別,芯片不單賣,而是出售其定制技術堆棧,從芯片到服務器系統,甚至包括部署大模型。

Rodrigo Liang指出,當前行業標准做法下運行萬億參數大模型需要數百枚芯片,我們的方法使總擁有成本只有標准方法的1/25。

根據Rodrigo Liang的說法,8個SN40L組成的集群總共可處理5萬億參數,相當于70個700億參數大模型。全球2000強的企業只需購買兩個這樣的8芯片集群,就能滿足所有大模型需求。

目前,SambaNova的芯片和系統已獲得不少大型客戶,包括世界排名前列的超算實驗室,日本富嶽、美國阿貢國家實驗室、勞倫斯國家實驗室,以及咨詢公司埃森哲等。

雲服務商自研AI芯片,擺脫英偉達

當下,英偉達還是當之無愧的“AI算力王者”,A100、H100系列芯片占據金字塔頂尖位置,是ChatGPT這樣的大型語言模型背後的動力來源。

然而,不管是爲了降低成本,還是減少對英偉達的依賴、提高議價能力,包括谷歌、亞馬遜、微軟、特斯拉、Meta、百度、阿裏等在內的科技巨頭們也都紛紛下場自研AI芯片。

以微軟、谷歌、亞馬遜三巨頭爲例來看,據不完全統計,這3家公司已經推出或計劃發布了8款服務器和AI芯片。

在這場AI芯片競賽中,亞馬遜似乎占據了先機,已擁有兩款AI專用芯片——訓練芯片Trainium和推理芯片Inferentia。2023年初,專爲人工智能打造的Inferentia 2發布,將計算性能提高了三倍,加速器總內存提高了四分之一,吞吐量提高了四分之一,延遲提高了十分之一。Inf2實例最多可支持1750億個參數,這使其成爲大規模模型推理的有力競爭者。

而早在2013年,谷歌就已秘密研發一款專注于AI機器學習算法的芯片,並將其用在內部的雲計算數據中心中,以取代英偉達的GPU。2016年5月,這款自研芯片公諸于世,即TPU。

2020年,谷歌實際上已在其數據中心部署了人工智能芯片TPU v4。不過直到今年4月4日,谷歌才首次公開了技術細節:相比TPU v3,TPU v4性能提升2.1倍。基于TPU v4的超級計算機擁有4096塊芯片,整體速度提高了約10倍。谷歌稱,對于類似大小的系統,谷歌能做到比Graphcore IPU Bow快4.3-4.5倍,比英偉達A100快1.2-1.7倍,功耗低1.3-1.9倍。

目前,谷歌已將負責AI芯片的工程團隊轉移到了谷歌雲,旨在提高谷歌雲出售AI芯片給租用其服務器的公司的能力,從而與更大的競爭對手微軟和亞馬遜雲科技相抗衡。雖然英偉達提供的GPU算力優勢在前,但引爆本次AI的兩位“大拿”OpenAI、Midjourney的算力系統采購的並非英偉達的GPU,而是用了谷歌的方案。

相比之下,微軟在更大程度上依賴于英偉達、AMD和英特爾等芯片制造商的現成或定制硬件。

不過,據The Information報道,微軟也正在計劃推出自己的人工智能芯片。

了解該項目的知情人士稱,微軟早在2019年就開始在內部開發代號爲“雅典娜”的芯片,這些芯片已經提供給一小批微軟和OpenAI員工,他們已經在測試這項技術。微軟希望這款芯片的性能比其斥資數億美元從其他供應商側購置的芯片性能更優,這樣就可以爲價值高昂的人工智能工作節省成本。

據悉,這些芯片是爲訓練大語言模型等軟件而設計,同時可支持推理,能爲ChatGPT背後的所有AI軟件提供動力。另據一位知情人士透露,微軟的AI芯片規劃中囊括了雅典娜芯片的未來幾代産品,最初的雅典娜芯片都將基于5nm工藝生産,可能在明年進入大規模生産階段。

今年5月,微軟還發布了一系列芯片相關招聘信息,正在爲AISoC(人工智能芯片及解決方案)團隊尋找一名首席設計工程師。據稱,該團隊正在研究“能夠以極其高效的方式執行複雜和高性能功能的尖端人工智能設計”。換句話說,微軟某種程度上已把自己的未來寄托在人工智能開發機構OpenAI的一系列技術上,想要制造出比現成的GPU和相關加速器更高效的芯片來運行這些模型。

與此同時,Meta公司披露其正在構建首款專門用于運行AI模型的定制芯片——MTIA芯片,使用名爲RISC-V的開源芯片架構,預計于2025年問世。

另一邊,隨著美國對高性能芯片出口限制措施不斷加強,英偉達A100、H100被限售,A800、H800嚴重缺貨,國産AI芯片肩負起填補市場空缺的重要使命。

目前,包括華爲、阿裏、百度昆侖芯、壁仞科技、寒武紀、天數智芯、瀚博半導體等也在GPU賽道發力,取得一定成績。不過需要重視的是,盡管國産GPU在價格方面有一定優勢,但在算力和生態方面,仍然與英偉達存在差距。

整體來看,當英偉達的一些主要客戶開始自己開發AI芯片,無疑會讓英偉達面臨更爲激烈的競爭。

AI狂飙,英偉達“泡沫”?

根據TrendForce集邦咨詢數據顯示,目前主要由搭載英偉達 A100、H100、AMD MI300,以及大型CSP業者如Google、AWS等自主研發ASIC的AI服務器成長需求較爲強勁,2023年AI服務器出貨量出貨量預估近120萬台,年增率近38%,AI芯片出貨量同步看漲,可望成長突破五成。

在市場的巨大需求下,上述一衆廠商的謀劃明顯是奔著跟英偉達搶生意而來。而面對行業“圍剿”的同時,摩根士丹利分析師也給英偉達貼上了“泡沫”的標簽。

很多人或許認爲,英偉達借力AI熱潮過得風生水起是個新現象,但實際上這醞釀已久。英偉達在ChatGPT面世十年前就定下了AI戰略,據標普全球市場財智彙編的記錄,英偉達早在2006年就開始向投資者宣傳旗下爲AI開發人員所用的CUDA編程語言。

英偉達的AI戰略具有長期性和前瞻性,只是如今隨著AI技術的崛起,那顆在十幾年前射出的子彈,在今天擊中英偉達眉心。

當然,在市場中衆多企業的追趕下,英偉達也並沒有停下自己的腳步。今年8月,在洛杉矶的SIGGRAPH大會上,英偉達拿出了最新一代依托于搭載首款HBM3e處理器的GH200 Grace Hopper超級芯片平台,證明這股AI熱並非搖搖欲墜的空中樓閣。

與當前一代産品相比,最新版本的GH200超級芯片內存容量增加了3.5倍,帶寬增加了3倍;相比最熱門的H100芯片,其內存增加1.7倍,傳輸頻寬增加1.5倍。

可見,除了現有A100、H100等熱門産品出貨持續維持增長以外,英偉達也在持續發布多項用于AI和數據中心的新産品,以進一步鞏固自身在AI領域的話語權和統治力。

雖然隨著時間的推移,英偉達可能會面臨比現在更激烈的競爭。

但從當前進程來看,英偉達和黃仁勳讓算力=GPU=英偉達的“理念”植入人心,而這麽廣闊的市場,竟然真的幾乎只有英偉達一家公司一家獨大,英偉達的業績一路狂飙、英偉達在芯片領域的統治力,目前尚看不到盡頭。

雖然這種狂飙不太可能永遠持續下去,但英偉達給出的信號強烈暗示,其進程遠未結束,AI狂飙才剛開始。

免責聲明:

1、本文內容爲芯潮IC原創,內容及觀點僅供參考,不構成任何投資建議;文中所引用信息均來自市場公開資料,我司對所引信息的准確性和完整性不作任何保證。

2、本文未經許可,不得翻版、複制、刊登、發表或引用。如需轉載,請聯系我們。

4 阅读:4833
评论列表
  • 2023-09-27 19:31

    爲什麽用噸?計算卡可以用噸算的?

  • 2023-09-27 10:35

    後面怎麽沒有推薦小米産品的內容,雨傘也行啊!

  • 2023-09-27 11:24

    你到底想說啥?

  • 2023-09-28 00:14

    這種活太費腦子,我們只要收點土地轉手賣給開發商利潤翻百倍,這收益是英偉達可以抗衡的?

    用戶10xxx25 回覆:
    笑死,你土地還能轉換成算力不成?還是說你土地收益還能到那些企業手裏不成?

芯潮IC

簡介:一同見證“芯”潮澎湃!