計算機行業報告:國産AI算力行業報告,浪潮洶湧,勢不可擋

報告研讀小助理 2024-03-27 09:14:19

報告出品方:東吳證券

以下爲報告原文節選

------

1. 海外:模型、應用和算力相互推進

2 月 16 日,OpenAI 發布了首個文生視頻模型 Sora。Sora 可以直接輸出長達 60 秒的視頻,並且包含高度細致的背景、複雜的多角度鏡頭,以及富有情感的多個角色。

3 月 4 日,Anthropic 發布了新一代 AI 大模型系列——Claude 3。該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

其中,能力最強的 Opus 在多項基准測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基准。Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分爲 59.4%,超過 GPT-4V,與 Gemini1.0 Ultra 持平)。

3 月 18 日,馬斯克開源大模型 Grok-1。馬斯克旗下 AI 初創公司 xAI 宣布,其研發的大模型 Grok-1 正式對外開源開放,用戶可直接通過磁鏈下載基本模型權重和網絡架構信息。xAI 表示,Grok-1 是一個由 xAI 2023 年 10 月使用基于 JAX 和 Rust 的自定義訓練堆棧、從頭開始訓練的 3140 億參數的混合專家(MOE)模型,遠超 OpenAI 的 GPT模型。

在 CEO 奧爾特曼的帶領下,OpenAI 或許有望在今年夏季推出 GPT-5。

3 月 23 日,媒體援引知情人士透露,OpenAI 計劃下周在美國洛杉矶與好萊塢的影視公司和媒體高管會面。OpenAI 希望與好萊塢合作,並鼓勵電影制作人將 OpenAI 最新AI 視頻生成工具 Sora 應用到電影制作中,從而拓展 OpenAI 在娛樂行業的影響力。

3 月 19 日,英偉達 GTC 大會上,英偉達發布新的 B200 GPU,以及將兩個 B200與單個 Grace CPU 相結合的 GB200。

全新 B200 GPU 擁有 2080 億個晶體管,采用台積電 4NP 工藝節點,提供高達 20petaflops FP4 的算力。與 H100 相比,B200 的晶體管數量是其(800 億)2 倍多。而單個 H100 最多提供 4 petaflops 算力,直接實現了 5 倍性能提升。

而 GB200 是將 2 個 Blackwell GPU 和 1 個 Grace CPU 結合在一起,能夠爲 LLM推理工作負載提供 30 倍性能,同時還可以大大提高效率。

計算能力不斷提升。過去,訓練一個 1.8 萬億參數的模型,需要 8000 個 Hopper GPU和 15MW 的電力。如今,2000 個 Blackwell GPU 就能完成這項工作,耗電量僅爲 4MW。

在 GPT-3(1750 億參數)大模型基准測試中,GB200 的性能是 H100 的 7 倍,訓練速度是 H100 的 4 倍。

2. 國內模型逐步追趕,提升算力需求

Kimi 逐漸走紅。月之暗面 Kimi 智能助手 2023 年 10 月初次亮相時,憑借約 20 萬漢字的無損上下文能力,幫助用戶解鎖了專業學術論文的翻譯和理解、輔助分析法律問題、一次性整理幾十張發票、快速理解 API 開發文檔等,獲得了良好的用戶口碑和用戶量的快速增長。

2024 年 3 月 18 日,Kimi 智能助手在長上下文窗口技術上再次取得突破,無損上下文長度提升了一個數量級到 200 萬字。

過去要 10000 小時才能成爲專家的領域,現在只需要 10 分鍾,Kimi 就能接近任何一個新領域的初級專家水平。用戶可以跟 Kimi 探討這個領域的問題,讓 Kimi 幫助自己練習專業技能,或者啓發新的想法。有了支持 200 萬字無損上下文的 Kimi,快速學習任何一個新領域都會變得更加輕松。

訪問量提升,kimi 算力告急。3 月 21 日下午,大模型應用 Kimi 的 APP 和小程序均顯示無法正常使用,其母公司月之暗面針對網站異常情況發布說明:從 3 月 20 日 9點 30 分開始,觀測到 Kimi 的系統流量持續異常增高,流量增加的趨勢遠超對資源的預期規劃。這導致了從 20 日 10 點開始,有較多的 SaaS 客戶持續的體驗到 429:engine is overloaded 的異常問題,並對此表示深表抱歉。

2024 年 3 月 23 日,階躍星辰發布 Step 系列通用大模型。産品包括 Step-1 千億參數語言大模型、Step-1V 千億參數多模態大模型,以及 Step-2 萬億參數 MoE 語言大模型的預覽版,提供 API 接口給部分合作夥伴試用。

相比于 GPT-3.5 是一個千億參數模型,GPT-4 是擁有萬億規模參數,國內大模型廠商如果想追趕,需要各個維度要求都上一個台階。

階躍星辰發布了萬億參數大模型預覽版,標志著國産 AI 大模型取得了巨大進步。

國産 AI 大模型正在不斷叠代,對算力需求會不斷提升。

3. 國內算力産業現狀盤點

3.1. 算力有哪些核心指標?

算力芯片的主要參數指標爲算力浮點數,顯存,顯存帶寬,功耗和互連技術等。

算力浮點數:算力最基本的計量單位是 FLOPS,英文 Floating-point Operations Per Second,即每秒執行的浮點運算次數。算力可分爲雙精度(FP64),單精度(FP32),半精度(FP16)和 INT8。FP64 計算多用于對計算精確度要求較高的場景,例如科學計算、物理仿真等;FP32 計算多用于大模型訓練等場景;FP16 和 INT8 多用于模型推理等對精度要求較低的場景。

GPU 顯存:顯存用于存放模型,數據顯存越大,所能運行的網絡也就越大。

在預訓練階段,大模型通常選擇較大規模的數據集獲取泛化能力,因此需要較大的批次等來保證模型的訓練強大。而模型的權重也是從頭開始計算,因此通常也會選擇高精度(如 32 位浮點數)進行訓練。需要消耗大量的 GPU 顯存資源。

在微調階段,通常會凍結大部分參數,只訓練小部分參數。同時,也會選擇非常多的優化技術和較少的高質量數據集來提高微調效果,此時,由于模型已經在預訓練階段進行了大量的訓練,微調時的數值誤差對模型的影響通常較小。也常常選擇 16 位精度訓練。因此通常比預訓練階段消耗更低的顯存資源。

在推理階段,通常只是將一個輸入數據經過模型的前向計算得到結果即可,因此需要最少的顯存即可運行。

顯存帶寬:是運算單元和顯存之間的通信速率,越大越好。

互連技術:一般用于顯存之間的通信,分布式訓練,無論是模型並行還是數據並行,GPU 之間都需要快速通信,不然就是性能的瓶頸。

3.2. 國産算力和海外的差距

從單芯片能力看,訓練産品與英偉達仍有 1-2 代硬件差距。根據科大訊飛,華爲昇騰 910B 能力已經基本做到可對標英偉達 A100。推理産品距離海外差距相對較小。

從片間互聯看,片間和系統間互聯能力較弱。國産 AI 芯片以免費 CCIX 爲主,生態不完整,缺少實用案例,無 NV-Link 類似的協議。大規模部署穩定性和規模性距離海外仍有較大差距。

從生態看,大模型多數需要在專有框架下才能發揮性能,軟件生態差距明顯,移植靈活性,産品易用性與客戶預期差距較大。客戶如果使用國産 AI 芯片,需要額外付出成本。

從研發能力看,産品研發能力(設計與制程),核心 IP(HBM,接口等)等不足,阻礙了硬件的性能提升。

3.3. 國産化和生態抉擇

海外制裁後,AI 芯片國産化訴求加大。主要系供應鏈安全和政策強制要求。

2024 年 3 月 22 日,上海市通信管理局等 11 個部門聯合印發《上海市智能算力基礎設施高質量發展 “算力浦江”智算行動實施方案(2024-2025 年)》。到 2025 年,上海市市新建智算中心國産算力芯片使用占比超過 50%,國産存儲使用占比超過 50%,服務具有國際影響力的通用及垂直行業大模型設計應用企業超過 10 家。

但國産 AI 芯片由于生態、穩定性、算力等問題,目前較多用于推理環節,少數用于訓練。如用于訓練,則需花費較多人員進行技術服務,額外投入資源較大。

華爲與訊飛構建昇騰萬卡集群。2023 年 10 月 24 日,科大訊飛攜手華爲,宣布首個支撐萬億參數大模型訓練的萬卡國産算力平台“飛星一號”正式啓用。1 月 30 日,訊飛星火步履不停,基于“飛星一號”,啓動了對標 GPT-4 的更大參數規模的大模型訓練。

“飛星一號“是科大訊飛和華爲聯合發布基于昇騰生態的國內首個可以訓練萬億浮點參數大模型的大規模算力平台。也是國內首個已經投産使用的全國産大模型訓練集群,采用昇騰 AI 硬件訓練服務器和大容量交換機構建參數面無損 ROCE 組網,配置高空間的全閃和混閃並行文件系統,可支撐萬億參數大模型高速訓練。

3.4. 國內算力廠商競爭要素

在中國市場,算力行業的核心競爭要素爲供應鏈安全、服務能力、政府關系、資金、技術、人才等。

供應鏈安全。受美國制裁影響,衆多算力芯片廠商芯片供應鏈出現問題。如果能夠解決供應鏈問題,持續爲客戶供應芯片,將是一大核心競爭力。

服務能力。AI 算力集群的構建後續的運維需要強大的服務支持,對于生態基礎較弱的國産芯片廠商要求更高。

政府關系。國産 AI 芯片的采購一大驅動爲政策支持,具有良好的政府關系和客戶渠道,可以打開市場空間。

資金、技術和人才。AI 芯片的研發和突破需要大量的資源投入,我們看好具備強大資金、技術和人才儲備的公司。

3.5. 國內 AI 算力市場空間

IDC 報告預計,2023 年中國人工智能服務器市場規模將達 91 億美元,同比增長82.5%,2027 年將達到 134 億美元,2022-2027 年年複合增長率達 21.8%。

算力需求市場空間巨大。在英偉達 GTC 大會上,黃仁勳講到,如果要訓練一個 1.8萬億參數量的 GPT 模型,需要 8000 張 Hopper GPU,消耗 15 兆瓦的電力,連續跑上 90天。如果中國有十家大模型公司,則需要 8 萬張 H100 GPU。我們預計,推理算力需求將是訓練的數倍,高達幾十萬張 H100。隨著模型繼續叠代,算力需求只會越來越大。

隨著國産化率逐步提升,我們預計 AI 芯片逐步成爲國內芯片的主要組成。

4. 國內供給端:昇騰一馬當先,各家競相發展

北京商報對華爲公司董事長梁華的主題演講的分享中提到,昇騰已經在華爲雲和28 個城市的智能算力中心大規模部署,根據財聯社報道,2022 年昇騰占據國內智算中心約 79%的市場份額。

4.1. 昇騰計算産業鏈

華爲主打 AI 芯片産品有 310 和 910B。310 偏推理,當前主打産品爲 910B,擁有FP32 和 FP16 兩種精度算力,可以滿足大模型訓練需求。910B 單卡和單台服務器性能對標 A800/A100。

昇騰計算産業是基于昇騰 AI 芯片和基礎軟件構建的全棧 AI 計算基礎設施、行業應用及服務,能爲客戶提供 AI 全家桶服務。主要包括昇騰 AI 芯片、系列硬件、CANN、AI 計算框架、應用使能、開發工具鏈、管理運維工具、行業應用及服務等全産業鏈。

硬件系統:基于華爲達芬奇內核的昇騰系列 AI 芯片; 基于昇騰 AI 芯片的系列硬件産品,比如嵌入式模組、板卡、小站、服務器、集群等。

軟件系統:異構計算架構 CANN 以及對應的調試調優工具、開發工具鏈 MindStudio 和各種運維管理工具等。

Al 計算框架包括開源的 MindSpore,以及各種業界流行的框架。

昇思 MindSpore AI 計算架構位居 AI 框架第一梯隊。

下遊應用:昇騰應用使能 MindX,可以支持上層的 ModelArts 和 HiAl 等應用使能服務。

行業應用是面向千行百業的場景應用軟件和服務,如互聯網推薦、自然語言處理、語音識別、機器人等各種場景。

華爲雲盤古大模型 3.0 基于鲲鵬和昇騰爲基礎的 AI 算力雲平台,以及異構計算架構 CANN、全場景 AI 框架昇思 MindSpore,AI 開發生産線 ModelArts 等,爲客戶提供100 億參數、380 億參數、710 億參數和 1000 億參數的系列化基礎大模型。

盤古大模型致力于深耕行業,打造金融、政務、制造、礦山、氣象、鐵路等領域行業大模型和能力集,將行業知識 know-how 與大模型能力相結合,重塑千行百業,成爲各組織、企業、個人的專家助手。

華爲與行業夥伴一起推動華爲大模型行業化。

4.1.1. 昇騰服務器

華爲昇騰整機合作夥伴與鲲鵬整機合作夥伴幾乎一致,産線共用,從華爲直接獲取AI 服務器或者芯片板卡制造成服務器。

4.1.2. 昇騰一體機

AI 訓推一體機是指將大模型等軟件和普通 AI 服務器整合在一起對外銷售的整機。

用戶畫像:主要爲 AI 能力自建能力較弱,想要借助 AI 軟硬件一體化解決方案構建AI 能力的客戶。

銷售方:主要爲 ISV,從華爲整機廠拿到昇騰整機,然後裝上 AI 模型和相關軟件直接銷售給終端使用客戶。

單價:訓推一體機由于整合了 AI 大模型等軟件産品,單價會明顯高于昇騰 AI 服務器裸機,具體價格看軟件價格加持價值量。

4.2. 海光信息

DCU 已經實現批量出貨,迎來第二增長曲線。海光 DCU 以 GPGPU 架構爲基礎,兼容通用的“類 CUDA”環境,主要應用于計算密集型和人工智能領域。深算二號已經于 Q3 發布,實現了在大數據、人工智能、商業計算等領域的商用,深算二號具有全精度浮點數據和各種常見整型數據計算能力,性能相對于深算一號性能提升 100%。

海光 DCU 産品性能可達到國際上同類型主流高端處理器的水平。深算一號采用先進的 7nm FinFET 工藝,能夠充分挖掘應用的並發性,發揮其大規模並行計算的能力,快速開發高能效的應用程序。選取公司深算一號和國際領先 GPU 生産商 NVIDIA 公司高端 GPU 産品(型號爲 A100)及 AMD 公司高端 GPU 産品(型號爲 MI100)進行對比,可以發現典型應用場景下深算一號的性能指標可達到國際同類型高端産品的同期水平。

生態兼容性好。海光 DCU 協處理器全面兼容 AMD 的 ROCm GPU 計算生態,由于 ROCm 和 CUDA 在生態、編程環境等方面具有高度的相似性,CUDA 用戶可以以較低代價快速遷移至 ROCm 平台,因此 ROCm 也被稱爲“類 CUDA”。因此,海光DCU 協處理器能夠較好地適配、適應國際主流商業計算軟件和人工智能軟件。

海光 DCU 相比海外性價比較高,總體在國內領先。從性能、生態綜合來看,海光DCU 處于國內領先水平,是國産 AI 加速處理器中少數大量銷售,且支持全部精度的産品。

在商業應用方面,公司的 DCU 産品已得到百度、阿裏等互聯網企業的認證,並推出聯合方案,打造全國産軟硬件一體全棧 AI 基礎設施。

4.3. 寒武紀

寒武紀成立于 2016 年,專注于人工智能芯片産品的研發與技術創新,致力于打造人工智能領域的核心處理器芯片。寒武紀主要産品線包括雲端産品線、邊緣産品線、IP授權及軟件。

寒武紀思元(MLU)系列雲端智能加速卡與百川智能旗下的大模型 Baichuan2-53B、Baichuan2-13B、Baichuan2-7B 等已完成全面適配,寒武紀思元(MLU)系列産品性能均達到國際主流産品的水平。

2024 年 1 月 22 日,寒武紀與智象未來 (HiDream.ai) 在北京簽訂戰略合作協議。

寒武紀思元(MLU)系列雲端智能加速卡與智象未來自研的“智象多模態大模型”已完成適配,在産品性能和圖像質量方面均達到了國際主流産品的水平。

4.4. 景嘉微

2024 年 3 月 12 日,公司面向 AI 訓練、AI 推理、科學計算等應用領域的景宏系列高性能智算模塊及整機産品“景宏系列”研發成功,並將盡快面向市場推廣。

景宏系列是公司推出的面向 AI 訓練、AI 推理、科學計算等應用領域的高性能智算模塊及整機産品,支持 INT8、FP16、FP32、FP64 等混合精度運算,支持全新的多卡互聯技術進行算力擴展,適配國內外主流 CPU、操作系統及服務器廠商,能夠支持當前主流的計算生態、深度學習框架和算法模型庫,大幅縮短用戶適配驗證周期。

5. 算力租賃

算力租賃就是對算力資源進行出租。使用者可以按需調用算力資源而無需自建算力基礎設施。

算力租賃是數字經濟時代的新興産物。算力使用者無需投入大量資金購買計算設備,卻可以使用高效穩定的計算服務,並根據實際使用情況支付相應費用。使用者通過租賃計算資源,可以快速地啓動項目,減少相應成本。

AI 算力租賃剛剛興起,參與方衆多,格局還比較分散。當前布局 AI 算力租賃市場的主要分爲以下幾類。1)傳統雲計算服務提供商,比如三大運營商、阿裏、騰訊等;2)具備 IDC 建設運營能力的央國企,比如雲賽智聯、廣電運通等;3)具備 IDC 建設運營相關能力的民企,比如潤澤科技、潤建股份等;4)跨界廠商,比如邁信林等。

AI 算力租賃目前的核心競爭力是誰能拿到滿足客戶需求的 AI 算力卡。

國內大模型不斷突破,應用不斷落地,算力租賃需求有望持續提升。階躍星辰提到通過自建機房+租用算力,積極進行算力儲備。

6. 算力液冷

算力服務器液冷技術是一種采用液體作爲散熱介質的冷卻方式。算力服務器液冷技術主要分爲冷板式、浸沒式和噴淋式三種。冷板式液冷目前行業成熟度最高,2023 上半年,中國液冷服務器市場中,冷板式占到了 90%。

兩大催化推動算力液冷産業加速發展:1) AI 的快速發展,GPU 成爲未來數據中心建設的主要方向。GPU 功耗顯著高于 CPU,且提升速度逐步加快。3 月 19 日,GTC大會英偉達提出 GB200 使用液冷方案,其中 GB200 NVL72 服務器提供 36 個 CPU 和72 個 Blackwell GPU,並使用一體水冷散熱方案,全部采用液冷 MGX 封裝技術,成本和能耗降低 25 倍。2)國家政策對數據中心 PUE 建設要求越來越高。液冷技術是降低制冷系統能耗的主要技術手段。

液冷技術壁壘不高,行業壁壘較高。算力液冷難點在于修改服務器,服務器往往承載客戶核心業務,對穩定性要求較高。服務器廠商對服務器構成和工作情況最爲了解,因此服務器廠商具有先天優勢。隨著市場空間逐步打開,第三方廠商也有望進入市場。

測算:液冷服務器市場空間主要來自于兩方面,一方面是存量服務器改造,另一方面是新增服務器建設。

存量改造:根據《基于價值工程的數據中心液冷與風冷比較分析》數據,浸沒式液冷建設成本爲 11818 元/kW,我們假設冷板式液冷建設成本約爲 4000 元/kw。假設 AI 服務器功耗爲10kW,則對應單台服務器浸沒式和冷板式液冷建設成本分別爲約爲 11 萬和 4 萬元。

中國電子信息産業發展研究院副院長張小燕介紹,截至 2022 年 Q1,我國在用數據中心機架總規模達到 520 萬架,在用數據中心服務器規模達 1900 萬台。

假設 2025 年滲透率提升,單價和服務器機架數維持不變。

--- 報告摘錄結束 更多內容請閱讀報告原文 ---

報告合集專題一覽 X 由【報告派】定期整理更新

(特別說明:本文來源于公開資料,摘錄內容僅供參考,不構成任何投資建議,如需使用請參閱報告原文。)

精選報告來源:報告派

科技 / 電子 / 半導體 /

人工智能 | Ai産業 | Ai芯片 | 智能家居 | 智能音箱 | 智能語音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機 | 可穿戴設備 |半導體 | 芯片産業 | 第三代半導體 | 藍牙 | 晶圓 | 功率半導體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測 | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區塊鏈 | NFT數字藏品 | 虛擬貨幣 | 比特幣 | 數字貨幣 | 資産管理 | 保險行業 | 保險科技 | 財産保險 |

0 阅读:333