Meta攜4.9萬枚H100芯片構築Llama-3訓練基地,開啓智能計算新篇章

薪科技快評 2024-03-17 10:02:43
Meta公開 Llama-3基礎訓練設施:使用了49,000個H100

2024年3月13日,科技社交巨頭Meta震撼官宣,在其官網上披露了兩個搭載49,152顆全新24K H100 GPU的超級集群,致力于驅動大模型Llama-3的高效訓練。

此外,Llama-3搭載RoCEv2網絡技術,采用Tectonic/Hammerspace構建的NFS/FUSE網絡存儲方案,並持續運用PyTorch機器學習庫,實現高效能運算。

預計 Llama-3 將于 4月末至5月中旬閃電上線,受 Sora 啓迪,有望成爲一款革命性的多模態模型,並堅持開源理念。

Meta 預計,至 2024 年,將部署 600,000 枚 H100 芯片,構建強大算力矩陣,賦能未來科技進程。

Meta首席科學家確認

Meta 龐大的 AI 算力集群

Meta,全球科技巨頭,傾力投入AI研發,矢志構建惠及全人類的通用人工智能(AGI),以實現科技巅峰價值。

2022年1月24日,Meta震撼披露其AI研究超級集群(RSC)的詳盡信息,該集群搭載了空前強大的16,000塊英偉達A100 GPU。

該團隊在研發全球爆款類 ChatGPT 模型 Llama 系列(Llama & Llama 2)中擔當核心角色,同時深度參與計算機視覺、NLP、語音識別和圖像生成等前沿技術革新。

基于RSC輝煌實踐,全新GPU集群橫空出世,每集群配備24,576顆H100 GPU,賦能更複雜、參數量更高的大模型訓練,突破以往極限。

集群網絡

融合以太網遠程直接內存訪問(RoCE)網絡架構的解決方案強勢登場,依托Arista7800、Wedge400及Minipack2 OCP機架交換機組建的集群爲核心,實現高效數據傳輸與計算力整合。

搭載NVIDIA Quantum-2 InfiniBand架構,實現400 Gbps端點高效互連,兩者皆展現卓越性能。

借助雙集群支持,Meta精准評測各類互聯技術在大規模訓練中的適用性與可擴展性,爲未來打造更大規模集群提供實戰洞見與設計經驗。

此外,Meta 已高效運用RoCE與InfiniBand集群架構,承載大規模生成式AI任務,例如Llama 3在RoCE集群上的訓練過程,全程網絡流暢,無任何瓶頸顯現。

硬件平台

兩大全新集群搭載 Meta 獨家研發的 Grand Teton 開放性 GPU 硬件平台,該創新設計于 2022 年 10 月 18 日震撼首發,實力诠釋尖端科技魅力。

Grand Teton,搭載多代人工智能技術,集電源、控制、計算與結構接口于一體,機箱整合實現卓越的整體性能、信號完整性和散熱效能。設計精簡,靈活易部署,可迅速融入數據中心集群,並具備便捷維護和無縫擴展優勢。

數據存儲

Meta創新打造的用戶空間Linux文件系統API,專爲人工智能集群定制,高效滿足其海量數據和檢查點需求。這一關鍵技術由Meta優化的Tectonic分布式存儲解決方案提供動力,針對閃存媒體深度優化,實現全新集群存儲部署,展現卓越性能表現。

此方案獨樹一幟,高效同步數千GPU的檢查點存儲與加載,攻克業界存儲難題。並配備靈活、高吞吐的外字節級存儲,滿足海量數據疾速加載需求。

Meta聯手Hammerspace,共同研發並部署高性能並行NFS,滿足超級AI集群環境下開發者的嚴苛存儲需求。

Hammerspace助力工程師實現突破,支持數千GPU實時交互式調試作業,任何節點皆可即時獲取代碼更新,提升工作效率。

融合Meta的Tectonic分布式存儲技術與Hammerspace,實現無縫功能叠代,即使在大規模環境下,也能確保高效快速。

-對此,您有什麽看法見解?-

-歡迎在評論區留言探討和分享。-

0 阅读:35

薪科技快評

簡介:薪科技評說,發現技術的點滴,記錄科學的飛躍!