Meta攜4.9萬枚H100芯片構築Llama-3訓練基地,開啓智能計算新篇章

Meta公開 Llama-3基礎訓練設施：使用了49,000個H100

2024年3月13日，科技社交巨頭Meta震撼官宣，在其官網上披露了兩個搭載49,152顆全新24K H100 GPU的超級集群，致力于驅動大模型Llama-3的高效訓練。

此外，Llama-3搭載RoCEv2網絡技術，采用Tectonic/Hammerspace構建的NFS/FUSE網絡存儲方案，並持續運用PyTorch機器學習庫，實現高效能運算。

預計 Llama-3 將于 4月末至5月中旬閃電上線，受 Sora 啓迪，有望成爲一款革命性的多模態模型，並堅持開源理念。

Meta 預計，至 2024 年，將部署 600,000 枚 H100 芯片，構建強大算力矩陣，賦能未來科技進程。

Meta首席科學家確認

Meta 龐大的 AI 算力集群

Meta，全球科技巨頭，傾力投入AI研發，矢志構建惠及全人類的通用人工智能（AGI），以實現科技巅峰價值。

2022年1月24日，Meta震撼披露其AI研究超級集群(RSC)的詳盡信息，該集群搭載了空前強大的16,000塊英偉達A100 GPU。

該團隊在研發全球爆款類 ChatGPT 模型 Llama 系列（Llama & Llama 2）中擔當核心角色，同時深度參與計算機視覺、NLP、語音識別和圖像生成等前沿技術革新。

基于RSC輝煌實踐，全新GPU集群橫空出世，每集群配備24,576顆H100 GPU，賦能更複雜、參數量更高的大模型訓練，突破以往極限。

集群網絡

融合以太網遠程直接內存訪問（RoCE）網絡架構的解決方案強勢登場，依托Arista7800、Wedge400及Minipack2 OCP機架交換機組建的集群爲核心，實現高效數據傳輸與計算力整合。

搭載NVIDIA Quantum-2 InfiniBand架構，實現400 Gbps端點高效互連，兩者皆展現卓越性能。

借助雙集群支持，Meta精准評測各類互聯技術在大規模訓練中的適用性與可擴展性，爲未來打造更大規模集群提供實戰洞見與設計經驗。

此外，Meta 已高效運用RoCE與InfiniBand集群架構，承載大規模生成式AI任務，例如Llama 3在RoCE集群上的訓練過程，全程網絡流暢，無任何瓶頸顯現。

硬件平台

兩大全新集群搭載 Meta 獨家研發的 Grand Teton 開放性 GPU 硬件平台，該創新設計于 2022 年 10 月 18 日震撼首發，實力诠釋尖端科技魅力。

Grand Teton，搭載多代人工智能技術，集電源、控制、計算與結構接口于一體，機箱整合實現卓越的整體性能、信號完整性和散熱效能。設計精簡，靈活易部署，可迅速融入數據中心集群，並具備便捷維護和無縫擴展優勢。

數據存儲

Meta創新打造的用戶空間Linux文件系統API，專爲人工智能集群定制，高效滿足其海量數據和檢查點需求。這一關鍵技術由Meta優化的Tectonic分布式存儲解決方案提供動力，針對閃存媒體深度優化，實現全新集群存儲部署，展現卓越性能表現。

此方案獨樹一幟，高效同步數千GPU的檢查點存儲與加載，攻克業界存儲難題。並配備靈活、高吞吐的外字節級存儲，滿足海量數據疾速加載需求。

Meta聯手Hammerspace，共同研發並部署高性能並行NFS，滿足超級AI集群環境下開發者的嚴苛存儲需求。

Hammerspace助力工程師實現突破，支持數千GPU實時交互式調試作業，任何節點皆可即時獲取代碼更新，提升工作效率。

融合Meta的Tectonic分布式存儲技術與Hammerspace，實現無縫功能叠代，即使在大規模環境下，也能確保高效快速。

-對此，您有什麽看法見解？-

-歡迎在評論區留言探討和分享。-

文采家