雲計算和AI一哥再攜手,亞馬遜雲科技與英偉達共攀雲上AI算力新高峰

智能進化論 2024-03-21 16:33:45

導讀:科技圈兩大頂流再度合作,雲端AI算力步入萬億參數時代

GTC 2024不僅帶來震撼業界的AI算力“新核彈”,更引發了雲計算與AI産業的進一步融合。

3月20日,亞馬遜雲科技和英偉達宣布,英偉達新一代Blackwell GPU平台即將登陸亞馬遜雲科技。亞馬遜雲科技將提供NVIDIA GB200 Grace Blackwell 超級芯片和 B100 Tensor Core GPU,幫助客戶更快、更大規模、更低成本地構建和運行萬億參數大模型。

英偉達與亞馬遜雲科技,一個是全球AI算力的領頭羊,一個多年穩坐雲計算行業頭把交椅。雙方再度強強聯合,將加速生成式AI前沿技術發展。前者不斷叠代爲生成式AI而生的強大處理器,後者則致力于讓最先進的AI算力在雲端觸手可得。

「智能進化論」認爲,此次雙方合作亮點可以從四個方面解讀:

更大規模的模型:讓數萬億參數大模型在雲端可用

英偉達Blackwell GPU在亞馬遜雲科技上的應用,將加速生成式 AI 前沿技術發展,並提升萬億參數大語言模型在雲端的推理加速。

在大模型研發領域,萬億級參數規模代表了業界最前沿的水平。業界有消息稱,GPT4的模型參數是1.8萬億。英偉達此次發布的Blackwell 架構GPU,目標就直指萬億參數大模型。

Blackwell B200是目前最強大的AI芯片,FP4性能高達20 petaflops,是上一代卡皇H100的5倍。

Blackwell GB200超級芯片是將2個Blackwell GPU和1個Grace CPU結合在一起,性能更加強大。與H100相比,Blackwell GB200對于大模型推理工作負載可實現30倍的性能提升,同時將成本和能耗降低25倍。

GB200 NVL72是將36個Grace CPU和72個Blackwell GPU集成到一個液冷機櫃中,通過第五代 NVIDIA NVLink™ 互連。其可實現720 petaflops的AI訓練性能,或是1,440 petaflops(1.4 exaflops)的推理性能。一個GB200 NVL72機櫃可以訓練27萬億參數的AI模型。

GB200 同過去架構的 AI 芯片性能對比

很快,上述這些AI算力“核彈”就能在亞馬遜雲科技上使用了。

客戶將能在亞馬遜雲科技上使用基于NVIDIA GB200 Grace Blackwell超級芯片和B100 Tensor Core GPUs的基礎設施,從而在雲上構建和運行數萬億參數的大語言模型。

客戶還可以通過 NVIDIA DGX™ Cloud 獲得GB200的超強性能。NVIDIA DGX™ Cloud是亞馬遜雲科技與英偉達共同開發的AI平台,提供了構建和部署大模型所需的專用基礎設施和軟件。

亞馬遜雲科技還將提供配置GB200 NVL72的英偉達Blackwell平台。通過亞馬遜雲科技強大的EFA網絡連接、高級虛擬化的Amazon Nitro系統和Amazon EC2 UltraClusters超大規模集群等技術支持,客戶能夠在亞馬遜雲科技上擴展至數千個GB200 超級芯片。

更廣泛的算力底座:雲端運行英偉達GPU的最佳選擇

在Gartner發布的雲基礎設施和平台服務魔力象限中,亞馬遜雲科技已經連續12年位居領導者象限。提供更廣泛的雲上算力基礎設施一直是亞馬遜雲科技的優勢之一。

在生成式AI時代,通過與英偉達的深度合作,亞馬遜雲科技依然保持著這一領先優勢。

“通過 AWS 與 NVIDIA 工程師的共同努力,我們將持續創新,使亞馬遜雲科技成爲每一個想要在雲端運行 NVIDIA GPU 用戶的最佳選擇。”對于此次合作,亞馬遜總裁兼首席執行官 Andy Jassy 這樣表示。

實際上,亞馬遜雲科技與英偉達的合作已有13年之久。從推出第一個亞馬遜雲科技上的GPU雲實例至今,提供更廣泛的英偉達GPU解決方案,一直是亞馬遜雲科技踐行的目標。

比如,此前亞馬遜雲科技基于英偉達H100芯片推出了Amazon EC2 P5實例,客戶能夠在雲上將其P5實例擴展到超過2萬個英偉達H100 GPU。

此次合作,亞馬遜雲科技計劃提供配備新 B100 GPUs 的 Amazon EC2 實例,並支持在 Amazon EC2 UltraClusters 中部署以加速超大規模生成式 AI 的訓練和推理。

更安全的AI:加密技術強強聯合,護航雲上大模型安全

大模型的安全問題一直是很多企業應用生成式AI的核心顧慮之一。此前,三星、摩根大通、花旗集團等知名企業出于數據泄露風險考量,紛紛加入禁用ChatGPT的行列。

此次合作,亞馬遜雲科技與英偉達將生成式AI安全又向前推進一步。

首先,Amazon Nitro 系統和 NVIDIA GB200 的結合將能夠阻止未授權個體訪問模型權重。模型權重的安全對保護客戶的知識産權、防止模型被篡改以及維護模型的完整性至關重要。

GB200 支持對 GPU 之間 NVLink 連接進行物理加密,以及對 Grace CPU 到 Blackwell GPU 的數據傳輸進行加密,同時亞馬遜雲科技EFA (Elastic Fabric Adapter)也能夠對服務器之間的分布式訓練和推理過程的數據進行加密。同時,受益于Amazon Nitro系統,GB200系統能夠將CPU和GPU的輸入/輸出功能卸載至專門的硬件中,全程保護代碼和數據在處理過程中的安全。

其次,通過Amazon Nitro Enclaves 和 Amazon KMS,亞馬遜雲科技爲客戶在Amazon EC2 上使用 GB200創建了可信執行環境。從 GB200 實例內部可以加載安全區(Enclave),並且可以直接與 GB200 超級芯片通信,保護客戶實例中的數據安全。

亞馬遜雲科技首席執行官Adam Selipsky認爲:“英偉達下一代Grace Blackwell處理器是生成式AI和GPU計算的標志性事件。當結合亞馬遜雲科技強大的Elastic Fabric Adapter網絡、Amazon EC2 UltraClusters的超規模集群功能,以及Amazon Nitro高級虛擬化系統及其安全功能時,我們就能夠使客戶更快、更大規模且更安全地構建和運行具有數萬億參數的大型語言模型。”

更前沿的探索:20,736顆GB200芯片,Ceiba項目支撐英偉達前沿創新

2023年11月底的re:Invent2023全球大會上,亞馬遜雲科技與英偉達宣布了一項重磅計劃——Ceiba項目。Ceiba是雙方合作建造的世界上最快的 AI 超級計算機之一,專爲英偉達自身的研究和開發而設計,並獨家托管在亞馬遜雲科技上。

短短4個月後,在Blackwell的加持下,Ceiba項目迎來重大升級,將搭載20,736顆GB200 超級芯片,計算性能從65exaflops提升至414 exaflops,提升了6倍多。

據悉,英偉達將基于Ceiba項目推進大語言模型、圖形(圖像/視頻/3D 生成)與仿真、數字生物學、機器人技術、自動駕駛汽車、NVIDIA Earth-2 氣候預測等領域的 AI 技術,推動更多領域的生成式 AI 創新。

NVIDIA Earth-2 氣候數字孿生雲平台

現在的英偉達已經不僅僅是一家芯片公司,幾乎涉足了所有熱門的科技領域。可以說,Ceiba項目承載了英偉達最前沿的技術探索,也許下一個“核彈”級創新就來自Ceiba項目。將自家研發底座托管在亞馬遜雲科技上,再次證明了雙方合作的戰略深度與前瞻性。

英偉達創始人兼首席執行官黃仁勳表示:“人工智能正在以前所未有的速度推動突破,導致新的應用、商業模式和跨行業的創新。我們與亞馬遜雲科技的合作正在加速新的生成式AI能力的發展,並爲客戶提供前所未有的計算能力,以推動可能性的邊界。”

結語

生成式 AI 有望徹底改變它所觸及的每一個行業。

對于任何一家想要在生成式AI時代進行一番創新的企業,頂尖的AI算力和雲計算廠商已經在雲端提供了最前沿的AI基礎設施。

爲生成式 AI 時代而生的算力和雲服務已就緒,將成爲千行百業AI創新的最佳平台。

文中圖片來自攝圖網

0 阅读:6

智能進化論

簡介:專注AI産業趨勢、場景應用的商業評論。