AMDROCm+StableDiffusion實測AIGC性能:Linux下性能比Windows更強

微型計算機 2024-04-08 10:42:43

衆所周知,在當下火熱的AIGC應用領域內,GPU對應用加速的支持程度一直以來都是廣大用戶所津津樂道的“顯擺”領域。在這一領域內,NVIDIA由于先行一步布局市場,基于CUDA的AIGC加速解決方案已經趨近于成熟,英特爾也有OpenVino框架用于自身CPU、GPU的AIGC加速應用。而對于另一家核心GPU廠商AMD來說,它交出的答卷則是ROCm。

正如我們此前多次在各種評測和技術文章中所強調過的一樣,對當前的消費級應用領域而言,顯卡的性能並不僅僅限于遊戲,設計創作性能和近年來大火的AI應用都逐漸成了主流顯卡性能考核的重要指標。

雖然在整體布局的步伐上,相比先行一步的CUDA要慢一些,但AMD還是在AI應用領域內積極地發力追趕,並做出了不少比較顯著的成績。不光是開始在CPU、GPU的核心內加入了更多AI計算相關的硬件單元,而且在軟件框架方面也提出了基于Radeon GPU的AI計算解決方案,以此來與成熟的CUDA框架方案競爭,這就是被稱爲“Radeon Open Compute Platform”的ROCm框架,通常我們將其稱爲Radeon開源計算平台。

ROCm簡析

AMD ROCm是一個由驅動程序、開發工具套件和API協議共同組成的AI計算解決方案框架。它能夠在一個免費、開源和集成的軟件生態系統中開發、協力創作、測試和部署各類應用程序。按照AMD給出的資料來看,ROCm特別適合于GPU加速的高性能計算(HPC)、人工智能(AI)、科學計算和計算機輔助設計(CAD)。並提供了對當前比較流行的AI和ML框架的支持,如TensorFlow、JAX、Pytorch等,這也使得ROCm對平台的支持能更加廣泛。

AMD ROCm是一個開源軟件平台,可在AMD和其他廠商硬件上實現卓越的高性能計算和 AI 計算。通過 ROCm,用戶在運行高性能計算工作負載時能夠體會到更出色的自由和訪問便捷。ROCm框架的主要核心訴求在于爲高性能計算和機器學習應用提供支持,基于GPU計算,通過開放的編程模型和標准的API,使開發者能夠利用AMD的GPU資源進行高效的數據處理和計算,在科學計算、深度學習和數據分析等領域有著廣泛的應用前景。也是被AMD寄予厚望在AI應用領域上用以追趕CUDA框架的重要技術。

支持Radeon RX 7900系,AIGC應用更上一層樓

從5.7版本開始,ROCm帶來了飛躍式的更新進化。大量全新更新的功能和改進,也是將AMD的硬件産品性能充分地發揮了出來,在多種應用場合下都有比較不錯的表現。尤其是在5.7版本中,ROCm加入了Linux系統下對消費級顯卡Radeon RX 7900 XTX和RX 7900 XT的支持,這樣一來消費者無疑就能得到更多的改進優勢,能夠在基于AMD RDNA 3架構打造的AMD Radeon顯卡上進行機器學習,也能充分利用性能優秀的AMD Radeon RX 7900系列台式機顯卡來運行機器學習模型和各類AI算法,比如大家最常用的AI Chat和AIGC都能從中受益匪淺。而在最新發布的ROCm 6.0版本上,還提供了對消費級顯卡Radeon RX 7900 GRE的支持。

▲ROCm 6.0在5.7版本的基礎上加入了對Radeon RX 7900 GRE和Radeon Pro W7800顯卡的支持

那麽,ROCm 5.7版本之後,對消費者的意義何在?

首先,我們要清楚地看到,ROCm實現對Radeon RX 7900系顯卡的支持的真正意義。AMD Radeon RX 7900 系列顯卡基于 AMD RDNA 3 架構打造,其每個計算單元的AI性能都是上一代産品的兩倍以上。上一代的産品Radeon RX 6950 XT具備128MB第一代AMD無限高速緩存,采用256位內存總線和18Gbps GDDR6內存,提供1793.5 GB/秒的帶寬。Radeon RX 7900 XT則配置了80MB第二代AMD無限高速緩存,320位內存總線,20Gbps GDDR6內存,提供2912 GB/秒的帶寬;而頂級的Radeon RX 7900 XTX則擁有96MB第二代AMD無限高速緩存,采用384位內存總線和20Gbps GDDR6內存,能夠提供3494.4 GB/s的帶寬。不僅如此,它們還可提供多達192個AI加速器以及出色的顯存帶寬,其搭載的顯存最高可達24GB,在處理大型機器學習模型方面同樣擁有不小的優勢。

▲RDNA 3架構的新一代GPU中,每個CU單元中包含了2個新設計的AI計算加速核心,采用全新AI指令設計,AI吞吐量可提供高達2.7倍于前代AMD RDNA 2架構的性能。

▲新RDNA 3架構采用雙發指令集設計,在執行和渲染效率上可以達到2倍的性能提升。

▲AMD RDNA 3架構基于全新的計算單元、第二代AMD高速緩存和5nm小芯片架構,AMD RDNA 3架構相比前代AMD RDNA 2架構可提供多達54%的更高每瓦性能。

以大家都非常熟悉的AIGC應用Stable Diffusion來舉例。很明顯,相較于以前模擬CUDA框架的AIGC應用解決方案,在ROCm支持Radeon RX 7900系顯卡之後,由于原生支持各種主流的AI框架,比如TensorFlow、JAX和PyTorch。這會進一步激發出Radeon GPU的AI計算性能,理論上肯定會使Radeon RX 7900系顯卡的AIGC性能得到極大的提升。參考AMD給出的資料,也表明在Linux系統下搭建基于PyTorch的Stable Diffusion WEB UI加入ROCm框架之後,其出圖效率將比Windows系統下Stable Diffusion WEB UI+DirectML的方式大幅提升。爲此,我們也進行了一番實際的測試,ROCm能否爲RX 7900系顯卡帶來AIGC應用的巨大性能提升?讓我們一起來看看。

實測,ROCm+UBUNTU性能優勢明顯

測試硬件平台

CPU:AMD銳龍9 7950X3D

顯卡:AMD Radeon RX 7900 XT公版

內存:DDR5 7200 24GB×2

硬盤:NVMe PCIe SSD 1TB

測試軟件平台

UBUNTU 22.04.3:

Stable Diffusion WEB UI Automatic 1111+ROCm 5.7

驅動程序 Radeon Software for Linux version 23.40.2

Windows 11 Pro:

Stable Diffusion WEB UI Automatic 1111+DirectML

驅動程序 Radeon Software Adrenalin Edition 24.3.1

在測試中,我們在UBUNTU系統下搭建了基于ROCm 5.7的Stable Diffusion Automatic 1111本地部署,作爲對比的是在Windows下搭建同樣的Stable Diffusion Automatic 1111+DirectML。測試使用的Python版本爲3.10.6,Pytorch版本爲2.3。在模型的選擇上,兩種系統下的Stable Diffusion都使用了相同版本的SD V.15標准模型。

▲UBUNTU系統下的Stable Diffusion界面,我們使用的ROCm爲成熟的5.7版本。

在以下測試中,統一設置參數如下。

叠代步數:50

采樣器:DPM2++Karras

生成批次:5、1

每批數量:1

提示詞相關性:7

關鍵詞1:海邊的卡通風格女孩

Portrait photography, a girl leans into the water to look at herself, in the style of romantic soft focus and ethereal light, exaggerated poses, white and orange, romantic use of light, backlit photography, fang lijun, seaside vistas --v 5.2 --s 250 --style raw --ar 5:7

首先在第一個關鍵詞“海邊卡通女孩”生成的測試中,在Windows 11+DirectML環境下,單張圖片生成時,生成一張圖片約耗時11秒左右,出圖效率約爲5.5張/分。但是在UBUNTU+ROCm環境下,單張圖片的生成時間縮短到了6.2秒左右,出圖效率也提升到了9.68張/分。而批量生成5張圖片的測試結果也基本保持了一致。

從測試結果來看,UBUNTU系統下附加的ROCm確實爲RX 7900 XT帶來了非常明顯的AIGC性能提升,相比Windows環境下,出圖效率的提升約爲80%。

關鍵詞2:寫實風格女孩圖片

Commercial photography, golden ginkgo tree, Korean girl (20-25 years old), waist-length black flowing hair, flowing long skirt, big eyes, smile, pink lips, pink cheeks, red lips, relaxed, upset, blushing, Shy, goddess-like,playful style, dreamy imagery, fairy tale core, Chie Yoshii, ultra high definition image, color collage, forced perspective, golden ginkgo tree :: golden::0.5 --ar 7:5 --v 5.2 --s 250 --style raw

和關鍵詞1的測試結果非常接近,在“寫實風格女孩”圖片生成測試中,UBUNTU系統+ROCm 5.7同樣帶來了性能上的顯著提升。相比Windows 11系統+DirectML環境,在圖片生成時間上縮短了平均70%,而在出圖效率上提升了70%。

關鍵詞3:高達機甲戰士

Gundam, Neon Genesis, Ultra Light Beams, Directed by Denis Villeneuve, Production Stills, Fuji Film Stock

仍然和前兩個測試相仿,在“高達機甲戰士”的圖片生成性能測試中,單張圖片的生成效率在UBUNTU+ROCm 5.7環境下相比Windows 11+DirectML提升約82%,5張圖片生成測試中這一提升則達到了84%左右。UBUNTU系統下使用ROCm帶來的AIGC性能提升非常明顯。

▲測試成績總表,黃色:關鍵詞 海邊女孩;淺綠色:關鍵詞:寫實女孩;淺粉色:關鍵詞 高達機甲戰士。

RX 7900系+ROCm,AIGC應用加速的不錯選擇

從我們本次的測試情況來看,UBUNTU環境下的ROCm擴展已經表現出了相較于傳統的DirectML方式非常大的性能提升,基本達到了75%甚至更高。再加上Radeon RX 7900系顯卡一貫的高顯存配置和比較親民的市場價格,因此對那些經常需要使用AIGC應用進行圖形圖像創作的用戶來說,選擇Radeon RX 7900 XT這樣的顯卡在UBUNTU等Linux系統下搭配ROCm擴展,無疑能取得事半功倍的出圖效率,也是非常值得推薦的。

從目前的情況來看,ROCm更新到最新的6.0版本之後,該有的東西也基本趨于完善了,包括對硬件的支持、AI開發SDK、運行框架、加速數據庫以及各種工具包等。現在主要的問題可能還是在于ROCm的用戶群體目前尚未完全成熟,相對較少,導致很多玩家對ROCm的應用環境並不熟悉。這應該需要一個相對較長的時間來培養AIGC用戶對ROCm的使用粘性,同時也需要AMD對ROCm持續不斷地進行更新,尤其是在對系統和硬件的廣泛支持度上可以更加發力去完善。當然,現在玩家最希望的,恐怕還是AMD盡早實現ROCm新版本對Windows系統的支持。

在前不久的AMD AI PC峰會上,我們也看到了AMD在AI領域上的發力決心,由此我們也有理由相信ROCm的未來是完全可期的!拭目以待!

0 阅读:1

微型計算機

簡介:以“MC評測室”爲基礎提供各種科技和IT産品評測資訊