中國移動大動作!GSE中試將開展,爲智算網絡探索更多可能性!

C114通信網 2024-05-10 13:20:30

大模型需要大算力,大算力需要大集群,大集群需要大網絡!

業界對此沒有疑問,但選擇什麽樣的機間互聯技術,卻有著不同的技術實現路徑。

是先入爲主的InfiniBand,還是當前呼聲很高的UEC;其實,我們有更多的選擇。在近日舉行的“中國移動算力網絡大會”上,中國移動副總經理高同慶宣布,對標國際主流的IB和UEC方案,形成中國自主的技術體系--全調度以太網(GSE),今年將開展GSE中試,加速GSE關鍵技術和産業成熟,爲標准開放的新型智算互聯貢獻中國方案。

有了IB和UEC,我們爲什麽還需要GSE?GSE將會給産業界帶來價值?從理念到技術再到産品和應用的落地,GSE還需要邁過哪些門檻?

我們爲什麽需要GSE

在回答這個問題之前,先讓看看算力形態的變化。業界現在將算力分爲通算、超算與智算,其中智算作爲AI能力的主要載體,到2025年可能會占據新增算力的85%左右。也就是說智算將逐漸成爲AI市場主流,作爲智算的載體,智算中心的重要性就不言而喻了。

智算中心與傳統數據中心存在很大不同,不僅體現在卡型、性能、功耗、算力密度等方面,主要由GPU服務器聯網構成的智算中心需要完全不同的網絡架構。當大模型訓練時,並行計算節點越多,通信效率越重要,智算網絡性能成爲集群算力提升的關鍵。總結下來,智算中心網絡要求很特殊,需要高帶寬、零丟包、超低時延、高可用性,月級零故障。

簡言之,我們需要新的網絡架構。客觀來看,英偉達主導的InfiniBand因其自身特性,是當前市場主流選擇,但InfiniBand在産業開發性、部署成本方面非常不友好。還有很重要的一點,在雲谲波詭的地緣政治環境下,産品與解決方案的可持續獲得性也是個問題。

InfiniBand不行,我們可以選另外一條技術演進路徑,從底層革新傳統以太網機制,同時又最大限度的利用以太網産業的開放性和成熟性。亂拳打死老師傅,這的確是個好主意!

從以太網這條技術路徑來看,主要有兩個流派。一種是采用大量的私有協議,自己做深度優化,性能的確是很強,國內有些雲服務商走的是這條路;一種是用開源社區思路,“衆人拾柴火焰高”,比如國內主導的GSE,是美國主導的UEC,都是這個思路。

但需要強調的是,UEC和GSE的先後關系。很多人先入爲主的認爲,我國在智算領域落後于美國,GSE是在拾UEC牙慧!但事實剛好與之相反。在2023年5月份,中國移動聯合10余家中國企業率先發布全調度以太網技術架構(GSE)白皮書,這標志著GSE技術的確立。幾個月之後,包括英特爾、AMD、HPE、Arista、Broadcom、思科、Meta和微軟等主導成立的超級以太網聯盟(UEC)才成立。

GSE能夠給行業帶來什麽?我覺得最重要的有兩點:

第一,給了智算中心服務器互聯更多選擇。在雲谲波詭的地緣政治環境下,可選擇性、可獲取性比性能、成本本身更爲重要。況且,GSE也在快速的走向成熟,形成標准開放的技術體系!

第二,給了中國AI産業路徑更多選擇。在先進算力芯片受限的前提下,我們只能通過別的方式來彌補,“以網強算”是個必然路徑。但網絡芯片存在代際差距,網絡可能成爲我國AI發展的“新卡點”。我們單純的從這個公式來看:集群有效算力={GPU單卡算力*總卡數*線性加速比*有效運行時],前面這幾個變量我們都受限,更需要做好GSE這篇文章。

GSE應該怎麽去落地?

首先,我們要有自信。AI特別是AGI就是未來的方向,在這點上,是沒有任何疑問的。在AGI落地的技術路徑上,“以網強算”是個必然選擇。

我們有全球最好的網絡基礎設施,有全球最好的移動通信網絡基礎設施,有全球技術最爲領先的400G光傳送網。當然,我們也完全可以有最優的智算中心網絡,或者智算中心機間互聯技術生態。在挑戰或者取代IB的這條道路上,UEC可以做到的,GSE爲什麽不能做到呢?

其次,産業鏈形成合力。孫凝晖院士說的好,國內智能計算生態孱弱,更爲嚴重的是國內企業之間山頭林立,其實在機間互聯技術選擇上也一樣。比如在今年的雲網智聯大會上,就有類似的聲音出來,認爲GSE是中國移動主導的,是個個體行爲,UEC才是主流。

從全球來看,特別是從用戶的CAPEX來看,UEC的確是遠遠超過GSE;但國內企業在UEC中到底有沒有,有多少話語權,這都是疑問。對于GSE而言,的確是中國移動倡導成立的,但GSE發展離不開開放性,GSE推進計劃現在已經有40多家成員,既要最大限度兼容以太網生態,更要最大限度包容産業生態。

還是要小步快跑。智算中心的發展和演進,和傳統的CT行業是不同的,標准是個很有意思的問題,是在發展中不斷地凝聚共識、優化技術路徑;小步快跑才能形成可持續的社區繁榮生態。從GSE的發展曆程來看,也的確在朝著這個方向前行。特別是在上個月,《新型智算中心以太網物理層安全(PHYSec)架構白皮書》的發布,說明了GSE産業鏈的努力。

最後,當然也是最重要的,要用“誠意”和“信心”去培育、催熟産業鏈。所以,在今年的中國移動算力網絡大會上,當高總宣布要開展GSE“中試”時,産業鏈還是很受鼓舞的。可能有些讀者對于“中試”不是很清楚,翻譯過來的意思就是“現網試商用”!這也凸顯了中國移動在推動民族智算和AI産業發展中的央企擔當。當然,我們也相信中國移動具備這樣的能力,無論是從傳送網100G到400G的躍遷,還是從移動網從3G到5G的嬗變,或亦是承載網從PTN到SPN的沿革,中國移動都已經證明了自己。GSE,我們相信同樣如此!C114通信網 嶽明

0 阅读:21

C114通信網

簡介:通信業門戶,全面報道國內外運營商、設備商及行業動態