AIGC時代,需要什麽樣的雲存儲?

光錐智能 2024-04-10 20:50:00

文|白    鴿

編|王一粟

AIGC狂飙一年,算法進步和應用落地的爆發,讓中國雲計算廠商感受著切實的變化。

“今年一季度,大模型企業在雲存儲的消耗同比在增加。”

4月8日,在騰訊雲AIGC雲存儲解決方案升級發布會上,騰訊雲存儲總經理馬文霜同時預計,今年AIGC對于雲端的調用量一定是爆發式的增長。

馬文霜還開半玩笑地說,“可能這些企業拿到的投資更多了”。

隨著多模態技術的進化和落地應用的逐漸爆發,讓大模型的訓練和推理迎來了一些新的挑戰。

事實上,從語言和圖像爲主的GPT,到視頻生成模型Sora,大模型參數正在指數級增長。比如ChatGPT在GPT-2時是10億參數量,到現在GPT-4已經有1.8萬億參數。Sora爲主的多模態技術,更會讓需要處理的數據量急劇增加,而這才剛剛是視頻生成模型的GPT-1.0時代。

參數越大,對雲存儲的需求就會越高,包括雲存儲的數據量以及吞吐量等,如果雲存儲能力不能夠滿足大模型的需求,則會直接影響到大模型的訓練速度和推理效率。

在大模型加速發展的階段,大模型企業也越來越重視雲存儲這一重要的底層基礎設施能力。但AIGC時代,究竟需要什麽樣的雲存儲技術?

AIGC數據訓練的新需求雲存儲的新挑戰

“內卷”之下,大模型企業開始拼算力、拼參數,更拼大模型的更新速度。

如百川智能,前期平均一個月發布升級一款大模型,百度文心一言在發布之初,甚至一個月內就完成了4次技術版本的升級。

想要保持大模型的更新頻率和速度,就要保證整個大模型數據訓練過程的高效,其中某一個環節出現問題,就可能會拉長整個訓練時長,增加訓練成本。

因此,作爲整個大模型數據訓練的底座,雲存儲的重要性日益凸顯。那麽,AIGC時代到底需要什麽樣的雲存儲技術?

存儲作爲數據的載體,現如今已經不僅僅只承擔“存”的作用,更需要打通數據從“存”到“用”的最後一公裏。

始于19年前QQ空間的騰訊雲存儲,如今在國內雲廠商中存儲能力一直處于領導者象限(沙利文報告),他們的做法對行業頗有借鑒意義。

馬文霜向光錐智能提到,在AIGC數據訓練的4個環節中,存儲需要提供的具體能力,包括:

數據采集階段,需要一個大容量、低成本、高可靠的數據存儲底座;

數據清洗階段,需要提供更多協議的支持,以及至少GB甚至TB級的數據訪問性能;數據訓練階段,作爲大模型訓練的關鍵環節,則需要一個TB級的帶寬存儲保證訓練過程中Checkpoint能夠快速保存,以便于保障訓練的連續性和提升CPU的有效使用時長,也需要存儲提供百萬級IOPS能力,來保證訓練時海量小樣本讀取不會成爲訓練瓶頸;數據應用階段,則需要存儲提供比較豐富的數據審核能力,來滿足鑒黃、鑒暴等安全合規的訴求,保證大模型生成的內容以合法、合規的方式使用;在這4個環節中,騰訊雲AIGC雲存儲解決方案,分別由4款産品提供專屬服務,包括對象存儲COS、高性能並行文件存儲CFS Turbo、數據加速器GooseFS和數據萬象CI。而這次騰訊雲存儲面向AIGC場景的升級,就是基于上述4款産品將大模型的數據清洗和訓練效率提升1倍,整體訓練時長縮短一半。

首先,在數據采集環節,基于自研的對象存儲引擎YottaStore,騰訊雲對象存儲COS可支持單集群管理百EB級別存儲規模,多種協議和不同數據公網接入能力,可以讓采集的原始數據便捷入湖。數據清洗環節,COS訪問鏈路比較長,數據讀取效率並不高,所以騰訊雲在這中間添加了一層自研的數據加速器GooseFS。COS通過自研數據加速器GooseFS提升數據訪問性能,可實現高達數TBps的讀取帶寬,提供亞毫秒級的數據訪問延遲、百萬級的IOPS和TBps級別的吞吐能力。“這讓單次數據清洗任務耗時減少一半。”馬文霜說道。相比采集和清潔,大模型的訓練則更加耗時,短則數周、長則數月,這期間如果任何一個CPU/GPU的節點掉線,都會導致整個訓練前功盡棄。業內通常會采用2~4個小時保存一次訓練成果,即Checkpoint(檢查點),以便能在GPU故障時能回滾。此時則需要將保存的Checkpoint時間縮短到越短越好,但數千上萬個節點都需要保存Checkpoint,這就對文件存儲的讀寫吞吐提出了非常高的要求。馬文霜表示:“兩年前我們發布高性能並行文件存儲CFS Turbo第一個版本,是100GB的讀寫吞吐,當時覺得這個讀寫吞吐已經足夠大,很多業務用不到。但去年大模型出來以後,用CFS Turbo再去寫Checkpoint,我們發現100G還遠遠不夠。”

CFS Turbo底層技術來自于騰訊雲自研的引擎Histor。此次升級,騰訊雲將CFS Turbo的讀寫吞吐能力從100GB直接升級至TiB/s級別,讓3TB checkpoint 寫入時間從10分鍾,縮短至10秒內,時間降低90%,大幅提升大模型訓練效率。針對數據訪問延遲問題,騰訊雲引擎Histor可支持單個節點GPU與所有存儲節點進行通信,進行並行數據訪問。“另外,我們通過RDMA(遠程直接地址訪問)等技術不斷優化數據訪問延遲,縮短IO路徑,最終可做到亞毫秒級訪問延遲。”馬文霜說道。同時,騰訊雲Histor還可以將元數據目錄打散至所有存儲節點上,提供線性擴張能力,從而實現文件打開、讀取、刪除的百萬級IOPS能力。應用階段,大模型推理場景則對數據安全與可追溯性提出更高要求。騰訊雲數據萬象CI是一站式內容治理服務平台,它可以對AI生成的內容進行一站式管理,可以提供圖片隱式水印、AIGC內容審核、智能數據檢索MetaInsight等能力。此次升級,騰訊雲重點講述了智能數據檢索MetaInsight,其能夠基于大模型和向量數據庫進行跨模態搜索服務,也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻,並憑借95%以上的召回率,可以幫助用戶快速鎖定目標內容,提升審核效率。基于這套AIGC雲存儲技術底座,騰訊雲存儲總經理陳峥表示,騰訊自研項目(比如混元大模型)的整體效率至少提升了2倍以上。目前,除騰訊自己的混元大模型,數據顯示,已有80%的頭部大模型企業使用了這套AIGC雲存儲解決方案,包括百川智能、智譜、元象等明星大模型企業。而針對解決方案升級後的産品價格,馬文霜則表示,“不會有變化”。在阿裏雲和京東雲都宣布降價時,騰訊雲並沒有選擇降價,而是“加量不加價”。“穩定性、高性能,以及性價比,是大模型時代雲存儲的核心。”騰訊雲智能存儲總監葉嘉梁說道。當然,在AIGC時代,雲廠商都想抓住這一次用雲需求爆發的機會。除了騰訊雲外,阿裏雲、華爲雲等其他雲廠商在AIGC雲存儲領域也都有相應的布局。比如2023年,華爲雲針對大模型時代的雲存儲發布了OceanStor A310 深度學習數據湖存儲和FusionCube A3000 訓/推超融合一體機兩款産品。

阿裏雲面向AI時代的雲存儲解決方案,也覆蓋了底層對象存儲 OSS數據湖、高性能文件存儲、並行文件存儲 CPFS、PAI-靈駿智算服務以及智能媒體管理IMM平台等産品。可以看到,圍繞AIGC的需求,雲廠商在雲存儲領域迅速更新換代。阿裏雲的思路與騰訊雲非常接近,而華爲雲則加入了自己在硬件方面的優勢。雲存儲技術僅是雲計算衆多底層核心技術之一,隨著大模型深度發展,雲廠商們已經開始在整個PaaS層、IaaS層、MaaS層,都在圍繞AIGC進行叠代升級,爲行業提供全鏈路大模型雲服務。雲廠商狂飙爭做“最適合大模型”的雲雲已經成爲大模型的最佳載體,大模型也正在重塑雲服務的形態。馬文霜認爲,雲上豐富的資源、計算、存儲、網絡、容器技術和PaaS,都能夠解決AIGC在各個環節上對資源的訴求。雲還能夠給AIGC提供成熟的方案和豐富的生態支持,讓客戶可以聚焦在自己産品競爭力的方向進行開發,加速整體研發效率以及應用落地的速度。面對AIGC帶來的大模型發展浪潮,騰訊集團副總裁、騰訊雲與智慧産業事業群COO兼騰訊雲總裁邱躍鵬曾表示,大模型將開創下一代雲服務,騰訊雲要打造“最適合大模型的雲”。自從大模型熱潮爆發以來,騰訊雲在大模型業務推出上不是最快的一個,但卻是最紮實的一個。在2023年9月的騰訊全球數字生態大會上,騰訊雲面向AIGC場景推出了基于星脈網絡的大模型訓練集群HCC、向量數據庫以及行業大模型的MaaS服務。也就是說,騰訊雲從底層智算能力,到中間件,再到上層MaaS,已經實現了全鏈路大模型雲化能力升級叠代,每個業務都很務實。比如,針對大模型對算力的迫切需求,騰訊雲高性能計算集群HCC爲大模型訓練提供高性能、高帶寬、低延遲的智能算力支撐。通過自研星脈網絡,能提升40%GPU利用率,節省30%~60%模型訓練成本,提升AI大模型10倍通信性能。利用星星海自研服務器的6U超高密度設計和並行計算理念,確保高性能計算。針對在中間層對數據調度應用的需求,騰訊雲向量數據庫,可爲多維向量數據提供高效存儲、檢索和分析能力。客戶可將私有數據經過文本處理和向量化後,存儲至騰訊雲向量數據庫,從而創建一個定制化外部知識庫。在後續查詢任務中,這個知識庫也能爲大模型提供必要的提示,輔助AIGC應用産生更精確的輸出。而針對行業大模型開發與落地應用服務,騰訊雲則在整個雲底座之上推出了MaaS服務解決方案,爲企業客戶提供涵蓋模型預訓練、模型精調、智能應用開發等一站式行業大模型解決方案。其中,值得一提的是騰訊雲是業界最早提出走“向量數據庫”路線的雲廠商,在大家對大模型部署還尚有技術路線爭議之初,騰訊就做了這個選擇。目前,向量數據庫+RAG(檢索增強)也已經成爲業內使用頻率最多的大模型部署路線。可以看到,在回歸“産品優先”戰略後,騰訊雲在大模型時代的打法也逐漸清晰——不盲目追隨行業,而是基于對AIGC的理解,做自己的産品叠代。不過,面對十年一遇的大模型機會,華爲雲、阿裏雲、百度雲等雲廠商也都在2023年爭先恐後地布局,騰訊雲的壓力並不小。過去一年,華爲雲構建了包括以華爲雲昇騰AI雲服務爲算力底座、行業首個大模型混合雲Stack 8.3,在MaaS層用盤古大模型在千行百業中落地。華爲雲還上線了昇騰AI雲服務百模千態專區,收錄了業界主流開源大模型。可以看到,華爲雲集成了算力、政企、行業、生態等多方面的優勢,可謂火力全開。阿裏雲則是國內大廠中唯一做開源大模型的公司,說明心態最爲開放、做平台的決心最強。阿裏雲在智能算力底座之上,打造了以機器學習平台PAI爲核心的PaaS服務,以及上層MaaS服務。其中,在開發者生態層,截至2023年11月1日,阿裏雲發起的AI模型社區魔搭已經有超過2300個模型,開發者超過280萬,模型下載次數也超過了1億多次。

雲廠商們掀起了新一輪厮殺,是因爲大模型的紅利。AI的發展正在帶動用雲需求的增長,並已成爲雲計算産業發展的第二增長曲線。畢竟,大模型的算力使用幾乎可以說是“無底洞”,此前業界曾預測OpenAI訓練GPT-4可能使用了大約10000-25000張GPU,以及微軟的雲上算力支撐。因此,在AIGC時代,各大雲廠商都在探索如何基于AI重塑雲計算技術和服務體系,開辟全新的服務場景和服務內容,從而能夠抓住這輪AI大模型升級發展所帶來的機會。大趨勢下,Cloud for AI不僅是雲廠商的新機會,也是必答題。陳峥也表示,雲廠商現階段所能夠做的就是提前進行技術産品布局,並將整個數據價值開放給客戶,從而讓客戶更好的利用數據。

0 阅读:0

光錐智能

簡介:AI産業第一媒體,關注千行百業的數智化。