大模型在這裏“刷題”！國內首個人工智能數據訓練基地啓用

如果把人工智能大模型比作一位小學生，那麽數據訓練時所用的“語料”和“算力”，就相當于小學生“刷題”時使用的習題冊和計算器，幫助他掌握知識點、更快給出正確答案。

如今，北京的大模型有了更全面的“習題冊”、更強大的“計算器”。3月29日，在2024北京AI原生産業創新大會暨北京數據基礎制度先行區成果發布會上，國內第一個人工智能數據訓練基地、北京規模最大的公共算力平台正式啓用。

爲解決算力不足等問題，近兩年本市布局建設了多處公共算力平台。這就像電力公司供電一樣，只不過這些機櫃裏提供的是算力。因爲規模大、穩定，所以公共算力可提高訓練的效率，進而降低大模型訓練耗費的時長。

此次北京亦莊人工智能公共算力平台正式點亮，算力規模在北京最大，可提供算力3000P。1P相當于每秒1000萬億次的計算速度。也就是說，這裏每秒就進行300億億次的計算，相當于超過百萬台高性能電腦的算力。以往企業自己要算幾個月的事，在這裏十幾天就能搞定。

“經開區規劃了超10000P的算力規模。”經開區相關負責人說，未來將推出支持政策，爲人工智能企業提供公共普惠的算力、創新領先的算網服務、細致完善的解決方案，助推大模型訓練和行業應用。

大模型的自我學習仰仗訓練。同日啓用的北京人工智能數據訓練基地裏，已經有多款大模型正練就“最強大腦”。訓練中，大模型依靠基地“投餵”的語料，像學生“刷題”一樣不斷提升自己的能力，從而在未來上線後應付現實中的各種難題。

這是國內最早啓用的人工智能數據訓練基地，可以組織數據供給方、加工服務方、模型訓練方“進場”合作，推動高質量數據價值釋放，助力通用模型和行業垂類模型訓練精調。

成爲“第一個”，不只依靠算力“硬件”。“訓練基地要幹的，不只是訓練。”運營訓練基地的北京亦莊智能城市研究院公司總經理顔敏解釋，使用數據時會面臨所有權歸誰、是否可信、如何保障安全、收益如何分配等各種問題，都需要建立機制來規範。爲此，基地針對大模型訓練的數據合規和場景應用了“監管沙盒”機制，爲新技術創新叠代提供開放包容的政策保障，免除後顧之憂。

數據不像普通的商品，使用方一旦獲得了會不會複制外泄？爲此，基地裏專門的存儲設備能讓數據“可用不可見”。從采集到存儲，再到初加工、精加工，最後到模型訓練，整個鏈條都是在訓練基地進行，跑不出去。“一旦發生糾紛，也有糾紛解決的兜底機制，會邀請互聯網法院、知識産權局等來幫忙協調。”顔敏說。

大模型的訓練、算力使用都要面臨一筆不小的支出，初創企業能否應付得了？“我們每年會發放1億元算力券，企業可申領用于算力租用，即領即享。”經開區管委會主任孔磊介紹。

近日，經開區專門發布了《關于加快打造AI原生産業創新高地的若幹政策》，從推動算力賦能産業發展、構建高效協同創新體系、高水平建設北京數據基礎制度先行區、推動人工智能應用場景賦能與開放、打造人工智能産業集聚區、優化産業發展生態6個方面提出14條具體措施。

除了算力券，亦莊每年還會發放1億元模型券，對購買技術自主可控基座大模型産品及服務進行補貼；開展“大模型+”行動，在自動駕駛、具身智能、醫藥健康、工業制造等領域開放高質量應用場景，推動AI賦能千行百業。

通過政策集成與創新，亦莊將持續推進人工智能核心技術取得重大突破，全面構建自主可控軟硬件人工智能産業生態。到2026年，亦莊將培育性能達到國際先進水平的通用大模型，打造人工智能標杆應用場景10個，集聚人工智能産業鏈企業100家，實現園區營業收入1000億元，建成人工智能算力10000P。

文采家

大模型在這裏“刷題”！國內首個人工智能數據訓練基地啓用

北京日報客戶端