大模型在這裏“刷題”!國內首個人工智能數據訓練基地啓用

北京日報客戶端 2024-03-30 14:45:40

如果把人工智能大模型比作一位小學生,那麽數據訓練時所用的“語料”和“算力”,就相當于小學生“刷題”時使用的習題冊和計算器,幫助他掌握知識點、更快給出正確答案。

如今,北京的大模型有了更全面的“習題冊”、更強大的“計算器”。3月29日,在2024北京AI原生産業創新大會暨北京數據基礎制度先行區成果發布會上,國內第一個人工智能數據訓練基地、北京規模最大的公共算力平台正式啓用。

爲解決算力不足等問題,近兩年本市布局建設了多處公共算力平台。這就像電力公司供電一樣,只不過這些機櫃裏提供的是算力。因爲規模大、穩定,所以公共算力可提高訓練的效率,進而降低大模型訓練耗費的時長。​

此次北京亦莊人工智能公共算力平台正式點亮,算力規模在北京最大,可提供算力3000P。1P相當于每秒1000萬億次的計算速度。也就是說,這裏每秒就進行300億億次的計算,相當于超過百萬台高性能電腦的算力。以往企業自己要算幾個月的事,在這裏十幾天就能搞定。

“經開區規劃了超10000P的算力規模。”經開區相關負責人說,未來將推出支持政策,爲人工智能企業提供公共普惠的算力、創新領先的算網服務、細致完善的解決方案,助推大模型訓練和行業應用。

大模型的自我學習仰仗訓練。同日啓用的北京人工智能數據訓練基地裏,已經有多款大模型正練就“最強大腦”。訓練中,大模型依靠基地“投餵”的語料,像學生“刷題”一樣不斷提升自己的能力,從而在未來上線後應付現實中的各種難題。

這是國內最早啓用的人工智能數據訓練基地,可以組織數據供給方、加工服務方、模型訓練方“進場”合作,推動高質量數據價值釋放,助力通用模型和行業垂類模型訓練精調。

成爲“第一個”,不只依靠算力“硬件”。“訓練基地要幹的,不只是訓練。”運營訓練基地的北京亦莊智能城市研究院公司總經理顔敏解釋,使用數據時會面臨所有權歸誰、是否可信、如何保障安全、收益如何分配等各種問題,都需要建立機制來規範。爲此,基地針對大模型訓練的數據合規和場景應用了“監管沙盒”機制,爲新技術創新叠代提供開放包容的政策保障,免除後顧之憂。

數據不像普通的商品,使用方一旦獲得了會不會複制外泄?爲此,基地裏專門的存儲設備能讓數據“可用不可見”。從采集到存儲,再到初加工、精加工,最後到模型訓練,整個鏈條都是在訓練基地進行,跑不出去。“一旦發生糾紛,也有糾紛解決的兜底機制,會邀請互聯網法院、知識産權局等來幫忙協調。”顔敏說。

大模型的訓練、算力使用都要面臨一筆不小的支出,初創企業能否應付得了?“我們每年會發放1億元算力券,企業可申領用于算力租用,即領即享。”經開區管委會主任孔磊介紹。

近日,經開區專門發布了《關于加快打造AI原生産業創新高地的若幹政策》,從推動算力賦能産業發展、構建高效協同創新體系、高水平建設北京數據基礎制度先行區、推動人工智能應用場景賦能與開放、打造人工智能産業集聚區、優化産業發展生態6個方面提出14條具體措施。

除了算力券,亦莊每年還會發放1億元模型券,對購買技術自主可控基座大模型産品及服務進行補貼;開展“大模型+”行動,在自動駕駛、具身智能、醫藥健康、工業制造等領域開放高質量應用場景,推動AI賦能千行百業。

通過政策集成與創新,亦莊將持續推進人工智能核心技術取得重大突破,全面構建自主可控軟硬件人工智能産業生態。到2026年,亦莊將培育性能達到國際先進水平的通用大模型,打造人工智能標杆應用場景10個,集聚人工智能産業鏈企業100家,實現園區營業收入1000億元,建成人工智能算力10000P。

0 阅读:2