中國也有Sora同款訓練架構公司,清華班底,智譜也投了|36氪首發

36氪 2024-03-14 11:10:36

文 | 周鑫雨

編輯 | 鄧詠儀

全球首家發布Sora同款底層架構的清華系模型公司,近期完成了新一輪融資。投資名單中,也出現了大模型獨角獸智譜AI的身影。

36氪獲悉,近日多模態AI模型公司生數科技完成新一輪數億元融資。該輪融資由啓明創投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲跟投。據介紹,融資主要用于多模態基礎大模型的研發叠代、應用産品創新及市場拓展。

2023年成立的生數科技,在創立當年已經完成了近億元的天使輪融資。基于自主研發的多模態通用大模型,生數科技對外提供To B的MaaS(模型即服務)服務和To C的應用産品。

生數科技的核心團隊成員,出自清華大學人工智能研究院。聯合創始人兼CEO唐家渝出身清華大學自然語言處理實驗室,曾任瑞萊只會副總裁、騰訊優圖實驗室高級産品經理。CTO鮑凡在清華大學計算機系獲得博士學位,在加速推理、可控生成、基礎架構、訓練策略等方面已發表十余篇頂會論文。首席科學家爲清華大學計算機系人工智能實驗室主任、智源研究院首席科學家朱軍。

可以說,2023年是國內大語言模型狂飙的元年。2024年,OpenAI攜可生成60秒視頻的模型Sora再次登場,立刻帶動了國內AI行業對視頻、音頻、圖像、3D等多模態生成技術的探索。

目前,生數科技自研的多模態通用大模型,已經初步具備短視頻的生成能力。

短視頻生成效果。圖源:生數科技

但Sora的空降,也讓生數科技立刻調整了戰略。以往AI生成視頻的長度天花板,是Runway Gen-3的18秒,如今Sora將天花板擡高到了60秒。

唐家渝坦言,長視頻生成需要高昂的入場費,A100、A800的卡可能要上萬張。資源投入的壓力,讓團隊並沒有立刻投入長視頻生成的訓練。如今長視頻生成的路徑,已經被OpenAI驗證,生數科技決定提高突破長視頻能力的優先級。

生數團隊對多模態模型的探索最早開始于2013年。在清華實驗室階段,團隊早期成員就開始了生成式模型理論基礎、高效學習和推理算法,以及音樂生成、人臉合成等多方面的研究工作。

自2020年擴散模型應用于圖像生成領域以來,生數團隊也是業內首批開展擴散概率模型基礎理論和算法研究的隊伍,于ICML、NeurIPS、ICLR等頂會發表擴散概率模型領域相關論文20余篇。團隊先後推出自研的無訓練推理框架Analytic-DPM、全球最快采樣算法DPM-Solver,被DALL-E 2、Stable Diffusion等國際項目所采用。

2022年9月,生數科技就發布了9.5億參數規模的U-ViT網絡架構,這也是全球首個Diffusion Transformer架構——1個月後,Stable Diffusion發布了初代DiT架構U-Net,後被應用于Sora的研發。

依托于U-ViT架構,生數科技推出了基于統一的多模態多任務框架的通用基礎大模型,可實現圖像、視頻、3D多種模態的生成。

圖像生成效果。圖源:生數科技

比如在3D生成的效果上,生數科技模型可以將生成速度壓縮到10秒級。與此同時,模型還支持360度全景4D動畫生成,以及對3D生成場景的編輯。

3D生成效果。圖源:生數科技

3D生成效果。圖源:生數科技

在3D等多模態訓練數據稀缺的當下,據唐家渝介紹,生數科技多模態模型的訓練數據主要來源于兩塊:互聯網上大量公開的數據,通過向版權方購買的私有數據,兩者共同完善訓練數據的豐富性。

相較于同等參數規模的語言模型,多模態模型的訓練,前期的投入更爲高昂。爲了節省成本,提高訓練效率,生數科技構建了完整的工程與數據體系,並在大規模GPU集群上實現更高效、低成本、強兼容的模型訓練。唐家渝表示,去年團隊花了近一個月的時間做完了華爲昇騰訓練架構的適配,芯片的國産替代幫助節省了不少成本。

目前,生數科技采取的是To B和To C兩條腿走路的商業化模式:對B端提供MaaS服務,對C端提供多模態生成應用。

目前,生數科技已經與多家遊戲公司、個人終端廠商、互聯網平台等B端機構展開合作。比如在和某頭部車企的合作中,生數科技將圖像生成能力應用在了車載大屏的壁紙生成。

在C端産品的布局上,生數科技在2023年上線了兩款工具型産品:視覺創意設計平台PixWeaver、3D資産創建工具VoxCraft。先面向海外市場推出的VoxCraft,在輔助3D遊戲角色開發場景中經過了市場的驗證,通過基于VoxCraft生成粗模、底模,遊戲開發效率能夠提升30%

唐家渝認爲,追趕Sora對模型公司而言,仍然擁有巨大的挑戰。這份挑戰不僅來源于訓練數據的數量和質量,也在于對多模態訓練數據的處理方式——在OpenAI披露更多訓練細節之前,Sora的數據集仍然是個“黑箱”。但樂觀的是,多模態模型,已經到了可以走出實驗室和機房,落地到更多應用場景的階段。

以下是投資人評價:

啓明創投合夥人周志峰

如今的大模型已經從原來的純語言模態,逐步走向多模態的探索。生數科技從去年成立之初就選擇多模態賽道,是國內這個領域起步最早、積累最深的團隊,大量工作被OpenAI、Stable Diffusion團隊引用。生數科技推出的U-ViT架構作爲全球Diffusion Transformer架構的首創,不僅具有前瞻的技術視野,更是經過了大規模訓練的驗證,展現出強大的技術可行性。這種兼具開拓性和成熟度的核心工作,讓我們對生數科技在多模態大模型方向的長期發展充滿信心。

今年過年期間,Sora的亮相不僅展示出視頻生成技術的巨大潛力,而且增強了人們對于多模態生成未來發展的信心。隨著Scaling Law在視頻生成領域的進一步加強,我們預期多模態技術將引領一系列令人矚目的創新和令人驚歎的成果。在這一過程中,生數科技無疑將扮演一個關鍵的推動角色!

達泰資本合夥人姚承

在當下大模型賽道的競爭中,生數科技在多方面都脫穎而出。不僅敏銳洞察到多模態的前沿趨勢,而且作爲國內最早投身多模態賽道的公司,生數科技在過去短短一年的時間內就取得了令人矚目的成績單,從基礎設施、模型算法、數據資源到場景化應用積累了獨特的競爭優勢。同時生數科技也是國內極少擁有“從零開始、自主訓練”大模型能力的公司,具備深厚理論基礎和實踐經驗,擁有突破主流框架技術難點和瓶頸的技術實力,因此我們堅持在人工智能領域的布局,並對生數科技未來發展充滿期待。

智譜AI CEO 張鵬

智譜AI CEO 張鵬表示:作爲清華系的創業團隊,生數科技是國內最早開展深度生成式AI研究的組織之一。從對抗生成網絡到擴散模型,生數科技敏銳洞察到融合架構的重要性,將其作爲原生多模態的技術核心和重要支撐。智譜AI很高興同生數科技展開深入合作,助力生數科技多模態核心技術研發與商業化探索,一同推動多模態大模型技術落地應用,更好惠及千行百業。

華興資本董事總經理、華興資本集團聯席總裁 王力行

我們身爲生數科技的親密戰友,見證了公司的厚積薄發和無限潛力。作爲全球頂尖的研發團隊,生數科技在基礎理論架構和工程實現等層面展現出了超群的創新力和前瞻性,率先提出U-ViT架構並一以貫之,引領了多模態行業的發展;同時團隊以極強的執行力和落地速度,陸續在圖像、3D、視頻生成等領域貢獻了藝術級的作品。作爲未來數字世界的天才建築師,生數將率先攻克多模態生成瓶頸,把人類的創造力和藝術構想一一落爲現實,始于科學、忠于創新、邁向未來。

歡迎交樓!

0 阅读:33