科技雲報道:Sora陰影之下,焦慮的中國AI

科技雲報道 2024-04-15 13:21:48

科技雲報道原創。

“跟不上的可能就要被淘汰了。”看到Sora演示視頻後,從業10多年的動畫制作師黃斌得出了這樣的判斷。

隨著影視業失業潮呼聲漸起,Sora的誕生也給中國AI行業帶來了巨大的焦慮。

360集團創始人周鴻祎認爲,Sora模型展現出了超越當前中國同類産品的性能和技術水平,這不僅體現在Sora可能實現通用人工智能(AGI)的時間表上,還體現在其實際應用效果和創新能力上。

更有甚者,網上流傳著“Sora的誕生是牛頓時刻”的說法,認爲Sora代表了新一輪産業革命的興起。

事實上,國內在經過“百模大戰”之後,才剛剛在文本模型上取得顯著成果,達到或超過GPT-3.5的水平,並正朝著GPT-4的方向努力追趕。

但Sora的誕生,展示了OpenAI在多模態模型而非單一文本領域的突破性進展,讓國內AI廠商追上甚至超越OpenAI,幾乎成了不可能完成的任務。

由此不少網友對中國AI發出質問:

爲什麽Sora沒有誕生在中國?中國跟美國的AI差距越來越大,Sora這波國內慢了十年吧?永遠都是在追趕路上,爲啥沒有原創?

在一句句靈魂版的拷問中,中國AI廠商集體陷入了沉默。

那麽,在Sora這樣的多模態大模型上,中美到底有多大差距?追趕的難點在哪兒?在種種限制之下,中國是否有自己的優勢?

中美AI差距幾何?

盡管OpenAI承認Sora仍處于開發的早期階段,需要進一步完善,但業界已形成一個共識——Sora的推出標志著生成人工智能領域的一個重要裏程碑。

這是因爲Sora不僅僅是一個文生視頻的工具,更是AGI的一個關鍵節點,它驗證了一條通向AGI的可行技術路線。

和之前的GPT-3一樣,Sora再次驗證了Scaling Law可以在這個技術方向上繼續發揮作用實現湧現。

而這背後,不僅是驚人的資本和算力支持的結果,更是通過無數工程實驗試錯和強大技術力量支持的結果。

不少人推斷,OpenAI手裏應該已經有一個基本完整的多模態GPT-5,可以根據需要隨時釋放其中的某一部分打擊對手,或者引導輿論。

360集團創始人周鴻祎更是直接斷言,Sora的出現,意味著AGI(人工通用智能)的實現將從10年縮短到1年。

事實上,在Sora面前,無論是現有的頂級AI模型如Pika、Runway等,還是在多模態AI上有投入的國內廠商,基本上都被“吊打”了。

這也側面反映出中美在AI技術研發深度和資源投入上的差距。

首先,門檻來自算力。

雖然有學者認爲Sora只是一個大約30億參數的模型,訓練成本並沒有想象的高,但視頻數據本身的處理、標注等成本,加上長視頻在推理階段注定的巨大token數量和算力消耗,顯然對任何公司都是難以承受的挑戰。

即便Sora真的只有30億參數,視頻分析對算力的消耗應該也是遠遠超過一個千億模型的。在國內GPU被卡脖子之後,算力是一個巨大的挑戰。

其次,是高質量的數據。

根據OpenAI發布的技術報告,Sora強大能力歸功于兩點:其一是使用了基于Transformer的擴散模型(Diffusion Model);其二是將不同類型視覺數據轉化爲統一格式——像素塊(patch),從而能利用數量龐大、質量過硬且算力性價比高的數據。

業內人士認爲,數據質量和數量上的顯著優勢,很可能是Sora成功的最關鍵因素之一。

在算力方面,雖然OpenAI訓練Sora模型使用的GPU卡數量並非無法企及,但其他公司在具備足夠硬件資源的情況下,仍然難以複制OpenAI的成功,主要瓶頸還是在于如何獲取和處理大規模高質量的視頻數據。

2022年,OpenAI曾宣布以創新方法來訓練AI模型,省去標注大量資料的訓練過程。

據報道,OpenAI所公布的視頻預訓練模型(VPT),讓AI學會了在《我的世界》裏從頭開始造石鎬。

研究人員首先收集一波數據標注外包們玩遊戲的數據,其中包含視頻和鍵鼠操作的記錄。

然後,利用這些數據制作逆動力學模型(IDM),從而推測出視頻裏每一步在進行的時候,鍵鼠都是怎麽動的。這樣只需比原來少很多的數據就可以實現目的。

這項研究發表于2022年6月,同時文中還注明這個工作已經進行了一年之久,也就是說,OpenAI至少從2021年起就開始進行這項研究。

Logenic AI聯合創始人李博傑認爲,OpenAI的先發優勢決定了早期的數據壁壘,對于後進入市場的公司來說,增加了追趕的難度。

“即使是谷歌這樣全球數據量最大的公司,在訓練大模型時,訓練數據也未必能比OpenAI更好”,李博傑表示。

相比之下,國內公司在數據上的積累和利用上也存在一定差距:一方面,由于政策變化和其他限制,後來者可能無法獲取之前可用的一些關鍵數據;另一方面,隨著AI生成內容越來越多地充斥互聯網,原始的真實世界數據被“汙染”,使得獲取高質量、無偏見的訓練數據更加困難。

最後,是創新的訓練方法。

Sora實現了將Transformer和擴散模型結合的創新,首先將不同類型的視覺數據轉換成統一的視覺數據表示(視覺patch),然後將原始視頻壓縮到一個低維潛在空間,並將視覺表示分解成時空patch(相當于Transformer token),讓Sora在這個潛在空間裏進行訓練並生成視頻。

接著做加噪去噪,輸入噪聲patch後,Sora通過預測原始“幹淨”patch來生成視頻。

OpenAI發現,訓練計算量越大,樣本質量就會越高,特別是經過大規模訓練後,Sora展現出模擬現實世界某些屬性的“湧現”能力。

總的來說,Sora是好的架構+好的數據,然後把模型做大,達到量變到質變。

盡管Sora在方案設計上大部分是已有的技術,但能夠做出驚豔效果的也只有Sora,這也說明在訓練過程中有很多訓練技巧的問題要解決。

中國AI廠商能否 追趕OpenAI?

Sora的技術突破讓AI焦慮在國內蔓延開來,但中國AI並非完全無招架之力。在Sora出現並占據大衆視野之前,國內也曾有多家上市公司在多模態AI方面展開過布局。

2023年12月18日,東方證券在一份研報中提及,國內的海康威視、大華股份、螢石網絡等視頻分析行業領先廠商,紛紛投入到多模態大模型研究和行業應用落地進程。

與此同時,百度、阿裏、騰訊、華爲、字節跳動等大廠也都布局了多模態基礎大模型。

據不完全統計,2023年12月至今三個月內,已有包括萬興科技、博彙科技、易點天下、數碼視訊、漢王科技、當虹科技、東方國信等在內的十余家A股公司,在投資者互動平台披露過視頻生成模型領域的業務情況。

盡管目前國內廠商呈現的“文生視頻”效果遠不如Sora,但Sora所用到的基礎模型LLM、文生圖模型DALL·E 3、大規模視頻數據集、AI算力體系、大模型開發工具棧等核心基礎設施,中國都已經具備。

比如原創的基礎大語言模型文心一言、訊飛星火、BAICHUAN等,以及文生圖模型文心一格、騰訊混元等,加上過去一年大模型基礎設施的突飛猛進,有能力和條件支持中國AI修成正果,在視頻生成賽道再現類似ChatGPT式的成功。

騰訊研究院資深專家王鵬認爲,Sora的發布進一步明確了DiT(=VAE編碼器+ViT+DDPM+VAE解碼器)是多模態AI的可行方向,中國AI大廠仍然有可能以現有資源在一年左右接近Sora目前的水平。

中國AI的機會

事實上,不僅是技術代際差異並沒有想象中的那麽大,視頻生成模型走向行業的長跑才剛剛開始。大模型的價值需要商業化來證明,Sora也不例外。

首先,相比“人人皆可上手”的大語言模型,視頻生成模型的應用門檻更高,受衆群體更小。目前OpenAI僅開放給創作者使用,而非像ChatGPT那樣開放給大衆。

不難看到,視頻生成模型從研發到落地,整個過程會更加緩慢,應用潛力與商業出口還有待探索。

其次,Sora雖然強大,但成本確實是一個現實問題。

有人估算,Sora生成一條視頻的成本在幾美元到幾十美元不等,如果普及到大衆使用,成本需要降到目前的1%才能接受。

降低成本的同時提高生成質量和邏輯連貫性,是亟待解決的關鍵挑戰。

同時,考慮到無法解決“幻覺”的問題,要想生成真正可控可用的視頻,短期內成本高昂。

這些局限性,都爲中國AI産學各界留下了較長的追趕窗口期。

目前,Sora能夠激活多大的商業價值尚不明確,但是利用大模型找應用場景卻是中國市場的優勢所在。

中國擁有豐富的行業和場景,如果中國AI廠商能爲垂直的行業用戶解決具體的場景問題,打磨好工具,做好視頻生成模型的提示詞工程,以便非專業背景的廣大行業用戶們上手使用,那麽在特定領域超過GPT-4甚至是GPT-5的可能性是非常大的。

不僅如此,中國AI廠商也可以在Sora等大模型的基礎上,做進一步的應用創新,例如在Sora之上能夠提供更複雜的視頻剪輯能力、革新醫療教學與模擬訓練等,從而率先探索出商業化之路。

結語

Sora作爲人工智能視頻生成技術的重大突破,顯示了中美之間存在顯著的技術差距。這對于中國科技界而言,既是警醒也是鞭策。在承認現實差距的同時,中國AI也不必妄自菲薄,審視自我、調整戰略、奮起直追,抓住機會窗口,才是彎道超車的必由之路。

【關于科技雲報道】

專注于原創的企業級內容行家——科技雲報道。成立于2015年,是前沿企業級IT領域Top10媒體。獲工信部權威認可,可信雲、全球雲計算大會官方指定傳播媒體之一。深入原創報道雲計算、大數據、人工智能、區塊鏈等領域。

0 阅读:15

科技雲報道

簡介:深度原創企業級IT內容行家