AIGC開卷3D視頻生成，關于生成式AI賽道的三大思考

AIGC的熱潮，已經開卷視頻了。

年初，OpenAI推出的人工智能文生視頻大模型Sora成爲一大亮點。數月之後，文生3D視頻領域再次掀起新浪潮。這次，AI科技公司魔琺科技帶著文生3D視頻産品“有言”登場。

除了直接開放官網用戶注冊、使用通道，便于大家都能試用，在創新理念和技術實力之外，“有言”也向業界抛出了一些值得深思的問題。

第一問：狂熱VS清醒，AI視頻生成大模型要顛覆視頻行業？

衆所周知，Sora僅憑幾個視頻的發布，立即轟動全球AI領域，在技術圈點燃了大家關于視頻大模型的熱烈討論，甚至被自媒體專家譽爲“通用人工智能AGI實現的標志”。然而，除了視頻行業的專業人士和西方技術圈的精英，大部分人對Sora的評價似乎過于樂觀。

用OpenAI官方的話來說，Sora實現了對物理世界極強的模擬能力。但是，這並不意味著Sora無所不能，它在模擬複雜場景和因果關系方面仍顯不足，盡管在時空一致性上有所提升，卻存在局限。

與其他AI視頻生成工具相比，Sora的革新更多體現在量的積累而非質的飛躍。除官方demo外，Sora也爲媒體開放試用。彭博社記者的試用過程中，Sora曾也暴露出不可控的問題，比如生成的內容與提示詞不符，甚至出現荒誕的場景，如一只猴子長出了鹦鹉的翅膀。

因此，目前Sora的可用性受到質疑，它距離滿足企業實際需求並實現商用落地似乎還有一段距離。

此背景下，“有言”帶來了更多新的思考。例如，如何提升AI視頻生成産品的可控性，使其更貼近用戶需求，更准確地生成符合預期的內容，這無疑是一個值得深入探討的問題。

從用戶實際的應用需求來看，打開“有言”的官方網站，注冊後即可申請試用。在操作上，一方面，“有言”實現了對生成視頻內容和時長的精准控制，更保證了視頻角色、場景、燈光的高度一致性。另一方面，“有言”開放了部分功能的編輯權限，從而能夠更精確地呈現視頻內容。

簡單來說，用戶通過“有言"能夠便捷地生成視頻腳本文案，完成視頻剪輯，還能進行音效、配樂、字幕包裝等後期制作環節，無需在多個AI工具間頻繁切換，直接就能生産出高質量的視頻作品。現階段，“有言"將最難視頻要素AIGC化，比如腳本、動畫、運鏡、燈光、聲音等要素的AIGC化，而部分視頻要素采取UGC模版庫的方式供用戶選擇，未來將最終實現AIGC everything。但這對文生視頻産品而言，已經在産品化和實際應用中的落地使用邁出了堅實的一步。

第二問：AIGC視頻生成大爆發，帶來危機還是創造機遇？

在文生視頻大模型領域，並非OpenAI的Sora一枝獨秀，Runway、Pika、Stable Video Diffusion等衆多AI創業公司也在此賽道上競相角逐，打得火熱。早前Sora的發布之所以引發如此巨大的轟動與熱議，皆因其取得了突破性的進展，實現了AI領域新一代生産力工具的願景。

如今，AI視頻生成領域經曆了翻天覆地的變革，大家將更多的目光轉向AIGC時代的創作工具。回溯視頻行業的發展脈絡，不難發現：PGC時代依賴專業團隊與設備；UGC時代降低了拍攝門檻，但企業仍受限于質量要求；如今進入AIGC時代，工具的出現讓創作門檻更低、質量更高，徹底顛覆視頻制作流程，解決短視頻供給不足問題。

AIGC無疑是視頻行業生産力革命的必然趨勢，同時也是企業解決視頻時代內容瓶頸的絕佳選擇。AIGC技術工具的推出，雖然給行業帶來了一定的挑戰，但更多的是推動了內容形態的升級，爲各行各業注入了前所未有的想象力與創造力。

那麽，在AIGC時代現世的“有言”，在産品易用性、商業場景等方面帶來了什麽？

在操作層面，“有言”簡潔明了的操作界面，AIGC生成的流暢視頻以及完善的一站式視頻創作功能受到了大家的青睐，配合內置的海量視頻模板案例庫，使用戶能夠輕松選擇對應場景，並通過簡單的修改，快速生成個性化的視頻作品。無論是企業品牌推廣、社媒運營，還是産品營銷、企業內訓，甚至涉及廣電傳媒、知識分享、K12教育、電商、本地生活等多個領域，“有言”都能靈活應對，展現出強大的適應性。特別是在需要高效、精准傳達信息的場合中，“有言”更是憑借其出色的性能，贏得了用戶的廣泛贊譽。

在商業價值方面，“有言”的應用價值已經得到了市場的充分驗證。在産品正式推向公衆之前，已有近50家來自不同行業的領軍企業提前付費購買了企業旗艦版産品，包括東吳證券、海爾集團、蘇州廣電、愛爾眼科、自然堂、斯凱奇、中倫律所等衆多知名品牌，覆蓋金融、3C、廣電、美護、律所、文旅等多個行業領域。這一卓越成績不僅凸顯了“有言”産品的卓越品質，更預示著其在未來市場上的無限潛力和廣闊前景。

在實際應用層面，“有言”也得到了客戶的檢驗。“有言”通過深度嵌入海爾集團的中台系統，全面賦能其營銷、平台服務、研發、電商、數字化等多條業務線，展現出了強大的應用潛力和廣闊的市場前景。應海爾集團要求，首批爲其開通了100個賬號，覆蓋集團內的六大職能部門，服務人數超過400人。短短兩個月內，海爾集團利用“有言”高效生産了600多支業務線視頻，總時長近3000分鍾，平均每日産出視頻數量高達30余支。不僅大幅提升海爾的視頻內容生産能力，更使培訓類視頻的制作成本降低了50%。

除此之外，美妝品牌自然堂也通過“有言”實現了視頻內容的高效生産。在短短兩周多的時間內，自然堂各部門便利用“有言”制作了數百支種草視頻、産品講解視頻以及內部培訓視頻，極大地提升了品牌傳播效果和內部培訓效率。

第三問：埋頭趕路還是彎道超車，國産AI視頻生成的機會在哪裏？

隨著大模型技術的不斷演進和突破，自去年起，國內科技公司紛紛投身于大模型的研發浪潮中，力求在這一前沿領域取得突破。今年Sora橫空出世後，更是讓許多企業壓力倍增，他們開始擔憂自身在大模型研發上的進度和成果是否能與Sora相媲美。

從技術底層邏輯來看，Sora確實展現出了獨特的優勢。它巧妙地結合了基于ChatGPT技術的Transformer模型與文生視頻的Diffusion Model，成功實現了文本到視頻的轉化功能。然而，這種轉化主要依賴于猜測與計算，而非深入的邏輯分析，因此在視頻生成過程中，Sora面臨著時空一致性、可控性、編輯性、確定性以及時長控制等諸多挑戰。

並且，目前Sora僅停留在demo階段，尚未推出商業化産品供用戶體驗。即便假設Sora能夠推出成熟産品，其高昂的算力成本也將成爲商業化的難題。因此，在追求技術創新的同時，也需要考慮如何降低成本，提高産品的實用性和商業化潛力。

此外，2D數字人和3D虛擬人之間的討論也接連不斷。

一方面，雖然2D數字人視頻技術能夠模擬真實的對話場景，但其AIGC能力仍然有所欠缺，無法輕易改變數字人的形象或創造出3D場景。另一方面，由于3D技術壁壘和門檻極高，涉足其中的企業寥寥無幾。對于技術公司來說，獲取高質量的3D數據尤爲艱難。相較于圖文視頻數據的易得性，3D數據顯得尤爲稀缺且難以捕捉，其制作往往需要內容創作者的匠心獨運，成本高昂。

要實現國産AI視頻生成，除了大模型路徑外，是否能在深入研究和挖掘自己的市場環境和技術優勢後，擁有一條其他可行的技術路徑呢？

差異化之下，“有言”采用基于三維圖形學和AIGC技術的路徑，與現實世界的視頻制作流程對應起來。

具體來說，這一技術路徑與Pika、Runway和Sora存在明顯的區別：

在時空一致性上，Pika和Runway在視頻生成上時空連貫性不佳。相比之下，“有言”采用基于三維圖形學和AIGC的技術路徑，通過實時物理引擎將3D內容轉化爲2D視頻，能夠更好地模擬真實世界的時空連貫性。

在內容可控性與確定性上，現有文生視頻産品如Sora在這方面存在不足，而“有言”的三維圖形學和AIGC技術使其生成的3D內容更具可控性和確定性。

在視頻時長上，早期文生視頻産品生成的視頻普遍較短，Sora雖有所提升，但完整視頻生成仍具挑戰。“有言”雖然通過其技術路徑提升了視頻生成的質量，但在時長方面仍有待進一步突破。

在産品完整性上，現有文生視頻産品在“滿足創作者一站式需求”這一方面有所欠缺，而“有言”通過其技術路徑和實時物理引擎，爲創作者提供了更全面的解決方案，但仍需不斷優化以滿足更多需求。

值得一提的是，“有言”作爲基于三維圖形學和AIGC技術的産品，與生成2D視頻的文生視頻産品存在顯著差異。這種技術差異使得“有言”能夠生成適配VR/AR的內容，爲未來的metaverse虛擬3D世界提供了更多可能性。

如今，“有言”已經將3D視頻生成落地，AIGC技術的飛速進步正以前所未有的速度引領我們邁向3D互聯網的新紀元。隨著技術的不斷創新與融合，其應用落地正逐步從美好願景轉化爲觸手可及的現實。

未來，魔琺科技如何在自身的技術領域深耕細作，不斷突破技術瓶頸，爲3D內容AIGC生成領域的發展注入源源不斷的創新動力，我們拭目以待。

解鎖更多“有言”體驗，請在PC端點擊鏈接：https://youyan.xyz/

文采家

AIGC開卷3D視頻生成，關于生成式AI賽道的三大思考

CSDN