AIGC開卷3D視頻生成,關于生成式AI賽道的三大思考

CSDN 2024-04-28 13:55:26

AIGC的熱潮,已經開卷視頻了。

年初,OpenAI推出的人工智能文生視頻大模型Sora成爲一大亮點。數月之後,文生3D視頻領域再次掀起新浪潮。這次,AI科技公司魔琺科技帶著文生3D視頻産品“有言”登場。

除了直接開放官網用戶注冊、使用通道,便于大家都能試用,在創新理念和技術實力之外,“有言”也向業界抛出了一些值得深思的問題。

第一問:狂熱VS清醒,AI視頻生成大模型要顛覆視頻行業?

衆所周知,Sora僅憑幾個視頻的發布,立即轟動全球AI領域,在技術圈點燃了大家關于視頻大模型的熱烈討論,甚至被自媒體專家譽爲“通用人工智能AGI實現的標志”。然而,除了視頻行業的專業人士和西方技術圈的精英,大部分人對Sora的評價似乎過于樂觀。

用OpenAI官方的話來說,Sora實現了對物理世界極強的模擬能力。但是,這並不意味著Sora無所不能,它在模擬複雜場景和因果關系方面仍顯不足,盡管在時空一致性上有所提升,卻存在局限。

與其他AI視頻生成工具相比,Sora的革新更多體現在量的積累而非質的飛躍。除官方demo外,Sora也爲媒體開放試用。彭博社記者的試用過程中,Sora曾也暴露出不可控的問題,比如生成的內容與提示詞不符,甚至出現荒誕的場景,如一只猴子長出了鹦鹉的翅膀。

因此,目前Sora的可用性受到質疑,它距離滿足企業實際需求並實現商用落地似乎還有一段距離。

此背景下,“有言”帶來了更多新的思考。例如,如何提升AI視頻生成産品的可控性,使其更貼近用戶需求,更准確地生成符合預期的內容,這無疑是一個值得深入探討的問題。

從用戶實際的應用需求來看,打開“有言”的官方網站,注冊後即可申請試用。在操作上,一方面,“有言”實現了對生成視頻內容和時長的精准控制,更保證了視頻角色、場景、燈光的高度一致性。另一方面,“有言”開放了部分功能的編輯權限,從而能夠更精確地呈現視頻內容。

簡單來說,用戶通過“有言"能夠便捷地生成視頻腳本文案,完成視頻剪輯,還能進行音效、配樂、字幕包裝等後期制作環節,無需在多個AI工具間頻繁切換,直接就能生産出高質量的視頻作品。現階段,“有言"將最難視頻要素AIGC化,比如腳本、動畫、運鏡、燈光、聲音等要素的AIGC化,而部分視頻要素采取UGC模版庫的方式供用戶選擇,未來將最終實現AIGC everything。但這對文生視頻産品而言,已經在産品化和實際應用中的落地使用邁出了堅實的一步。

第二問:AIGC視頻生成大爆發,帶來危機還是創造機遇?

在文生視頻大模型領域,並非OpenAI的Sora一枝獨秀,Runway、Pika、Stable Video Diffusion等衆多AI創業公司也在此賽道上競相角逐,打得火熱。早前Sora的發布之所以引發如此巨大的轟動與熱議,皆因其取得了突破性的進展,實現了AI領域新一代生産力工具的願景。

如今,AI視頻生成領域經曆了翻天覆地的變革,大家將更多的目光轉向AIGC時代的創作工具。回溯視頻行業的發展脈絡,不難發現:PGC時代依賴專業團隊與設備;UGC時代降低了拍攝門檻,但企業仍受限于質量要求;如今進入AIGC時代,工具的出現讓創作門檻更低、質量更高,徹底顛覆視頻制作流程,解決短視頻供給不足問題。

AIGC無疑是視頻行業生産力革命的必然趨勢,同時也是企業解決視頻時代內容瓶頸的絕佳選擇。AIGC技術工具的推出,雖然給行業帶來了一定的挑戰,但更多的是推動了內容形態的升級,爲各行各業注入了前所未有的想象力與創造力。

那麽,在AIGC時代現世的“有言”,在産品易用性、商業場景等方面帶來了什麽?

在操作層面,“有言”簡潔明了的操作界面,AIGC生成的流暢視頻以及完善的一站式視頻創作功能受到了大家的青睐,配合內置的海量視頻模板案例庫,使用戶能夠輕松選擇對應場景,並通過簡單的修改,快速生成個性化的視頻作品。無論是企業品牌推廣、社媒運營,還是産品營銷、企業內訓,甚至涉及廣電傳媒、知識分享、K12教育、電商、本地生活等多個領域,“有言”都能靈活應對,展現出強大的適應性。特別是在需要高效、精准傳達信息的場合中,“有言”更是憑借其出色的性能,贏得了用戶的廣泛贊譽。

在商業價值方面,“有言”的應用價值已經得到了市場的充分驗證。在産品正式推向公衆之前,已有近50家來自不同行業的領軍企業提前付費購買了企業旗艦版産品,包括東吳證券、海爾集團、蘇州廣電、愛爾眼科、自然堂、斯凱奇、中倫律所等衆多知名品牌,覆蓋金融、3C、廣電、美護、律所、文旅等多個行業領域。這一卓越成績不僅凸顯了“有言”産品的卓越品質,更預示著其在未來市場上的無限潛力和廣闊前景。

在實際應用層面,“有言”也得到了客戶的檢驗。“有言”通過深度嵌入海爾集團的中台系統,全面賦能其營銷、平台服務、研發、電商、數字化等多條業務線,展現出了強大的應用潛力和廣闊的市場前景。應海爾集團要求,首批爲其開通了100個賬號,覆蓋集團內的六大職能部門,服務人數超過400人。短短兩個月內,海爾集團利用“有言”高效生産了600多支業務線視頻,總時長近3000分鍾,平均每日産出視頻數量高達30余支。不僅大幅提升海爾的視頻內容生産能力,更使培訓類視頻的制作成本降低了50%。

除此之外,美妝品牌自然堂也通過“有言”實現了視頻內容的高效生産。在短短兩周多的時間內,自然堂各部門便利用“有言”制作了數百支種草視頻、産品講解視頻以及內部培訓視頻,極大地提升了品牌傳播效果和內部培訓效率。

第三問:埋頭趕路還是彎道超車,國産AI視頻生成的機會在哪裏?

隨著大模型技術的不斷演進和突破,自去年起,國內科技公司紛紛投身于大模型的研發浪潮中,力求在這一前沿領域取得突破。今年Sora橫空出世後,更是讓許多企業壓力倍增,他們開始擔憂自身在大模型研發上的進度和成果是否能與Sora相媲美。

從技術底層邏輯來看,Sora確實展現出了獨特的優勢。它巧妙地結合了基于ChatGPT技術的Transformer模型與文生視頻的Diffusion Model,成功實現了文本到視頻的轉化功能。然而,這種轉化主要依賴于猜測與計算,而非深入的邏輯分析,因此在視頻生成過程中,Sora面臨著時空一致性、可控性、編輯性、確定性以及時長控制等諸多挑戰。

並且,目前Sora僅停留在demo階段,尚未推出商業化産品供用戶體驗。即便假設Sora能夠推出成熟産品,其高昂的算力成本也將成爲商業化的難題。因此,在追求技術創新的同時,也需要考慮如何降低成本,提高産品的實用性和商業化潛力。

此外,2D數字人和3D虛擬人之間的討論也接連不斷。

一方面,雖然2D數字人視頻技術能夠模擬真實的對話場景,但其AIGC能力仍然有所欠缺,無法輕易改變數字人的形象或創造出3D場景。另一方面,由于3D技術壁壘和門檻極高,涉足其中的企業寥寥無幾。對于技術公司來說,獲取高質量的3D數據尤爲艱難。相較于圖文視頻數據的易得性,3D數據顯得尤爲稀缺且難以捕捉,其制作往往需要內容創作者的匠心獨運,成本高昂。

要實現國産AI視頻生成,除了大模型路徑外,是否能在深入研究和挖掘自己的市場環境和技術優勢後,擁有一條其他可行的技術路徑呢?

差異化之下,“有言”采用基于三維圖形學和AIGC技術的路徑,與現實世界的視頻制作流程對應起來。

具體來說,這一技術路徑與Pika、Runway和Sora存在明顯的區別:

在時空一致性上,Pika和Runway在視頻生成上時空連貫性不佳。相比之下,“有言”采用基于三維圖形學和AIGC的技術路徑,通過實時物理引擎將3D內容轉化爲2D視頻,能夠更好地模擬真實世界的時空連貫性。

在內容可控性與確定性上,現有文生視頻産品如Sora在這方面存在不足,而“有言”的三維圖形學和AIGC技術使其生成的3D內容更具可控性和確定性。

在視頻時長上,早期文生視頻産品生成的視頻普遍較短,Sora雖有所提升,但完整視頻生成仍具挑戰。“有言”雖然通過其技術路徑提升了視頻生成的質量,但在時長方面仍有待進一步突破。

在産品完整性上,現有文生視頻産品在“滿足創作者一站式需求”這一方面有所欠缺,而“有言”通過其技術路徑和實時物理引擎,爲創作者提供了更全面的解決方案,但仍需不斷優化以滿足更多需求。

值得一提的是,“有言”作爲基于三維圖形學和AIGC技術的産品,與生成2D視頻的文生視頻産品存在顯著差異。這種技術差異使得“有言”能夠生成適配VR/AR的內容,爲未來的metaverse虛擬3D世界提供了更多可能性。

如今,“有言”已經將3D視頻生成落地,AIGC技術的飛速進步正以前所未有的速度引領我們邁向3D互聯網的新紀元。隨著技術的不斷創新與融合,其應用落地正逐步從美好願景轉化爲觸手可及的現實。

未來,魔琺科技如何在自身的技術領域深耕細作,不斷突破技術瓶頸,爲3D內容AIGC生成領域的發展注入源源不斷的創新動力,我們拭目以待。

解鎖更多“有言”體驗,請在PC端點擊鏈接:https://youyan.xyz/

0 阅读:7

CSDN

簡介:成就一億技術人,成爲技術人交流與成長的家園