顔水成挂帥，奠定通用視覺多模態大模型終極形態！一統理解/生成

編輯：LRS

【新智元導讀】顔水成團隊聯合新加坡國立、南洋理工大學共同開源了Vitron模型，持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務，爲下一代通用視覺大模型的終極形態奠定了基礎，也標志著大模型邁向通用人工智能（AGI）的又一大步。

近日，顔水成教授團隊聯合發布並開源了Vitron通用像素級視覺多模態大語言模型。

項目主頁&Demo：https://vitron-llm.github.io/

論文鏈接：https://is.gd/aGu0VV

開源代碼：https://github.com/SkyworkAI/Vitron

這是一款重磅的通用視覺多模態大模型，支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務，解決了困擾大語言模型産業已久的圖像/視頻模型割裂問題，提供了一個全面統一靜態圖像與動態視頻內容的理解、生成、分割、編輯等任務的像素級通用視覺多模態大模型，爲下一代通用視覺大模型的終極形態奠定了基礎，也標志著大模型邁向通用人工智能（AGI）的又一大步。

Vitron作爲一個統一的像素級視覺多模態大語言模型，實現了從低層次到高層次的視覺任務的全面支持，能夠處理複雜的視覺任務，並理解和生成圖像和視頻內容，提供了強大的視覺理解和任務執行能力。同時，Vitron支持與用戶的連續操作，實現了靈活的人機互動，展示了通向更統一的視覺多模態通用模型的巨大潛力。

Vitron相關的論文、代碼和Demo已全部公開，其在綜合性、技術創新、人機交互和應用潛力等方面展現出的獨特優勢和潛力，不僅推動了多模態大模型的發展，還爲未來的視覺大模型研究提供了一個新的方向。

當前視覺大語言模型（LLMs）的發展取得了喜人進展。社區越來越相信，構建更通用、更強大的多模態大模型（MLLMs）將會是通向通用人工智能（AGI）的必經之路。但在向多模態通用大模型（Generalist）的邁進過程中，目前仍存在一些關鍵挑戰。比如很大一部分工作都沒有實現細粒度像素級別的視覺理解，或者缺乏對圖像和視頻的統一支持。抑或對于各種視覺任務的支持不充分，離通用大模型相差甚遠。

爲了填補這個空白，近日，團隊聯合發布開源了Vitron通用像素級視覺多模態大語言模型。Vitron支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務，包括靜態圖像和動態視頻內容進行全面的理解、生成、分割和編輯等任務。

上圖綜合描繪了Vitron在四大視覺相關任務的功能支持，以及其關鍵優勢。Vitron還支持與用戶的連續操作，實現靈活的人機互動。該項目展示了面向更統一的視覺多模態通用模型的巨大潛力，爲下一代通用視覺大模型的終極形態奠定了基礎。

Vitron相關論文、代碼、Demo目前已全部公開。

大一統的終極多模態大語言模型

近年來，大語言模型（LLMs）展現出了前所未有的強大能力，其被逐漸驗證爲乃是通向AGI的技術路線。而多模態大語言模型（MLLMs）在多個社區火爆發展且迅速出圈，通過引入能進行視覺感知的模塊，擴展純語言基礎LLMs至MLLMs，衆多在圖像理解方面強大卓越的MLLMs被研發問世，例如BLIP-2、LLaVA、MiniGPT-4等等。與此同時，專注于視頻理解的MLLMs也陸續面世，如VideoChat、Video-LLaMA和Video-LLaVA等等。

隨後，研究人員主要從兩個維度試圖進一步擴展MLLMs的能力。一方面，研究人員嘗試深化MLLMs對視覺的理解，從粗略的實例級理解過渡到對圖像的像素級細粒度理解，從而實現視覺區域定位（Regional Grounding）能力，如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。

另一方面，研究人員嘗試擴展MLLMs可以支持的視覺功能。部分研究已經開始研究讓MLLMs不僅理解輸入視覺信號，還能支持生成輸出視覺內容。比如，GILL、Emu等MLLMs能夠靈活生成圖像內容，以及GPT4Video和NExT-GPT實現視頻生成。

目前人工智能社區已逐漸達成一致，認爲視覺MLLMs的未來趨勢必然會朝著高度統一、能力更強的方向發展。然而，盡管社區開發了衆多的MLLMs，但仍然存在明顯的鴻溝。

1. 幾乎所有現有的視覺LLMs將圖像和視頻視爲不同的實體，要麽僅支持圖像，要麽僅支持視頻。

研究人員主張，視覺應該同時包含了靜態圖像和動態視頻兩個方面的內涵——這兩者都是視覺世界的核心組成，在大多數場景中甚至可以互換。所以，需要構建一個統一的MLLM框架能夠同時支持圖像和視頻模態。

2. 目前MLLMs對視覺功能的支持還有所不足。

大多數模型僅能進行理解，或者最多生成圖像或視頻。研究人員認爲，未來的MLLMs應該是一個通用大語言模型，能覆蓋更廣泛的視覺任務和操作範圍，實現對所有視覺相關任務的統一支持，達到「one for all」的能力。這點對實際應用尤其是在經常涉及一系列叠代和交互操作的視覺創作中至關重要。

例如，用戶通常首先從文本開始，通過文生圖，將一個想法轉化爲視覺內容；然後通過進一步的細粒度圖像編輯來完善初始想法，添加更多細節；接著，通過圖像生成視頻來創建動態內容；最後，進行幾輪叠代交互，如視頻編輯，完善創作。

上表簡單地歸納了現有的視覺MLLM的能力（只代表性地囊括了部分模型，覆蓋不完整）。爲了彌補這些差距，該團隊提出一種通用的像素級視覺MLLM——Vitron。

Vitron系統架構：三大關鍵模塊

Vitron整體框架如下圖所示。Vitron采用了與現有相關MLLMs相似的架構，包括三個關鍵部分：1) 前端視覺&語言編碼模塊，2) 中心LLM理解和文本生成模塊，以及3) 後端用戶響應和模塊調用以進行視覺操控模塊。

前端模塊：視覺-語言編碼

爲了感知圖像和視頻模態信號，並支持細粒度用戶視覺輸入，Vitron集成了圖像編碼器、視頻編碼器、區域框/草圖編碼器。

中心模塊：核心LLM

Vitron使用的是Vicuna（7B，v1.5），來實現理解、推理、決策制定和多輪用戶交互。

後端模塊：用戶響應與模塊調用

Vitron采用以文本爲中心的調用策略，整合現成的幾個強大先進（SoTA）的圖像和視頻處理模塊，用于解碼和執行從低層到高層的一系列視覺終端任務。通過采用以文本爲中心的模塊集成調用方法，Vitron不僅實現了系統統一，還確保了對齊效率和系統可擴展性。

Vitron模型訓練三大階段

基于上述架構，再對Vitron進行訓練微調，以賦予其強大的視覺理解和任務執行能力。模型訓練主要囊括三個不同的階段。

步驟一：視覺-語言整體對齊學習。將輸入的視覺語言特征映射到一個統一的特征空間中，從而使其能夠有效理解輸入的多模態信號。這是一種粗粒度的視覺-語言對齊學習，可以讓系統具備整體上有效處理傳入的視覺信號。研究人員采用了現存的圖像-標題對（CC3M）、視頻-標題對（Webvid）和區域-標題對（RefCOCO）的數據集進行訓練。

步驟二：細粒度的時空視覺定位指令微調。系統采用了調用外部模塊方式來執行各種像素級視覺任務，但LLM本身並未經過任何細粒度的視覺訓練，這將會阻礙了系統實現真正的像素級視覺理解。爲此，研究人員提出了一種細粒度的時空視覺定位指令微調訓練，核心思想是使LLM能夠定位圖像的細粒度空間性和視頻的具體時序特性。

步驟三：輸出端面向命令調用的指令微調。上述第二階段的訓練賦予了LLM和前端編碼器在像素級別理解視覺的能力。這最後一步，面向命令調用的指令微調，旨在讓系統具備精確執行命令的能力，允許LLM生成適當且正確的調用文本。由于不同的終端視覺任務可能需要不同的調用命令，爲了統一這一點，研究人員提出將LLM的響應輸出標准化爲結構化文本格式，其中包括：

1）用戶響應輸出，直接回複用戶的輸入

2）模塊名稱，指示將要執行的功能或任務。

3）調用命令，觸發任務模塊的元指令。

4）區域（可選輸出），指定某些任務所需的細粒度視覺特征，例如在視頻跟蹤或視覺編輯中，後端模塊需要這些信息。對于區域，基于LLM的像素級理解，將輸出由坐標描述的邊界框。

評估實驗

研究人員基于Vitron在22個常見的基准數據集、12個圖像/視頻視覺任務上進行了廣泛的實驗評估。Vitron展現出在四大主要視覺任務群組（分割、理解、內容生成和編輯）中的強大能力，與此同時其具備靈活的人機交互能力。以下代表性地展示了一些定性比較結果：

Vision Segmentation

Results of image referring image segmentation

Fine-grained Vision Understanding

Results of image referring expression comprehension.

Results on video QA.

Vision Generation

Text-to-Image Generation/Text-to-Video generation/Image-to-Video generation

Vision Editing

Image editing results

具體更多詳細實驗內容和細節請移步論文。

未來方向展望

總體上，這項工作展示了研發大一統的視覺多模態通用大模型的巨大潛力，爲下一代視覺大模型的研究奠定了一個新的形態，邁出了這個方向的第一步。盡管團隊所提出的Vitron系統表現出強大的通用能力，但依然存在自身的局限性。以下研究人員列出一些未來可進一步探索的方向。

系統架構

Vitron系統仍采用半聯合、半代理的方式來調用外部工具。雖然這種基于調用的方法便于擴展和替換潛在模塊，但這也意味著這種流水線結構的後端模塊不參與到前端與LLM核心模塊的聯合學習。

這一限制不利于系統的整體學習，這意味著不同視覺任務的性能上限將受到後端模塊的限制。未來的工作應將各種視覺任務模塊整合成一個統一的單元。實現對圖像和視頻的統一理解和輸出，同時通過單一生成範式支持生成和編輯能力，仍然是一個挑戰。目前一種有希望的方式是結合modality-persistent的tokenization, 提升系統在不同輸入和輸出以及各種任務上的統一化。

用戶交互性

與之前專注于單一視覺任務的模型（例如，Stable Diffusion和SEEM）不同，Vitron旨在促進LLM和用戶之間的深度交互，類似于行業內的OpenAI的DALL-E系列，Midjourney等。實現最佳的用戶交互性是本項工作的核心目標之一。

Vitron利用現有的基于語言的LLM，結合適當的指令調整，以實現一定程度的交互。例如，系統可以靈活地響應用戶輸入的任何預期消息，産生相應的視覺操作結果，而不要求用戶輸入精確匹配後端模塊條件。然而，該工作在增強交互性方面仍有很大的提升空間。例如，從閉源的Midjourney系統汲取靈感，不論LLM在每一步做出何種決定，系統都應積極向用戶提供反饋，以確保其行動和決策與用戶意圖一致。

模態能力

當前，Vitron集成了一個7B的Vicuna模型，其可能對其理解語言、圖像和視頻的能力會産生某些限制。未來的探索方向可以發展一個全面的端到端系統，比如擴大模型的規模，以實現對視覺的更徹底和全面的理解。此外，應該努力使LLM能夠完全統一圖像和視頻模態的理解。

參考資料：

https://vitron-llm.github.io/

文采家

顔水成挂帥，奠定通用視覺多模態大模型終極形態！一統理解/生成

之槐看科技