麻省理工的科學家可以讓最流行的人工智能圖像生成器提速30倍

知新了了 2024-03-27 11:54:47

科學家們已經建立了一個框架,通過將它們濃縮到更小的模型中,在不影響質量的情況下,給像Dall·E3和Stable Diffusion這樣的生成式人工智能系統帶來了巨大的提振。

一項新的研究表明,由于一項技術可以將整個100個階段的過程濃縮爲一步,流行的人工智能(AI)驅動的圖像生成器的運行速度可以提高30倍。

科學家們發明了一種名爲“分布匹配蒸餾”(DMD)的技術,可以教新的人工智能模型模仿已建立的圖像生成器,即所謂的擴散模型,如Dall·E3、Midjourney和Stable diffusion。

這個框架産生了更小、更精簡的人工智能模型,可以更快地生成圖像,同時保持最終圖像的相同質量。科學家們在上傳到預印本服務器arXiv的一項研究中詳細介紹了他們的發現。

該研究的共同主要作者、麻省理工學院電子工程和計算機科學博士生尹天偉(音譯)在一份聲明中說:“我們的工作是一種新穎的方法,可以將當前的擴散模型(Dall·E3和Stable Diffusion)加速30倍,這一進步不僅大大減少了計算時間,而且保留了生成的視覺內容的質量。”

擴散模型通過一個多階段的過程生成圖像。使用帶有描述性文字標題和其他元數據的圖像作爲訓練數據,人工智能被訓練成更好地理解圖像背後的上下文和含義,因此它可以准確地響應文本提示。

人工智能科學家傑伊·阿拉馬爾(Jay Alammar)在一篇博客文章中解釋說,在實踐中,這些模型的工作原理是取一張隨機圖像,然後用隨機噪聲場對其進行編碼,這樣它就會被破壞。這被稱爲“前向擴散”,是訓練過程中的關鍵步驟。接下來,圖像經曆多達100個步驟來清除噪聲,稱爲“反向擴散”,以産生基于文本提示的清晰圖像。

通過將他們的新框架應用到一個新模型中,並將這些“反向擴散”步驟減少到一個,科學家們減少了生成圖像所需的平均時間。在一次測試中,他們的模型使用 Stable Diffusion v1.5 將圖像生成時間從大約2590毫秒(或2.59秒)縮短到90毫秒 —— 快了28.8倍。

DMD有兩個組件,它們一起工作,以減少模型在生成可用圖像之前所需的叠代次數。第一種被稱爲“回歸損失”,在訓練過程中根據相似性組織圖像,這使得人工智能學習得更快。第二種被稱爲“分布匹配損失”,這意味著描繪一個被咬掉一口的蘋果的幾率,與你在現實世界中可能遇到蘋果的頻率相對應。這些技術結合在一起,最大限度地減少了新人工智能模型生成的圖像看起來的不合理性。

麻省理工學院電子工程和計算機科學教授弗雷多·杜蘭德(Fredo Durand)在聲明中說:“自擴散模型建立以來,減少叠代次數一直是擴散模型的聖杯。我們非常高興,最終能夠實現單步圖像生成,這將大大降低計算成本並加速過程。”

研究團隊表示,新方法大大降低了生成圖像所需的計算能力,因爲只需要一步,而不是原始擴散模型中的“數百步叠代細化”。科學家們說,這種模式還可以在快速高效的生産至關重要的行業中提供優勢,從而更快地創造內容。

如果朋友們喜歡,敬請關注“知新了了”!

0 阅读:4

知新了了

簡介:專注于新知、科普及趣聞的傳播,日耕不辍,天天新鮮。