麻省理工的科學家可以讓最流行的人工智能圖像生成器提速30倍

科學家們已經建立了一個框架，通過將它們濃縮到更小的模型中，在不影響質量的情況下，給像Dall·E3和Stable Diffusion這樣的生成式人工智能系統帶來了巨大的提振。

一項新的研究表明，由于一項技術可以將整個100個階段的過程濃縮爲一步，流行的人工智能（AI）驅動的圖像生成器的運行速度可以提高30倍。

科學家們發明了一種名爲“分布匹配蒸餾”（DMD）的技術，可以教新的人工智能模型模仿已建立的圖像生成器，即所謂的擴散模型，如Dall·E3、Midjourney和Stable diffusion。

這個框架産生了更小、更精簡的人工智能模型，可以更快地生成圖像，同時保持最終圖像的相同質量。科學家們在上傳到預印本服務器arXiv的一項研究中詳細介紹了他們的發現。

該研究的共同主要作者、麻省理工學院電子工程和計算機科學博士生尹天偉（音譯）在一份聲明中說：“我們的工作是一種新穎的方法，可以將當前的擴散模型（Dall·E3和Stable Diffusion）加速30倍，這一進步不僅大大減少了計算時間，而且保留了生成的視覺內容的質量。”

擴散模型通過一個多階段的過程生成圖像。使用帶有描述性文字標題和其他元數據的圖像作爲訓練數據，人工智能被訓練成更好地理解圖像背後的上下文和含義，因此它可以准確地響應文本提示。

人工智能科學家傑伊·阿拉馬爾（Jay Alammar）在一篇博客文章中解釋說，在實踐中，這些模型的工作原理是取一張隨機圖像，然後用隨機噪聲場對其進行編碼，這樣它就會被破壞。這被稱爲“前向擴散”，是訓練過程中的關鍵步驟。接下來，圖像經曆多達100個步驟來清除噪聲，稱爲“反向擴散”，以産生基于文本提示的清晰圖像。

通過將他們的新框架應用到一個新模型中，並將這些“反向擴散”步驟減少到一個，科學家們減少了生成圖像所需的平均時間。在一次測試中，他們的模型使用 Stable Diffusion v1.5 將圖像生成時間從大約2590毫秒（或2.59秒）縮短到90毫秒 —— 快了28.8倍。

DMD有兩個組件，它們一起工作，以減少模型在生成可用圖像之前所需的叠代次數。第一種被稱爲“回歸損失”，在訓練過程中根據相似性組織圖像，這使得人工智能學習得更快。第二種被稱爲“分布匹配損失”，這意味著描繪一個被咬掉一口的蘋果的幾率，與你在現實世界中可能遇到蘋果的頻率相對應。這些技術結合在一起，最大限度地減少了新人工智能模型生成的圖像看起來的不合理性。

麻省理工學院電子工程和計算機科學教授弗雷多·杜蘭德（Fredo Durand）在聲明中說：“自擴散模型建立以來，減少叠代次數一直是擴散模型的聖杯。我們非常高興，最終能夠實現單步圖像生成，這將大大降低計算成本並加速過程。”

研究團隊表示，新方法大大降低了生成圖像所需的計算能力，因爲只需要一步，而不是原始擴散模型中的“數百步叠代細化”。科學家們說，這種模式還可以在快速高效的生産至關重要的行業中提供優勢，從而更快地創造內容。

如果朋友們喜歡，敬請關注“知新了了”！

文采家

麻省理工的科學家可以讓最流行的人工智能圖像生成器提速30倍

知新了了