AlphaFold3一夜預測地球所有生物分子,顛覆生物學登Nature頭版!

之槐看科技 2024-05-10 05:52:34

編輯:編輯部

【新智元導讀】谷歌DeepMind又有重磅研究了!AlphaFold 3一經推出,就登上Nature頭版。從此,人類沖破「蛋白質宇宙」,所有生物分子結構都可以預測了!這次使用的,還是AI革命最核心的組合架構——Transformer+Diffusion。

時隔3年,AlphaFold 3橫空出世,再次掀起AI學術圈巨震!

初代AlphaFold誕生之後,一直停留在預測「蛋白質」的宇宙中。

今天,升級後的AlphaFold 3能夠以前所未有的「原子精度」,預測出所有生物分子的結構和相互作用。

最重要的是,與傳統方法相比,AF3預測相互作用的准確率暴漲50%。

對一些重要的相互作用類型,其預測精度甚至可以提升100%。

最新研究已在Nature發表,並登上今天的頭版。

文章地址:https://www.nature.com/articles/d41586-024-01383-z

論文地址:https://www.nature.com/articles/s41586-024-07487-w

谷歌DeepMind聯合創始人、CEO Demis Hassabis表示,AlphaFold 3的發布是一個重要的裏程碑,在AI理解和建模生物學的道路上,AI又邁出了重要一步!

AlphaFold 3可以生成蛋白質、核酸(DNA/RNA)和更小分子的3D結構,並揭示它們如何組合在一起。

它還可以模擬細胞之間化學變化,以控制細胞的正常運轉,預防疾病發生。

7R6R - DNA結合蛋白:AlphaFold 3對一個分子複合體的預測展現了蛋白質(藍色)與DNA雙螺旋(粉色)的結合,其預測結果與通過繁複實驗得到的真實分子結構(灰色)高度吻合

與Sora一樣,它是一個生成式神經網絡模型。

很明顯,谷歌DeepMind團隊已經用上了這波AI革命最核心的組合架構——Transformer+Diffusion!

得益于新一代技術架構,AlphaFold 3成爲了「單一AI模型」。

它能以全面的方式計算整個分子複合體,並生成最精准的結構。

8AW3 - RNA修飾蛋白:AlphaFold 3對一個包含蛋白質(藍色)、一條RNA(紫色)和兩個離子(黃色)的分子複合體的預測與真實結構(灰色)非常吻合

同在今天,谷歌DeepMind還推出了免費研究平台「AlphaFold Server」,供全球科學家非商業化研究。

不論每個人的技術專長如何,只需點擊幾下,就可以利用AlphaFold 3在10分鍾內預測分子,並測試假設。

值得一提的是,AlphaFold 3已在自家實驗室Isomorphic Labs,實現了高度准確預測配體-受體相互作用,並幫助他們構想藥物發現的過程。

如下是,AlphaFold 3預測不存在的Tim-3免疫蛋白結構,結果幾乎一致!

在DeepMind首席執行官Demis Hassabis看來,這將是價值千億美元的産業。

未來的某一天,AlphaFold或許將摘下藥物發現的「聖杯」。

截至目前,全球已經有180+萬的科學家使用AlphaFold加速研究,包括開發生物可再生材料,或推進基因研究。

這一刻,對于所有人來說,AlphaFold 3簡直就是海嘯級的存在。

AlphaFold 2的致命性短板,AlphaFold 3補上了!

2021年發布的AlphaFold 2,對生物學産生的影響已經是革命性的。它以堪比傳統實驗方法的驚人准確度,根據氨基酸序列預測蛋白質結構。

免費訪問的AlphaFold數據庫,收錄了幾乎所有已知蛋白的預測結構,AlphaFold 2的代碼也已開源。

然而,在DeepMind 研究團隊領頭人John Jumper看來,AlphaFold 2卻並未達到顛覆性影響。

原因何在?

這是因爲,AlphaFold 2在預測蛋白質生態系統時,仍存在許多局限。

而它無法准確預測的這些領域,卻對科學家極爲重要。

比如對蛋白質的修飾——添加磷酸鹽分子後,就可以使細胞對外部信號(如感染)作出反應,並引發一連串行爲。另外,與DNA、RNA及其他化學物質的相互作用,對許多蛋白質的功能也至關重要。

遺憾的是,這些領域,對AlphaFold 2還是一塊黑域。

而在Jumper看來,最理想的工具,應該同時具備預測蛋白質結構及其配件結構的能力。比如谷歌DeepMind希望,能夠解析整個PDB蛋白質數據庫。

令人驚喜的是,AlphaFold 3出現了!

對于預測蛋白質結構及其相互作用夥伴,AlphaFold 3的有效性都遠超現有的工具。

比如,希望發現新藥物的科學家,都會借助docking軟件來確認蛋白質結構,物理模擬蛋白質與化學物質的結合效果。

而AlphaFold 3的實驗效果就要好于docking,以及另一個AI工具RoseTTAFold All-Atom。

倫敦Francis Crick研究所的生物化學家Frank Uhlmann在使用過AlphaFold 3,就表示效果喜人!

他的團隊利用AlphaFold 3,預測了參與基因組複制的DNA相互作用蛋白的結構,這是細胞分裂的關鍵步驟。

2017年加入谷歌DeepMind的John Jumper領導了開發AlphaFold 3的團隊

在之後的實驗中,他們使用了變異蛋白來改變相互作用,結果顯示:預測結果非常准確。

華盛頓大學西雅圖分校的計算生物物理學家David Baker評價說:「AlphaFold 3的結構預測表現非常出色。」

Baker團隊就是RoseTTAFold All-Atom的開發者,但他還是承認AlphaFold 3的表現更好。

所有生物分子結構和相互作用,從此可以被預測

在每個植物、動物和人類的細胞中,存在著數十億個微小的分子機器,它們由蛋白質、DNA以及其他分子構成。然而沒有一個部分可以單獨發揮作用。

如何真正開始理解生命的過程?唯有通過研究這些分子如何在數百萬組合中相互作用。

由此,AlphaFold 3的誕生便顯得意義重大!

因爲有了它,從此人類能夠以前所未有的精度,預測所有生物分子的結構和相互作用。

對于蛋白質與其他分子相互作用的預測,AlphaFold 3相比現有方法至少有50%的提升,對一些重要的相互作用類型,預測精度甚至可以提升100%。

我們對生物世界和藥物發現的認識,可能從此會被AlphaFold 3徹底改變。

這次,谷歌DeepMind也留了一手。他們並未在論文中公布AlphaFold3的代碼和底層信息,但模型的大部分功能仍然可以通過AlphaFold Server平台免費使用。

AlphaFold 3模型的構建,是以前代AlphaFold 2爲基礎的。

AlphaFold 2多次榮登Nature和Science封面

自AlphaFold 2問世以來,全世界數百萬研究者已經在瘧疾疫苗、癌症治療和酶設計等諸多領域取得了突破。而發布于2018年的AlphaFold,論文引用量直接超過了20000次,還被授予2023年生命科學突破獎。

而AlphaFold 3的誕生,則讓生物分子領域的研究拓展到了蛋白質之外。

生物可再生材料、更耐用作物的培養、藥物設計和基因組學研究等等,可能將很快迎來顛覆性變革。

7PNM - 一種普通感冒病毒的突起蛋白(冠狀病毒OC43):隨著病毒蛋白(藍色部分)與抗體(綠色)和單糖(黃色)相互作用AlphaFold 3對7PNM的預測結果,與真實結構(灰色)高度吻合。如果進一步了解這類免疫系統過程,我們就能更好地理解COVID-19在內的冠狀病毒,改進治療方法

輸入一系列分子的信息,AlphaFold 3就能生成它們的3D結構,展示這些分子如何緊密配合。

厲害的是,它不僅能模擬蛋白質、DNA和RNA這樣的大型生物分子,還能處理小分子如配體——許多藥物都屬于這一類。

配體與DNA結合的示例

甚至,AlphaFold 3還能模擬這些分子的化學修飾,這些修飾是細胞健康運作的關鍵,如果失調就可能引發疾病。

AI革命性架構——擴散模型

正如之前所述,AlphaFold 3之所以如此強大,正是因爲它的新一代架構和訓練方式,能夠覆蓋所有生命分子。

也就是,顛覆整個AI世界的「擴散模型」,已經用在了AlphaFold 3的訓練中。

模型的核心,就是改進後的Evoformer模塊,這是一種深度學習架構,也正是是AlphaFold 2卓越性能的基石。

處理輸入數據後,AlphaFold 3就可以利用「擴散網絡」來構建預測結果,跟AI圖像生成中使用的網絡類似。

擴散過程從一個原子雲開始,經過多個步驟,最終收斂于最精確的分子結構。

對于分子相互作用的預測,AlphaFold 3的精度已經超越了所有現有技術!

作爲一個全面計算整個分子複合體的單一模型,它獨特地能整合科學洞見。

藥物設計,被徹底顛覆

AlphaFold 3的這種強大功能,直接讓我們的藥物設計走向了新的天地!

這是因爲,配體和抗體這些常用于藥物的分子,現在都可以通過AlphaFold 3來預測了。

如下三個例子中,展示了AF3如何將許多蛋白質與各自的配體折疊在一起,並闡釋了其作用的機制。

首先展示的是,具有獨特折疊結構的蛋白質。

下面是,AlphaFold 3正確預測了一種新型抑制劑的變構結合模式(PDB ID 7QIE)。

AF3還正確預測了PORCN與LGK974和WNT3A肽的複合物,爲臨床階段分子的抑制功能提供了結構依據(PDB ID 7URD)。

在預測藥物相互作用上,AlphaFold 3取得了空前的准確度,無論是蛋白質與配體的結合,還是抗體與其目標蛋白的結合。

在PoseBusters基准測試中,無需任何結構信息輸入,AlphaFold 3的准確性就比傳統SOTA提高了50%。

由此,它也成爲生物分子結構預測領域中,首個超越物理基礎工具的AI系統!

如今我們能夠預測抗體和蛋白質的結合,那就可以理解人類免疫反應的關鍵,以及新抗體的設計。

從此,我們藥物設計的成功率會大大提高,還能夠探索新的疾病靶點,從前針對現有靶點難以達到的創新方法,現在也能在AlphaFold 3的幫助下開發出來。

AlphaFold Server:與全世界共享的免費工具

此外,谷歌DeepMind團隊也會負責任地與世界共享AlphaFold 3的力量。

谷歌DeepMind會推出全球最准確的工具AlphaFold Server,用于預測蛋白質如何在細胞內與其他分子相互作用。

這是一個免費平台,允許全球科學家進行非商業性研究使用,包含免費的2億蛋白質結構數據庫。

只要幾次點擊,生物學家就可以利用AlphaFold 3模擬由蛋白質、DNA、RNA及各種配體、離子和化學修飾組成的結構了!

從此,科學家在實驗中的研究假設,就可以由AlphaFold Server驗證了。

這個平台,可謂意義重大。

實驗性的蛋白質結構預測,原本需要花費讀個博士學位的時間,以及數十萬美元的費用。而按照當前實驗結構生物學的發展速度,這本需要數億researcher-year的工作。

有了AlphaFold 3,從此生物世界可以以高清晰度呈現。

科學家能夠全面觀察細胞系統的複雜性,包括結構、相互作用和修飾,藥物作用、激素生成和DNA修複如何影響生物功能,從此都將被揭示。

7BBV - 酶:AlphaFold 3對一個包含酶蛋白(藍色)、離子(黃色球體)和簡單糖(黃色)的分子複合體的預測,以及其真實結構(灰色)。這種酶源自一種對多種植物有害的土傳真菌(Verticillium dahliae)。深入了解這種酶與植物細胞的相互作用有助于研究人員培育出更健康、更抗逆的作物

訪問受限,畢竟還要商業利益

不過,AlphaFold 3的使用上也會受到很多限制。

與RoseTTAFold和AlphaFold 2不同,研究者們無法運行自己的AlphaFold 3版本,也無法公開AlphaFold3的底層代碼,或模型訓練後獲得的其他信息。

他們能做的,就是使用「AlphaFold 3服務器」,輸入自己選擇的蛋白質序列和一些輔助分子。

而且,對AlphaFold 3服務器的訪問也是受限的。目前每天研究者只能進行10次預測,且無法獲取與潛在藥物結合的蛋白質結構。

但科學家Uhlmann仍然對此表示滿意,在他看來,這個服務器比AlphaFold 2版本更簡潔——

只要上傳數據,10分鍾後就能得到結構。對大多數科學家而言,這個服務器將大大簡化他們的工作。

之所以做此限制,是因爲谷歌DeepMind也是要盈利的。比如,它的子公司Isomorphic Labs已經開始用AlphaFold 3來開發藥物了。

DeepMind的AI科學負責人及該研究的合著者Pushmeet Kohli表示,他們希望AlphaFold 3既能對科學家産生影響,又能在保護Isomorphic在制藥方面的商業利益上找到平衡。

也因此,加州大學舊金山分校的藥物化學家Brian Shoichet認爲AlphaFold 3不會像AlphaFold 2那樣産生廣泛影響,因爲它限制了與潛在藥物的蛋白質互動建模。

而MIT的進化生物學家Sergey Ovchinnikov則雄心勃勃地表示,根據Nature提供的詳盡信息,在年底之前,估計就會有團隊開發出開源解決方案了。

全新的架構

根據論文的介紹,AF3的整體架構(圖1d)在很大程度上繼承了AlphaFold 2的設計。

首先通過一個龐大的主幹來處理化學複合物的成對表征,隨後通過一個結構模塊將這些表示轉換爲具體的原子位置。

不過,AF3在每個關鍵組件上都進行了重大調整。

與AlphaFold 2中的原始Evoformer相比,處理塊的數量減少到4個,MSA表征的處理采用了成本較低的成對加權平均法,並且後續步驟僅使用成對表征。

新的「Pairformer」(圖2a)取代了AlphaFold 2的「Evoformer」,成爲主要的處理模塊——只處理成對和單一表征,不再保留MSA表征,所有信息都通過成對表征進行傳遞。

最終,成對和單一表征連同輸入表示一起傳遞到新的擴散模塊(圖2b),該模塊取代了AlphaFold 2的結構塊。

擴散模塊(Diffusion Module)直接處理原始原子坐標和一種粗略的抽象Token表征,而不采用旋轉框架或任何等變處理。

在AlphaFold 2的研究中,團隊發現簡化結構模塊的複雜性對預測精度的影響較小,而保留主鏈框架和側鏈扭轉表征則大大增加了對一般分子圖的處理複雜度。

爲此,團隊采用了一種標准的擴散方法,訓練擴散模型處理「加噪」的原子坐標,並預測其真實坐標。這就要求網絡在不同的長度尺度上學習蛋白質結構,小噪聲去噪重點在于理解局部立體化學,而大噪聲去噪則關注系統的大尺度結構。

在推理階段,會隨機采樣噪聲,並通過反複去噪得到最終結構。

值得注意的是,這種生成式訓練方法會産生多種可能的結果。這意味著,即使網絡對某些位置的確定性不高,每個結果的局部結構(如側鏈鍵的幾何結構)也都會非常清晰。

由此,既可以避免使用基于扭轉的殘基參數化和對結構的違規損失,同時處理配體的全部複雜性。

與一些近期的研究一致,團隊發現架構中不需要對分子的全局旋轉和平移進行不變性或等變性處理,因此省略了這些設計,並簡化了機器學習架構。

不過,生成式擴散方法很容易産生「幻覺」——即ACCELERATED ARTICLE PREVIEW模型可能在結構不明顯的區域創造出看似合理的結構。

爲了抑制這種現象,團隊采用了一種創新的交叉蒸餾(cross-distillation)方法。

通過在預訓練數據集中加入AlphaFold-Multimer v2.3預測的結構,使AlphaFold 3學會了模仿「用長的擴展環路來表示無結構區域」這種行爲,進而極大地減少了AF3的幻覺行爲。

由于擴散訓練只涉及單步擴散而非完整的結構生成(圖2c),因此團隊開發了一種擴散「展開」過程,用于訓練期間生成完整的結構預測。

接著,利用這個預測結構來調整對稱的真實鏈和配體的位置,並計算性能指標,以此訓練置信度組件。

如圖2d所示,在初始訓練階段,模型很快就能預測出局部結構(所有內鏈指標迅速提升,在前20,000次訓練步驟中就達到了最大性能的97%)。

然而,模型在學習整體結構方面需要更長的時間(界面指標上升較慢,蛋白質-蛋白質界面LDDT在60,000步之後才達到97%的標准)。

在AF3的開發過程中,團隊發現某些模型功能很早就達到了頂峰並開始下降,這很可能是因爲對這些功能的訓練樣本數量有限導致了過擬合,而其他功能則仍然訓練不足。

爲此,團隊調整了相應訓練集的抽樣概率,並采用所有上述指標及一些額外指標的加權平均進行早期停止,來選擇最佳模型檢查點。

在微調階段,團隊通過使用更大的裁剪尺寸顯著提升了模型在所有指標上的表現,特別是在蛋白質-蛋白質界面上的表現。

網友:AF3將摘下生物學「聖杯」

AlphaFold 3誕生,意味著什麽?

「我們即將在未來幾年內,對所有疾病了如指掌。我們正站在未來十年可能治愈所有疾病的邊緣」。

還有網友表示,AI即將徹底改變醫學。我們需要用它來提高可用性、改善療效,降低看病成本。

英偉達高級科學家Jim Fan稱贊道,「AlphaFold 3是生物AI取得最大突破的最新叠代版本。不同以往,AlphaFold 3使用了『Diffusion』來渲染分子結構。它從一團模糊的原子雲開始,然後通過去噪逐漸將分子實體化」。

我們生活在這樣一個時代,Llama和Sora等模型的發展可以爲生命科學研究提供啓發並加速進程。我發現這種通用性水平實在是難以置信。同樣基于Transformer+Diffusion架構的模型,不僅可以生成精美的像素圖像,還能想象出蛋白質分子,只要將數據適當轉換爲浮點數序列即可。

我們目前還沒有實現單一的AGI模型,但我們已經成功構建了一系列通用的AI「配方」,可以跨領域遷移訓練、數據和神經網絡架構。理論上這是不可能的,但它確實奏效了!

還有網友發現,Nature論文中多次提到了「diffusion」。

從AF3身上,再次讓許多人見識到了「擴散模型」的強大威力。

就連專業領域的醫學科學家,完全被AF3的能力震驚到了,一句話用了4個驚歎體。

現在,這就是生物學的「聖杯」!AlphaFold 3不僅將徹底改變我們對生物系統的認識,還將以前所未有的水平上確定新的、特異的化學或生物藥物!我無法用言語來形容這是一個多麽重大的進步!真是歎爲觀止!

等不到GPT-5的網友,瞬間覺得GPT-5都不香了。

還有人暗示,如果谷歌能將代碼開源,或許我們早已到達了AGI。

參考資料:

https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/

https://www.quantamagazine.org/new-ai-tools-predict-how-lifes-building-blocks-assemble-20240508/

https://twitter.com/DrJimFan/status/1788233450123936020

0 阅读:0

之槐看科技

簡介:感謝大家的關注