准確率達100%,機器學習驅動有機反應精確原子映射研究

MS楊站長 2024-04-08 10:54:28

編輯 | X

原子到原子映射(Atom-to-atom Mapping,AAM)是識別化學反應前後分子中每個原子位置的任務,這對于理解反應機理非常重要。

近年來,越來越多的機器學習模型用于逆合成和反應結果預測,這些模型的質量高度依賴于反應數據集中 AAM 的質量。雖然有一些算法使用圖論或無監督學習來標記反應數據集的 AAM,但現有方法是基于子結構 alignments 而不是化學知識來映射原子。

在此,來自韓國首爾大學(Seoul National University)和韓國科學技術院(KAIST)的研究團隊,提出了一種 ML 模型——LocalMapper,可通過人機回圈(human-in-the-loop)機器學習從化學家標記的反應中學習正確的 AAM。

研究表明,LocalMapper 通過僅從整個數據集中 2% 的人類標記反應中學習,就能以 98.5% 的校准精度預測 50 K 反應的 AAM。更重要的是,LocalMapper 給出的可信預測覆蓋了 50 K 反應中的 97%,對 3,000 個隨機采樣的反應顯示出 100% 的准確率。

在分布外(Out-of-distribution,OOD)實驗中,LocalMapper 性能優于其他現有方法。研究人員期望 LocalMapper 可用于生成更精確的反應 AAM,並提高未來基于 ML 的反應預測模型的質量。

相關研究以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》爲題,于 2024 年 3 月 13 日發布在《Nature Communications》上。

AAM 在化學研究中的重要性

原子到原子映射 (AAM) 通過識別反應物原子和産物原子之間的一對一映射,在准備反應數據中發揮著至關重要的作用。高質量的 AAM 可以快速識別給定化學反應的反應中心,這對于許多已開發的化學反應分析和預測方法至關重要。

AAM 廣泛使用的應用之一是構建縮合反應圖 (CGR)。此外,AAM 還可以自動識別反應中心並從數據庫中提取反應模板,用于預測反應結果和單步逆合成機器學習模型。由于這些應用高度依賴于反應數據的 AAM,因此 AAM 的質量極大地影響機器學習模型的性能。隨著下遊模型數量的不斷增加,爲反應數據集構建高質量的 AAM 成爲確保反應預測模型質量的緊迫任務。

現有的 AAM 識別方法通常可分爲基于規則的和基于 ML 的方法。盡管比以前的方法准確度更高,但 AAM 需要 100% 的完美准確度,因爲反應數據中的缺陷將在下遊反應預測模型中被放大。然而,目前還沒有可靠的方法來檢測可能錯誤預測的 AAM,這使得預測中的錯誤難以識別。

此外,盡管現有的基于 ML 的無監督方法比基于規則的方法要快得多,並且適用于更廣泛的反應,但在不知道正確的 AAM 的情況下訓練模型可能會導致意外錯誤,即使對于簡單的反應也是如此。

三大重要突破

在此,研究人員通過 human-in-the-loop 機器學習提出了一種精確的基于圖的 AAM 模型,名爲 LocalMapper。

該研究的重要突破體現在以下三個方面:

所提出的基于知識的不確定性識別允許對 ML 模型預測進行快速化學感知驗證,爲 3,000 個隨機采樣的置信預測生成 100% 正確的 AAM。 開發的模型 LocalMapper 通過從人機循環機器學習生成的高質量訓練數據中學習經化學家驗證的 AAM,實現了最先進的 AAM 預測精度。與現有的基于 ML 的模型 RXNMapper 和 GraphormerMapper 相比,僅標記 2% 的反應,顯示出更好的預測精度。 在分布外實驗中,LocalMapper 比兩個現有的基于 ML 的 AAM 模型顯示出良好的預測精度,同時保持置信預測的 100% 准確度。 人機循環機器學習框架

爲了訓練 LocalMapper,研究人員手動標記每個反應的 AAM,以保證訓練模型的反應中 AAM 的正確性。由于手動標記化學反應的 AAM 非常耗時(每個反應通常超過一分鍾),因此在大型數據集中標記大部分反應是不切實際的。因此,引入主動學習來僅標記一小部分代表性反應。

整個工作流程可以分解爲以下 5 個步驟:

隨機采樣:爲了初始化主動學習過程,從未映射的反應數據集中隨機采樣 k 個反應,其中 k 是人類專家一次性標記 AAM 的一個可承受的小數字。

標簽和訓練:接下來,手動標記采樣的 k 個反應的 AAM,並使用這些反應來訓練所提出的基于圖的模型 LocalMapper,其結構類似于逆合成模型 LocalRetro 和反應結果預測模型 LocalTransform。從人類繪制的反應中提取的反應模板用于更新模板庫,該模板庫將用于後續的不確定性識別。

AAM 預測:接下來,使用 LocalMapper 來預測數據集中所有反應的反應物和産物之間的原子相關性。根據 LocalMapper 預測的原子-原子相關性,按照 Schwaller 等人引入的原子映射程序生成每個反應的 AAM。

置信度識別:對于每個預測反應的 AAM,提取反應模板來表示其反應模式。如果提取的反應模板存在于當前模板庫中,則該反應預測的 AAM 集合被認爲是置信預測,否則是不確定預測。

主動采樣:對于從不確定預測中提取的每個唯一模板,從共享最多反應的模板開始對一個反應進行采樣,直到采樣到 k 個反應。然後,這些反應由人類化學家標記,並在下一次叠代中用于訓練模型,重複步驟 2。

從第二次叠代開始,研究人員使用半監督學習來訓練模型,從每個唯一驗證的反應模板的置信預測中采樣 100 個反應,以提高模型的穩健性。這些采樣反應按 9:1 的比例分爲訓練集和驗證集,以防止過度擬合。

圖 1:在生成逆合成反應模板和基于化學知識推導反應機制方面,獲取正確的原子間映射 (AAM) 的重要性。(來源:論文) LocalMapper

爲了預測反應中反應物和産物之間的 AAM,研究人員設計了一個基于圖的模型,稱爲 LocalMapper,以了解反應物中的每個原子重新定位到産物中的原子的概率。

與之前的逆合成模型 LocalRetro 和反應結果預測 LocalTransform 類似,使用圖來表示分子,以原子爲節點,鍵爲邊,並通過反應中原子的局部和全局特征來學習 AAM 通過消息傳遞神經網絡和注意力機制。

圖 2:使用所提出的模型 LocalMapper 進行 AAM 的人機循環機器學習的總體方案。(來源:論文)

首先,研究人員使用 3 個消息傳遞層對每個原子的局部化學環境進行編碼,並通過 3 個多頭交叉注意塊根據反應物的原子特征更新産物中的原子特征。在反應物和産物之間的每個原子的特征充分傳達後,通過單頭注意力塊計算産物和反應物之間的 AAM 相關性。

使用 Softmax 函數對注意力分數進行歸一化後,估計反應物中的每個原子與産物中的每個原子是相同原子的概率。按照 RXNMapper 中引入的原子映射程序,使用生成的概率從最高概率到最低概率識別從産物到反應物的 AAM。

100% 預測准確率

總之,研究人員提出了一種基于圖的 ML 模型 LocalMapper,以通過人機循環機器學習精確識別大型反應數據集的 AAM。通過利用專業知識手動標記少量反應數據,訓練了人機循環機器學習模型,以精確、自動地標記大量具有相似反應規則的反應。

表 1:手動檢查反應 AAM 前後,RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 數據集上的 AMM 結果。(來源:論文)

對于公開可用的 USPTO-50K 數據集,該模型僅通過學習 2% 的化學家標記反應,就能以 98.5% 的准確率預測 AAM。

表 2:RXNMapper、GraphormerMapper 和 LocalMapper 在四個不同源上檢查的手動映射反應的 AMM 結果。(來源:論文)

更重要的是,LocalMapper 自信預測的數據集中 97% 的反應的 AAM,表現出 100% 的預測准確率。並且在不同的分布外測試集中也觀察到類似的結果。

研究人員期望所提出的 LocalMapper 可用于爲未來的下遊反應預測模型提供精確的反應 AAM,並有利于化學界了解更多有關反應數據集的統計見解。

0 阅读:3

MS楊站長

簡介:德國馬普所科研民工,13年材料理論計算模擬經驗!