人工智能有望解開非編碼基因的秘密

極光欣色 2024-05-17 03:23:55

Credit: Pixabay/CC0 Public Domain

從智能聊天機器人到可以寫整篇文章的應用程序,人工智能(AI)正日益成爲我們生活中無處不在的一部分。瓦赫甯根大學研究中心(Wageningen University & research)的研究助理邁克爾·舍恩(Michael Schon)正在設計一種人工智能工具,可以對植物基因組上的非編碼RNA進行比較。該工具預計將加速和簡化未來開發具有更強抗旱或抗病能力的新植物品種。

蛋白質是生物體中細胞的組成部分。制造這些蛋白質的指令是由基因中的RNA發出(編碼)的。除了這些編碼RNA,一些基因可以産生非編碼RNA:換句話說,不包含制造蛋白質的指令的RNA。

Michael Schon說,這種類型的RNA在生物體的發育中也起著重要的作用。“例如,它們可以激活基因,或者相反,關閉基因。這將影響植物的外觀和它所具有的特性。某些重要的非編碼rna也決定了植物是否成熟。”

同一家庭內的親戚

非編碼RNA也可能潛在地揭示爲什麽一個植物物種屬于一個特定的科,但卻有不同的特征。在之前的研究中,Schon鑒定了擬南芥(擬南芥)的非編碼rna。這種植物被植物科學家用作模式生物。

擬南芥屬于十字花科,與西蘭花、花椰菜和大頭菜等重要作物一樣。這個家族也被稱爲芥菜或十字花科。然而,很難將擬南芥的非編碼rna與芥末科其他植物的非編碼rna進行比較,因爲之前對這些物種的研究主要集中在蛋白質編碼基因上。”

非編碼RNA的有限注釋

這意味著植物之間的比較需要對每種作物的非編碼RNA進行單獨的基因注釋。通過Veni項目,Schon正在尋找利用相關物種的知識來識別非編碼rna的新方法。

“芥菜科植物的基因組序列超過200個。每個基因組都以一個大型文本文件的形式存儲,該文件由數百萬個字母組成,這些字母代表DNA分子的堿基(a、C、T和G)。由于這些基因組中的非編碼位沒有被正確編目(注釋),因此不可能對分散在這堆數據中的所有非編碼基因進行比較。爲此,我們需要新的戰略和工具。我正在努力發展這些。”

每個基因組的一小部分

第一個問題是知道在基因組的哪裏去看。舍恩正在開發的工具之一是他稱之爲基因草圖的東西。爲了找到不同基因組的對應部分,他使用了一種叫做最小化草圖的方法。

“最小化草圖背後的想法是,你只需要看一小段dna——一個草圖——而不是整個序列,”Schon說。“這意味著你只需要關注每個基因組的幾千個字符就可以進行比較,而不是數百萬個。

最小化草圖以前被用來建立靈長類動物進化樹,其中包括人類和他們的近親。事實證明,我們可以用不到1%的基因組繪制出一幅非常精確的祖先家譜。因此,最小化草圖是一種非常有效的方法來估計DNA片段之間的相似性,因此它也應該對比較芥菜家族的基因組有用。”

與ChatGPT相同的技術

在你知道往哪裏看之後,下一步就是了解你在看什麽。Schon計劃在GeneSketch中使用的技術與目前在其他人工智能工具(如ChatGPT)中使用的技術相同。

“這就是所謂的‘變壓器’技術,”Schon說。

例如,你可以讓一個變形金剛來填補一個句子中缺失的單詞。最初,變壓器給你一個隨機的單詞,因爲它以前從未見過單詞。但如果你用數以百萬計的例句來訓練它,它會通過注意文本中的模式來慢慢學會猜出正確的單詞。

“經過訓練,像ChatGPT這樣的大型語言模型在某些任務上表現得非常出色,比如回答問題或從一種語言翻譯成另一種語言。變形金剛不僅可以被訓練學習人類語言,還可以學習DNA的語言,DNA有自己獨特的模式。我正在研究一種模型,可以檢測許多不同物種的DNA模式,並將這些模式翻譯成我們人類可以理解的語言。”

模型必須經過訓練

Schon將爲GeneSketch訓練轉換器,使其關注基因在不同物種間的變化,尤其是非編碼基因。但他預計在這個過程中會遇到一些挑戰。

“一個重要的問題是可靠性。變壓器是一項相對較新的技術,它會犯錯誤。例如,ChatGPT在許多不同的文本來源上進行了訓練,但如果你問它一個在訓練期間從未見過的主題,它需要編造一些東西。您希望它能根據它所看到的模式得出一些合理的結論,但這絕不是保證。顯然,您希望避免無意義的輸出。你訓練一個變壓器越多,它産生的無意義的東西就越少,但是訓練會花費大量的時間和金錢。是完全從零開始訓練模型更好,還是在現有模型的基礎上構建模型更好?兩種方法我都在嘗試。”

基因草圖的潛力

Schon希望在項目的第一年(2023年10月開始)之後有一個GeneSketch的原型。他計劃用它來爲整個芥菜家族創建基因注釋。

Schon說,這個工具不僅對研究部門有用,而且對農業工業也有用。“例如,它可以爲種子育種者提供一種快速了解作物及其野生近緣種DNA的方法。通過更多地了解幾個世紀以來作物是如何發展出獨特性狀的,育種者可以在改善性狀方面做出更明智的決定,比如讓作物更能適應氣候變化。因此,潛在的影響可能是巨大的。”

0 阅读:7

極光欣色

簡介:感謝大家的關注