AI 能生成超越自然界的新型蛋白質,可用于制造特定機械性能材料
4 月 24 日消息,蛋白質是生命的基礎,也是許多新型材料的靈感來源。然而,自然界中已知的蛋白質只是冰山一角,還有無數未被發(fā)現的蛋白質等待探索。如何快速有效地設計出具有特定結構和功能的新型蛋白質,是一個巨大的挑戰(zhàn)。
為了解決這個問題,麻省理工學院(MIT)的研究人員利用人工智能技術,開發(fā)了一種能夠生成超越自然界的新型蛋白質的方法。他們創(chuàng)建了一種基于機器學習的算法,可以根據預設的結構目標,預測出能夠形成相應蛋白質的氨基酸序列。這些序列既有一定的與已知蛋白質相似的程度,又有一定的創(chuàng)新性和獨特性。這些蛋白質可用于制造具有特定機械性能(如剛度或彈性)的材料,從而取代作為原料的石油或陶瓷,會大大減少碳足跡。
這項研究將于近期發(fā)表在最新一期《化學》雜志上,該研究的高級作者是 MIT 工程學院教授、土木與環(huán)境工程系和機械工程系教授、MIT-IBM 沃森人工智能實驗室成員馬庫斯?布勒(Markus Buehler)。他表示,這種方法可以為各種應用領域提供新的解決方案,比如生物醫(yī)學、材料科學、食品保鮮等。他說:“在超越自然界的蛋白質方面,這是一個巨大的設計空間,不能用人工的方法來解決。我們需要理解生命的語言,如何用 DNA 編碼氨基酸,以及它們如何組合成蛋白質結構。在深度學習出現之前,這是不可能做到的。”
該研究的合作者還有布勒實驗室的博士后研究員倪博(Bo Ni)和塔夫茨大學(Tufts University)生物工程系教授、工程學院院長大衛(wèi)?卡普蘭(David Kaplan)。
利用新型機器學習模型
蛋白質是由氨基酸串聯而成的長鏈,這些鏈會折疊成三維的形狀。氨基酸的順序決定了蛋白質的結構特征,而結構特征又影響了蛋白質的力學性能。雖然科學家們已經發(fā)現了數千種經過自然選擇形成的蛋白質,但他們估計還有很多氨基酸序列沒有被發(fā)現。
為了加速蛋白質發(fā)現的過程,科學家們最近設計了一些深度學習模型,可以根據給定的氨基酸序列預測出相應的蛋白質三維結構。然而,反過來,根據給定的結構目標預測出相應的氨基酸序列,卻是一個更復雜的問題。
布勒和他的同事們能夠應對這個難題,是因為他們利用了一種新型的機器學習模型,叫做基于注意力的擴散模型(注:attention-based diffusion model)。布勒解釋說,基于注意力的模型對于蛋白質設計非常重要,因為它們可以學習和捕捉長距離的關系。這在蛋白質中很常見,因為一個很長的氨基酸序列中的一個突變,可能會對整個設計產生很大的影響。
擴散模型的學習過程是通過給訓練數據添加“噪聲”,然后再去除“噪聲”來恢復原始數據。這些模型能夠生成高質量和逼真的數據,而且可以根據特定的設計目標進行調節(jié)。因此,它們比其他模型更適合滿足設計要求。
利用這種架構,研究人員開發(fā)了兩種機器學習模型,能夠預測出滿足特定結構目標的氨基酸序列。布勒說,在生物醫(yī)學領域,擁有一個完全未知的蛋白質可能會帶來問題,因為它的性質不太清楚。但是,在一些應用中,可能需要設計出一種與自然界中存在的蛋白質具有相似特性但不同功能的新型蛋白質。通過使用他們開發(fā)的模型,可以生成一系列的蛋白質,并通過調整一些參數來控制它們的設計,從而實現定制化的需求。
蛋白質中不同的氨基酸折疊模式,稱為二級結構,會導致不同的力學性能。比如,具有 α-螺旋結構的蛋白質往往具有彈性,而具有 β-折疊結構的蛋白質通常比較剛性。在一個蛋白質中同時結合 α-螺旋和 β-折疊結構,可以創(chuàng)造出既有彈性又有強度的材料,就像絲綢一樣。
研究人員創(chuàng)建了兩種模型,一種是在整體結構層面上工作的,另一種是在氨基酸層面上工作的。兩種模型都可以組合氨基酸來生成蛋白質。在第一種模型中,用戶只需要輸入想要的不同結構的百分比,比如 40% 的 α-螺旋和 60% 的 β-折疊,模型就會生成滿足這些要求的序列。在第二種模型中,用戶不僅要指定百分比,還要指定氨基酸結構的順序,從而對最終產品有更大的控制力。
為了驗證生成的蛋白質是否符合預期的規(guī)格,研究人員將開發(fā)的模型與一個可以預測蛋白質折疊情況的算法相連。他們用這個算法來確定生成蛋白質的三維結構,然后計算出相應的力學性能,并與預設的設計要求進行比較。這使得他們能夠驗證設計的蛋白質是否滿足期望的規(guī)格。
創(chuàng)新而可靠的設計
為了評估他們的模型的有效性,研究人員將新生成的蛋白質與具有相似結構特性的已知蛋白質進行了比較。他們發(fā)現,許多生成的蛋白質與已知的氨基酸序列有大約 50% 到 60% 的重合度,表明它們是可合成的。此外,模型還產生了完全新的序列,顯示了它們設計新型蛋白質的能力。
布勒說,生成和已知蛋白質之間的相似度程度表明,設計的蛋白質很可能是現實的,也是可合成的。為了驗證設計蛋白質的可靠性,研究人員試圖用一些物理上不可能的設計目標來欺騙模型。然而,模型并沒有產生不太可能的蛋白質,而是生成了最接近可行解決方案的蛋白質。這個結果表明,模型是健壯的,即使給出不切實際的設計規(guī)范,也能找到最接近可行的解決方案。
倪博指出,機器學習算法能夠發(fā)現自然界中隱藏的關系。這種能力給研究人員提供了信心,認為生成的蛋白質很可能是現實的,也是可合成的。
在下一步中,研究人員打算通過在實驗室中合成它們來驗證一些新設計的蛋白質。此外,他們還計劃進一步改進和完善他們的模型,使它們能夠設計出滿足更多條件的氨基酸序列,比如特定的生物功能。
最終目標是開發(fā)一個多功能的平臺,可以生成各種各樣的蛋白質設計,用于各種應用領域,包括生物醫(yī)學和材料科學。布勒強調說,這些應用領域需要超越自然界所提供的解決方案,比如可持續(xù)性、醫(yī)藥、食品、健康和材料設計等。因此,新開發(fā)的設計工具可以在解決這些問題中發(fā)揮重要作用。
標簽(TAG)