作者:加零
編輯:李寶珠、三羊
MIT 利用圖神經網路 Chemprop 識別潛在抗生素,特異性殺死鮑曼不動桿菌。
自然界中充滿了各種各樣的微生物,例如結核桿菌(導致肺結核)、霍亂弧菌(導致霍亂)等嚴重危害了人們的健康。而在人類歷史上,感染這些致病細菌,除了依賴人體自身的免疫系統,幾乎無解。直到 1928 年,青黴素的發現,讓人類第一次擁有了戰勝致病細菌的有力武器。
然而,抗生素的廣泛應用也帶來了一個巨大的危機 —— 抗生素耐藥性 (AMR),據世界衛生組織 (WHO) 統計, 2019 年全球約有 120 萬人死於抗生素耐藥性 (AMR) 所加劇的細菌感染,這已經高於愛滋病導致的死亡人數。濫用抗生素催生某些「超級細菌」的出現,成為了 21 世紀臨床重要致病因。要解決這一難題,迫切需要開發全新的抗生素。
針對特異細菌,深度學習模型可以提高對化合物藥效和安全性的預測準確性,有效減少實驗室實驗和臨床試驗的時間和資源消耗,對有效且安全的抗生素發現至關重要。
為此,來自 MIT 的研究者們開發了一種深度學習方法來發現抗生素,利用圖神經網路 Chemprop 從大型化學庫中識別潛在的抗生素,並發現了一類新型抗生素。他們能夠特異性殺死重要的耐藥菌 —— 鮑曼不動桿菌 (Acinetobacter baumannii),相關論文已發表於 Nature。
論文已發表於 Nature
論文地址:
https://www.nature.com/articles/s41586-023-06887-8
關注公眾號,回覆「發現抗生素」下載完整論文
實驗方法:利用圖神經網路的深度學習
資料集:多種化合物
初步篩選:該研究初步篩選了 39,312 種化合物,對其抗生素活性和人類細胞毒性特徵進行分析。
擴大預測:為進一步擴大預測範圍,這些模型對 12,076,365 種化合物進行測試,其中 11,277,225 種來自 Mcule 資料庫,799,140 種來自 Broad Institute 資料庫。
39,312 個化合物的分子量分佈
演算法訓練:利用圖神經網路進行訓練
使用圖神經網路 Chemprop 對篩選出的 39,312 種化合物進行訓練,預測其抗生素活性和人類細胞毒性,訓練過程如下。
分子表示:使用 RDKit 從每個化合物的 SMILES(Simplified Molecular Input Line Entry Specification,簡化分子輸入線性入口系統)字串生成基於圖的分子表示。
特徵向量生成:為每個原子和鍵生成特徵向量,包括原子特徵(如原子序數、鍵數、正電荷等)和鍵特徵(如鍵類型、共軛、環成員資格等)。
資訊傳遞:實現基於鍵的資訊傳遞卷積神經網路,更新鍵的訊息,通過神經網路層並應用非線性激活函數。
模型輸出:模型在固定的資訊傳遞步驟後,對整個分子的訊息進行彙總,通過前饋神經網路預測化合物的活性,如抗生素活性、細胞毒性或改變質子動力勢的活性。
最佳化措施:包括添加額外的分子級特徵、使用超參數最佳化選擇最佳性能參數,以及通過集成學習增強模型的魯棒性。
模型架構:保證化合物的有效性和安全性
抗生素活性模型
研究人員在化合物濃度 50 μM 的培養基中預測其對金黃色葡萄球菌 (S. aureus) 的抗生素活性,以 80% 標準化生長抑制截止值 (normalized growth inhibition cut-off) 區分為活性或無活性。共 10 個圖神經網路模型在同一 80% – 20% 的訓練資料集上進行了訓練、驗證和測試。
結果顯示,具有 RDKit 特徵的 Chemprop 模型表現出更優越的預測能力,在 39,312 種化合物中識別出 512 種活性化合物。
預測抗生素活性的深度學習模型比較
人類細胞毒性模型
研究人員利用 39,312 種化合物對人類肝癌細胞 (HepG2)、人類初級骨骼肌細胞 (HSkMCs) 和人類肺成纖維細胞 (IMR-90) 進行毒性篩選。在用每種化合物 10 μM 濃度處理 2-3 天后,評估細胞活力,以 90% 細胞活力截止值 (cell viability cut-off) 將化合物活性分類。
同樣對 10 個 Chemprop 模型集合進行了訓練、驗證和測試,對比結果如下圖:
預測人類細胞毒性的深度學習模型比較
結果顯示,分別有 3,341 (8.5%)、1,490 (3.8%) 和 3,447 (8.8%) 的化合物對 HepG2 細胞、HSkMCs 和 IMR-90 細胞具有毒性。在上步篩選出的 512 種活性抗菌化合物中,306 種對這三種細胞類型均無毒性。
總結來看,儘管與抗生素活性模型相比存在一定侷限性,這一模型平衡了藥物的有效性和對人體的無害性,展示了在藥物發現中使用先進計算方法的潛力。
實驗結果:抗生素的篩選識別
精煉和大範圍應用模型:全化學空間的篩選和視覺化
在這一研究階段中,重點在於精煉和應用模型,以便在龐大的化學空間中識別潛在的抗生素化合物,並評估它們的細胞毒性。研究人員重新訓練了 20 個 Chemprop 模型用於預測抗生素活性和 HepG2、HSkMC、IMR-90 細胞的細胞毒性,改進後的模型被應用於 12,076,365 種化合物預測上。
化合物篩選
抗生素活性篩選:從 Mcule 資料庫中篩選出抗生素預測得分超過 0.4 的 3,004 種化合物;從 Broad Institute 資料庫中篩選出得分超過 0.2 的 7,306 種化合物。
人類細胞毒性篩選:保留細胞毒性預測得分低於 0.2 的化合物,最終篩選出 3,646 種化合物(1,210 種來自Mcule 資料庫,2,436 種來自 Broad Institute 資料庫)——佔所有評估化合物的 0.03%。
化合物篩選
a:計算機模擬過濾程序
b-e:抗生素活性和 HepG2、HSkMC、IMR-90 細胞的細胞毒性預測
化學空間的視覺化
以摩根指紋 (Morgan fingerprints) 為分子表示,採用 t 分佈隨機相鄰嵌入 (t-SNE, t-distributed stochastic neighbour embedding) 方法對化學空間進行視覺化。
如下圖所示,t-SNE 的視覺化揭示了 hits(通過篩選的化合物)和 non-hits(抗生素預測得分低的化合物)之間的明顯差異。
對化合物的 t-SNE 分析
進一步篩選:識別兩個有效化合物
在 3,646 個化合物中篩選出 2 個對金黃色葡萄球菌表現出高活性且對人類細胞具有良好選擇性的化合物(1 號和 2 號),這兩種化合物在各種測試條件下的表現、特別是在含血清的培養基中的生長抑制能力很優越,值得進一步研究。
這些化合物的研究表明,深度學習模型預測的結構類別可以有效地指導實驗篩選,從而發現新的抗生素候選物。
篩選過程
化合物篩選:從最初的 3,646 個 hits 化合物中去除了含有可能反應活性、致突變或藥代動力學不利的 PAINS 和 Brenk 警報的化合物,篩選至 2,209 個。
結構篩選:進一步篩選與訓練集中化合物結構不同的化合物,使用最大 Tanimoto 相似性得分 ≤0.5 作為初步切斷點,並排除含 β-內醯胺環或喹諾酮雙環核心的化合物,最終得到 1,261 個化合物。
有效化合物的識別
生長抑制測試:在 9 個與理性組 G1-G5 相關的 hits 化合物中,發現 4 個化合物 (44%) 對金黃色葡萄球菌 (S. aureus) 有活性,最小抑制濃度 (MIC) ≤32 μg/ml。
結構類別和有效性:這些有效化合物與理性組 G1、G2 和 G5 相關,其中 G2 組的兩個化合物(1號和2號)被證實為活性。這兩個化合物同時符合 Lipinski 的規則和 Ghose 標準,表明它們具有良好的口服生物利用度和藥物樣特性,值得進一步研究。
篩選出的兩個化合物
進一步研究:兩個化合物的特性
通過深入的機制研究和體內外實驗,化合物 1 和 2 顯示出作為新型抗生素候選物的潛力。它們不僅針對多重耐藥菌株有效,而且具有較低的耐藥性發展趨勢和良好的安全性。
這些發現表明,這兩種化合物可作為抗生素藥物發展的有希望的化學系列。
作用機制和耐藥性
共同結構:化合物 1 和 2 共享 N-[2-(2-chlorophenoxy)ethyl]aniline core 這一結構,預測表明這可能是抗生素活性的基本結構。
生長抑制實驗:在對金黃色葡萄球菌和枯草桿菌的時間殺菌實驗中,這兩種化合物顯示出了抗生素活性,與範科黴素類似但殺菌力較低。
耐藥性研究:在對抗生素耐藥的金黃色葡萄球菌株進行的實驗中,這兩種化合物的最小抑制濃度 (MIC) 只略有增加,表明它們可能具有與常見抗生素不同的作用機制。
耐藥性的發展:經過 30 天的連續培養,這兩種化合物的 MIC 幾乎沒有變化,顯示出較低的耐藥性發展趨勢。
抗多重耐藥菌效果
廣泛抗性:這兩種化合物對包括萬古黴素耐藥性腸球菌在內的 40 種不同細菌種類表現出活性,其中 MIC 的中位數分別為 4 和 3 μg/ml。
對靜止期細菌的有效性:這兩種化合物對枯草桿菌的靜止期細胞也顯示出活性。
毒理學、化學特性及功效
安全性研究:這兩種化合物在體外實驗中表現出良好的安全性,包括非溶血性、不結合金屬離子、無基因毒性、化學穩定性以及在小鼠體內的安全性。
體內功效實驗:在小鼠金黃色葡萄球菌皮膚感染和大腿感染模型中,化合物 1 表現出顯著的抗菌活性。
化合物的體內療效
深度學習:應對抗生素耐藥性的利器
研究人員多年來一直在探索應對抗生素耐藥性的有效、易推廣的方法,在這一過程中,深度學習的出現為研究人員提供了新的解題思路,深度學習在應對抗生素耐藥性方面的應用價值在於:
超越傳統抗生素發現方法:傳統的抗生素發現方法往往依賴於已知的活性結構,這限制了新藥發現的範圍。深度學習方法可以識別與傳統抗生素結構不同的新化合物,可能對當前耐藥的菌株有效。
個性化和精準醫療:深度學習可以用於分析特定病原體的遺傳和表型特徵,從而有助於開發針對特定病原體或感染類型的個性化抗生素。
道阻且長,行之將至。深度學習在藥物研發中的應用仍處於相對早期階段,可能會面臨資料質量和可解釋性等挑戰,但作為人類對抗細菌的重要防線,相關研究意義重大,相信勢必會在技術迭代的加持下持續向前。
參考文獻:
https://www.nature.com/articles/s41586-023-06887-8
往期推薦
戳「閱讀原文」,免費獲取海量資料集資源!