AI 與胚胎結合?系統生物學家 Patrick Müller 利用孿生網路對斑馬魚胚胎展開研究
300 萬張圖片+1.5 萬個斑馬魚胚胎的資料集,系統生物學家 Patrick Müller 成功實現基於 AI 的胚胎識別。
作者|加零
編輯|三羊
在動物發育過程中,胚胎隨著時間的推移會發生複雜的形態變化,研究者們希望能夠客觀地量化發育時間和速度,並提供標準化的方法以分析早期胚胎所處階段,更好地認知進化與發育流程。
之前,學者們對於胚胎發育階段和胚胎發育形態轉化的認知來源於顯微觀察。但胚胎發育的階段轉化並不是理想化、穩定化的,存在非常多的影響因素,以至於研究人員很難觀察到某一特定發育狀態。觀察胚胎形態推定所處的發育時間和發育階段這一過程,目前仍是偏向主觀的。
為了客觀建立發育時間與發育速度的關係,系統生物學家 Patrick Müller 領導康斯坦茨大學研究人員,開發了一套基於孿生網路的深度學習方法,通過圖像對比,它能夠自動捕捉胚胎發育過程,並在沒有人為干預的情況下識別胚胎發育特徵階段點。目前,相關成果已發表於「Nature Methods」。
論文發表於「Nature Methods」
獲取論文:
https://www.nature.com/articles/s41592-023-02083-8
後臺回覆「胚胎識別」獲取完整論文PDF
實驗過程
資料集:整合大量胚胎圖像
利用高通量成像 Pipeline 和基於 ResNet101 的圖像分割,研究者們構建了一個包含 300 萬張圖片和 1.5 萬個斑馬魚胚胎的資料集,以產生單個胚胎的發育軌跡。每個胚胎被單獨跟蹤,輸入模型時以不同顏色的邊界框劃分。開展每個實驗時創建一個單獨的 JSON 檔案,其中包含屬於各個類別的胚胎資訊。
圖像處理圖示
模型架構:孿生網路模型
孿生網路結構由兩個相同結構的並行神經網路構成,可以同時接收兩個圖片作為輸入,並且兩個神經網路之間權值共享,通過基於特徵嵌入的相似度計算,對圖像進行比較。
以下是孿生網路的結構圖示:
孿生網路結構
構成孿生網路的神經網路結構如下:
基於 ResNet50 的神經網路
主幹網路:基於 ImageNet 資料集,帶有預訓練權重的 ResNet50 架構作為主幹網路;
嵌入模型頭部 (model head):主幹網路的輸出被壓平傳遞至嵌入模型頭部,其由三個密集層組成,每層之間有批量歸一化層,產生一個 size 為 (1, 256) 的輸出/嵌入;
遷移學習:除了卷積塊5和模型頭層之外,ResNet50 骨幹網路的所有層都被凍結。將 ResNet50 生成的特徵嵌入結合在一個距離層中,計算訓練過程中不同輸入的網路生成嵌入之間的歐幾里得度量。
演算法訓練:三聯體損失訓練
演算法訓練過程如下:
構建圖像三聯體:圖像三聯體由三張胚胎圖像組成,分別為錨定圖像 (anchor image),處於隨機發育階段 t1 的胚胎圖像;正向圖像 (positive image),類似發育階段 t1 的圖像(輸入神經網路 1)或者經過圖像增強處理的錨定圖像(輸入神經網路 2);負向圖像 (negative image),發育階段 t2 ≠ t1 的胚胎圖像。
圖像三聯體圖示
三聯體損失訓練:將構建完成的圖像三聯體傳遞給孿生網路,基於下方公式計算三聯體損失 (Triplet loss),以最小化錨定圖像和正向圖像的相似性,並最大化錨定圖像和負向圖像的相似性。
三聯體損失計算公式
A 表示錨定圖像,P 表示正向圖像,N 表示負向圖像
迭代訓練:神經網路 1 使用了 30 萬個斑馬魚胚胎圖像三聯體進行了 10 個 epoch 的訓練;神經網路 2 使用了 100 萬個圖像三聯體進行了 2 個 epoch 的訓練,並對錨定圖像進行了增強處理,使用 NVIDIA GeForce RTX3070 (ASUS) 進行 GPU 加速訓練。
分任務訓練:對圖像相似性、胚胎分期、發育速度和溫度、藥物誘導導致的胚胎發育變化分別進行了對應訓練。
實驗結果
結果 1:利用相似性圖對胚胎自動分期
將測試圖像與一組胚胎圖像比較,計算它們之間的餘弦相似度,獲得相似性評分以分類胚胎圖像。
測試胚胎與參考圖像的相似性圖
比較測試圖像與時間序列的發育胚胎圖像,得到相似性隨時間變化的曲線,從中提取出兩個主要特徵:
·曲線的峰值指示了測試圖像胚胎位於哪個發育階段。
·曲線的非峰值區域包含了額外資訊,如峰寬度和與遠端胚胎階段的相似性,反映了不同時間點的形態相似性。
胚胎年齡預測示意圖
孿生網路可以對一個胚胎的一組時間序列圖像進行識別預測,構建基於預測發育階段的軌跡,實現準確的胚胎分期。
結果 2:探究發育速度與溫度的函數關係
以前,量化胚胎發育的溫度依賴性需要手動或半自動註釋發育時間,這大大限制了可以在合理的時間跨度內分析的實驗數量。
利用構建的孿生網路自動分析發育速度的溫度依賴性變化,實驗方案為:23.5 ℃ 和 35.5 ℃ 之間的斑馬魚胚胎和 18 ℃ 到 36 ℃ 的青魚胚胎,每個溫度條件下分析 100 至 200 個斑馬魚胚胎或 20 至 100 個青魚胚胎。
實驗結果如圖所示:
不同溫度下斑馬魚和青魚胚胎發育分析圖
a,d:斑馬魚和青魚的年齡估計示意圖;
b,e:斑馬魚和青魚在不同溫度的發育情況;
c,f:斑馬魚和青魚在不同溫度下估計生長率的自然對數。
·溫度變化對兩種胚胎的發育速率產生了顯著影響。較低溫度下,胚胎發育速率較慢,而較高溫度則導致發育速率顯著加快。面對 10℃ 的溫度變化時,發育速率大致變化了兩倍。
·使用孿生網路量化分析溫度依賴的發育速率,利用 Arrhenius 方程擬合資料。在物種特定的溫度範圍內,線性擬合的斜率給出斑馬魚和米達卡的表觀活化能分別為 65 kJ/mol 和 77 kJ/mol。這些表觀活化能與其他變溫動物(如青蛙、果蠅或酵母)相似,明顯不同於恆溫動物(如小鼠或人類)。
·與理想化猜測不同,在較高溫度區域,兩種胚胎的發育速率均不再加速,而是趨於穩定。在較低溫度區域:斑馬魚的發育線性減緩,溫度低於 23℃ 胚胎停止發育;青魚胚胎則表現出非線性發育的特徵,長時間停滯在發育的原始囊階段。
結果 3:量化胚胎進化過程中的自然變異性
研究發現,儘管胚胎受到基因變異、外部干擾以及基因表達中的噪音和隨機性影響導致生長速率和發育階段的偏差,但總會完成進化過程。
胚胎的進化差異圖示
利用孿生網路評估同齡胚胎中個體表型的差異,實驗結果如圖所示:
胚胎發育圖
左圖表示不同時間後預測的胚胎發育階段百分比,0 分鐘(綠色)、400 分鐘(藍色)、800 分鐘(紫色);
右圖表示胚胎的平均相似值隨時間下降。
在早期胚胎發育階段,預測的胚胎發育階段具有較窄的分佈,而隨著分段期的開始,預測的胚胎發育階段的分佈寬度增加。這表明,在胚胎發育過程中,個體之間的差異逐漸增加,但平均相似性值卻隨著時間降低。
在 300 多萬多張斑馬魚胚胎圖像資料中,約有 1% 的胚胎發育異常,常見原因是自發性崩解或背腹極性缺陷。使用孿生網路,研究人員能夠在早期階段就檢測出發育異常的胚胎。這些異常胚胎在預測的正常發育範圍之外表現出較低的平均相似性值。
發育異常胚胎圖示
結果 4:鑑定藥物處理的胚胎表型
胚胎發育受到多種信號分子的協調作用,而調節它們的活性可能導致胚胎表型變化。在斑馬魚發育過程中,有七個主要的信號通路,在這些通路中,骨形成蛋白 (BMP)、視黃酸 (RA)、Wnt、成纖維細胞生長因子 (FGF) 和 Nodal 信號通路主要調控生殖層定向和前後背腹軸的形成,Sonic Hedgehog (Shh) 和平面細胞極性 (PCP) 信號通路則控制身體軸的延伸和形態發生。
研究人員對孿生網路在檢測異常胚胎方面的效用層面展開測試,結果如下圖所示:
未經處理的胚胎與藥物處理後胚胎的表型對比
a:未經處理的胚胎作為藥物處理的胚胎表型參考;
b – i:不同藥物處理胚胎與未處理胚胎相似性變化;
j:胚胎數目對異常檢測準確性的依賴性。
比較未經處理的胚胎與經過 BMP、Nodal、FGF、Shh、PCP 和 Wnt 抑制劑處理以及 RA 暴露的胚胎的表型,發現未經處理的胚胎之間存在高相似性值,而受小分子藥物處理的胚胎與未經處理的胚胎之間的相似性值通常較低。
對時間點進行統計分析,確定胚胎群體與參考群體顯著偏離的時間點,從而檢測到具有表型缺陷的胚胎群體,檢測的準確性取決於分析的胚胎數量和干擾類型。
此外,研究還探究了該方法在識別不同穿透率和嚴重程度表型時的準確性。使用不同水平 BMP 通路抑制導致的斑馬魚胚胎的已知表型範圍,結果如圖所示:孿生網路能夠準確檢測到發育偏差,對於具有高穿透性的表型或使用高劑量小分子 BMP 信號通路抑制劑引起的明顯表型,僅需要少量胚胎即可進行準確檢測,而輕微的表型則需要約 30 個胚胎。
不同水平 BMP 通路抑制下斑馬魚胚胎表型變化
這些分析表明,僅使用正常發育胚胎圖像訓練的孿生網路,能夠以無偏見的方式檢測胚胎表型變化。
結果 5:自動推導胚胎發育時期
通常情況下,可以使用參考胚胎圖像來評估測試胚胎的發育時間,但是對於新發現或未經表徵的物種,可能無法獲得這樣的參考圖像。
研究者提出,可以利用孿生網路計算測試圖像與同一胚胎在早期時間點的其他圖像的相似性判斷發育階段。
對斑馬魚胚胎進行相似性分析的結果如圖所示:
胚胎發育時期推導
a:計算測試胚胎與來自同一胚胎的以前採集時間點的圖像之間的相似性;
b:代表性相似矩陣。
在不同的發育時期,相似性呈現出獨特的分佈特徵。他們觀察到了一個共同的模式:高相似性值在局部聚集,而在更遠的時間點,相似性值較低且呈現平穩狀態。
有趣的是,孿生網路評估的圖像對之間的局部和全局統計相似性,與發育過程中關鍵階段的順序是一致的。落入平穩階段的胚胎具有穩定的形態,突顯了發育中的主要時期,如經典的分裂、囊胚、胚胎盤、器官發生和分段階段。與此相反,落入平穩階段之間的邊界的胚胎代表著發育形態發生主要變化的短暫時期。
接下來,研究者嘗試將這種方法推廣到其他物種,包括青魚(medaka)和三棘刺魚(three-spined stickleback)。結果顯示,孿生網路對這些形態多樣的胚胎序列生成了資訊豐富的圖譜。
自動檢測青魚和三刺魚胚胎的發育時期和轉變
進一步研究中,他們將這種方法應用到親緣關係更遠的線蟲(Caenorhabditis elegans),研究者們利用來自不同獨立來源的開放資料,如已發表的論文和YouTube視訊,訓練和評估網路,成功自動識別出C. elegans的第一次分裂週期,形成前四個原胚細胞。
這些結果表明,Twin Network 方法能夠用於針對不同生物體系,以及廣泛範圍的圖像資料集,自動生成不同物種的發育圖譜,而無需先前針對此目的專門訓練的模型。
孿生網路vs.數字孿生網路
5G 時代,數字孿生網路屢被提及。同時,和他名稱相仿的「孿生技術」—— 孿生網路也在圖像識別領域嶄露頭角。二者雖然概念不同,但在某些領域卻展現出了合力。
首先注意,這是兩個完全不同的概念。
Twin Network:一種深度學習架構,主要應用於圖像檢索、圖像匹配、圖像分類等領域,通過學習圖像的嵌入表徵,實現圖像相似性的比較和分析。
Digital Twin Network:物理實體的虛擬模型,它通過實時資料更新和仿真技術,與其對應的物理實體進行互動,並可以模擬物理實體在不同條件下的行為和性能,主要應用於工業製造、物聯網、城市規劃、航空航天等領域。
作為一種 AI 演算法,Twin Network 可從自身優勢為數字孿生網路賦能增效。
比如工業設備的數字孿生中,孿生網路可以比較不同時間點的設備圖像,以了解設備狀態的變化和差異;數字孿生城市規劃中,孿生網路可以處理監控探頭拍攝圖像資料,對交通流量和路況進行實時監測和模擬等等。
綜合來看,Twin Network 通過結合圖像資料和深度學習技術,為 Digital Twin Network 提供圖像相關的支持和應用,提高數字孿生的資訊獲取、監測和決策能力。
不只是 Twin Network,其他的 AI 工具也將進一步為數字孿生賦能。