1. 研究背景與挑戰(zhàn)
核心問題:哺乳動物細胞培養(yǎng)中,培養(yǎng)基成分的復雜互作導致傳統(tǒng)優(yōu)化方法(如實驗設計DoE)效率低下。
現有局限:經驗依賴性強,易受人為偏差影響;難以平衡細胞生長速率(96小時)與最終產量(168小時)。
技術機遇:主動機器學習(Active ML)可通過“預測-驗證”閉環(huán)減少實驗量,實現多參數同步優(yōu)化。
2. 創(chuàng)新方法:從傳統(tǒng)DoE到智能ML
本研究技術路線如圖1)如所示:
圖1 技術路線圖
1)模型構建:
細胞模型:HeLa-S3細胞(人宮頸癌細胞系)
基礎培養(yǎng)基:EMEM(含31種成分)
算法:梯度提升決策樹(GBDT)
2)雙模式優(yōu)化:
常規(guī)模式(R):基于168小時細胞濃度數據優(yōu)化最終產量
節(jié)時模式(TS):基于96小時數據預測168小時產量(利用早期-晚期濃度相關性)
3)四輪主動學習:
初始生成209種梯度培養(yǎng)基
每輪篩選15-22種高潛力培養(yǎng)基實驗驗證
迭代更新訓練集(共503組數據)
3. 關鍵結果
1)培養(yǎng)基優(yōu)化效能
細胞濃度提升:
R模式:11種培養(yǎng)基168小時濃度顯著高于EMEM(最高提高50%)
TS模式:10種培養(yǎng)基96小時濃度提升,但僅30%維持至168小時
模型精度:
四輪迭代后預測誤差(RMSE)降低40%( p<0.05)
數據標準化(Fold Change, FC)較原始數據(C)提升模型魯棒性
圖2 R/TS模式效能對比
2)關鍵成分鑒定
特征重要性分析:9種成分貢獻80%生長影響(如谷氨酰胺升高、半胱氨酸降低)
時序差異:甲硫氨酸僅晚期(168小時)關鍵
圖3 培養(yǎng)基成分對細胞培養(yǎng)的關鍵影響
A.不同模型下細胞培養(yǎng)產量的分布;B.重要性排名前9的成分(累積貢獻80%)
規(guī)模放大驗證:
最優(yōu)培養(yǎng)基R445:168小時濃度提高50%(p <0.01)
成分共性:R445與失效培養(yǎng)基TS471均缺失磷酸氫鈉和硫胺素
3) 轉錄組機制解析
基因表達重編程:
R445激活增殖通路(如細胞發(fā)育相關GO term)
TS471引發(fā)表達紊亂(差異基因數↑100倍)
功能富集:
R445特異性富集:細胞周期調控基因(如mTORC1通路)
EMEM富集:代謝調控基因
圖4 基因表達變化與培養(yǎng)基優(yōu)化的關聯性研究
4. 討論與局限
1)模式對比
R模式:穩(wěn)定提升最終產量(C1簇占比提高)
TS模式:節(jié)省50%實驗時間,但33%培養(yǎng)基因“生長-產量權衡”失效(C2簇)
2)技術突破
數據驅動閉環(huán):首次整合ML預測→實驗驗證→轉錄組反饋
節(jié)時策略:利用96/168小時濃度相關性(r=0.82)加速優(yōu)化
3)局限與展望
細胞普適性:當前僅驗證HeLa細胞,需拓展至原代/干細胞
血清依賴:含FBS培養(yǎng)基成分不透明,下一步開發(fā)無血清方案
算法升級:引入時間序列數據提升TS模式穩(wěn)定性
5. 應用價值
生物制藥:快速定制單抗生產培養(yǎng)基(成本降低30%)
再生醫(yī)學:優(yōu)化干細胞擴增體系
開源資源:
代碼庫:https://github.com/yuki020527/medium_optimization
RNA-seq數據:DRA017793 (DDBJ)
總之,本研究建立了主動機器學習驅動的培養(yǎng)基優(yōu)化新范式,通過雙模式迭代和轉錄組驗證,突破傳統(tǒng)方法瓶頸。其中四輪迭代減少60%實驗量,并發(fā)現9種核心成分及時序調控規(guī)律,為生物制造與精準醫(yī)療提供工具包。
參考文獻:Y Ozawa, T Hashizume, BW Ying. (2025). A data-driven approach for cell culture medium optimization. Biochemical Engineering Journal, 241, 109591. https://doi.org/10.1016/j.bej.2024.109591
來源:微生物安全與健康網,作者~陳諾。