国产精品视频一区二区三区四,亚洲av美洲av综合av,99国内精品久久久久久久,欧美电影一区二区三区电影


化工儀器網(wǎng)首頁>資訊中心>項目成果>正文

中南大學團隊開發(fā)跨模態(tài)對比學習框架 顯著提升質(zhì)譜化合物鑒定效率

2025年08月15日 14:14:56 來源:化工儀器網(wǎng) 作者:宋池 點擊量:335

中南大學盧紅梅團隊開發(fā)跨模態(tài)對比學習框架CSU-MS2,突破傳統(tǒng)質(zhì)譜化合物鑒定瓶頸。該框架創(chuàng)新融合外部空間注意力(ESA)模塊,實現(xiàn)質(zhì)譜與分子結構的動態(tài)對齊,在百萬級化合物庫檢索中Recall@1達75.45%,顯著超越現(xiàn)有主流方法。

  近日,中南大學化學化工學院盧紅梅教授課題組在分析化學領域取得重要突破,開發(fā)出一種名為CSU-MS2的創(chuàng)新計算框架,顯著提升了基于質(zhì)譜的化合物鑒定效率。該研究成果已發(fā)表于國際權威期刊《Analytical Chemistry》(中科院1區(qū)),論文標題為“CSU-MS2: A Contrastive Learning Framework for Cross-Modal Compound Identification from MS/MS Spectra to Molecular Structures”。
 

 

  基于串聯(lián)質(zhì)譜(MS/MS)的化合物鑒定是代謝組學等領域的核心挑戰(zhàn)。傳統(tǒng)方法嚴重依賴現(xiàn)有質(zhì)譜譜庫的覆蓋范圍,而主流譜庫如NIST23僅收錄約5.1萬種化合物,與PubChem等數(shù)據(jù)庫中超過1億的真實化學空間存在巨大差距,導致鑒定成功率受限。CSU-MS2框架旨在突破這一瓶頸。
 
  該框架創(chuàng)新性地采用跨模態(tài)對比學習技術,構建了一個統(tǒng)一表征空間來橋接質(zhì)譜與分子結構兩種不同模態(tài)的信息。其核心包含兩個專門編碼器:基于Transformer的質(zhì)譜編碼器用于解析MS/MS譜圖的深層特征,分子結構編碼器則處理SMILES字符串的分子信息。通過對比學習機制,框架在特征空間中拉近匹配的“譜圖-結構對”距離,同時推遠非匹配對的距離。
 
  框架的關鍵創(chuàng)新點是外部空間注意力(ESA)模塊,它采用動態(tài)特征選擇機制替代傳統(tǒng)池化操作,實現(xiàn)了質(zhì)譜特征與分子結構特征的智能對齊與優(yōu)化聚合。實驗數(shù)據(jù)表明,ESA模塊顯著提升了跨模態(tài)對齊精度,使跨模態(tài)檢索的Recall@1指標提高了29.03%。在訓練策略上,團隊首先利用大規(guī)模CFM-ID模擬數(shù)據(jù)和ICEBERG異構體模擬數(shù)據(jù)集進行預訓練,隨后在高質(zhì)量實驗數(shù)據(jù)集上進行微調(diào),研究發(fā)現(xiàn)模型性能與微調(diào)數(shù)據(jù)量之間存在顯著的對數(shù)線性關系。同時,團隊構建了包含672,681個化合物、整合23個權威數(shù)據(jù)源的“質(zhì)譜可搜索結構特征數(shù)據(jù)庫”(SSFDB),大幅擴展了可檢索的化學空間。
 
  在嚴格的性能評估中,CSU-MS2展現(xiàn)明顯優(yōu)勢。在包含1,001,047個化合物的參考庫測試中,其Recall@1(正確結果排名第一的比例)達到75.45%,顯著優(yōu)于CFM-ID 4.0 (68.38%)、SIRIUS 5.8.5 (64.85%)、MetFrag 2.5.0 (48.59%) 和 CMSSP (30.47%) 等主流方法。該框架展現(xiàn)出優(yōu)異的化學類別適應性,在ClassyFire定義的7個超類中Recall@1均超過64%,即使對于與訓練集結構相似度極低的化合物,Recall@3和Recall@5也分別保持在77.78%和88.89%的高水平。數(shù)據(jù)庫規(guī)模擴展至1000萬化合物時,其Recall@10表現(xiàn)仍相對穩(wěn)定。
 
  CSU-MS2在多個獨立場景驗證中表現(xiàn)出強大泛化能力。以人類代謝組數(shù)據(jù)庫(HMDB)為參考庫時全面優(yōu)于CFM-ID;針對人類血液代謝組學數(shù)據(jù)(MTBLS265),以ChEBI為參考庫時Recall@10高達91.67%;在CASMI 2022競賽數(shù)據(jù)集評估中,使用完整數(shù)據(jù)庫檢索時Recall@1達29.94%,通過擴展數(shù)據(jù)庫可提升至38.98%,Recall@10達72.32%,展現(xiàn)了優(yōu)異的同分異構體區(qū)分能力。值得注意的是,即使目標化合物未收錄于參考庫,該框架也能檢索出結構高度相似的候選分子。
 
  為推動技術應用,研究團隊開源了全部代碼和模型,并部署了基于Gradio框架的用戶友好型在線Web服務器。該平臺支持用戶上傳MSP格式的未知MS/MS譜圖,自定義前體離子質(zhì)量及碰撞能量(0-50 eV),并靈活選擇內(nèi)置數(shù)據(jù)庫或上傳自定義數(shù)據(jù)庫進行檢索,返回包含候選化合物結構、匹配得分及排序的結果。
關鍵詞

相關閱讀 Related Reading

查看更多+

版權與免責聲明

  • 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡有限公司-化工儀器網(wǎng)合法擁有版權或有權使用的作品,未經(jīng)本網(wǎng)授權不得轉(zhuǎn)載、摘編或利用其他方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的,應在授權范圍內(nèi)使用,并注明“來源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關法律責任。
  • 本網(wǎng)轉(zhuǎn)載并注明自其他來源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負版權等法律責任。
  • 如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。
第三屆工業(yè)園區(qū)污水監(jiān)測方案線上會議
關閉
砀山县| 丹巴县| 灵宝市| 辽源市| 遵义县| 新邵县| 富宁县| 澄城县| 灵山县| 枞阳县| 泗洪县| 唐山市| 郧西县| 武乡县| 都昌县| 敖汉旗| 洪湖市| 昭通市| 平阴县| 江安县| 卓资县| 青州市| 兖州市| 太仆寺旗| 贵港市| 太保市| 张家川| 遵化市| 墨竹工卡县| 桂林市| 分宜县| 永和县| 柞水县| 宁陵县| 新巴尔虎左旗| 金华市| 屯门区| 巴中市| 梅河口市| 威宁| 绵阳市|