一、DeepPGDB介紹
在過去十余年間,組學技術呈爆發式增長態勢。在植物科學領域,已有逾1000個物種完成染色體級別高質量基因組解析,水稻、擬南芥等模式植物更是率先邁入群體基因組時代。然而,海量數據背后,眾多具有生物學背景的研究者卻面臨分析困境。
傳統研究方法要求研究者精通生物信息學工具、命令行操作以及復雜的數據處理流程,這成為跨領域研究的重大障礙。隨著生成式大語言模型取得突破性進展,科研范式正在發生根本性變革。ChatGPT、DeepSeek等生成式大型語言模型的快速發展為數據處理提供了強大支持。
在此基礎上,人工智能驅動型智能代理的出現進一步激發了將這些模型應用于實際場景的興趣。目前,AI方法已成功應用于大規模癌癥功能蛋白質組學分析以及設計具有特定生物功能的基因組序列。正是這些進展啟發了將大型語言模型作為基因組數據庫核心引擎的構想:用戶通過直觀的自然語言查詢即可訪問數據庫中的知識。
2025年9月8日,華南農業大學農學院王少奎教授與廣東省農業科學院水稻研究所胡海飛副研究員聯合在Plant Communications期刊上發表研究論文《DeepPGDB: A Novel Paradigm for AI-Guided Interactive Plant Genomic Database》。該論文介紹了全球首個由人工智能驅動的植物基因組數據庫——DeepPGDB的成功構建。
數據庫DeepPGDB網址:https://www.deeppgdb.chat/
數據庫首頁如下圖,該設計使系統能夠根據文件記錄選擇適當工具直接檢索數據,更貼近研究人員的實際工作流程。用戶無需掌握復雜生物信息學工具或命令行操作,僅需用日常語言提問,系統即可自動識別意圖、調度工具、執行分析,并以結構化對話形式返回結果。
二、DeepPGDB數據庫功能介紹
2.1 技術架構
DeepPGDB通過整合模型微調、提示工程和檢索增強生成(RAG)技術,將生物信息學工具緊密集成至系統中,賦能其AI調度器精準解析用戶意圖并將其轉化為標準化的工具調用指令。 AI模型首先根據任務類型及數據類型(如組學數據或文本知識查詢),將用戶輸入區分為工具調用任務或文本知識檢索任務。
對于工具調用任務,系統使用一個經過微調的專用推理模型處理用戶意圖(如查詢基因功能、表達譜或基因組序列)以識別所需的數據類型。隨后,該模型會遵循預設的思維鏈(chain-of-thought)和提示,生成標準化的后端工具調用指令。 這些指令被發送至后端服務器后,將調用相應的生物信息學工具(如 BLAST、PLINK)或數據庫查詢語言(SQL)來檢索并分析數據。最終,分析結果返回至前端(圖2 上半部分流程),并以表格、圖表等多種形式呈現給用戶。
對于文本知識查詢任務(如查詢基因組版本、參考文獻等),系統采用基于基礎模型的檢索增強生成(Retrieval-Augmented Generation, RAG)技術,其能夠從相關背景文檔中檢索準確信息(圖2 下半部分流程)并生成流暢的自然語言回答,此融合多技術的組合方法作為專為基因組學數據設計的簡化模型上下文協議服務器運行,從而實現了復雜生物信息學分析的低門檻交互。
2.2 序列分析
平臺完整集成了經典的BLAST工具。用戶只需在對話框中輸入核酸或蛋白質序列,并指定目標物種,AI模型即可自動識別序列類型,生成并執行后端BLAST指令,最終以對話形式返回比對結果。
2.3 基因組數據檢索
請注意,只能下載全基因組或一定時間間隔,可直接在對話框輸入檢索指令,結果以文件或者對話框的形式返回,可直接下載到本地查看。
基因組位置查詢與基于功能類別的基因列表檢索對推進基因組及其功能研究至關重要。DeepPGDB整合了植物基因組的結構和功能注釋,允許用戶通過AI調度器處理自然語言查詢以檢索相關信息:調度器解析用戶意圖并生成標準化命令,在后端執行后,將結果以結構化表格形式于前端展示。
檢索示例:
檢索結果:
2.4 基因信息搜索
注:嚴格搜索會使結果更加保守
檢索示例:
檢索結果:
2.5 表達分析
DeepPGDB不僅提供基本查詢與表格輸出,還集成了由ECharts驅動的交互式統計可視化工具,使用戶能夠借助動態圖表直觀探索數據。 例如,整合的基因表達譜數據允許用戶通過自然語言指令,可視化特定數據集中不同組間的差異表達模式。類似的工作流程也可應用于基于物種特異性基因列表的富集分析。 此外,DeepPGDB通過整合多物種群體基因組變異數據支持群體遺傳學研究:用戶請求發出后,AI解析查詢、調用PLINK工具從預加載的群體數據集中檢索結果,并最終在前端以結構化表格形式呈現輸出。
檢索示例:
檢索結果:
富集分析:
2.6 變異分析
平臺還整合了多種植物的群體基因組變異數據。用戶可以請求AI調用PLINK等工具,對預加載的群體數據集進行分析,并將結果以結構化表格的形式呈現。
檢索示例:
檢索結果:
2.7 單倍型分析
檢索示例:
檢索結果:
2.8 基因序列提取
檢索示例:
檢索結果:
2.9 基因啟動子序列提取
檢索示例:
檢索結果:
2.10 每個物種的命名約定和數據范圍
目前已整合20+高質量植物基因組,覆蓋水稻、擬南芥等主流模式物種。
2.11 文件命名約定
所有基因組文件都遵循基于拉丁二項式名稱的嚴格命名模式:
基因組文件:(例如,擬南芥.thaliana.genome)Latin_binomial.genome
注釋文件:Latin_binomial.genome.ann
表達式文件:Latin_binomial.exp.csv
基因文件:Latin_binomial.genome.gene
GTF 文件:Latin_binomial.genome.gtf
2.12 模型配置
研究團隊為在性能和效率間取得最佳平衡,對多個候選AI模型進行了基準測試。結果表明,140億參數的推理模型(Deepseek-r1:14b)在處理長文本提示(Long Pre-prompt)時,能在各種任務中達到約90%的準確率,且其響應速度優于參數更大的模型。為進一步提升交互體驗,團隊對該模型進行了微調,使其在短文本提示(Short Pre-prompt)下也能保持高準確率,同時顯著減少了計算資源消耗并提高了響應速度,這使其更加適合部署在DeepPGDB中。
三、結語
DeepPGDB的核心技術亮點包括:
- 智能任務調度引擎能自動解析用戶自然語言請求,精準匹配基因組檢索、BLAST比對、基因定位、家族分析等任務,并在后臺生成標準化指令完成運算;
- 多注釋體系兼容功能可智能識別不同基因命名體系(如ID、Symbol等),有效解決跨數據庫標識混亂難題;
- 動態可視化支持通過集成ECharts圖表引擎,實現基因表達譜、富集分析等交互式圖形的一鍵生成;
- 其群體遺傳學模塊利用內置PLINK工具,支持對群體變異數據的直接分析;知識推理功能經升級新增“summarize”模塊,能進行多步生物學推演(如解析水稻亞種單倍型分化、預測蛋白理化性質等),推動從“查數據”到“挖知識”的躍遷;
- 此外,系統高效輕量部署經多輪優化,選用14B參數模型在保障高準確率的同時兼顧響應速度與低成本,并通過特別設計的微調策略在長短提示詞場景下均表現優異。
DeepPGDB的推出標志著植物基因組學的變革性進步,促進了計算生物學、基因組學與農學的跨學科合作。 該系統通過整合高質量基因組與多組學數據、先進的AI驅動調度、標準化命令生成及交互式可視化工具,賦能不同背景的研究者高效訪問并解讀復雜生物數據。 DeepPGDB不僅支持精確的基因定位、功能注釋和群體遺傳學研究,還通過其總結模塊增強了生物學見解的提取能力。 盡管DeepPGDB已展現出巨大潛力,但仍有提升空間。
未來,團隊計劃根據用戶反饋系統性地收錄更多高質量植物基因組數據,提升數據庫的全面性與時效性;此外,更將致力于全面整合模型上下文協議(MCP)架構,以擴展其對多組學數據(如轉錄組、蛋白質組、代謝組)的整合能力,并進一步增強系統從復雜數據中提取生物學意義的智能分析水平。DeepPGDB有望在農業科學、物種保護和生物技術等領域成為突破性發現的基石,引領植物科學邁入全新的數據驅動發現時代。
【免責聲明】發布內容來源于互聯網、業內人士投稿以及微信公眾號等公開資源,我們對文中觀點持中立態度,文中觀點不代表本平臺的立場。所有文章僅供讀者參考和交流使用。轉載的文章版權歸原作者所有,如有侵權行為,請及時與我們聯系以便刪除。