在生信的學習中,大家都會聽說過KEGG富集分析,而且該方法在高通量測序分析中已然成為數(shù)據(jù)分析中必不可少的一環(huán)。
這種分析方法依托的是由 Kanehisa實驗室 在1995年開發(fā)的KEGG數(shù)據(jù)庫,全稱為 Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書),是分子水平功能注釋最常用的公共數(shù)據(jù)庫之一。
數(shù)據(jù)庫鏈接:https://www.kegg.jp/
KEGG包含多個子數(shù)據(jù)庫,有代謝通路、基因信息、化合物、酶、藥物等等,以及最經(jīng)常使用的Pathway通路信息 (分析一般需要借助其他工具,如DAVID、KOBAS等)可與其他大型數(shù)據(jù)庫鏈接,可同時檢索相關的基因組信息數(shù)據(jù),如NCBI、ENSEMBL等。它把基因組、化學和系統(tǒng)功能信息整合到一張“通路圖”里,方便研究者快速定位基因或代謝物在生物學過程中的作用。
本文將重點介紹下KEGG數(shù)據(jù)庫的訪問與查詢功能。
一、KEGG 數(shù)據(jù)庫核心模塊解析
KEGG作為生物信息學領域的核心工具,整合了基因組、化學和系統(tǒng)功能信息,其數(shù)據(jù)體系可分為四大層級:
1. 通路數(shù)據(jù)庫(PATHWAY)
參考通路圖(Map 開頭):覆蓋代謝、遺傳信息處理等 7 大領域,以圖形化方式展示分子互作網(wǎng)絡。例如,map00010 糖酵解通路圖中,方框代表酶(如己糖激酶 K00844),圓圈代表代謝物(如 C00668 葡萄糖),箭頭表示反應方向。
物種特異性通路(物種縮寫開頭):如 sce00010(釀酒酵母糖酵解通路),綠色方框標注該物種特有的基因或酶,點擊可查看詳細注釋。
2. 同源基因數(shù)據(jù)庫(ORTHOLOGY)
KO 系統(tǒng):將不同物種中功能相似的基因歸為同一 KO 組(如 K04257 嗅覺受體基因),支持跨物種功能比較。例如,人類己糖激酶基因 3101、3098、3099 均屬于 K00844。
檢索技巧:在 KEGG 首頁搜索框輸入 “ko: 基因名” 或直接訪問http://www.genome.jp/kegg/ko.html,可快速定位目標 KO 及其關聯(lián)通路。
3. 化合物與反應數(shù)據(jù)庫
COMPOUND:收錄小分子化合物信息,輸入 C 編號(如 C00078)或分子式(C11H12N2O2)可查詢結(jié)構(gòu)、分子量及參與的代謝反應。
REACTION:存儲酶促反應方程式,支持通過 EC 編號(如 5.4.2.2)或酶名稱檢索。
4. 層級分類數(shù)據(jù)庫(BRITE)
功能分類體系:以樹狀結(jié)構(gòu)組織數(shù)據(jù),例如藥物分類 br08340 將化合物按治療領域細分,支持批量下載 htext 或 json 格式文件。
交叉引用:通過 LinkDB 工具(http://www.genome.jp/linkdb/)可查看各數(shù)據(jù)庫間的關聯(lián)關系,如某個通路的基因來源。
二、數(shù)據(jù)檢索與獲取實戰(zhàn)
1. 關鍵詞搜索
全局檢索:在 KEGG 首頁搜索框輸入 “氮代謝”,可同時檢索到 pathway(map00910)、module(M00001)、KO(K00103)等相關條目。
高級篩選:點擊搜索結(jié)果頁的 “Filter” 按鈕,可限定檢索類型(如僅顯示 Pathway),或按物種、疾病分類過濾。
2. 精準定位方法
ID 檢索:直接輸入通路編號(如 map01230 氨基酸合成通路)、基因 ID(hsa:101954268)或化合物 C 編號,快速跳轉(zhuǎn)至目標頁面。
物種篩選:在 PATHWAY 檢索頁的 “Organism” 下拉菜單中選擇物種(如 hsa 代表人類),可查看該物種特有的通路注釋。
3. 數(shù)據(jù)導出與格式轉(zhuǎn)換
圖形下載:在通路圖頁面點擊 “Download” 按鈕,可獲取 png、svg 或 kcf 格式文件,支持后續(xù)編輯。
批量獲取:通過 API 接口(http://rest.kegg.jp/)可批量下載數(shù)據(jù),例如使用 “l(fā)ist/pathway/hsa” 命令獲取人類所有通路列表。
三、典型應用場景示例
案例:分析腫瘤相關代謝通路
1. 確定研究方向:假設關注肝癌糖代謝異常,在 KEGG 首頁搜索 “肝癌”(H00014),進入 DISEASE 數(shù)據(jù)庫查看相關通路。
2. 檢索關聯(lián)通路:點擊 “Disease pathway” 鏈接,發(fā)現(xiàn) hsa04110 細胞周期通路和 hsa00010 糖酵解通路顯著富集。
3. 挖掘關鍵基因:在 hsa00010 通路圖中,點擊綠色方框(如 K00844 己糖激酶),查看其在人類中的基因成員(如 HK1、HK2)。
4. 數(shù)據(jù)整合:通過 LinkDB 工具關聯(lián) NCBI Gene 數(shù)據(jù)庫,獲取基因序列和表達數(shù)據(jù),為后續(xù)實驗設計提供依據(jù)。
四、注意事項與資源拓展
1. 數(shù)據(jù)更新:KEGG 每月新增約 80 個基因組數(shù)據(jù),建議定期訪問官網(wǎng)(https://www.kegg.jp/)查看更新日志。
2. 訪問權(quán)限:基礎檢索和數(shù)據(jù)瀏覽免費,高級分析工具(如 BlastKOALA)需注冊賬號,部分 API 服務僅限學術用途。
3. 學習資源:
官方文檔:http://www.genome.jp/kegg/document/help_bget_module.html
實戰(zhàn)教程:CSDN 博客《KEGG 數(shù)據(jù)庫的使用方法與介紹》提供圖文并茂的操作指南。
下次我們將深入探討 KEGG 的數(shù)據(jù)分析功能,教你如何利用這些數(shù)據(jù)進行通路富集分析和可視化,敬請期待!
【免責聲明】發(fā)布內(nèi)容來源于互聯(lián)網(wǎng)、業(yè)內(nèi)人士投稿以及微信公眾號等公開資源,我們對文中觀點持中立態(tài)度,文中觀點不代表本平臺的立場。所有文章僅供讀者參考和交流使用。轉(zhuǎn)載的文章版權(quán)歸原作者所有,如有侵權(quán)行為,請及時與我們聯(lián)系以便刪除。