做分子生物學研究的朋友,大概都有過這樣的經歷:想查某個基因的參考序列,翻了好幾個數據庫;要找它和疾病的關聯,又得跳轉到另一個平臺;最后想確認物種特異性,還得重新篩選 —— 兜兜轉轉半小時,關鍵信息還沒湊齊。
其實 NCBI 旗下的Gene 數據庫(https://www.ncbi.nlm.nih.gov/gene)早就把這些需求整合到一起了。作為基因信息的 “一站式樞紐”,它覆蓋了從人類到酵母、從果蠅到小鼠的多物種數據,不管你是剛入門的研究生,還是需要快速找數據的研究員,掌握它的用法都能少走很多彎路。今天就從 “怎么用” 的角度,把Gene 數據庫的核心功能拆給你看。
NCBI Gene 是什么?
很多人第一次點進 Gene 數據庫,會被頁面上的 “nomenclature”“RefSeqs”“phenotypes” 這些術語繞暈,但其實你不用死記硬背,只要知道它能解決你 3 個核心需求就行:
找全基因的 “基礎檔案”:每個基因的記錄里,都藏著你需要的基礎信息。官方命名(比如 BRCA1 不會寫成 “乳腺癌易感基因 1 號” 這種模糊說法)、參考序列(RefSeqs,直接下載就能用的 DNA/RNA 序列)、染色體定位(比如人類 Y 染色體上的基因,直接標清楚位置),甚至還有基因參與的通路(比如哪些基因和 “細胞凋亡” 相關)。不用再在序列數據庫和通路數據庫之間反復切換。
連接 “基因 - 表型 - 疾病” 的線索:做疾病相關研究的人,最需要的就是基因和表型的關聯。比如你想知道 “muscular dystrophy(肌營養不良)” 相關的人類基因,在 Gene 里搜關鍵詞,就能直接看到哪些基因變異會導致這個疾病,還能鏈接到 OMIM(在線人類孟德爾遺傳數據庫)看更詳細的病例和研究,省去了手動檢索文獻的麻煩。
對接其他科研工具的 “快捷入口”:數據庫頁面右側有一排 “Other Resources”,比如點 “RefSeq” 能直接跳轉到序列詳情頁,點 “Protein Clusters” 能看同源蛋白,甚至連 BLAST(序列比對工具)、Splign(基因結構分析工具)都能在 “Gene Tools” 里直接打開 —— 相當于給你的科研流程開了 “直通車”。
Gene數據庫在檢索上其實和我們使用pubmed是類似的。它的檢索方式有多種。我們既可以檢索基因名;同時也可以檢索某一文獻的PMID來獲得這個文獻的相關基因。同時也可以檢索某一疾病得到和這個疾病相關的所有基因。下面的表格上是一些檢索的官方例子。
二、實用搜索場景
Gene 數據庫的核心是 “精準搜索”,很多人覺得用不好,是因為沒掌握括號里的 “搜索暗號”(比如 [sym]“[chr])。下面 6 個場景,覆蓋了 90% 的科研需求,每個都給了現成的搜索公式,你直接替換關鍵詞就能用。
場景 1:知道基因名 / 符號,想快速找它
這是最常用的場景,比如要查 “BRCA1”“TP53” 這類有明確符號的基因。搜索公式:基因符號 +[sym](“sym” 是 “symbol” 的縮寫,代表基因符號)
例子:輸入 “BRCA1 [sym]”,回車就能直接定位到人類 BRCA1 基因的主頁,不會出現其他同名的非基因結果。
小貼士:如果不確定基因符號對不對,也可以直接輸基因名(比如 “breast cancer 1”),但加 [sym] 能避免歧義。
場景 2:知道染色體位置,找該區域的基因
比如研究人類 Y 染色體上的基因,或者果蠅第 2 號染色體上的 ADH 家族基因。
搜索公式:(染色體編號 +[chr])AND(基因關鍵詞 +[sym])
例子 1:找人類 Y 染色體基因,輸 “Y [CHR] AND human [ORGN]”([ORGN] 代表物種,避免搜到其他物種的 Y 染色體基因)。
例子 2:找果蠅或小鼠第 2 號染色體上的 ADH 相關基因,輸 “(II [chr] OR 2 [chr]) AND adh*[sym]”(“*” 是通配符,代表 “ADH 開頭的所有基因”;“OR” 代表同時包含兩種染色體編號)。
場景 3:按基因功能(GO 術語)找基因
比如想找 “細胞黏附”(cell adhesion)相關的基因,或者已知 GO 編號(比如 10030),想確認對應的基因。
搜索公式:“功能術語”+[GO] 或 GO 編號 +[GO]
例子:輸入 “cell adhesion [GO]”,就能看到所有標注了 “細胞黏附” 功能的基因。用處:做功能富集分析后,想驗證某個 GO term 對應的基因,用這個方法最快。
場景 4:找臨床相關的基因變異
比如研究腫瘤相關基因的短變異,需要篩選有臨床意義的(比如 ClinVar 數據庫收錄的)基因。
搜索公式:“clinvar gene specific”+[Filter](“Filter” 代表過濾器,專門篩選臨床相關數據)
例子:直接輸 “clinvar gene specific [Filter]”,就能看到所有有臨床變異記錄的基因,點進去還能看具體的變異類型(比如點突變、插入缺失)和臨床意義(比如 “致病性”“良性”)。
場景 5:通過文獻 PMID 找相關基因
比如看到一篇文獻(PMID:11331580),想知道它研究的是哪個基因。
搜索公式:PMID 編號 +[PMID]
例子:輸 “11331580 [PMID]”,就能直接關聯到這篇文獻研究的基因,不用再通讀全文找基因名。
場景 6:通過序列編號( accession )找基因
比如手里有一個序列的 accession 號(比如 M11313),想確認它對應的基因。
搜索公式:accession 號 +[accn](“accn” 代表序列編號)
例子:輸 “M11313 [accn]”,就能直接定位到該序列對應的基因,省去了在 GenBank 里查序列再關聯基因的步驟。
三、進階技巧
掌握了基礎搜索,再加上這 3 個技巧,能幫你更快拿到精準數據:
用 “AND/OR” 組合條件,縮小范圍。比如想找 “果蠅或小鼠中,有‘轉運體’功能且目前有研究數據的基因”,可以輸 “alive [prop] AND transporter [title] AND ("Drosophila melanogaster"[orgn] OR "Mus musculus"[orgn])”。其中 “alive [prop]” 代表 “目前有活性研究數據的基因”,避免搜到過時或未驗證的基因。
下載數據到本地,批量分析。如果你需要批量處理基因數據,不用一個個復制粘貼。在搜索結果頁面頂部,點擊 “Download/FTP”(在 “Using Gene” 下拉菜單里),就能選擇下載格式(比如 CSV、TXT),把基因名、序列、表型等信息一次性導出,方便后續用 Excel 或 R/Python 分析。
https://ftp.ncbi.nih.gov/gene/
用 “GeneRIFs” 看基因的研究摘要每個基因主頁都有 “GeneRIFs”(Gene References Into Functions)板塊,這里匯總了該基因的核心研究結論,比如 “BRCA1 基因突變與乳腺癌風險相關”。不用讀幾十篇文獻,看這里就能快速了解基因的研究現狀。
其實 NCBI Gene 數據庫沒那么復雜,核心就是 “用對搜索標簽,找對信息入口”。剛開始可以從簡單的場景(比如搜基因符號)練手,熟悉后再嘗試組合搜索,慢慢就能摸清它的規律。
【免責聲明】發布內容來源于互聯網、業內人士投稿以及微信公眾號等公開資源,我們對文中觀點持中立態度,文中觀點不代表本平臺的立場。所有文章僅供讀者參考和交流使用。轉載的文章版權歸原作者所有,如有侵權行為,請及時與我們聯系以便刪除。