上一篇
Blast如何选择数据库
- 数据库
- 2025-06-08
- 4053
选择BLAST数据库取决于研究对象: ,1. **序列类型**:核酸序列选
nt
或
refseq_rna
;蛋白质序列选
nr
或
swissprot
。 ,2. **范围需求**:需最全结果选非冗余库(如
nt
/
nr
);聚焦特定物种或高质量序列选专用库(如
refseq_genomes
)。 ,3. **特殊目标**:如研究微生物可用
16S ribosomal RNA
等专题库。
当你在浩瀚的生物信息海洋中使用BLAST这把“探针”去寻找相似序列时,选对数据库是成功的关键第一步,选错了数据库,轻则效率低下、结果冗杂,重则可能得到完全错误或误导性的结论,浪费宝贵的研究时间和精力,本文将深入浅出地讲解如何为你的BLAST分析精准选择最合适的数据库,助你高效、准确地获取所需信息。
核心原则:明确你的分析目标
选择数据库的出发点,永远是你的核心问题:
-
我手中的序列是什么类型?
- DNA (核苷酸序列) – 如基因片段、ESTs、基因组草图。
- Protein (蛋白质序列) – 如从DNA翻译得到的氨基酸序列、纯化的蛋白质序列。
- ️ 特别注意:BLAST程序与数据库类型必须严格匹配!
blastn
用于查询核苷酸序列 vs 核苷酸数据库 (nt, refseq_rna, 16S…)blastp
用于查询蛋白质序列 vs 蛋白质数据库 (nr, refseq_protein, swissprot…)blastx
用于查询核苷酸序列(翻译成蛋白质) vs 蛋白质数据库 (常用于分析未鉴定DNA序列的功能)tblastn
用于查询蛋白质序列 vs 核苷酸数据库(翻译成蛋白质)(常用于在基因组或EST中寻找同源基因)tblastx
用于查询核苷酸序列(翻译成蛋白质) vs 核苷酸数据库(翻译成蛋白质)(计算量大,通常用于远缘关系)
-
我想解决什么问题?
- 鉴定一个未知序列:它是哪个物种的?是什么基因或蛋白?(通用数据库如
nr
/nt
,或更精准的RefSeq
) - 寻找直系同源物(Orthologs):跨物种的相同功能基因?(高质量注释数据库如
RefSeq
或Swiss-Prot
) - 分析物种分类:如基于16S rRNA基因确定微生物分类?(专用数据库如
16S ribosomal RNA sequences (Bacteria and Archaea)
) - 研究特定功能域或家族:这个蛋白属于哪个家族?有什么结构域?(专用数据库如
Conserved Domains Database (CDD)
,Pfam
) - 宏基因组或宏转录组分析:环境样本中的微生物组成?(专用数据库或精心构建的参考数据库)
- 检查序列的独特性/是否存在被墙物:我的序列是新的吗?有没有载体被墙?(专用数据库如
vector
) - 比较我的序列与某个特定基因组:这个基因在目标物种基因组中的位置?(该物种的基因组数据库
.fna
,.faa
或refseq_genomes
按物种选择) - 寻找可能的引物结合位点或非特异性结合?(
nr
/nt
,但需注意结果解读)
- 鉴定一个未知序列:它是哪个物种的?是什么基因或蛋白?(通用数据库如
下表总结了常见分析目标与推荐的数据库选择:
分析目标 | 查询序列类型 | 推荐数据库 | 使用场景说明 |
---|---|---|---|
未知序列鉴定 | 核苷酸 | nt, refseq_rna | 广泛物种覆盖,初步鉴定 |
蛋白质 | nr, refseq_protein | 功能注释和同源搜索 | |
寻找直系同源物 | 蛋白质 | refseq_protein, swissprot | 高质量注释基因集合 |
微生物分类分析 | 核苷酸 | 16S ribosomal RNA | 基于16S rRNA的物种分类 |
功能域分析 | 蛋白质 | CDD, Pfam | 蛋白质家族和结构域识别 |
宏基因组分析 | 核苷酸 | refseq_genomes (特定类群) | 环境样本微生物组成 |
特异性检验 | 核苷酸 | vector, UniVec | 检测载体或接头序列被墙 |
基因组定位 | 核苷酸 | 特定物种基因组(.fna) | 基因在目标基因组中的位置 |
引物特异性验证 | 核苷酸 | refseq_rna (特定分类) | 引物结合位点特异性测试 |
主流公共数据库详解 (以NCBI为例)
NCBI BLAST 提供了丰富的公共数据库,理解它们的构成和特点至关重要:
-
nr
(非冗余蛋白质数据库 – Non-redundant Protein):- 合并了 GenBank, RefSeq, PDB, Swiss-Prot, PIR, PRF 等来源的蛋白质序列,并去除严格相同(100% 一致)的序列,注意,它不是完全去冗余的,不同来源的、非100%相同的同源序列(如来自不同物种的同源蛋白,或同一蛋白的不同亚型)都会被保留。
- 优点: 覆盖范围最广,包含来自大量物种的预测和已注释的蛋白质,是进行未知蛋白质功能注释、寻找远缘同源物最常用的起点。
- 缺点: 非常庞大,搜索耗时较长,结果中可能包含大量冗余信息(如来自不同测序项目的同一蛋白质预测)、低质量的预测序列、错误注释,需要仔细甄别结果。
- 何时用: 查询未知蛋白质序列;进行广泛的同源性搜索(特别是远缘物种);不介意结果中包含较多预测序列和潜在冗余。
-
nt
(非冗余核苷酸数据库 – Non-redundant Nucleotide):- 类似于
nr
,是 GenBank, RefSeq, EMBL, DDBJ, PDB 等来源的核苷酸序列(主要是编码区CDS, EST, GSS, STS, 非编码RNA等)的部分去冗余(去除严格相同序列)集合。 - 优点: 覆盖范围广。
- 缺点: 庞大、包含冗余(如不同来源的同基因记录)、预测序列、错误注释,包含大量非基因序列(ESTs等)。
- 何时用: 查询未知DNA序列(使用
blastn
);检查序列是否新颖(但需结合其他证据);寻找可能的同源基因(注意区分编码区和非编码区结果)。
- 类似于
-
RefSeq
参考序列数据库 (Reference Sequence Database):- NCBI精心策划的、高质量、非冗余的参考序列集合,包含基因组(
refseq_genomes
)、转录本(refseq_rna
)、蛋白质(refseq_protein
)等子集。“非冗余”程度远高于nr/nt
,它整合了来自同一基因座(locus)的最佳代表序列,去除了冗余的提交版本。 - 优点: 注释质量高、可靠性强、冗余度低,是进行物种间比较、寻找可靠直系同源物、获取标准基因/蛋白信息的首选,数据库按物种或分类群组织清晰(如
refseq_select
,refseq_vertebrate_mammalian
,refseq_protein_vertebrates
)。 - 缺点: 覆盖的物种数量不如
nr/nt
全面,主要集中于模式生物和有较好基因组注释的物种。 - 何时用:
refseq_rna
: 精确鉴定基因/转录本(blastn
)、物种分类(如使用特定基因)。refseq_protein
: 精确鉴定蛋白质、寻找直系同源物(blastp
,blastx
)、功能注释。refseq_genomes
(或特定物种基因组): 将查询序列定位到特定物种基因组(blastn
,tblastn
)或比较蛋白质组(tblastn
)。refseq_select
: 包含每个蛋白编码基因的一个代表性转录本(及其蛋白产物),适合快速、去冗余的分析。
- NCBI精心策划的、高质量、非冗余的参考序列集合,包含基因组(
-
其他重要专用数据库:
16S ribosomal RNA sequences (Bacteria and Archaea)
: 专门用于通过16S rRNA基因序列进行细菌和古菌的物种鉴定和分类学分析(blastn
),结果通常包含分类学信息。18S ribosomal RNA sequences (eukaryotes)
: 类似16S,用于真核生物(特别是原生生物、真菌)的分类(blastn
)。ITS (Internal Transcribed Spacer) for Fungi
: 用于真菌物种鉴定的核心条形码区域(blastn
)。COX1 (cytochrome c oxidase subunit I)
: 动物(特别是无脊椎动物)DNA条形码分析(blastn
)。Conserved Domains Database (CDD)
: 包含保守蛋白质结构域和功能位点的序列模型(使用rpsblast
程序),用于分析蛋白质的功能域组成。Swiss-Prot
(通过UniProtKB): 另一个高质量、人工注释的蛋白质数据库,注释非常详尽可靠(通常比RefSeq_protein更深入)。寻找直系同源物、功能研究的极佳选择(blastp
),在NCBI BLAST中,其精选部分包含在nr
中,但有时通过UniProt网站直接使用更佳。vector
/UniVec
: 包含常见的测序载体、接头、引物序列,用于检查实验序列中是否存在载体被墙(blastn
)。Betacoronavirus
/ 其他特定病原体数据库: NCBI或研究者构建的特定病原体(如SARS-CoV-2)基因组/蛋白数据库,用于追踪变异、诊断等。Patent sequences
: 包含专利中的序列。
🧭 实用选择策略指南
-
根据生物类型和问题快速定位:
- 细菌/古菌未知基因或物种鉴定? 首选
blastn
vs16S ribosomal RNA
(如果查询是16S) 或blastx
vsnr
/refseq_protein
(如果查询是未知DNA)。 - 真核生物(非真菌)基因/转录本鉴定?
blastn
vsrefseq_rna
(首选) 或nt
(更广但杂) 或blastp
/blastx
vsrefseq_protein
/nr
(如果已知是蛋白编码)。 - 真菌物种鉴定?
blastn
vsITS
(首选) 或18S
/28S
。 - 动物(尤其无脊椎)物种鉴定(DNA条形码)?
blastn
vsCOX1
(首选)。 - 未知蛋白质功能预测/同源物搜索? 首选
blastp
vsrefseq_protein
(高质量去冗余) 或nr
(最广泛覆盖),追求最高注释质量可用blastp
vsSwiss-Prot
(通过UniProt)。 - 分析蛋白质包含哪些功能域? 使用
rpsblast
vsCDD
。 - 我的DNA序列是否编码蛋白?可能是什么? 使用
blastx
vsrefseq_protein
(首选) 或nr
。 - 在特定物种(如人类、小鼠)基因组中找同源基因?
tblastn
vs 该物种的基因组数据库 (如Human genomic + transcript
,Mouse genomic + transcript
在refseq_genomes
下) 或blastp
vs 该物种的蛋白质数据库 (如Human Proteins
,Mouse Proteins
在refseq_select
或refseq_protein
下)。 - 检查测序序列是否有载体被墙?
blastn
vsvector
/UniVec
。
- 细菌/古菌未知基因或物种鉴定? 首选
-
平衡“广覆盖”与“高质量、低冗余”:
- 初次探索未知序列,想了解最广泛的同源信息? 考虑
nr
(蛋白) 或nt
(核酸),但要做好筛选冗余结果的准备。 - 追求可靠结果、物种间比较、标准参考? 首选对应的
RefSeq
数据库 (refseq_protein
,refseq_rna
)。 - 需要最精准的蛋白功能注释? 首选
Swiss-Prot
(通过UniProt)。
- 初次探索未知序列,想了解最广泛的同源信息? 考虑
-
考虑数据库大小和搜索速度:
RefSeq
通常比nr/nt
小得多,搜索更快。Swiss-Prot
更小。- 专用数据库(如16S, ITS, CDD)非常快速。
- 宏基因组分析警告: 避免直接
blastn
vsnt
!它巨大且包含了大量与宏基因组无关的真核序列(如人类、小鼠),应使用针对宏基因组优化的数据库(如refseq_genomes
选择特定微生物类群构建本地库,或专门的宏基因组数据库如MGnify)。
-
不可忽视的细节:
- 数据库版本时效性: 公共数据库不断更新,了解你使用的数据库构建日期,特别是追踪快速进化的病原体(如流感干扰、SARS-CoV-2)或需要最新注释时,NCBI BLAST页面通常会显示数据库日期。
- 序列方向性:
blastn
默认搜索双链(会考虑查询序列的正反互补链),如果你确定查询序列的方向(如已知是mRNA的正义链),可以使用-strand
参数限制(通常不建议初学者使用)。 - 覆盖度: 确保你关心的类群在所选数据库中有良好覆盖,RefSeq 对模式生物和常见物种覆盖好,但对极冷门的物种可能不如
nr/nt
。 - 自定义数据库: 如果你的研究聚焦于特定物种群或私有数据,构建本地自定义数据库是最高效、最精准的选择(使用
makeblastdb
命令)。
️ 总结与安全提示
- 匹配程序类型! (
blastn
->核酸库,blastp
->蛋白库, etc.) 这是最基本也最容易出错的一步。 - 明确你的目标! 是鉴定、找同源物、查结构域、分类、还是去被墙?目标决定方向。
- 首选
RefSeq
系列数据库 (refseq_rna
,refseq_protein
) 进行高质量的基因/蛋白鉴定和同源物搜索,它们通常是最佳平衡点(质量、可靠性、去冗余度、速度)。 - 需要最广泛覆盖或搜索远缘同源物? 考虑
nr
(蛋白) /nt
(核酸),但谨慎解读结果。 - 追求最高蛋白注释质量? 使用
Swiss-Prot
(通过UniProt网站)。 - 分类学分析(微生物)? 使用专用数据库 (
16S
,ITS
,COX1
)。 - 功能域分析? 使用
rpsblast
+CDD
。 - 检查被墙? 使用
vector
/UniVec
。 - 针对特定物种? 优先使用该物种的
RefSeq
基因组或蛋白质组数据库。 - 宏基因组? 避免直接
nt
!使用针对性数据库。 - 留意数据库日期和覆盖度!
- 重要数据安全提示: 在上传包含个人基因组信息、患者数据或未发表的敏感序列到任何公共BLAST服务器(如NCBI BLAST)前,务必确认该平台的数据使用政策和隐私条款,公共服务器通常会将查询序列存储在日志中一段时间,并可能用于改进服务,对于高度敏感的数据,强烈建议使用本地安装的BLAST+软件和本地数据库进行分析,以完全掌控数据安全。
掌握数据库选择的艺术,能让你的BLAST之旅事半功倍,直达有价值的生物学洞见!
引用说明:
- 本文中关于数据库描述(
nr
,nt
,RefSeq
,16S
,CDD
等)、程序功能 (blastn
,blastp
,blastx
,tblastn
,rpsblast
)、以及核心选择原则的阐述,主要基于 NCBI BLAST 官方文档、帮助页面和数据库描述信息,这些是最权威的来源。 - NCBI Resource Coordinators. (2025). Database resources of the National Center for Biotechnology Information. Nucleic Acids Research, 52(D1), D33–D43. (概述了包括BLAST所用数据库在内的所有NCBI资源)
- Johnson, M., et al. (2008). NCBI BLAST: a better web interface. Nucleic Acids Research, 36(Web Server issue), W5–W9. (介绍了NCBI Web BLAST的界面和特性,隐含了数据库选择选项)
- 对于
Swiss-Prot
的描述,参考了 UniProt Consortium 的官方文档和网站信息: The UniProt Consortium. (2025). UniProt: the Universal Protein Knowledgebase in 2025. Nucleic Acids Research, 51(D1), D523–D531. - 宏基因组分析的建议参考了相关领域的最佳实践综述, Meyer, F., et al. (2019). Critical Assessment of Metagenome Interpretation: the second round of challenges. Nature Methods, 16(8), 603–606. (强调了针对性数据库的重要性)
- 安全提示依据 NCBI BLAST 网站使用条款和数据隐私声明 (请在使用时查阅NCBI官网最新版)。