当前位置:首页 > 数据库 > 正文

Blast如何选择数据库

选择BLAST数据库取决于研究对象: ,1. **序列类型**:核酸序列选 ntrefseq_rna;蛋白质序列选 nrswissprot。 ,2. **范围需求**:需最全结果选非冗余库(如 nt/ nr);聚焦特定物种或高质量序列选专用库(如 refseq_genomes)。 ,3. **特殊目标**:如研究微生物可用 16S ribosomal RNA等专题库。

当你在浩瀚的生物信息海洋中使用BLAST这把“探针”去寻找相似序列时,选对数据库是成功的关键第一步,选错了数据库,轻则效率低下、结果冗杂,重则可能得到完全错误或误导性的结论,浪费宝贵的研究时间和精力,本文将深入浅出地讲解如何为你的BLAST分析精准选择最合适的数据库,助你高效、准确地获取所需信息。

核心原则:明确你的分析目标

选择数据库的出发点,永远是你的核心问题

  1. 我手中的序列是什么类型?

    • DNA (核苷酸序列) – 如基因片段、ESTs、基因组草图。
    • Protein (蛋白质序列) – 如从DNA翻译得到的氨基酸序列、纯化的蛋白质序列。
    • ️ 特别注意:BLAST程序与数据库类型必须严格匹配!
      • blastn 用于查询核苷酸序列 vs 核苷酸数据库 (nt, refseq_rna, 16S…)
      • blastp 用于查询蛋白质序列 vs 蛋白质数据库 (nr, refseq_protein, swissprot…)
      • blastx 用于查询核苷酸序列(翻译成蛋白质) vs 蛋白质数据库 (常用于分析未鉴定DNA序列的功能)
      • tblastn 用于查询蛋白质序列 vs 核苷酸数据库(翻译成蛋白质)(常用于在基因组或EST中寻找同源基因)
      • tblastx 用于查询核苷酸序列(翻译成蛋白质) vs 核苷酸数据库(翻译成蛋白质)(计算量大,通常用于远缘关系)
  2. 我想解决什么问题?

    • 鉴定一个未知序列:它是哪个物种的?是什么基因或蛋白?(通用数据库如 nr/nt,或更精准的 RefSeq
    • 寻找直系同源物(Orthologs):跨物种的相同功能基因?(高质量注释数据库如 RefSeqSwiss-Prot
    • 分析物种分类:如基于16S rRNA基因确定微生物分类?(专用数据库如 16S ribosomal RNA sequences (Bacteria and Archaea)
    • 研究特定功能域或家族:这个蛋白属于哪个家族?有什么结构域?(专用数据库如 Conserved Domains Database (CDD), Pfam
    • 宏基因组或宏转录组分析:环境样本中的微生物组成?(专用数据库或精心构建的参考数据库)
    • 检查序列的独特性/是否存在被墙物:我的序列是新的吗?有没有载体被墙?(专用数据库如 vector
    • 比较我的序列与某个特定基因组:这个基因在目标物种基因组中的位置?(该物种的基因组数据库 .fna.faarefseq_genomes 按物种选择)
    • 寻找可能的引物结合位点非特异性结合?(nr/nt,但需注意结果解读)

下表总结了常见分析目标与推荐的数据库选择:

Blast如何选择数据库  第1张

分析目标 查询序列类型 推荐数据库 使用场景说明
未知序列鉴定 核苷酸 nt, refseq_rna 广泛物种覆盖,初步鉴定
蛋白质 nr, refseq_protein 功能注释和同源搜索
寻找直系同源物 蛋白质 refseq_protein, swissprot 高质量注释基因集合
微生物分类分析 核苷酸 16S ribosomal RNA 基于16S rRNA的物种分类
功能域分析 蛋白质 CDD, Pfam 蛋白质家族和结构域识别
宏基因组分析 核苷酸 refseq_genomes (特定类群) 环境样本微生物组成
特异性检验 核苷酸 vector, UniVec 检测载体或接头序列被墙
基因组定位 核苷酸 特定物种基因组(.fna) 基因在目标基因组中的位置
引物特异性验证 核苷酸 refseq_rna (特定分类) 引物结合位点特异性测试

主流公共数据库详解 (以NCBI为例)

NCBI BLAST 提供了丰富的公共数据库,理解它们的构成和特点至关重要:

  1. nr (非冗余蛋白质数据库 – Non-redundant Protein):

    • 合并了 GenBank, RefSeq, PDB, Swiss-Prot, PIR, PRF 等来源的蛋白质序列,并去除严格相同(100% 一致)的序列,注意,它不是完全去冗余的,不同来源的、非100%相同的同源序列(如来自不同物种的同源蛋白,或同一蛋白的不同亚型)都会被保留。
    • 优点: 覆盖范围最广,包含来自大量物种的预测和已注释的蛋白质,是进行未知蛋白质功能注释、寻找远缘同源物最常用的起点。
    • 缺点: 非常庞大,搜索耗时较长,结果中可能包含大量冗余信息(如来自不同测序项目的同一蛋白质预测)、低质量的预测序列、错误注释,需要仔细甄别结果。
    • 何时用: 查询未知蛋白质序列;进行广泛的同源性搜索(特别是远缘物种);不介意结果中包含较多预测序列和潜在冗余。
  2. nt (非冗余核苷酸数据库 – Non-redundant Nucleotide):

    • 类似于 nr,是 GenBank, RefSeq, EMBL, DDBJ, PDB 等来源的核苷酸序列(主要是编码区CDS, EST, GSS, STS, 非编码RNA等)的部分去冗余(去除严格相同序列)集合。
    • 优点: 覆盖范围广。
    • 缺点: 庞大、包含冗余(如不同来源的同基因记录)、预测序列、错误注释,包含大量非基因序列(ESTs等)。
    • 何时用: 查询未知DNA序列(使用blastn);检查序列是否新颖(但需结合其他证据);寻找可能的同源基因(注意区分编码区和非编码区结果)。
  3. RefSeq 参考序列数据库 (Reference Sequence Database):

    • NCBI精心策划的、高质量非冗余的参考序列集合,包含基因组(refseq_genomes)、转录本(refseq_rna)、蛋白质(refseq_protein)等子集。“非冗余”程度远高于 nr/nt,它整合了来自同一基因座(locus)的最佳代表序列,去除了冗余的提交版本。
    • 优点: 注释质量高、可靠性强、冗余度低,是进行物种间比较、寻找可靠直系同源物、获取标准基因/蛋白信息首选,数据库按物种或分类群组织清晰(如refseq_select, refseq_vertebrate_mammalian, refseq_protein_vertebrates)。
    • 缺点: 覆盖的物种数量不如 nr/nt 全面,主要集中于模式生物和有较好基因组注释的物种。
    • 何时用:
      • refseq_rna: 精确鉴定基因/转录本(blastn)、物种分类(如使用特定基因)。
      • refseq_protein: 精确鉴定蛋白质、寻找直系同源物(blastp, blastx)、功能注释。
      • refseq_genomes (或特定物种基因组): 将查询序列定位到特定物种基因组(blastn, tblastn)或比较蛋白质组(tblastn)。
      • refseq_select: 包含每个蛋白编码基因的一个代表性转录本(及其蛋白产物),适合快速、去冗余的分析。
  4. 其他重要专用数据库:

    • 16S ribosomal RNA sequences (Bacteria and Archaea): 专门用于通过16S rRNA基因序列进行细菌和古菌的物种鉴定和分类学分析blastn),结果通常包含分类学信息。
    • 18S ribosomal RNA sequences (eukaryotes): 类似16S,用于真核生物(特别是原生生物、真菌)的分类(blastn)。
    • ITS (Internal Transcribed Spacer) for Fungi: 用于真菌物种鉴定的核心条形码区域(blastn)。
    • COX1 (cytochrome c oxidase subunit I): 动物(特别是无脊椎动物)DNA条形码分析(blastn)。
    • Conserved Domains Database (CDD): 包含保守蛋白质结构域和功能位点的序列模型(使用rpsblast程序),用于分析蛋白质的功能域组成
    • Swiss-Prot (通过UniProtKB): 另一个高质量、人工注释的蛋白质数据库,注释非常详尽可靠(通常比RefSeq_protein更深入)。寻找直系同源物、功能研究的极佳选择(blastp),在NCBI BLAST中,其精选部分包含在 nr 中,但有时通过UniProt网站直接使用更佳。
    • vector / UniVec: 包含常见的测序载体、接头、引物序列,用于检查实验序列中是否存在载体被墙blastn)。
    • Betacoronavirus / 其他特定病原体数据库: NCBI或研究者构建的特定病原体(如SARS-CoV-2)基因组/蛋白数据库,用于追踪变异、诊断等。
    • Patent sequences: 包含专利中的序列。

🧭 实用选择策略指南

  1. 根据生物类型和问题快速定位:

    • 细菌/古菌未知基因或物种鉴定? 首选 blastn vs 16S ribosomal RNA (如果查询是16S) 或 blastx vs nr / refseq_protein (如果查询是未知DNA)。
    • 真核生物(非真菌)基因/转录本鉴定? blastn vs refseq_rna (首选) 或 nt (更广但杂) 或 blastp/blastx vs refseq_protein/nr (如果已知是蛋白编码)。
    • 真菌物种鉴定? blastn vs ITS (首选) 或 18S / 28S
    • 动物(尤其无脊椎)物种鉴定(DNA条形码)? blastn vs COX1 (首选)。
    • 未知蛋白质功能预测/同源物搜索? 首选 blastp vs refseq_protein (高质量去冗余) 或 nr (最广泛覆盖),追求最高注释质量可用blastp vs Swiss-Prot (通过UniProt)。
    • 分析蛋白质包含哪些功能域? 使用 rpsblast vs CDD
    • 我的DNA序列是否编码蛋白?可能是什么? 使用 blastx vs refseq_protein (首选) 或 nr
    • 在特定物种(如人类、小鼠)基因组中找同源基因? tblastn vs 该物种的基因组数据库 (如 Human genomic + transcript, Mouse genomic + transcriptrefseq_genomes 下) blastp vs 该物种的蛋白质数据库 (如 Human Proteins, Mouse Proteinsrefseq_selectrefseq_protein 下)。
    • 检查测序序列是否有载体被墙? blastn vs vector / UniVec
  2. 平衡“广覆盖”与“高质量、低冗余”:

    • 初次探索未知序列,想了解最广泛的同源信息? 考虑 nr (蛋白) 或 nt (核酸),但要做好筛选冗余结果的准备。
    • 追求可靠结果、物种间比较、标准参考? 首选对应的 RefSeq 数据库 (refseq_protein, refseq_rna)
    • 需要最精准的蛋白功能注释? 首选 Swiss-Prot (通过UniProt)
  3. 考虑数据库大小和搜索速度:

    • RefSeq 通常比 nr/nt 小得多,搜索更快Swiss-Prot 更小。
    • 专用数据库(如16S, ITS, CDD)非常快速
    • 宏基因组分析警告: 避免直接 blastn vs nt!它巨大且包含了大量与宏基因组无关的真核序列(如人类、小鼠),应使用针对宏基因组优化的数据库(如refseq_genomes 选择特定微生物类群构建本地库,或专门的宏基因组数据库如MGnify)。
  4. 不可忽视的细节:

    • 数据库版本时效性: 公共数据库不断更新,了解你使用的数据库构建日期,特别是追踪快速进化的病原体(如流感干扰、SARS-CoV-2)或需要最新注释时,NCBI BLAST页面通常会显示数据库日期。
    • 序列方向性: blastn 默认搜索双链(会考虑查询序列的正反互补链),如果你确定查询序列的方向(如已知是mRNA的正义链),可以使用 -strand 参数限制(通常不建议初学者使用)。
    • 覆盖度: 确保你关心的类群在所选数据库中有良好覆盖,RefSeq 对模式生物和常见物种覆盖好,但对极冷门的物种可能不如 nr/nt
    • 自定义数据库: 如果你的研究聚焦于特定物种群或私有数据,构建本地自定义数据库是最高效、最精准的选择(使用makeblastdb命令)。

️ 总结与安全提示

  • 匹配程序类型! (blastn->核酸库, blastp->蛋白库, etc.) 这是最基本也最容易出错的一步。
  • 明确你的目标! 是鉴定、找同源物、查结构域、分类、还是去被墙?目标决定方向。
  • 首选 RefSeq 系列数据库 (refseq_rna, refseq_protein) 进行高质量的基因/蛋白鉴定和同源物搜索,它们通常是最佳平衡点(质量、可靠性、去冗余度、速度)。
  • 需要最广泛覆盖或搜索远缘同源物? 考虑 nr (蛋白) / nt (核酸),但谨慎解读结果
  • 追求最高蛋白注释质量? 使用 Swiss-Prot (通过UniProt网站)
  • 分类学分析(微生物)? 使用专用数据库 (16S, ITS, COX1)
  • 功能域分析? 使用 rpsblast + CDD
  • 检查被墙? 使用 vector/UniVec
  • 针对特定物种? 优先使用该物种的 RefSeq 基因组或蛋白质组数据库
  • 宏基因组? 避免直接 nt!使用针对性数据库
  • 留意数据库日期和覆盖度!
  • 重要数据安全提示: 在上传包含个人基因组信息、患者数据或未发表的敏感序列到任何公共BLAST服务器(如NCBI BLAST)前,务必确认该平台的数据使用政策和隐私条款,公共服务器通常会将查询序列存储在日志中一段时间,并可能用于改进服务,对于高度敏感的数据,强烈建议使用本地安装的BLAST+软件和本地数据库进行分析,以完全掌控数据安全。

掌握数据库选择的艺术,能让你的BLAST之旅事半功倍,直达有价值的生物学洞见!


引用说明:

  • 本文中关于数据库描述(nr, nt, RefSeq, 16S, CDD 等)、程序功能 (blastn, blastp, blastx, tblastn, rpsblast)、以及核心选择原则的阐述,主要基于 NCBI BLAST 官方文档、帮助页面和数据库描述信息,这些是最权威的来源。
  • NCBI Resource Coordinators. (2025). Database resources of the National Center for Biotechnology Information. Nucleic Acids Research, 52(D1), D33–D43. (概述了包括BLAST所用数据库在内的所有NCBI资源)
  • Johnson, M., et al. (2008). NCBI BLAST: a better web interface. Nucleic Acids Research, 36(Web Server issue), W5–W9. (介绍了NCBI Web BLAST的界面和特性,隐含了数据库选择选项)
  • 对于 Swiss-Prot 的描述,参考了 UniProt Consortium 的官方文档和网站信息: The UniProt Consortium. (2025). UniProt: the Universal Protein Knowledgebase in 2025. Nucleic Acids Research, 51(D1), D523–D531.
  • 宏基因组分析的建议参考了相关领域的最佳实践综述, Meyer, F., et al. (2019). Critical Assessment of Metagenome Interpretation: the second round of challenges. Nature Methods, 16(8), 603–606. (强调了针对性数据库的重要性)
  • 安全提示依据 NCBI BLAST 网站使用条款和数据隐私声明 (请在使用时查阅NCBI官网最新版)。

0