RNA-seq基本介绍及实战——序列比对
实战环节
上一期对所拥有的数据做了个初步数据的质量控制与过滤,现在开始进入序列比对环节
有参分析与无参分析
序列比对的流程如图所示
我们拿到测序的结果是一个个的片段,如果我们要获得这些片段的定量表达,就要知道这些片段,在参考基因组的哪个位置上。如果参考的物种有基因组的话,那我们就可以将这些片段比对到基因组上。这就是如图所示在左边的有参分析。
反之如果没有参考基因组的话,那就要进行转录组的拼接。直接利用测序读长之间的重叠关系,从头拼接、组装出完整的序列(Contigs/Scaffolds)。这就是如图所示右边的无参分析。
特征 | 有参分析 | 无参分析 |
---|---|---|
核心需求 | 已有参考基因组 | 无参考基因组 |
基本原理 | 将短序列映射到参考序列上 | 利用序列重叠关系从头拼接 |
计算效率 | 高,速度快,资源消耗少 | 低,速度慢,资源消耗巨大 |
技术难度 | 相对较低,流程标准化 | 高,需要大量调试和优化 |
结果形式 | SAM/BAM(比对位置信息) | FASTA(组装出的序列) |
主要优势 | 高效、准确、易于下游分析 | 能发现全新遗传信息,不依赖参考序列 |
主要局限 | 依赖参考基因组质量,无法发现新序列 | 计算成本高,结果可能碎片化且有错误 |
典型工具 | BWA, Bowtie2, STAR | SPAdes, Canu, Flye, SOAPdenovo |
应用领域 | 重测序、变异检测、表达定量 | 新物种基因组组装、宏基因组学 |
无参转录组分析
如果我们选定的物种没有参考基因组的话,就只能使用无参转录组进行分析。 需要拼接出转录本,才能进行后续的比对工作。
对应的工具推荐使用Trinity进行转录本拼接。
有参转录组分析
如果物种本身有参考基因组,那就可以选择基于基因组的比对或基于转录本的比对。其两者的区别是参考的单位不一样。前者是以染色体为单位,而后者是以转录本为单位。
基于基因组的比对其对应的工具有STAR与Hisat2;而基于转录本的比对所对应的工具有RSEM(需要提前借助基因组和注释文件准备相关文件)
STAR操作实例
在这里我们使用STAR这个软件进行比对工作。其工作流程分为三种:
- 建立索引
- 进行比对
- 查看比对文件
STAR这个软件的安装方法也很简单:
1 | # conda安装 |
安装后,单独输入STAR进行测试:
1 | jinhenghao@ubuntu:~/science/25-8-28-RNAseq$ STAR |
测试成功
安装好STAR后,要进行比对工作之前,需要使用这个工具建设索引。这个需要单独创建一个文件夹进行工作。
1 | # 创建文件夹 |
接下来解释一下STAR各项参数的意思:
- runThreadN:运行时使用多少进程
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 JinhengHao的博客!
评论