一文讲明白ChIP

一文讲明白ChIP

上一讲我们介绍了一文讲明白ChIP-seq(上):高分文章里为什么做ChIP-seq?,这一讲我们就要实践了,具体来跟着流程解读一下ChIP-seq的图。

得到了测序结果,后续就是分析,大体上分为4步:

一、测序数据质量控制

二、序列比对

三、Peak calling

四、Peak annotation与可视化

我们重点想要看的文章中结果图主要出现在核心的第三、四步骤:Peak calling和Peak annotation

一、测序数据质量控制

拿到数据之后用FastQC检查测序质量,这样就可以在后面序列比对的时候把质量差的碱基在设置参数时给去掉。

二、序列比对

比对的目的就是“推本溯源”,把我们的reads比对到参考基因组上,利用Bowtie2或这BWA看看我们过滤后的reads能匹配到基因组的什么位置。测序reads和基因组之间并非完全match上,中间会存在几个mismatch,有可能是因为测序错误,也有可能是存在变异位点。

三、Peak calling

Peak calling用MACS寻找基因组中大量短读片段富集的区域。实际上表观组学的数据都会用到Peak calling这个概念,都是抓取特定区域的DNA片段,通过测序定量地看这些区域的reads数量,得到Peak 在基因组上的位置信息、peak 富集信息等等

也就是老熊在上一文中解释过的:测序得到的 DNA 片段匹配映射到参考基因组,这些DNA片段其实是随机的,靶蛋白结合的片段越多,测序获得的数据就越多,那么在该位置检测到 DNA 片段堆叠就会越高,反之如果没有蛋白结合,在该位置就会几乎没有DNA 片段堆叠,将这些DNA片段堆叠用柱状图画出来,就会得到文章里出现的峰图 (Peak):

横向代表基因组坐标, 纵向代表ChIP-seq的信号强度, 伙伴们在文章中可能看到过有的峰图不只是向上的,还有向下的,水平线上方的峰代表正方向的,下方的代表互补链,有的一上一下有些错位, 是测序造成的。

转录因子的结合和组蛋白修饰,二者的峰形差异很明显:转录因子结合的特征峰,峰型高,而且窄;而组蛋白修饰结合的特征峰,峰型起伏,而且宽:

四、Peak annotation与可视化

包括基因组注释、GO分析、Pathway 分析、motif 查找等等,目前有的用Y叔的ChIPseeker,有的人用deeptool软件,还是比较推荐用ChIPseeker。

所谓Peak注释,就是得到了靶蛋白在基因组区域的结合峰位置后,对峰位置进行注释。注释有两类,genomic annotation和nearest gene annotation:

genomic annotation是看peak在基因组的位置,在各种基因组区域(基因上下游,5,3端UTR,启动子,内含子区)分布情况,比如文章中的此类图:

而nearest gene annotation是peak相对于转录起始位点(TSS)的距离,不管这个peak是落在内含子或者别的什么位置上,都能够找到一个离它最近的基因(即使它可能非常远),这种主要是应用于基因表达调控,因为启动子区域是重点,所以离TSS最近的基因更有可能被调控,所以这些peak区域附近的基因就作为其候选的调控基因。

而目前启动子区域没有明确定义,在基因内部或距离TSS 2.5kb的peak被认为是靶基因,所以我们在文章中经常可以看到统计reads 在TSS 2.5 kb以内富集强度的分析图:峰图(左)和热图(右)

另外,我们在文章里还可以看到可能会对靶蛋白的亚基以及其他蛋白分别做了ChIP-Seq,然后画了很多韦恩图看不同蛋白的靶基因的相互关系,多个ChIP-Seq结果关联,用于计算ChIP-Seq表达谱和全ChIP-Seq覆盖度,在文章里就会看到下面这样的结果图:

将前面分析得到的Peak注释基因,还可以进行后续富集分析包括GO分析、KEGG分析等,落脚到基因的功能上来,那么在文章里你就会看到这样的图:

还有一种结果图,我们在做ChIP-seq的文章里也经常看到,就是转录因子结合序列的logo图:

与转录因子结合的DNA序列位点被称为转录因子结合位点(TFBS),表现出一定的序列变异性,以JASPAR这个数据库为例,JASPAR是转录因子结合位点信息数据库,以position frequency matrices (PFMs) 和TF flexible models(TFFMs)的形式记录了转录因子的DNA结合偏好信息,这些信息可以转换为位置权重矩阵。

而我们通过ChIP-seq,对 Peak 区域鉴定 motif 序列,在序列片段的每个位置上,得到不同碱基的数量,形成一个矩阵,将得到的 motif 序列与 JASPAR 数据库进行比对,根据碱基数量权重,形成这样的logo图,字母越大的,说明这个位置是这个碱基的可能性更大,从而鉴定出靶蛋白binding的 motif。

基本上这就是ChIP-seq的全部流程,相信读完本文,绝大部分你在文章里看到的ChIP-seq结果图都能明白是什么意思,就算是画的不一样,结合figure legend,也是万变不离其宗,希望大家能够举一反三~

参考文献

[1] Luizon M R , Ahituv N . Uncovering drug-responsive regulatory elements[J]. Pharmacogenomics, 2015, 16(16):1829-1841.

[2] Rn A , Ts B . Methods for ChIP-seq analysis: A practical workflow and advanced applications[J]. Methods, 2020.

[3] Mundade R , Ozer H G , Wei H , et al. Role of ChIP-seq in the discovery of transcription factor binding sites, differential gene regulation mechanism, epigenetic marks and beyond[J]. Cell Cycle.

相关推荐

落选世界杯国家名单公布,哪些强队遗憾无缘大赛?
先进封装带动半导体键合设备行业扩容 混合键合将成主力 国产企业正积极追赶外企
合肥夜场招聘男模——合肥长期招聘KTV男模——高端素场15-20场机遇不要错过