Input的峰为什么高于IP¶
约 1415 个字 预计阅读时间 5 分钟
为什么会这样?¶
对于Chip-seq/m6A等需要input的实验设计中,因为Input
根本就没加抗体,所以Input
是不会有结合的,此时即使IP
效果再不好,应该也不会发生Input
信号高于IP
的情况,即使IP
没有富集效果也就相当于另一个Input
,信号应该跟Input
本身差不多(亦或者Input
在TSS/TES等附近应该不会有一个很尖很高的峰出现),即如下的情况:
发生该情况的原因为有如下几种原因:
-
取材-建库实验-测序-分析过程中,某一个环节样本分组可能标记反了;
-
实验操作不当,例如:抗体孵育时间不够,酶的问题(批次问题(IP和Input用的是两个批次的酶?);孵育时间,ps:cut&tag实验中,TN5酶的孵育时间不要太长,否则后期比对率这些会被影响),当然专业的操作员是不会犯这样的低级错误的;
-
样本/细胞被特殊处理过,例如Chip-seq实验的样本/细胞如果被冻存过,复苏后它的DNA会被一定的损伤,DNA小片段化会更严重,抗体结合的效果就会不如预期,可能会出现大范围的结合现象(理论上是非特异性结合);下图是一个真实案例,客户的细胞被冻存过,导致基因的结合位点没有特异性(文献研究显示应该是在这些基因的3'UTR区域有很强的结合信号);
-
技术分析层面,
deeptools
先转换为bigwig
时,scale参数是否正确设置,有没有设置为倒数(尤其是当IP和Input的数据量差异很大时); -
PCR的问题,理论上Input样本的reads要应该是随机扩增的,对于转录本的覆盖应该是比较均匀覆盖的,但实际上并非如此,PCR往往会对某些转录本有偏好扩增,这也可能会导致Input在特定区域出现很多非随机的峰。如果这个峰刚好出现在TSS区域,也会造成Input的TSS高峰。
-
研究目的蛋白的结合特性,这个是最关键的,也是最容易被忽略的,很多时候目的蛋白可能是在全基因范围内都是有结合分布的,或者蛋白的偏好性结合位点不在TSS/TES,然而我们上图往往只看TSS和TES上下游区域的数据分布情况,这时仅看TSS分布图显然是不合理的。
Note:TSS上下游通常是组蛋白和转录因子主要结合、调控的区域,所以也是大量出现结合峰的区域,如果研究的是组蛋白和转录因子时,TSS分布图确实比较关键了。

遇到这样的问题该怎么处理?¶
既然知道了大致的原因,那么相关的处理方案可以如下:
- 确认:取材-建库实验-测序-分析过程等过程样本的分组信息是否无误;
- 确认样本是否有被特殊处理,例如冻存等;
- 确认IP实验是否发生问题,可以查看WB质检结果,WB质检结果看来一切正常: WB显示IP较Input有富集,且富集效果较好,IP上清未检测到目的蛋白;
- 确认数据分析的处理是否得当,例如scale参数设置,否则会影响可视化的趋势;数据量差异较大时,可以进行down-sample试试;
- 分析IP和Input的insert长度分布是否存在很大差别,duplicate ratio是否差异很大,但想想就可以知道,两个样本应该会存在很大的差距的,毕竟一个做了IP富集,一个没做IP富集,比较都不一样大了,但依然可以分析出来作为参考;
- 确定蛋白的特性(推荐:文献和试剂厂商),尤其是其结合区域的偏好性,到底是不是TSS/TES,如果不是,可以换成类似于genebody的图来先看看特异性结合位点。
数据还能不能用?¶
数据的TSS分布只是数据分析质控中的一项,用于数据层面初步评估IP实验的效果,除此之外我们还需要评估重复性/文库复杂度/FRIP/peak分布等等,并不是TSS分布不符合预期就直接说IP有问题或者数据不能用;当TSS的分布不符合预期但又要死磕想要一个符合预期的TSS分布图时,我们可以采取如下做法:
- 利用bedtools提取peak所在基因的TSS上下游5kb的reads数据(直接提取Peak上下游3kb的reads数据也可以);
- 对提取的数据再次利用
deeptools
进行bigwig的生成; - 数据TSS分布的可视化。
IP效果不好,IP的峰比Input的高的不是很明显时,也可以使用如上的方法试一试效果。
至于数据还能不能用,原则是只要:数据重复性/文库复杂度/FRIP/peak分布等问题不大,有显著差异的peak存在,那么数据还可以用于后续分析的,毕竟数据也是花了钱的,可以做一些探索性分析。此外也不乏用不好的数据发现很多新东西的研究。