分子生物学




火山图是一种很常见的数据表达方式,常见于展现RNA seq的差异表达基因结果,可以宏观地看到整体有多少基因上调表达,有多少基因下调表达。那么这些结果要怎么解读呢!

以上面的这个火山图为例,我们来解度一下这个数据的含义。这是一个RNA seq的差异表达结果图,每一个点都代表了一个基因。
01
读懂纵坐标
所有坐标系的图,我们都必须先看懂坐标轴的含义。
我们可以先看看这个Y坐标轴,写的是-log10(adjusted P)。P value假设检验中的重要指标,adjusted P则是校正后的P value,这主要在多重检验里出现。
简单地说人话解释就是:做一次假设检验出现的犯错误的概率相对低,但是如果做了很多很多次假设检验,犯错误的概率就会提高,这时候就需要对p value进行校正。
只要是做了多重检验的实验,都要用校正后的p value来判断显著性。

所以这里的-log10(adjusted P),就是指对校正后的P值取10的对数的相反数。
假设取p小于0.01作为有显著性的界限,取10的对数的相反数以后,y=-log10(0.01)=2。
这是一个递减函数,当p值越小的时候,y值越大,所以取p小于0.01,就是取y值大于2,图里的点就可以分为统计学有显著性的点和无显著性的点。
这个p值的取值不是一定的,不同的研究可能会不一样,所以这里取0.01仅作为解释参考。
02
读懂横坐标
第二步,我们来看横坐标的意义。
横坐标写的是log2FC,FC其实是Fold Change的缩写,也就是变化倍数,所以这里的横坐标取的是变化倍数的2的对数。

一般来说我们会在变化倍数减少大于2倍,或者增加大于两倍的时候,认为是数值是有差异变化的。
相反-2
所以我们取有差异变化的数据,即FC<-2或FC> 2,取对数以后,log2(2)=1,所以当x<-1或x>1时我们认为是这个基因的表达变化是有差异的。
-2FC的临界值不是一定的,是否取等号的值,也会根据不同的研究而定。

接下来我们就可以将两部分的内容合在一起看,在一个坐标系里,每一个点代表了一个基因,xy轴代表了这个基因的参数。根据x轴和y轴的界限值,可以把整个坐标轴分成6个部分,每一个部分的意义见下图。

所以我们回到最开始的结果图,蓝色部分的点是表达有显著减少的基因,红色部分的点是表达有显著增加的基因,灰色的点则是没有统计意义的基因,表达没有变化,或者变化差异没有显著性。
参考文献:
Zhang S, Huang F, Wang Y, et al. NAT10-mediated mRNA N4-acetylcytidine reprograms serine metabolism to drive leukaemogenesis and stemness in acute myeloid leukaemia. Nat Cell Biol. 2024;26(12):2168-2182. doi:10.1038/s41556-024-01548-y