还在为火山图发愁?一文教你快速看懂!

作者: admin
发布于: 2025-11-28 10:38
分类: 实验方案

火山图是一种很常见的数据表达方式,常见于展现RNA seq的差异表达基因结果,可以宏观地看到整体有多少基因上调表达,有多少基因下调表达。那么这些结果要怎么解读呢!

         

以上面的这个火山图为例,我们来解度一下这个数据的含义。这是一个RNA seq的差异表达结果图,每一个点都代表了一个基因。

01

读懂纵坐标

 所有坐标系的图,我们都必须先看懂坐标轴的含义。

我们可以先看看这个Y坐标轴,写的是-log10(adjusted P)。P value假设检验中的重要指标,adjusted P则是校正后的P value,这主要在多重检验里出现。

简单地说人话解释就是:做一次假设检验出现的犯错误的概率相对低,但是如果做了很多很多次假设检验,犯错误的概率就会提高,这时候就需要对p value进行校正。

只要是做了多重检验的实验,都要用校正后的p value来判断显著性。    

         

所以这里的-log10(adjusted P),就是指对校正后的P值取10的对数的相反数。

假设取p小于0.01作为有显著性的界限,取10的对数的相反数以后,y=-log10(0.01)=2。

这是一个递减函数,当p值越小的时候,y值越大,所以取p小于0.01,就是取y值大于2,图里的点就可以分为统计学有显著性的点和无显著性的点。

这个p值的取值不是一定的,不同的研究可能会不一样,所以这里取0.01仅作为解释参考。

   

02

读懂横坐标

第二步,我们来看横坐标的意义。

横坐标写的是log2FC,FC其实是Fold Change的缩写,也就是变化倍数,所以这里的横坐标取的是变化倍数的2的对数。    

         

一般来说我们会在变化倍数减少大于2倍,或者增加大于两倍的时候,认为是数值是有差异变化的。

相反-2    

所以我们取有差异变化的数据,即FC<-2或FC> 2,取对数以后,log2(2)=1,所以当x<-1或x>1时我们认为是这个基因的表达变化是有差异的。   

-2FC的临界值不是一定的,是否取等号的值,也会根据不同的研究而定。    

接下来我们就可以将两部分的内容合在一起看,在一个坐标系里,每一个点代表了一个基因,xy轴代表了这个基因的参数。根据x轴和y轴的界限值,可以把整个坐标轴分成6个部分,每一个部分的意义见下图。    

所以我们回到最开始的结果图,蓝色部分的点是表达有显著减少的基因,红色部分的点是表达有显著增加的基因,灰色的点则是没有统计意义的基因,表达没有变化,或者变化差异没有显著性。    

 

参考文献:

Zhang S, Huang F, Wang Y, et al. NAT10-mediated mRNA N4-acetylcytidine reprograms serine metabolism to drive leukaemogenesis and stemness in acute myeloid leukaemia. Nat Cell Biol. 2024;26(12):2168-2182. doi:10.1038/s41556-024-01548-y



本篇文章来源于微信公众号:信天翁GOONIE
分享

推荐文章