如何开始单细胞RNASeq数据分析?

细胞组分的变化(数据集中每种细胞类型的比例)与疾病状态有很强的相关性,这是单细胞分析最简单的结果之一。这些数字可以提供条件之间的相对估计,但由于单细胞库制备过程中细胞捕获的偏差,从单细胞数据推断的细胞分数可能不准确。此外,来自肾皮质的样本中,近端小管细胞的比例比来自髓质的样本高。为了推断bulk RNA-seq数据的细胞类型组成,MuSiC是最近开发的一种以单细胞表达数据为参考的批量组织细胞类型反卷积方法。MuSiC使用加权非负最小二乘回归估计细胞类型比例。可供选择的方法包括CIBERSORT、BSEQ-sc和BisqueRNA。对样本之间的细胞识别簇比例变化的统计检验是相互依赖的,而且,因为当一个细胞识别簇的比例变化时,所有其他细胞识别簇的比例也会变化。或者,基于排列的统计测试方法可以用于差异比例分析,其中cluster比例与总细胞的随机比例进行比较。


细胞多样性不能充分地描述一个离散的分类系统,如聚类。轨迹分析捕捉转变期间细胞的显著特征,例如沿着几个时间点的器官发育期间,或疾病状态、细胞历史或拓扑信息之间的变化。驱动观察到的异质性的生物过程是连续的。因此,捕捉细胞特性、分支分化过程或生物学功能的渐进、不同步变化之间的转变需要基因表达的动态模型。Monocle是一种机器学习方法,用于重建每个细胞从一种状态转换到另一种状态时必须执行的基因表达变化序列。它基于逆图嵌入,一种高度可扩展的非线性流形学习技术。在该方法学习转换( transition)路径或轨迹之后,它将每个细胞沿着它放置在正确的位置,这被称为伪时间,即细胞在生物过程中移动多远的度量。一种分析细胞历史的新方法在最近开发的RNA速度分析中得到了应用,如包velocyto。RNA速度是基因表达状态的时间衍生物,可以通过在常见的scRNAseq协议中区分未剪接和剪接的mRNA来直接估计。RNA速度是一种高维向量,以小时为时间尺度预测单个细胞的未来状态。TradeSeq基于称为Slingshot的先前方法,在简单轨迹分析方面优于其他方法。另一个有用的软件包是PHATE,它是一种可视化方法,使用数据点之间的信息几何距离捕捉局部和全局非线性结构。推断出的轨迹不一定代表一个生物过程,应该收集进一步的证据来源来解释从这些方法得到的轨迹。


蓝海大脑 京ICP备18017748号-1