2023-11-20
来源:上海百沐生物科技有限公司
所属分类:单细胞测序100问
我们现在有了标准化的数据,它仍然保留了生物异质性,但减少了基因表达中的技术采样效应。单细胞RNA-seq数据集通常包含多达30,000个基因,到目前为止,我们仅删除了至少20个细胞中未检测到的基因。然而,许多剩余的基因没有提供信息,并且大多包含零计数。因此,标准预处理流程涉及特征选择步骤,旨在排除可能不代表样本间有意义的生物变异的无信息基因。
通常,scRNA-seq实验和生成的数据集集中于一个特定组织,因此,只有一小部分基因具有信息性和生物学可变性。传统的方法和流程要么计算所有基因的变异系数(高度可变的基因)或平均表达水平(高度表达的基因),以获得 500-2000 个选定的基因,并将这些特征用于下游分析步骤。然而,这些方法对之前使用的标准化技术高度敏感。如前所述,以前的预处理工作流程包括使用 CPM 进行规范化以及随后的日志转换。但由于对数转换不可能精确为零,分析人员通常会在对数据进行对数转换之前向所有归一化计数添加一个小的伪计数,例如 1 (log1p)。然而,伪计数的选择是任意的,并且可能会给转换后的数据带来偏差。这种任意性也会对特征选择产生影响,因为观察到的变化取决于所选的伪计数。接近于零的小伪计数值会增加计数为零的基因的方差。
Germain等建议使用偏差进行特征选择,该特征选择适用于原始计数。偏差可以以封闭形式计算,并量化基因是否在细胞中表现出恒定的表达谱,因为这些不提供信息。具有恒定表达的基因由多项零模型描述,它们通过二项式偏差进行近似。细胞间信息丰富的基因将具有高偏差值,这表明零模型拟合不佳(它们不显示细胞间的恒定表达)。根据偏差值,该方法然后对所有基因进行排序并仅获得高度偏差的基因。
联系电话:191 2100 2160
百沐生物孵化于复旦大学,核心团队由复旦大学、中科院、协和医院等知名科研院所的卓越科学家以及来自阿里、美团、小米、生物医药集团等头部互联网科技公司和大型药企集团的综合背景精英组成,专注于将人工智能(AI)技术与生物技术(BT)深度融合,为生命科学研究和精准医疗领域带来创新解决方案。 公司核心平台为自研单细胞平台(BMBIOS)和小沐AI平台(AIGOBIO)。
微信联系我们