网站首页 / 资源中心 / 技术分享 / 多组学百问系列 / 单细胞测序100问

小沐同学(AI)|单细胞测序100问(66)-分析篇

2023-11-20

来源:上海百沐生物科技有限公司

所属分类:单细胞测序100问

Q:单细胞数据质控主要看哪些指标呢?

A:

(1)原始数据质控:单细胞转录组测序获得的原始数据为 fastq(或为压缩文件 fq.gz)格式,每个样本有 read1.fastq.gz 和 read2.fastq.gz两个文件,其中read1 为 barcode 和 UMI 信息,read2 为测序的 RNA 序列信息,后续根据序列标签信息可进行数据拆分及定量。在数据分析过程中,我们首先需要对下机的原始数据进行一系列严格的质控,去除掉低质量数据,保留高质量数据以确保后续数据分析结果的真实性及可靠性。FastQC软件可以快速对测序数据进行整体统计及质量评估,直观地反映出测序数据的好坏。

通过计算每个碱基的质量值,对测序的read 进行质量评估。碱基质量值 Q= -10×Log10(P),在生物物理学中是碱基识别出错概率的整数映射,用于分析每个碱基被识别错误的概率,其值越高表明碱基识别越可靠。质控标准中的 Q20 表示该碱基错误的概率为 0.01,Q30 表示错误率为0.001。一般Q20在85%以上,Q30在80%以上视为测序质量较好。


(2)细胞过滤:我们在做单细胞测序的时候,首先要做细胞分离。分离条件对某些类型的细胞不适应,造成细胞破碎或凋亡,RNA溢出,导致线粒体基因比例上升,会干扰细胞分群。因此,在Cell Ranger 生成表达矩阵之后,还需要进一步对细胞进行过滤。线粒体过滤的原则为,去除线粒体基因含量过高的细胞,但不能大量丢失样本的细胞信息。目前统计的文章线粒体过滤阈值在5%~30%之间不等,但是一些特殊样本,如肿瘤组织、心脏样本、肌肉样本,因其本身的线粒体含量偏高,固定阈值筛选原则显然是不合适的,故而此标准需要进行调整。


(3)多样本批次矫正:当涉及多个样本进行比较分析时,需要对这些样本进行合并分析和批次矫正,可采用 Harmony 方法对scRNA 数据进行多样本合并和批次效应的校正。


Harmony原理:利用PCA将转录组表达谱嵌入到低维空间中,不同颜色表示不同数据集,不同形状表示不同的细胞类型,然后应用迭代过程去除数据集特有的影响Harmony概率性地将细胞分配给cluster,从而使每个cluster内数据集的多样性最大化;Harmony计算每个cluster的所有数据集的全局中心,以及特定数据集的中心;在每个cluster中,Harmony基于中心为每个数据集计算校正因子;最后,Harmony使用基于C的特定于细胞的因子校正每个细胞。由于Harmony使用软聚类,因此可以通过多个因子的线性组合对其A中进行的软聚类分配进行线性校正,来修正每个单细胞。Harmony算法与其他整合算法相比的优势:整合数据的同时对稀有细胞的敏感性依然很好;适合于更复杂的单细胞分析实验设计,可以比较来自不同供体,组织和技术平台的细胞。



科研服务 基因编辑 生信云平台 资源中心 关于百沐

百沐生物孵化于复旦大学,核心团队由复旦大学、中科院、协和医院等知名科研院所的卓越科学家以及来自阿里、美团、小米、生物医药集团等头部互联网科技公司和大型药企集团的综合背景精英组成,专注于将人工智能(AI)技术与生物技术(BT)深度融合,为生命科学研究和精准医疗领域带来创新解决方案。 公司核心平台为自研单细胞平台(BMBIOS)和小沐AI平台(AIGOBIO)。

上海市宝山区长江软件园

191 2100 2160

baimu@bmbios.com

微信联系我们

Copyright © 2023 上海百沐生物科技有限公司 版权所有备案号:沪ICP备2023019583号-1 网站建设