2023-11-15
来源:上海百沐生物科技有限公司
所属分类:单细胞测序100问
我们使用2021年 NeurIPS 会议上的单细胞 10x Multiome 数据集。该数据集捕获了在四个不同地点测量的12名健康人类捐赠者的骨髓单核细胞的单细胞多组学数据,以获得嵌套批次效应。我们将使用上述数据集来展示 scRNA-seq 数据的预处理。
第一步,首先使用Figshare上托管的scanpy加载数据集。
import numpy as np import scanpy as sc import seaborn as sns from scipy.stats import median_abs_deviation sc.settings.verbosity = 0 sc.settings.set_figure_params( dpi=80, facecolor="white", frameon=False, ) adata = sc.read_10x_h5( filename="filtered_feature_bc_matrix.h5", backup_url="https://figshare.com/ndownloader/files/39546196", ) adata Variable names are not unique. To make them unique, call `.var_names_make_unique`. Variable names are not unique. To make them unique, call `.var_names_make_unique`. AnnData object with n_obs × n_vars = 16934 × 36601 var: 'gene_ids', 'feature_types', 'genome'
读取数据后,scanpy 会显示一条警告,指出并非所有变量名称都是唯一的。这表明某些变量出现多次,这可能会导致下游分析任务出现错误或意外行为。我们执行建议的函数var_names_make_unique(),通过将数字字符串附加到每个重复的索引元素(“1”、“2”等)来使变量名称唯一。
adata.var_names_make_unique() adata AnnData object with n_obs × n_vars = 16934 × 36601 var: 'gene_ids', 'feature_types', 'genome'
数据集结构为n_obs 16,934 x n_vars 36,601。
大多数后续分析任务假设数据集中的每个观测值代表来自一个完整单细胞的测量值。在某些情况下,低质量细胞、无细胞RNA或双联体的污染可能会违反这一假设。本教程将指导您如何纠正和消除这种违规行为并获得高质量的数据集。
联系电话:191 2100 2160
百沐生物孵化于复旦大学,核心团队由复旦大学、中科院、协和医院等知名科研院所的卓越科学家以及来自阿里、美团、小米、生物医药集团等头部互联网科技公司和大型药企集团的综合背景精英组成,专注于将人工智能(AI)技术与生物技术(BT)深度融合,为生命科学研究和精准医疗领域带来创新解决方案。 公司核心平台为自研单细胞平台(BMBIOS)和小沐AI平台(AIGOBIO)。
微信联系我们