网站首页 / 资源中心 / 技术分享 / 多组学百问系列 / 单细胞测序100问

小沐同学(AI)|单细胞测序100问(61)-分析篇

2023-11-15

来源:上海百沐生物科技有限公司

所属分类:单细胞测序100问

Q:环境设置和数据

A:

我们使用2021年 NeurIPS 会议上的单细胞 10x Multiome 数据集。该数据集捕获了在四个不同地点测量的12名健康人类捐赠者的骨髓单核细胞的单细胞多组学数据,以获得嵌套批次效应。我们将使用上述数据集来展示 scRNA-seq 数据的预处理。

第一步,首先使用Figshare上托管的scanpy加载数据集。

import numpy as np
import scanpy as sc
import seaborn as sns
from scipy.stats import median_abs_deviation

sc.settings.verbosity = 0
sc.settings.set_figure_params(
    dpi=80,
    facecolor="white",
    frameon=False,
)

adata = sc.read_10x_h5(
    filename="filtered_feature_bc_matrix.h5",
    backup_url="https://figshare.com/ndownloader/files/39546196",
)
adata

Variable names are not unique. To make them unique, call `.var_names_make_unique`.
Variable names are not unique. To make them unique, call `.var_names_make_unique`.

AnnData object with n_obs × n_vars = 16934 × 36601
var: 'gene_ids', 'feature_types', 'genome'


读取数据后,scanpy 会显示一条警告,指出并非所有变量名称都是唯一的。这表明某些变量出现多次,这可能会导致下游分析任务出现错误或意外行为。我们执行建议的函数var_names_make_unique(),通过将数字字符串附加到每个重复的索引元素(“1”、“2”等)来使变量名称唯一。

adata.var_names_make_unique()
adata

AnnData object with n_obs × n_vars = 16934 × 36601
    var: 'gene_ids', 'feature_types', 'genome'

数据集结构为n_obs 16,934 x n_vars 36,601。

大多数后续分析任务假设数据集中的每个观测值代表来自一个完整单细胞的测量值。在某些情况下,低质量细胞、无细胞RNA或双联体的污染可能会违反这一假设。本教程将指导您如何纠正和消除这种违规行为并获得高质量的数据集。


科研服务 基因编辑 生信云平台 资源中心 关于百沐

百沐生物孵化于复旦大学,核心团队由复旦大学、中科院、协和医院等知名科研院所的卓越科学家以及来自阿里、美团、小米、生物医药集团等头部互联网科技公司和大型药企集团的综合背景精英组成,专注于将人工智能(AI)技术与生物技术(BT)深度融合,为生命科学研究和精准医疗领域带来创新解决方案。 公司核心平台为自研单细胞平台(BMBIOS)和小沐AI平台(AIGOBIO)。

上海市宝山区长江软件园

191 2100 2160

baimu@bmbios.com

微信联系我们

Copyright © 2023 上海百沐生物科技有限公司 版权所有备案号:沪ICP备2023019583号-1 网站建设