网站首页 / 资源中心 / 技术分享 / 多组学百问系列 / 单细胞测序100问

小沐同学（AI）|单细胞测序100问(61)-分析篇

2023-11-15

来源：上海百沐生物科技有限公司

所属分类：单细胞测序100问

Q：环境设置和数据

A：

我们使用2021年 NeurIPS 会议上的单细胞 10x Multiome 数据集。该数据集捕获了在四个不同地点测量的12名健康人类捐赠者的骨髓单核细胞的单细胞多组学数据，以获得嵌套批次效应。我们将使用上述数据集来展示 scRNA-seq 数据的预处理。

第一步，首先使用Figshare上托管的scanpy加载数据集。

import numpy as np
import scanpy as sc
import seaborn as sns
from scipy.stats import median_abs_deviation

sc.settings.verbosity = 0
sc.settings.set_figure_params(
    dpi=80,
    facecolor="white",
    frameon=False,
)

adata = sc.read_10x_h5(
    filename="filtered_feature_bc_matrix.h5",
    backup_url="https://figshare.com/ndownloader/files/39546196",
)
adata

Variable names are not unique. To make them unique, call `.var_names_make_unique`.
Variable names are not unique. To make them unique, call `.var_names_make_unique`.

AnnData object with n_obs × n_vars = 16934 × 36601
var: 'gene_ids', 'feature_types', 'genome'

读取数据后，scanpy 会显示一条警告，指出并非所有变量名称都是唯一的。这表明某些变量出现多次，这可能会导致下游分析任务出现错误或意外行为。我们执行建议的函数var_names_make_unique()，通过将数字字符串附加到每个重复的索引元素（“1”、“2”等）来使变量名称唯一。

adata.var_names_make_unique()
adata

AnnData object with n_obs × n_vars = 16934 × 36601
    var: 'gene_ids', 'feature_types', 'genome'

数据集结构为n_obs 16,934 x n_vars 36,601。

大多数后续分析任务假设数据集中的每个观测值代表来自一个完整单细胞的测量值。在某些情况下，低质量细胞、无细胞RNA或双联体的污染可能会违反这一假设。本教程将指导您如何纠正和消除这种违规行为并获得高质量的数据集。

小沐同学（AI）|单细胞测序100问(62)-分析篇

返回列表

小沐同学（AI）|单细胞测序100问(60)-分析篇

科研服务资源中心关于百沐

百沐生物孵化于复旦大学，核心团队由复旦大学、中科院、协和医院等知名科研院所的卓越科学家以及来自阿里、美团、小米、生物医药集团等头部互联网科技公司和大型药企集团的综合背景精英组成，专注于将人工智能（AI）技术与生物技术（BT）深度融合，为生命科学研究基础研究带来创新解决方案。公司核心平台为百沐一下AI科研助理平台。

上海市宝山区长江软件园

191 2100 2160

baimu@bmbios.com

微信联系我们

空间组学

单细胞测序

基因组学

表观组学

转录组学

蛋白组学

代谢组学

微生物组学

细胞因子检测

FAQs

技术分享

公司简介

合作伙伴

荣誉资质

新闻动态

人才招聘

联系我们

主营业务

栏目导航

联系我们

小沐同学（AI）|单细胞测序100问(61)-分析篇

Q：环境设置和数据

A：