Seurat包图文详解|单细胞转录组(scRNAseq)分析02

作者：你一句话就逼我撤退 | 来源：互联网 | 2023-09-03 13:15

文章目录一、创建Seurat对象二、标准预处理流程1.基因质控指标来筛选细胞2.归一化数据3.识别高异质性特征4.缩放数据5.线性维度约化PCAVizDimLoadingsDimP

文章目录

- - - 一、创建 Seurat 对象
    - 二、标准预处理流程
    - - 1.基因质控指标来筛选细胞
      - 2.归一化数据
      - 3.识别高异质性特征
      - 4.缩放数据
      - 5.线性维度约化 PCA
      - VizDimLoadings
        DimPlot
        DimHeatmap
      - 5.确定数据集的维度
      - 方法一&＃xff1a;JackStrawPlot
        方法二&＃xff1a;ElbowPlot
      - 6.聚类细胞
      - 7.非线性维度约化&＃xff08;UMAP/TSNE&＃xff09;
      - 8.发现差异表达特征&＃xff08;cluster bioers&＃xff09;
      - 9.识别细胞类型

一、创建 Seurat 对象

使用的示例数据集来自10X Genome 测序的 Peripheral Blood Mononuclear Cells (PBMC)。

下载链接&＃xff1a;https://s3-us-west-2.amazonaws.com/10x.files/samples/cell/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz

library(dplyr) library(Seurat)# Load the PBMC dataset pbmc.data <- Read10X(data.dir &＃61; "../data/pbmc3k/filtered_gene_bc_matrices/hg19/") # Initialize the Seurat object with the raw (non-normalized data). pbmc <- CreateSeuratObject(counts &＃61; pbmc.data, project &＃61; "pbmc3k", min.cells &＃61; 3, min.features &＃61; 200) pbmc

二、标准预处理流程

流程包括&＃xff1a;

基于质控指标&＃xff08;QC metric&＃xff09;来筛选细胞
数据归一化和缩放
高异质性基因检测

1.基因质控指标来筛选细胞

质控指标&＃xff1a;

每个细胞中检测到的基因数
- 低质量的细胞和空油滴&＃xff08;droplet&＃xff09;只有少量基因
- 两个及以上的细胞会有异常的高基因数
每个细胞中的UMI总数&＃xff08;与上类似&＃xff09;
线粒体基因组的reads比例
- 低质量或死细胞会有大百分比的线粒体基因组
- 使用PercentageFeatureSet函数来计数线粒体质控指标
- MT-是线粒体基因

# 计算线粒体read的百分比 pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern &＃61; "^MT-") VlnPlot(pbmc, features &＃61; c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol &＃61; 3) # 显示前5个细胞的质控指标 head(pbmc&＃64;meta.data, 5)

通过上图&＃xff0c;过滤标准设定为&＃xff1a;

过滤UMI数大于2500&＃xff0c;小于200的细胞
过滤线粒体百分比大于5%的细胞

查看特征与特征间的相关性

plot1 <- FeatureScatter(pbmc, feature1 &＃61; "nCount_RNA", feature2 &＃61; "percent.mt")

plot2 <- FeatureScatter(pbmc, feature1 &＃61; "nCount_RNA", feature2 &＃61; "nFeature_RNA")

过滤

pbmc <- subset(pbmc, subset &＃61; nFeature_RNA > 200 & nFeature_RNA <2500 & percent.mt <5)

看看相关性

p1 <- FeatureScatter(pbmc, feature1 &＃61; "nCount_RNA", feature2 &＃61; "percent.mt") p2 <- FeatureScatter(pbmc, feature1 &＃61; "nCount_RNA", feature2 &＃61; "nFeature_RNA") CombinePlots(plots &＃61; list(p1, p2))

2.归一化数据

pbmc <- NormalizeData(pbmc, normalization.method &＃61; "LogNormalize", scale.factor &＃61; 10000)

LogNormalize that normalizes the feature expression measurements for each cell by the total expression, multiplies this by a scale factor (10,000 by default), and log-transforms the result. Normalized values are stored in pbmc[["RNA"]]&＃64;data.

上述代码可以替换为&＃xff1a;pbmc <- NormalizeData(pbmc)

3.识别高异质性特征

高异质性&＃xff1a;这些特征在有的细胞中高表达&＃xff0c;有的细胞中低表达。在下游分析中关注这些基因有助于找到单细胞数据集中的生物信号[https://www.nature.com/articles/nmeth.2645 ]

# 识别前2000个特征 pbmc <- FindVariableFeatures(pbmc, selection.method &＃61; "vst", nfeatures &＃61; 2000) # 识别前10的高异质性基因 top10 <- head(VariableFeatures(pbmc), 10)# 绘图看看 plot1 <- VariableFeaturePlot(pbmc) plot2 <- LabelPoints(plot &＃61; plot1, points &＃61; top10, repel &＃61; TRUE) CombinePlots(plots &＃61; list(plot1, plot2))

4.缩放数据

这是在PCA等降维操作前的一个步骤&＃xff0c;ScaleData函数&＃xff1a;

转换每个基因的表达值&＃xff0c;使每个细胞的平均表达值为0
转换每个基因的表达值&＃xff0c;使细胞间方差为1
- 此步骤在下游分析中具有相同的权重&＃xff0c;因此高表达的基因不会占主导地位

all.genes <- rownames(pbmc) pbmc <- ScaleData(pbmc, features &＃61; all.genes) head(pbmc[["RNA"]]&＃64;scale.data,5)

5.线性维度约化 PCA

pbmc <- RunPCA(pbmc, features &＃61; VariableFeatures(object &＃61; pbmc))

可视化细胞与特征间的PCA有三种方式&＃xff1a;

VizDimLoadings

print(pbmc[["pca"]], dims &＃61; 1:5, nfeatures &＃61; 5) # 绘图 VizDimLoadings(pbmc, dims &＃61; 1:2, reduction &＃61; "pca")

DimPlot

DimPlot(pbmc, reduction &＃61; "pca")

DimHeatmap

DimHeatmap(pbmc, dims &＃61; 1, cells &＃61; 500, balanced &＃61; TRUE)

主要用来查看数据集中的异质性的主要来源&＃xff0c;并且可以确定哪些PC维度可以用于下一步的下游分析。

细胞和特征根据PCA分数来排序

DimHeatmap(pbmc, dims &＃61; 1:15, cells &＃61; 500, balanced &＃61; TRUE)

5.确定数据集的维度

为了克服在单细胞数据中在单个特征中的技术噪音&＃xff0c;Seurat 聚类细胞是基于PCA分数的。每个PC代表着一个‘元特征’&＃xff08;带有跨相关特征集的信息&＃xff09;。因此&＃xff0c;最主要的主成分代表了压缩的数据集。问题是要选多少PC呢&＃xff1f;

方法一&＃xff1a;JackStrawPlot

作者受JackStraw procedure 启发。随机置换数据的一部分子集&＃xff08;默认1%&＃xff09;再运行PCA&＃xff0c;构建了一个’null distribution’的特征分数&＃xff0c;重复这一步。最终会识别出低P-value特征的显著PCs

pbmc <- JackStraw(pbmc, num.replicate &＃61; 100) pbmc <- ScoreJackStraw(pbmc, dims &＃61; 1:20) # 绘图看看 JackStrawPlot(pbmc, dims &＃61; 1:15)

In this case it appears that there is a sharp drop-off in significance after the first 10-12 PCs

在上图中展示出在前10到12台PC之后&＃xff0c;重要性显著下降

方法二&＃xff1a;ElbowPlot

“ElbowPlot”&＃xff1a;基于每个分量所解释的方差百分比对主要成分进行排名。在此示例中&＃xff0c;我们可以在PC9-10周围观察到“elbow ”&＃xff0c;这表明大多数真实信号是在前10台PC中捕获的。

ElbowPlot(pbmc)

为了识别出数据的真实维度&＃xff0c;有三种方法&＃xff1a;

用更加受监督的方法来确定PCs的异质性&＃xff0c;比如可以结合GSEA来分析&＃xff08; The first is more supervised, exploring PCs to determine relevant sources of heterogeneity, and could be used in conjunction with GSEA for example &＃xff09;
The second implements a statistical test based on a random null model, but is time-consuming for large datasets, and may not return a clear PC cutoff.
The third is a heuristic that is commonly used, and can be calculated instantly.

在这个例子中三种方法均产生了相似的结果&＃xff0c;以PC 7-12作为阈值。

这个例子中&＃xff0c;作者选择10&＃xff0c;但是实际过程中还要考虑&＃xff1a;

树突状细胞和NK细胞可能在PCs12和13中识别&＃xff0c;这可能定义了罕见的免疫亚群&＃xff08;比如&＃xff0c;MZB1是浆细胞样的er&＃xff09;。但是除非有一定的知识量&＃xff0c;否则很难从背景噪音中发现。
用户可以选择不同的PCs再进行下游分析&＃xff0c;比如选10&＃xff0c;15&＃xff0c;50等。结果常常有很多的不同。
建议在选择该参数时候&＃xff0c;尽量偏高一点。如果仅仅使用5PCs会对下游分析产生不利影响

6.聚类细胞

pbmc <- FindNeighbors(pbmc, dims &＃61; 1:10) pbmc <- FindClusters(pbmc, resolution &＃61; 0.5) # 查看前5聚类 head(Idents(pbmc), 5)

7.非线性维度约化&＃xff08;UMAP/TSNE&＃xff09;

# 使用UMAP聚类 pbmc <- RunUMAP(pbmc, dims &＃61; 1:10) DimPlot(pbmc, reduction &＃61; "umap") # 显示在聚类标签 DimPlot(pbmc, reduction &＃61; "umap", label &＃61; TRUE)

# 使用TSNE聚类 pbmc <- RunTSNE(pbmc, dims &＃61; 1:10) DimPlot(pbmc, reduction &＃61; "tsne") # 显示在聚类标签 DimPlot(pbmc, reduction &＃61; "tsne", label &＃61; TRUE)

8.发现差异表达特征&＃xff08;cluster bioers&＃xff09;

# 发现聚类一的所有biomarkers cluster1.markers <- FindMarkers(pbmc, ident.1 &＃61; 1, min.pct &＃61; 0.25) head(cluster1.markers, n &＃61; 5)# 查找将聚类5与聚类0和3区分的所有标记 cluster5.markers <- FindMarkers(pbmc, ident.1 &＃61; 5, ident.2 &＃61; c(0, 3), min.pct &＃61; 0.25) head(cluster5.markers, n &＃61; 5)# 与所有其他细胞相比&＃xff0c;找到每个簇的标记&＃xff0c;仅报告阳性细胞 pbmc.markers <- FindAllMarkers(pbmc, only.pos &＃61; TRUE, min.pct &＃61; 0.25, logfc.threshold &＃61; 0.25) pbmc.markers %>% group_by(cluster) %>% top_n(n &＃61; 2, wt &＃61; avg_logFC) cluster1.markers <- FindMarkers(pbmc, ident.1 &＃61; 0, logfc.threshold &＃61; 0.25, test.use &＃61; "roc", only.pos &＃61; TRUE)

可视化

# 绘图看看 VlnPlot(pbmc, features &＃61; c("MS4A1", "CD79A"))

# 使用原始count绘制 VlnPlot(pbmc, features &＃61; c("NKG7", "PF4"), slot &＃61; "counts", log &＃61; TRUE)

FeaturePlot(pbmc, features &＃61; c("MS4A1", "GNLY", "CD3E", "CD14", "FCER1A", "FCGR3A", "LYZ", "PPBP", "CD8A"))

mark

RidgePlot(pbmc, features &＃61; c("MS4A1", "CD79A"))

DotPlot(pbmc, features &＃61; c("MS4A1", "CD79A"))

top10 <- pbmc.ers %>% group_by(cluster) %>% top_n(n &＃61; 10, wt &＃61; avg_logFC) DoHeatmap(pbmc, features &＃61; top10$gene) &＃43; NoLegend()

9.识别细胞类型

在这个数据集的情况下&＃xff0c;我们可以使用 canonical markers 轻松地将无偏聚类与已知的细胞类型相匹配。

Cluster ID	Markers	Cell Type
0	IL7R, CCR7	Naive CD4&＃43; T
1	IL7R, S100A4	Memory CD4&＃43;
2	CD14, LYZ	CD14&＃43; Mono
3	MS4A1	B
4	CD8A	CD8&＃43; T
5	FCGR3A, MS4A7	FCGR3A&＃43; Mono
6	GNLY, NKG7	NK
7	FCER1A, CST3	DC
8	PPBP	Platelet

new.cluster.ids <- c("Naive CD4 T", "Memory CD4 T", "CD14&＃43; Mono", "B", "CD8 T", "FCGR3A&＃43; Mono", "NK", "DC", "Platelet") names(new.cluster.ids) <- levels(pbmc) pbmc <- RenameIdents(pbmc, new.cluster.ids) DimPlot(pbmc, reduction &＃61; "umap", label &＃61; TRUE, pt.size &＃61; 0.5) &＃43; NoLegend()

mark

推荐阅读

input
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
testing
利用Python实现高效语音识别技术

本文探讨了利用Python实现高效语音识别技术的方法。通过使用先进的语音处理库和算法，本文详细介绍了如何构建一个准确且高效的语音识别系统。提供的代码示例和实验结果展示了该方法在实际应用中的优越性能。相关文件可从以下链接下载：链接：https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ，提取码：p57s。 ... [详细]

蜡笔小新 2024-11-07 13:05:53
object
深入解析Spring AOP框架中的代理对象生成机制

在前文探讨了Spring如何为特定的bean选择合适的通知器后，本文将进一步深入分析Spring AOP框架中代理对象的生成机制。具体而言，我们将详细解析如何通过代理技术将通知器（Advisor）中包含的通知（Advice）应用到目标bean上，以实现切面编程的核心功能。 ... [详细]

蜡笔小新 2024-11-06 10:11:10
object
双关语2 | 无法在运行时动态添加播放器子对象以转换数组类型 —— 我的临时解决方法在CameraControl.cs中

在处理多个玩家的相机控制时，我遇到了一个挑战，即无法在运行时动态添加播放器子对象以转换数组类型。为了解决这个问题，我在 `CameraControl.cs` 脚本中采取了临时措施。该脚本负责根据玩家的数量动态调整相机的缩放范围，确保所有玩家都能被相机捕捉到。 ... [详细]

蜡笔小新 2024-11-02 10:54:04
filter
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
object
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
function
深入理解 JavaScript 函数式编程技巧与应用（下篇）

本文将继续探讨 JavaScript 函数式编程的高级技巧及其实际应用。通过一个具体的寻路算法示例，我们将深入分析如何利用函数式编程的思想解决复杂问题。示例中，节点之间的连线代表路径，连线上的数字表示两点间的距离。我们将详细讲解如何通过递归和高阶函数等技术实现高效的寻路算法。 ... [详细]

蜡笔小新 2024-11-08 19:44:31
char
QT框架中事件循环机制及事件分发类详解

在QT框架中，QCoreApplication类作为事件循环的核心组件，为应用程序提供了基础的事件处理机制。该类继承自QObject，负责管理和调度各种事件，确保程序能够响应用户操作和其他系统事件。通过事件循环，QCoreApplication实现了高效的事件分发和处理，使得应用程序能够保持流畅的运行状态。此外，QCoreApplication还提供了多种方法和信号槽机制，方便开发者进行事件的定制和扩展。 ... [详细]

蜡笔小新 2024-11-08 17:43:20
char
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
post
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
post
每日前端实战：148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果

通过点击页面右侧的“预览”按钮，您可以直接在当前页面查看效果，或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性，观众可以实时调整代码并观察变化。访问以下链接体验完整效果：https://codepen.io/comehope/pen/yRyOZr。 ... [详细]

蜡笔小新 2024-11-07 14:24:29
process
机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析

机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]

蜡笔小新 2024-11-05 15:46:18
process
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
process
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
char
利用 Python 中的 Altair 库实现数据抖动的水平剥离分析

利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]

蜡笔小新 2024-11-02 12:39:54

你一句话就逼我撤退

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章