scSpliceAtlas：单细胞水平的可变剪接全景图谱

单细胞基因组学中被忽视的剪接

我在香港中文大学生命科学学院读博期间，花了大量时间处理单细胞 RNA-seq 数据。有一件事一直让我困扰：几乎所有的分析流程都只关注基因表达——计算每个基因的 reads 数、对细胞进行聚类、寻找差异表达基因。但可变剪接呢？在单细胞水平上几乎被完全忽略了。

这是一个重要的空白。可变剪接是从相对紧凑的基因组扩展蛋白质组多样性的关键机制之一。不同的细胞类型不仅表达不同的基因，它们对同一基因的剪接方式也不同。然而，单细胞研究领域在很大程度上把转录本当作单一实体来处理。

正是这种挫败感促使我开发了 scSpliceAtlas——首个基于单细胞 RNA-seq 数据，全面探索跨人体组织细胞类型特异性可变剪接模式的数据库和工具集。

scSpliceAtlas 的核心功能

scSpliceAtlas 由三个紧密集成的组件构成：

1. Snakemake 流程：端到端处理来自 Human Cell Atlas 的 Smart-seq2 数据。流程串联了 STAR（比对）、Salmon（定量）、SUPPA2（PSI 值计算）和 CellTypist（自动细胞类型注释），最终将所有结果编译为可查询的 SQLite 数据库。

2. R 包：提供对图谱的程序化访问。如果你想提取特定基因在不同细胞类型中的剪接数据，或者比较不同条件下的 PSI 值，可以直接通过 R 代码完成，无需处理原始数据。

3. Shiny Web 应用：用于交互式探索。并非每个人都想通过写代码来浏览剪接模式，Web 应用提供了一个可视化界面，方便查询和展示图谱数据。

五种可变剪接类型

图谱收录了五种主要的可变剪接事件：

外显子跳跃（SE）：最常见的类型，一个外显子被包含或排除在成熟 mRNA 中
可变 5’ 剪接位点（A5SS）：竞争性供体位点改变了内含子 5’ 端的边界
可变 3’ 剪接位点（A3SS）：竞争性接受位点改变了内含子 3’ 端的边界
互斥外显子（MXE）：两个相邻外显子中恰好只有一个被包含，永远不会同时出现
内含子保留（RI）：一个内含子留在成熟转录本中，没有被剪接出去

对每种剪接事件，我们在单细胞水平计算 PSI（Percent Spliced In）值，这为每个细胞中特定剪接异构体的使用频率提供了连续的定量指标。

数据规模与范围

scSpliceAtlas 的目标规模相当宏大：超过 10 万个细胞，涵盖至少 5 种人体组织中 20 多种细胞类型。选择 Smart-seq2 平台是有原因的——与 10x Genomics 等基于微滴的方法不同，Smart-seq2 提供全长转录本覆盖，这对于准确量化剪接至关重要。大多数微滴平台产生的 3’ 偏向性 reads 根本无法可靠地检测可变剪接。

数据来源于 Human Cell Atlas，确保图谱建立在标准化、经过社区审核的数据集之上，而非不同协议和质量标准的拼凑。

为什么这很重要

如果你在研究细胞分化，你可能会发现一个基因的表达量没有变化，但它的剪接模式在细胞从一种状态转变为另一种状态时发生了显著改变。如果你在研究疾病，你可能会发现某种病理细胞类型使用了一种罕见的剪接变体，产生了功能异常的蛋白质。这些是用传统基因水平分析完全无法发现的模式。

scSpliceAtlas 让这些模式变得可被发现和探索。无论你是想将剪接分析整合到分析流程中的计算生物学家，还是想在自己研究的细胞类型中探索剪接模式的实验生物学家，这个工具的目标都是提供一个即用型的资源。

开发过程中的收获

这个项目让我在真正意义上深入了”全栈生物信息学”：

数据库与资源设计：如何组织生物学数据，使其在计算上高效、对用户而言直观可查
大规模数据整合：从 Human Cell Atlas 大规模提取和协调数据
可变剪接分析：深入理解剪接生物学原理和相关计算方法（PSI 估计、剪接事件检测）
全栈生物信息学：将 Snakemake 流程、R 包开发和 Shiny Web 应用设计为一个整体系统
R 包开发：生物信息学工具的包结构、文档和 API 设计

开发 scSpliceAtlas 让我更加确信：最有影响力的生物信息学工具不仅仅是算法——它们是让复杂数据对更广泛研究社区可用的资源。

项目代码和文档详见 github.com/loganylchen/scSpliceAtlas。