整合全基因组关联研究和空间转录组数据定位复杂疾病相关细胞的空间分布 (运行中)

全基因组关联研究GWAS
是一种广泛应用于检测遗传变异与复杂疾病(性状)关联的研究方法。尽管 GWAS 已经成功鉴定了大量与复杂疾病(性状)相关的遗传变异,但这些变异通过人体组织中哪些特定位置的细胞影响疾病的发生和发展,仍然是当前人类遗传学研究的未解之谜。西湖大学杨剑团队 2025 年 3 月在 Nature 上发表了Spatially resolved mapping of cells associated with human complex traits 的研究论文。该研究开发了一种新的分析方法gsMap
,通过整合全基因组关联研究和空间转录组数据,描绘了人类复杂疾病(性状)相关细胞在组织中的空间分布。
通过对小鼠胚胎、大脑、猕猴大脑皮层以及人类GWAS
数据进行整合分析,gsMap
成功揭示了不同疾病相关细胞的空间分布模式。例如,研究发现精神分裂症相关的谷氨酸能神经元主要富集于海马背侧,并上调钙信号通路基因,而抑郁症相关神经元主要分布在内侧前额叶皮层,并富含精神药物靶点基因。该研究不仅提供了一种空间解析的遗传学工具,还为精神疾病的病理研究和潜在治疗靶点识别提供了新思路。
gsMap
利用图神经网络整合细胞的表达谱和空间位置信息,在二维空间上为组织的每个细胞识别出一组标签基因;以这些基因为桥梁,通过人类遗传方法,将全基因组关联研究GWAS
和空间转录组数据Spatial Transcriptomics, ST
相结合,构建疾病与细胞的关联,从而在单细胞水平上描绘疾病相关细胞在组织中的空间分布。
算法原理
**核心思想:**利用 GWAS 数据确定与复杂性状相关的基因,并将其表达模式映射到空间转录组数据中的细胞,以评估某个空间区域的细胞是否与某种复杂性状相关。
- 计算基因特异性得分 (
GSS
):使用图神经网络对空间转录组数据进行处理,识别基因表达模式相似的空间区域 (spot
)。计算每个 spot 的 基因特异性得分,表示该区域特定基因的表达水平排名; - 将 GSS 分配给 SNP:结合 GWAS 数据,分析 SNP 与 GSS 之间的关系,确定某个空间区域的 SNP 是否富集于某种复杂性状的遗传变异;
- SNP 遗传变异富集分析:使用分层连锁不平衡评分回归 (
S-LDSC
) 方法,评估具有高 GSS 的 SNP 是否富集于特定性状的遗传变异,计算富集 P 值; - 空间区域的统计检验:通过 Cauchy 组合检验计算某个空间区域整体上是否与目标性状相关。
安装程序
1 | 通过 pip 直接安装 |
检查安装:
1 | /tools/Python-3.10.8/bin/gsmap -v |
小鼠胚胎 (快速模式)
快速模式提供了一种简化且高效的方式来运行整个 gsMap 分析流程。它通过利用 1000G EUR 参考基因组和 Gencode v46 蛋白编码基因预先计算的权重,减少了运行时间和配置复杂度。
如果希望自定义 GTF 文件、参考基因组或参数,请参考分步指南Step by Step guide
。
准备工作
首先按照安装程序部署gsMap
软件包,然后下载相应的依赖,本示例需要以下资源文件:
- GTF 文件,用于提供基因在基因组上的坐标;
- LD 参考基因组,快速模式下,已提供基于 1000G_EUR_Phase3的预构建 LD 分数 SNP-基因矩阵 (
pre-built LD score snp-by-gene matrix based on 1000G_EUR_Phase3
); - SNP 权重文件,用于调整 SNP-性状关联统计之间的相关性;
- 同源基因转换文件,可选,用于不同物种间基因名称的映射。
下载所有所需的文件
1 | wget https://yanglab.westlake.edu.cn/data/gsMap/gsMap_resource.tar.gz |
下载示例数据
1 | wget https://yanglab.westlake.edu.cn/data/gsMap/gsMap_example_data.tar.gz |
文件结构
1 | $ tree -L 3 |
用快速模式运行
Execution: Required memory: 80G (120K cells)
1 | 2025-05-01 22:54 测试通过 |
1 | # 参数说明 |
1 | # 运行日志 |
如果想一次分析多个性状,可以用配置文件(--sumstats_config_file
)代替单个 GWAS 统计文件:
1 | gsmap quick_mode \ |
其中gwas_config.yaml
文件内容如下:
1 | Height: gsMap_example_data/GWAS/GIANT_EUR_Height_2022_Nature.sumstats.gz |
结果说明
所有输出文件会保存在指定的--workdir
中,包含中间文件(如潜变量、基因 marker 分数、LD 分数),这些中间文件在同一 sample 多性状分析时会自动复用。report
文件夹中会生成网页报告,包括空间细胞-性状关联的可视化和诊断图,可复制到本地机器后用浏览器打开。
典型输出结构
1 | tree -L 3 |
小鼠胚胎 (分步模式)
这个示例用于一步一步的运行gsMap
,允许用户自定义参数和资源,从而在分析过程中获得更大的灵活性和控制力。此模式适合需要对流程进行详细定制的用户。
准备工作
首先按照安装程序部署gsMap
软件包,然后下载相应的依赖,本示例需要以下资源文件:
GTF 文件,用于提供基因在基因组上的坐标;
LD 参考基因组 (plink bfile),用于计算 LD 分数;
SNP 权重文件,用于调整 SNP-性状关联统计之间的相关性;
同源基因转换文件,可选,用于不同物种间基因名称的映射;
增强子-基因映射文件,可选,用于基于增强子注释将 SNP 链接到基因。
下载所有所需的文件
1 | wget https://yanglab.westlake.edu.cn/data/gsMap/gsMap_resource.tar.gz |
下载示例数据
1 | wget https://yanglab.westlake.edu.cn/data/gsMap/gsMap_example_data.tar.gz |
文件结构
1 | $ tree -L 3 |
如果你希望使用自己的参考文件,请确保 GTF 文件和 LD 参考基因组的基因组版本(如 hg37 或 hg38)一致。
运行程序
计算潜在表达 (可选)
Execution: required memory: ~60G (120K cells)
计算潜在表达 (find latent representations),目的是为每一个点学习潜在表示,此步骤学到的latent embedding
会被保存在 AnnData 对象的 obsm 字段,键名为latent_GVAE
。
--workdir
参数指定 gsMap 的工作目录,所有输出文件都会保存在这里
1 | 2025-05-01 23:16 测试通过 |
1 | # 运行日志 |
生成基因特异性得分
Execution: required memory: ~45G (120K cells)
生成基因特异性得分 (generate gene specificity scores),基于 --latent_representation
指定的潜在表达,为每个点识别其同质点 (homogeneous spots),随后通过聚合其同质点信息,为每个点生成基因特异性得分 (Gene Specificity Scores, GSS)。
**注意:**如果空间转录组数据不是来自人类物种,但希望将人类的 GWAS 数据映射到上面,请提供一个同源基因转换文件 (homologous transformation file) 以实现基因名称转换。文件第一列应为空间转录组数据物种的基因名,第二列为 GWAS 数据物种的基因名。
1 | 2025-05-02 00:02 测试通过 |
1 | # 运行日志 |
生成 LD 分数
Execution: required memory: ~40G
生成 LD 分数 (generate ldscore),目的将基因特异性得分 (GSS) 分配给 SNP,并计算分层 LD 分数 (stratified LD score)。
SNP 到基因的关联有三种策略可选 (Three SNP to gene linking strategies are available
)
如果你在此步骤或下一步遇到内存不足的问题,可以将
--spots_per_chunk
参数设置为更小的数值。通常,当--spots_per_chunk
设为 1000 时,大约需要 40GB 内存。
使用转录起始位点
该策略通过转录起始位点(TSS) 将 GSS 分配给 SNP;--gene_window_size
参数定义了基因体两侧的窗口大小;如果某个 SNP 落在多个基因的窗口内,则使用距离最近基因的 GSS 。
1 | 2025-05-02 09:35 测试通过 |
1 | # 运行日志 |
使用增强子-基因关联
该策略利用增强子-基因关联将 GSS 分配给 SNP 。当一个 SNP 对应多个增强子时,SNP 的 GSS 由--snp_multiple_enhancer_strategy
参数决定。默认设置为max_mkscore
,即为 SNP 分配其对应增强子中的最大 GSS ;另一种选择是nearest_TSS
。
1 | 2025-05-02 21:28 测试通过,运行了 3-4 个小时 |
1 | # 运行日志 |
同时使用转录起始位点和增强子-基因关联
该策略同时利用 TSS 和增强子-基因关联将 GSS 分配给 SNP 。如果某个 SNP 既落在基因的 TSS 窗口内,又通过增强子关联到另一个基因,--gene_window_enhancer_priority
参数将决定 SNP 最终分配给哪个基因;可选项为gene_window_first
或enhancer_first
。
1 | 2025-05-03 09:49 测试通过,大概运行了 5-6 个小时 |
1 | # 运行日志 |
空间 LDSC
Execution: required memory: ~40G
空间 LDSC (spatial ldsc),运行空间 LDSC (Linkage Disequilibrium Score Regression),以将 spots 与性状 (traits) 相关联。
1 | 2025-05-04 01:13 测试通过,大概运行了 1 个小时 |
1 | # 运行日志 |
柯西组合 (可选)
Execution: required memory: ~12G
柯西组合 (cauchy combination),聚合特定空间区域 (细胞类型) 内单个 spot 的 P 值,以评估这些区域 (细胞类型) 与性状的关联性。
1 | 2025-05-04 09:50 测试通过,大概运行了十几秒 |
1 | # 运行日志 |
报告生成 (可选)
Execution: required memory: ~60G
报告生成 (),生成 gsMap 报告,包括映射结果的可视化以及诊断表。
默认用于可视化的基因是 GSS (基因集评分, Gene Set Score) 与性状-细胞关联的 -log10p 值相关性最高的 top 50 基因。如果需要选择特定基因进行可视化,可以使用
--selected_genes
参数。
1 | 2025-05-04 10:01 测试通过,大概运行了十几分钟 |
1 | # 运行日志 |
进阶用法
使用自定义的潜在表示
Using Customized Latent Representations
1 | 未测试 |
条件分析
Execution: required memory: ~50G
条件分析 (conditional analysis),通过调整其他功能注释或细胞类型级别的注释来进行条件分析。
这一步骤是对第三步生成 LD 分数generate ldscore
的拓展,通过在基线模型中添加额外的功能注释来进行条件分析的。
可以通过参数--additional_baseline_annotation
指定额外注释的目录。
Download the additional annotations:
1 | wget https://yanglab.westlake.edu.cn/data/gsMap/gsMap_additional_annotation.tar.gz |
The format of the additional annotation files is such that each line represents a SNP, with columns indicating the annotation values for that SNP. These values can be either binary or continuous.
1 | zless -S gsMap_additional_annotation/baseline.1.annot.gz |
1 | 2025-05-04 13:37 测试通过,运行了 4-5 个小时 |
1 | # 运行日志 |
多样本同时分析
当有多个生物学重复样本可用时,可以通过计算样本间基因排名的统一切片均值 (slice mean) 来获得更一致且可比较的结果。然后基于这个切片均值排名计算基因空间评分 (GSS),这种方法确保不同样本之间的结果更加一致和可比。
计算切片均值
为了生成切片均值 (Calculate the Slice Mean),可以使用 create_slice_mean
命令。该命令会输出一个包含每个基因切片均值排名的 Parquet 文件。--sample_name_list
参数用于指定样本的名称,--h5ad_list
参数用于提供每个样本的 AnnData 对象路径。
1 | 2025-05-05 20:32 测试通过,运行了 4-5 分钟 |
1 | # 运行日志 |
使用切片均值 (快速模式)
quick_mode
命令允许您使用切片均值在单一步骤中运行整个流程,--gM_slices
参数指定了在上一步生成的切片均值文件的路径。
1 | 2025-05-05 21:52 测试通过,运行了 分钟 |
示例命令:
- Title: 整合全基因组关联研究和空间转录组数据定位复杂疾病相关细胞的空间分布 (运行中)
- Author: Xing Abao
- Created at : 2025-05-01 17:57:22
- Updated at : 2025-05-07 08:45:12
- Link: https://bioinformatics.vip/2025/05/01/post-GWAS/整合全基因组关联研究和空间转录组数据定位复杂疾病相关细胞的空间分布/
- License: This work is licensed under CC BY-NC-SA 4.0.