获取数量性状位点或药靶数据

安装程序
To run mtag
, you will need to have Python 2.7
installed with the following packages:
numpy (>=1.13.1)
scipy
pandas (>=0.18.1)
argparse
bitarray
(forldsc
)joblib
(Note: if you already have the Python 3 version of the Anaconda distribution installed, then you will need to create and activate a Python 2.7 environment to run mtag
. See here for details.)
mtag
may be downloaded by cloning this github repository:
1 | git clone https://github.com/omeed-maghzian/mtag.git |
该包可以直接从 GitHub 上安装,使用remotes
包。
1 | remotes::install_github("alexploner/cfdr.pleio") |
cfdr.pleio
实现的算法需要一个参考数据集,该数据集描述了已知人类基因组中相当大比例变异体的局部 LD 结构。有关如何从头构建此参考数据的描述,请参见其他文档。在本文章中,我们将简单下载一个预先计算的参考数据集,下载地址:https://zenodo.org/record/5750318/files/genref.zip。
请注意,该通用参考数据集对于cfdr.pleio
的工作是必需的。由于其占用约 3 GB 的空间,通常最好将其存储在安全的地方,与使用cfdr.pleio
的任何特定项目分开(因为可能不想重复下载)。这里,我们使用一个用户主目录下的建议目录名称,但您可以选择任何适合您的名称:
1 | # https://zenodo.org/record/5750318/files/genref.zip |
应该看到 23 个 .rda 文件,其中一个包含所有参考变异体的列表,其余 22 个描述非性染色体之间的 LD 结构。
截至目前已经安装了运行 condFdr 或 conjFdr 分析所需的一切
简单示例:BMI 和身高
使用 GIANT 发布的数据,我们希望利用我们的 cfdr.pleio
来回答两个问题:
- 在身高的条件下,有多少 SNP 与 BMI 相关,条件假阳性发现率
condFdr < 0.001
或更低,与常规全基因组显著性阈值p < 5E-8
相比? - 我们可以预期有多少 SNP 与身高和 BMI 都相关,联合假阳性发现率阈值为
conjFdr < 0.01
?
加载 R 包
1 | suppressWarnings(suppressMessages(library(data.table))) |
数据下载
1 | # BMI |
选择这两个数据是因为其大小适中,具有强烈的遗传信号,并且可以直接下载
读取数据
接下来,我们将数据读入 R,并做一些准备,以便将其输入cfdr.pleio
,此时它对预期的列名仍然很严格。
这里使用data.table
进行导入,主要是由于该包不仅具有快速从压缩文本文件读取的功能,cfdr.pleio
也使用其数据格式进行内部存储,因此这相当高效。
1 | BMI = fread("E:/QTLMR/GWAS/SNP_gwas_mc_merge_nogc.tbl.uniq.gz") |
1 | Height = fread("E:/QTLMR/GWAS/GIANT_HEIGHT_Wood_et_al_2014_publicrelease_HapMapCeuFreq.txt.gz") |
从上可以看到这两个数据集具有相同的基本格式,尽管列名略有不同,且 SNP 的数量也大致相同。
修正列名
有效的cfdr.pleio
性状数据集需要有三列,具体名称以及内容如下:
SNP
,变异位点的 rs 标识符;BETA
,基于底层回归模型的 SNP 的估计效应值;PVAL
,效应估计对应的 P 值;- 所有其他变量将被忽略。
1 | colnames(BMI)[c(1, 5, 7)] = c("SNP", "BETA", "PVAL") |
1 | colnames(Height)[c(1, 5, 7)] = c("SNP", "BETA", "PVAL") |
此时,我们可以对 SNP 进行一些过滤,例如基于质量分数、主要等位基因频率或样本大小等等。不过这个示例数据作者在分析过程中已经经过了严格的过滤,未提提供太多的其他信息,因此这里跳过这一步。
是否需要进行过滤将根据项目具体情况进行判断。
查看数据
有多少 SNP 在 BMI 上达到了传统的全基因组显著性(与问题 1 相关)
1 | table(BMI$PVAL < 5E-8) |
一共发现有 1860 个 SNP,未进行连锁不平衡分析,对应于 Locke 等人在文章中报告的 77 个良好分离的位点。
相比之下,发现与身高相关的 SNP 数量惊人地达到了 26593 个,这占所有 SNP 的 1% 左右。
1 | table(Height$PVAL < 5E-8) |
运行分析
现在我们已准备好开始实际分析,创建一个新的分析对象:
1 | BMI_Height = cfdr_pleio$new() |
该对象最初是空的,后续的分析将通过调用适当的方法进行,这与大多数其他 R 包略有不同,因为 cfdr.pleio
基于 R6
类系统。
初始化数据
第一步是用必要的信息初始化空对象以运行分析:
1. 保存两个感兴趣性状(本例中为 BMI 和身高)汇总统计信息的数据对象,
2. 下载的通用参考数据的位置(在本例中,这是上面存储为 REF_DIR 的目录),
3. 针对特定数据的参考数据的工作版本的存储位置。
后两者之间的区别很重要:我们之前下载的通用参考数据是 cfdr.pleio
设置的一部分,并且与应用 cfdr.pleio
的项目无关。特定参考数据是在分析的下一步生成的,本质上是与项目数据匹配的参考数据的简化版本;出于内存效率的考虑,此简化版本也保存到磁盘,但通常应该作为项目文件夹的一部分进行存储。对于我们的示例:
1 | BMI_Height$init_data( |
生成本地参考数据的过程相对耗时,请耐心等待。
初始化修剪索引
第二步是初始化随机修剪索引。这样做的动机在 Andreassen 等人的论文中提及,但基本上,条件 FDR 应从近似独立的变异体中估计。这是通过从两个性状共享的变异体集合中选择随机变异体,并系统性地丢弃与所选变异体在指定 LD 范围内的变异体来完成的;这个过程生成了一个近似独立的变异体子集。为了最小化随机选择的影响,使用不同的随机选择重复进行相当多的次数。对于我们的示例,我选择了n = 50
次迭代:
1 | BMI_Height$initialize_pruning_index(n_iter = 50, seed = 154226, verbose = TRUE) |
计算 FDR
在第三步也是最后一步,我们将指定的数据和随机修剪索引结合在一起,计算条件和联合 FDR。在我们的示例中,我们特别希望知道 BMI 性状的条件 FDR,条件是身高性状。这可以通过指定哪个性状是 FDR 性状(即主要的关注性状),哪个是次要的条件性状来完成;因为 BMI 是第一个性状,我们这样做:
1 | BMI_Height$calculate_cond_fdr(fdr_trait = 1, verbose = TRUE) |
为了计算联合 FDR,我们需要将条件反转,重新进行计算,即也需要计算身高的条件 FDR,条件为 BMI:
1 | BMI_Height$calculate_cond_fdr(fdr_trait = 2, verbose = TRUE) |
此时,所有的条件 FDR 和联合 FDR 已被计算并存储在分析对象中,可以提取为 data.table
:
1 | BMI_Height_res = BMI_Height$get_trait_results() |
此对象返回了指定的两个性状的原始数据,以及在分析过程中计算的所有新 FDR 列(此处为三个,取其最大值)。
保存结果
此时,保存结果以便进一步处理是个好主意。主要结果是包含所有设置、种子等信息的完整分析对象,但也可以方便地只保存最终的 data.table
以便进一步处理:
1 | DATA_DIR = "E:/tmp/cond_conjFDR/BMI_height" |
结果解读
问题 1
让我们看看在条件身高的情况下,BMI 的条件 FDR 小于 0.001 的变异体数量:
1 | table(BMI_Height_res$cfdr12 < 0.001) |
与全基因组显著性相比,我们发现大约有 50% 的 SNP 在这个保守的 FDR 阈值下显著,即相比单纯用全基因组显著性发现的更多,提升了检测能力。这说明了,condFDR 可以利用”多效性”信息,发现更多可能与 BMI 相关的 SNP。
我们还可以反转这个问题:在对 BMI 具有(无条件)全基因组显著性的变异中,与身高相关的最大条件 FDR 是多少?
1 | summary(subset(BMI_Height_res, LOG10PVAL1 > -log10(5E-8))$cfdr12) |
在这组 SNP 中,BMI 的最大条件 FDR 约为 0.00012,这非常保守;我们可以放宽至 0.001 的阈值,增加约 50% 的功效,同时仍能对识别的 SNP 保持非常保守的 FDR 控制。
问题 2
我们发现有n = 892
个 SNP 似乎在联合 FDR 水平为 0.01 或更低的情况下与 BMI 和身高相关:
1 | table(BMI_Height_res$conj_fdr < 0.01) |
让我们查看这些重叠的 SNP:我们为这一子集的 SNP 绘制两个性状的原始 p 值的散点图:
1 | plot( |

每个点代表 892 个多效性 SNP,而虚线表示各性状原始 p 值的全基因组截断线。我们发现联合 FDR 找到的重叠远大于各性状全基因组显著变异体的简单交集(如右上象限所示);此外,SNP 的增益并不是对称的:对 BMI 的条件关联证据较弱的 SNP 更多地被纳入(左上象限),而身高则较少(右下象限),这并不令人惊讶,因为身高的关联相对广泛。
conjFDR 发现的变异体要多于两个性状各自全基因组显著 SNP 的交集,这说明联合分析更敏感,通过散点图,可以发现很多 SNP 在单个性状下可能不够显著,但是联合分析下被纳入了。
代码简洁版
1 | REF_DIR = "E:/QTLMR/REF_DIR" |
封装函数
1 | # cond.conjFDR.v01.R |
1 | # 参数说明 |
要点总结
cfdr.pleio
是对原始 MATLAB 版 pleioFDR 的 R 语言重写,流程几乎一致。
它通过借用多效性信息,提升了检测关联变异体的能力,特别适合多性状基因组分析。
condFDR
适合发现”次要表型”在”主要表型”条件下的关联;conjFDR
适合发现同时影响两个性状的多效性变异体。
分析结果不仅能帮助发现新位点,还能对多性状遗传结构有更深入的理解。
相关文献
Age Cell, 10.1111/acel.14271
神经退行性疾病与表观遗传衰老和人类寿命的因果关系和共同遗传病因
Causal associations and shared genetic etiology of neurodegenerative diseases with epigenetic aging and human longevity
在本研究中,研究者旨在检测多种神经退行性疾病(AD、PD、LBD、ALS 和多发性硬化症 MS)与四种表观遗传时钟(GrimAge、PhenoAge、IEAA 和 HannumAge)以及神经退行性疾病和多变量长寿相关表型(父母寿命、健康寿命和异常长寿)之间的因果关系和遗传病因学重叠。为了实现这一目标,主要利用 MR 和条件/联合错误发现率(cond/conjFDR)方法,使用大规模全基因组关联研究(GWAS)数据集。此外,我们鉴定了包括神经退行性疾病、表观遗传老化和多变量长寿相关表型的共享分子表型的多效性遗传变体、基因和生物学途径。
Nature Communications, 10.1038/s41467-024-52121-y
抑郁症和皮质下脑结构体积的共享遗传机制
Investigating the shared genetic architecture between depression and subcortical volumes
识别抑郁症和皮质下体积的共享遗传基础,使用双变量因果混合模型 MiXeR 方法,揭示两者间多基因架构的重叠,并通过条件/联合错误发现 cond/conjFDR 分析来识别两者间的共享基因位点。此外,研究还分析了这些共享基因的功能注释及其在不同发育阶段的表达模式,探索它们与认知能力和行为症状的关联。
- Title: 获取数量性状位点或药靶数据
- Author: Xing Abao
- Created at : 2025-05-02 23:33:04
- Updated at : 2025-05-04 12:47:38
- Link: https://bioinformatics.vip/2025/05/02/post-GWAS/获取数量性状位点或药靶数据/
- License: This work is licensed under CC BY-NC-SA 4.0.