MSigDB数据库详细介绍
一、MSigDB是什么
MSigDB(The Molecular Signatures Database)是一个基因集数据库,包含了多种功能注释的基因集,它是一个支持生物信息学数据分析的开放资源平台。MSigDB是基于公开可得的基因表达数据而建立的,主要用于启发式的生物标记物,新药靶点发现和机制解释等研究。MSigDB还提供了用于分析基因表达数据集的工具和算法。
二、MSigDBR
MSigDBR是一个针对MSigDB的R语言包,可用于下载、管理和提取MSigDB的数据。该R包可以对52种Human MSigDB集合和18种 Mouse MSigDB集合进行下载和管理,以及快速的基因集分析,使得用户可以很方便的使用MSigDB数据库中的基因集来进行分析研究。
三、MSigDB查找基因集
用户可以通过MSigDB官网的搜索功能轻松的查找到自己所需要的基因集,也可以通过R语言编写代码进行查询。以下是通过代码获取TP53(一种与癌症相关的基因)基因集的示例:
library(MSigDBR)
tp53_list <- query(msigdbi = msigdb$path, gene_sets = 'TP53', gene_set_type = 'C2')
head(tp53_list$gs)
结果返回ID号和所有与TP53基因相关的基因集的名称。此时可以通过ID号查找基因集内的具体基因名称,或者利用函数mapping来得到其他基因ID(如示例代码中使用mapping(name=tp53_list$gs[1], msigdbi=msigdb$path)获取该基因集中每个基因的Symbol等)。
四、MSigDB数据库官网
MSigDB官网提供了便捷的数据查询、下载和资源文档,网址为https://www.gsea-msigdb.org/gsea/msigdb/index.jsp。可以直接通过该网站检索自己感兴趣的基因集,除此之外,官网还提供了一些其他工具和资源进行生物信息学分析。
五、MSigDB数据库小鼠
除了对人类基因的注释,MSigDB还注释了小鼠的基因,包含大量的小鼠基因集,支持小鼠数据的生物信息学研究,数据来源于鼠基因注释数据库(MGI)。搭配使用Mouse MSigDB和Human MSigDB可以得到更全面的研究结果。
六、MSigDB查找代谢基因集
MSigDB还注释了代谢相关的基因集,其中包括如KEGG、REACTOME等公共数据库,这对于代谢学研究是非常有价值的。以下是利用R语言查询KEGG中代谢与葡萄糖代谢相关的基因集的示例:
kg <- msigdbKEGG(msigdbi = msigdb$path)
kegg_genes <- query(msigdbi = msigdb$path, gene_sets = 'KEGG_GLUCOSE_METABOLISM', gene_set_type = 'C2')
kegg_genes <- kegg_genes$gs[[1]]
kegg_genes <- mapping(name=kegg_genes, msigdbi=msigdb$path, toSymbol=T, destdir=NULL, geneColumn=2, proteinColumn=NULL)
以上是基于MSigDBR对MSigDB的一些简单介绍,它们的使用可以显著的提高生物信息学研究的效率及准确性。