各位小伙伴们大家好!今天带大家学习一下数据挖掘经常用到的一个数据库——TCGA数据库的数据下载。
首先我们要知道TCGA数据库即肿瘤基因组图谱计划,是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,包括基因组、转录组、表观遗传、蛋白组等各个组学,提供了一个大型的癌症研究参考数据库。TCGA数据库目前收录了33种癌症类型,涵盖的数据类型广泛,包括:Clinical、mRNA、microRNA、CopyNumber、Mutation、Protein、Methylation等。
TCGA数据库数据的下载方法有很多,我们今天主要以肝癌为例,给大家介绍两种最常用的数据下载方法,快来一起学习一下吧! 第一种方法:通过TCGA官方提供的下载工具GDC下载数据