国家生物信息中心组学原始数据归档库数据汇交量突破10PB
9月28日,ibet(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)组学原始数据归档库(Genome Sequence Archive,简称GSA)的用户汇交数据量突破10 PB(1 PB=1024 TB)。
为存好、管好、用好我国生命组学大数据,解决海内主要数据资源流失和生命组学数据孤岛等问题,提高数据共享率和使用率,北京基因组所于2015年10月建设了海内首个组学原始数据汇交、存储、治理与共享系统GSA,为国家重点研发妄想、国家自然科学基金、中科院战略先导专项等国家重大、重点研究妄想及使命的科学数据清静治理和归档共享提供了主要支持。
GSA自上线以来,一连为全球生命科学研究职员提供数据汇交和共享效劳,尤其为我国科研职员提供了极大便当。阻止2021年9月28日,GSA数据库系统已吸收海内外437家研究机构1829名用户的数据递交,支持科研职员在250种期刊揭晓研究论文760余篇,为全球110多个国家/地区的用户提供数据效劳,平均天天数据下载量抵达4 TB。现在 GSA已成为Springer Nature、Elsevier、Wiley、Taylor & Francis及Cell 等国际著名出书集团指定/认可的核酸数据归档库。
随着组学数据的爆炸性增添和数据类型的多样化,面向国家人类遗传资源数据治理的特殊需求,GSA一直富厚完善系统功效,形成了GSA数据库系统,包括GSA,GSA-Human和OMIX。
GSA-Human制订人类遗传资源组学数据清静治理机制,实现人类遗传资源数据的分级治理和受控会见,有用包管了国家人类遗传资源数据的清静治理和合理使用,为用户提供人类遗传资源数据受控会见效劳;OMIX数据库存储非原始测序数据,如情形组、表型组、代谢组等,它作为上述两种数据资源库的主要增补,有用解决了用户提交除原始测序数据外的其它类型数据的需求。
GSA数据库的建设获得了科技部、中科院以及国家重点研发妄想、中科院战略先导专项、信息化专项、国际同伴妄想等项目的鼎力大举支持,GSA归档数据使用的大规模盘算机硬件设施获得国家财务部改善科研条件专项的恒久支持。

GSA数据量一连增添






