上海某医疗公司科研项目

项目简介

某医疗研究公司总部位于上海浦东区,其长期专注于国际高新技术研发及肿瘤领域的临床应用转化,其中一个科研项目是收集多种人类和动物的正常和肿瘤细胞系,并对其进行研究分析,将分析成果用于与广大科研工作者交流。该工作设计大量的数据收集,整理与分析,用传统的计算机无法满足其庞大的计算量,因而决定采用高性能计算机集群。

客户需求

1.公共信息挖掘,用SQL语言编辑3D-HTS的数据库,实现从以下4个信息来源挖掘数据:
(1)公用数据库,如CCLE,Sanger, TCGA ,Cosmic,LFQ Support Information等
(2)公共网站,如FDA、Clinical Trail等
(3)各大制药公司共享资源
(4)NCBI文献
2.高通量数据处理, 包括可信度分析、去除冗余、标准化校正、皮尔森分析、平均数据、数据分析。

痛点难点

1.标准化校正是整个数据处理的核心,选择合适的标准化校正方法,将直接影响分析结果
2.生物医学常用的应用软件:BLAST、RepeatMasker、Cross_Match、Hmmer、ClustraIW、Python、BWA、Samtools 等均被用到,其种类繁多,各种软件的应用特点也各不相同,对计算资源的需求存在差别,方案的设计需要充分考虑到实际应用的特点
3.并发要求高,每次任务要求500个线程左右
4.生产数据大小文件混合,比例为6:4左右
5.对读写性能要求高,至少要满足8Gb/s读写
6.存储数据量庞大,达到4PB的规模
 

解决方案

1.计算节点采用若干台高密度的四子星S934G2平台,存储节点采用若干台大容量存36盘S557G2平台
2.存储考虑容量与冗错、性能等要素,采用2:1纠删机制的高性能分布式存储
 


实施效果


极其出色地满足了用户并发需求

实测可满足并发700个线程的任务量
   

大小文件自动分类,高效管理

系统能够对大小文件自动分类,无需用户干预,极大降低了用户工作量
   

极好满足了多款不同软件同时运行的要求

同时运行用户常用的各款软件,且各软件均高负荷运行时,系统资源占用率控制在正常范围,各应用相互之间协作良好,切换流畅
   

存储管理更加安全、高效

由于采用了分布式存储,数据的安全性有了更好的保障,丢失率基本降为零,对某些对数据有高精度要求的课题来说是极好地支撑