基因测序是测序仪将不可视化的生物信息转换为可视化的文本信息,依托计算、存储和网络等IT资源,利用生物信息算法对文本信息进行分析和研究。这时一个强有力的IT基础设施必不可少。华大基因与华为云展开积极合作,顺利实现上云,实现了自动化测序分析能力。
云端基因测序
随着生命科学技术的发展,基因测序也呈现了新的发展特征。比如标准化,基因测序需要确保其结果的严谨和可重复;行业规模化,基因测序技术已广泛应用于医疗、农业、食品等多个领域,未来将呈现井喷式增长;平台化,测序公司除了面向科研单位、制药公司和医疗机构提供服务外,还可为保险、农业、IT等多个行业提供增值服务;亲民化,测序技术不断更迭,成本呈现超摩尔定律的下降,从“天价”下降至千美元,普通消费者均可享受技术红利。不过这些变化也给基因公司的IT建设带来了极大的挑战。
比如如何在高峰快速响应最终客户?测序业务一般为项目型,有明显淡季和旺季之分,旺季业务量可能是淡季的10倍以上,本地资源不足以支撑峰值资源需求。
如何轻资产运营?按全年均值/峰值配置IT资源,一次性投入大、固定资产投入高、总成本高、建设周期长且出现资源闲置,容易出现资金链断链影响公司整体运营,且3-5年后老旧设备需更新换代。
如何提升解读效率?大部分业务软件开源,软件运行过程中未匹配合适的IT资源,导致相同业务流的资源负载不均衡,最终导致IT资源浪费、有效利用率低下,从而影响总体成本竞争力,如30X的WGS测序耗时从6小时到40小时不等,测序分析耗时长。
如何快速共享、可靠存储和挖掘数据潜在价值?基因测序部分业务依赖大量样本数据,数据积累过程中需存储设备高可靠,且一定时间内无数据访问需求,因此数据的存储成本和管理成本日益凸显,数据存储的投入产出比较低。
从以上挑战,我们可以看到采用云的IT资源交付形式对于基因公司而言可谓是“雪中送炭”。基因测序分为数据收集、测序分析(基因转换、基因拼接、基因比对、基因注释)、数据交付(数据归档/分发)等阶段对于IT资源规格的需求也是多样化,有的阶段注重算力分析,有的阶段注重可靠存储。
此外,基因公司的不同发展阶段也对IT架构有着不同的需求,起步阶段是单点服务器,企业成长期是集群部署,市场业务扩张期则是本地集群与云的混合部署。作为一个新的行业,基因测序的IT人员匮乏,专业的人做专业的事,IT建设应该交给专业的人负责。
在基因测序的流程中,需要庞大的算力支持。从某种意义上说,生命科学的研究竞赛,很多时候已经变成了一场算力的比拼。基因测序对算力的需求都是波动的,同时对于不同生物的基因组,需要的算力也不同,这就会牵扯到计算集群的扩缩容,但传统的线下计算集群无法实现快速扩缩容,这也凸显了云计算的便利性。总之,业务上云已经成为当下基因公司的必然选择。
具体到华大基因,过去计算资源比较紧张,在使用峰值时,任务经常需要排队等候;同时科技服务有很多复杂基因组,客户需要借助不同规格的计算资源,所以云计算提供的灵活性是最好的选择。经过选型,华大基因最终选了华为云。
华大基因牵手华为云
2018年,华为云全球首家推出了以Kubernetes为基础的基因容器服务GCS,基于轻量级的容器技术,结合大数据、深度学习算法,为测序厂商提供了灵活可定制的测序流程、秒级可伸缩的高可靠资源和便捷一站式用户体验,让基因测序数据的计算更省、更快、更轻松。