IDC指出,⽬前每年存储下来的数据只有新创建数据的1%左右,其中真正挖掘出价值的数据量不⾜存储数据的10%。数据资产已成为企业数字化转型的核心,未来随着大数据和AI技术的发展,数据存储比例和挖掘比例必将大幅提升,需要专业的分布式存储来提供更高的存储容量和并发性能。Gartner定义的第二存储阵列也将大数据分析作为其典型应用场景,认为未来的大数据分析会为分布式存储带来海量的数据和性能需求。
分布式存储市场表现
IDC将分布式存储归入了软件定义存储来跟踪,IDC发布的《中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2019年第二季度》显示,中国区软件定义存储已经连续多个季度同比大幅增长。按IDC的预测,中国区SDS存储销售从2018年到2023年将保持20%以上的年化增长率;随着5G、物联网和人工智能快速发展,到2023年,全球40%左右的存储系统都将是分布式存储架构。另一家调研机构Zion Market Research更是预测,全球分布式存储的销售额将从2018年的20亿美元快速增长到2027年的285亿美元,年化增长率高达34.7%。无论从过去几年的销售数据还是未来几年的销售预测来看,分布式存储的春天已经到来,以Ceph为代表的开源分布式存储蓬勃发展,以EMC、华为为代表的专业存储厂商重兵投入,同样也印证了这一结论。分布式存储技术发展趋势
分布式存储是未来的发展方向已成为业界共识,那么分布式存储技术上又有哪些发展趋势呢,这点可以从Gartner分布式文件&对象存储关键能力要求和各大主流厂商的产品方向上来看一下:
极致效率
Gartner对第二存储的定义是:首要目的是经济高效地支持延迟和IOPS不是必需属性的非结构化数据工作负载, 典型用例包括长期归档,大数据分析应用程序的存储库,深度历史研究以及备份/恢复软件的备份/恢复目标。这就意味着,分布式存储的首要目标是提供极致效率的数据存储方案。
从Gartner分布式文件&对象存储关键能力要求来看,效率主要体现在几个方面:
Ø 扩展性:整集群应具备扩展到几百甚至上千存储节点的能力,简化管理;单文件系统或单桶需要支持几百甚至上千亿文件,应对现在及未来的海量文件挑战。
Ø 互通性:以自动驾驶为代表的新型应用已经越来越多的使用了文件、对象、HDFS多种访问协议,多协议互通可以避免文件的多次拷贝,有效提升文件的共享访问效率。
Ø 存储效率:分布式存储需要使用大比例EC(Erasure Coding)替代传统的副本技术,获得更高的存储利用率;应具备重删、压缩等数据缩减能力,相同硬件可存储更多的用户数据;应支持高密硬件,应对海量数据的空间占用和功耗问题;应具备数据分级能力,热、温、冷数据可以使用不同的存储硬件;
极致性能
分布式存储不以支持低时延和高IOPS为首要目标,但并不意味着性能对分布式存储就不重要了。IDC在《Data Age 2025》的报告中预测,实时数据占比将逐年提升,到2025年实时数据占比将达到30%,这么大规模的实时数据,很大一部分是需要借助分布式存储实现数据采集、存储和分析的,这就需要分布式存储能够提供极致性能来应对。