数据生命周期平台解决方式举足轻重

数据的生命周期有许多阶段，其中包括数据获取、创建数据工程/数据集以赋予原始数据意义、大容量存储数据以供进一步使用和分析、创建数据库以探索数据，最后，还可以使用高级分析或机器学习从数据中提取见解，同时保持数据安全和完全的合规性。许多企业面临的挑战是如何更好地组合这样的系统，同时保持合理的成本并最大程度地减少部署和运营的时间，以及如何以更具意义的方式呈现数据，以便人们能够从中获得见解。

企业需要的是处理从数据采集到分析的整个数据生命周期的方法，同时还要保持开源的优势以及利用内部部署或混合云计算的能力。数据仓库可以处理存储和交付，但它们不能提供完整的解决方案。许多组织已经实现了数据云，无论是通过纯粹的开源产品(如Apache Hadoop)还是商业产品(如Talend、Informatica、Amazon Redshift、IBM、SAP、Oracle等)，但这并不能解决整个数据生命周期方面的挑战，通常会迫使企业使用许多可能难以集成的附加异构产品。

尽管开源软件/系统似乎非常有吸引力，尤其是从成本角度来看，但“自行开发”实施功能解决方案的方法通常充满挑战，而其“免费”并不是真正的“免费”。通过选择一个完整的解决方案，可以显著减少全面运营的时间，同时也降低了持续运营和支持的复杂性。从长远来看，这种方法可以为企业部署节省大量的投资。根据调查，复杂性和集成挑战会导致多达50%～65%的企业系统达不到预期或全部失败。此外，非优化系统的持续维护成本会对运营预算造成重大影响，估计这些成本可能是完全集成的解决方案成本的2～5倍。

除了增加以及对多种技术和可用资源有更多的需求之外，还有一个问题是，导致洞察延迟，并且可能永远无法实现。而采用基于开源的解决方案要有效得多，它已经创建了所有必要的集成，以构建可以轻松快速地实施并最终得到有效支持的完整系统。

相关文章

物理服务器和大宽服务器怎么选

租用云服务器的注意事项的关键点

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

物理服务器对ai发展的应用

又一数据处理神器，通过GPU加速Pandas性能！

极光大数据社交狂欢背后，集体孤独