虽然传统上关注创建和补充数据湖的机制,但经常是创建数据沼泽,2019年将重新关注数据湖的应用。这与我们在数据仓库方面的经验非常相似,最初的数据仓库生成常常被误导,但是它们教会了我们创造价值和实现广泛应用的真正需求。我相信2019年将从关注数据湖的机制, 转向如何使湖泊中的数据具有可查找性、可用性、可规模化和自动化的管理方式。
新的数据湖将以一种更严谨的方式推出,具有清晰的初始用例、使用和管理策略。随着越来越多的组织开始采用跨多个系统的虚拟数据湖,我们还将看到越来越多的数据湖被构建或迁移到云上,以充分利用托管的基础设施、弹性存储和各种计算能力,使数据湖生态系统将不断丰富和完善起来。
大数据变成了“小数据”。相关机构不会整合所有储存的数据,会在有限的范围内精简。”随着对数据的更大可见性,他们将有机会对存储成本进行合理化整合,并进行更精确的分析。他们分析知道哪些数据已经损坏,可以丢弃。而且,“变少”也意味着过去大量数据现在变得容易管理,更加便以使用。
可解释性将成为人工智能的关键要求。随着越来越多的企业(和政府)使用人工智能和机器学习算法,将更加注重透明度和可解释性。比如为什么抵押贷款被拒绝?银行能否证明没有任何非法统计数据(如种族、性别等),被用于决策或培训决策模型? 找到合适的数据集并记录它们的特征和质量,是实现这种透明性和可解释性的***步。如果我们不知道数据从何而来,也不知道数据意味着什么,我们就无法解释这个模型,也无法确保它是正确合法的。