巨大回报将产生与数据湖

虽然传统上关注创建和补充数据湖的机制，但经常是创建数据沼泽，2019年将重新关注数据湖的应用。这与我们在数据仓库方面的经验非常相似，最初的数据仓库生成常常被误导，但是它们教会了我们创造价值和实现广泛应用的真正需求。我相信2019年将从关注数据湖的机制, 转向如何使湖泊中的数据具有可查找性、可用性、可规模化和自动化的管理方式。

新的数据湖将以一种更严谨的方式推出，具有清晰的初始用例、使用和管理策略。随着越来越多的组织开始采用跨多个系统的虚拟数据湖，我们还将看到越来越多的数据湖被构建或迁移到云上，以充分利用托管的基础设施、弹性存储和各种计算能力，使数据湖生态系统将不断丰富和完善起来。

大数据变成了“小数据”。相关机构不会整合所有储存的数据，会在有限的范围内精简。”随着对数据的更大可见性，他们将有机会对存储成本进行合理化整合，并进行更精确的分析。他们分析知道哪些数据已经损坏，可以丢弃。而且，“变少”也意味着过去大量数据现在变得容易管理，更加便以使用。

可解释性将成为人工智能的关键要求。随着越来越多的企业（和政府）使用人工智能和机器学习算法，将更加注重透明度和可解释性。比如为什么抵押贷款被拒绝?银行能否证明没有任何非法统计数据（如种族、性别等），被用于决策或培训决策模型? 找到合适的数据集并记录它们的特征和质量，是实现这种透明性和可解释性的***步。如果我们不知道数据从何而来，也不知道数据意味着什么，我们就无法解释这个模型，也无法确保它是正确合法的。

相关文章

物理服务器和大宽服务器怎么选

租用云服务器的注意事项的关键点

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

物理服务器对ai发展的应用

又一数据处理神器，通过GPU加速Pandas性能！

极光大数据社交狂欢背后，集体孤独