加速数字化和我们越来越多的胃口和生成数据在2020年的数据+ ML景观中推动了大量的发展。由于公司已经开始获得过去几年的预测分析和ML倡议的利益,他们显然在2021年展示一个健康的食欲。“我们可以更快地处理更多数据,更快和更便宜吗?我们如何在生产中部署更多ML模型?我们应该在实时做得更多吗?“……列表继续。在过去几年中,我们在数据基础设施空间中经历了一个惊人的演变。数据驱动的组织已从ETL(提取,转换,负载)移动到ELT(提取,负载,变换),其中原始数据从源系统复制并加载到数据仓库/数据湖中,然后转换为。现在甚至是一个新的范式在叫做反向ETL的制作中,展示了这个空间中进化的速度。
“现代数据栈”的概念在制作中是多年的 – 它开始出现在2012年时,随着Redshift,亚马逊的云数据仓库推出。但在过去的几年里,甚至可能在2020年被Snowflake截止,2020年被Snowflake夸张的IPO,云仓库的普及已经爆炸地增长,所以拥有整个数据和ML工具和周围的公司。
2020年代正在成为数据十年。虽然2010年是SaaS的十年 – 例如当Salesforce成为第一个违反100亿美元的SaaS公司时,2020年代将成为在强大的世俗途中成长的数据公司的时代(数据库初创公司,数据质量初创公司,数据谱系启动,机器学习启动等)。
正如我们刚刚进入咆哮的数据20,我们希望突出一些我们在数据和ML基础架构内展开得令人兴奋的趋势:
- MLOPS穿过鸿沟
- 从河流进入董事会的数据质量
- 统一的数据基础架构和新数据层出现了
- 现代数据云(仓库VS Data Lakehouse)的战争为真实升温
- 数据工程师的崛起
1. MLOPS穿过鸿沟
ML,特别是在企业空间中,历史上一直缓慢且难以扩大,合作一直是困难和运营的模型,实际提供业务价值在(亚马逊,Facebook,Airbnbs和世界外的Google之外)。然而,许多ML工具公司使用的“旧”谚语,其中80%的模型永远不会使其进入生产,肯定达到了2021年的到期日期。事实是越来越多的公司正在成功将ML模型部署到生产中。