为什么数据目录很关键

Gartner公司高级研究主管Joe Maguire认为,企业对数据目录工具的需求主要源自三个方面。

企业使用数据目录的第一推动因素是元数据管理变得越来越困难。数据架构更加复杂,并且数据量太大,以至于无法手动收集和描述元数据。

Maguire说:“即使是旨在简化架构的技术(例如数据湖提供单个架构组件用于存储各种数据)也可能使元数据管理变得复杂。”

面对数据量不断增长,有些企业并没有扩大其元数据管理。

Maguire说:“正是由于忽略数据湖中的元数据,人们不得不创造出‘数据沼泽’的术语,以描述数据混乱而无人可清理的数据湖。”

第二个因素是,随着企业追求自助服务分析和数据科学,对数据治理的需求也在增加。这也导致对数据目录的更高需求。元数据是数据治理的基础,数据目录使访问元数据更加容易。

第三个因素是这个市场已经证明自己的价值。供应商的产品已经变得越来越多样化,并可真正帮助需要数据治理和元数据管理的企业。自动元数据发现、数据沿袭和对数据管理活动的支持等功能,使数据目录对企业具有吸引力。

数据目录类别

根据Maguire的说法,在讨论数据目录时,最重要的区别是了解企业数据目录和嵌入式数据目录之间的差异。

Maguire说:“企业数据目录旨在整合来自各种元数据孤岛的元数据,而嵌入式数据目录是其他产品中提供的元数据管理功能集。”

企业数据目录选项可以是DBMS、数据仓库或BI平台。嵌入式数据目录则形成元数据孤岛–企业数据目录试图整合的元数据孤岛。

下面是最常见数据目录:

独立数据目录。这些数据目录具有通用性、独立性和面向业务的特点,可广泛用于数据管理、分析和数据治理。此选项适用于必须对多个用例进行数据分类的企业。目前提供独立数据目录的供应商包括Alation、Collibra、Informatica和Data.World。

提供目录功能的元数据管理工具。现代数据目录主要针对数据管理员和数据分析师,他们可自动执行元数据管理任务。Gartner在有关增强数据目录的最新报告中警告说,有些供应商将其元数据管理工具重新命名为数据目录。你应该自己做研究以确保你选择正确的工具。

具有数据目录功能的Data Lake支持工具。随着企业继续构建数据湖,他们需要可搜索且可重复使用的数据。这导致供应商在其产品中增加数据目录方面。Zaloni和Cloudera Navigator都属于此类。那些因采用数据湖而感到畏缩的企业可考虑这些供应商。

当你的企业确定选择企业数据目录或嵌入式数据目录后,你就可以继续寻找功能。好的数据目录应该提供很多功能。

【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章