作为企业,应该由你自己的团队来确定哪种产品与你的数据最相关。供应商的数据目录具有某些共同特征,必须首先对其质量进行评估。
数据目录的重要功能在于其搜索功能。如果没有灵活的搜索和过滤器选项,用户将无法找到用于数据工程和分析目的数据集。数据目录还必须从大量关联数据资产收集元数据。它还必须提供自动化和数据智能,以处理与数据目录相关的手动任务。人工智能和机器学习可通过推荐来增强数据。
数据目录还应该可连接到企业内数据架构的各个组件。Maguire说,企业数据目录可以被视为元数据的数据仓库。数据目录从元数据孤岛整合元数据,类似于数据仓库从数据仓孤岛中整合数据。
数据目录另一个重要功能是提供连接器,以从各种组件(例如DBMS、BI工具和数据仓库)获取元数据。数据目录支持以下四种类型的元数据:
- 技术元数据,描述数据模型、存储模式、文件布局和API。
- 操作元数据,描述数据沿袭、性能和对数据各种操作所产生的日志文件输出。
- 业务元数据分为两类。一种是描述业务的元数据,例如业务数据词汇表的内容。另一个是描述业务角色如何与数据资产交互,例如数据管理员、数据保管者、自助服务分析师,其中数据管理员负责特定数据资产。
- 社交元数据构成知识,例如对某些数据资产的证明或认可,或其他用户对数据目录中条目生成的注释。
常见供应商
市面上有很多企业和嵌入式数据目录,这些选项通常具有相似功能和重叠功能。下面是对数据目录选项的简短比较。
- Alation数据目录。Alation是独立的数据目录工具,使用AI来捕获企业内数据的背景信息。它被认为是所有员工都可易于使用的选项。
- Qlik目录。Qlik的数据目录还具有自动化的数据准备和元数据工具,以协助原始数据的转换。它还具有数据市场,允许用户搜索和发布数据集。
- Cloudera数据目录。Cloudera的数据目录使用户可以发现、记录和监视其数据。同时,此产品允许用户审核访问并保护敏感信息,以避免未经授权访问。
- Collibra目录。该选项是另一个独立的数据目录,它是基于业务最终用户而构建。它是可搜索的存储库,使查找和理解数据更加容易。它还允许管理员记录角色和职责。
- IBM Watson知识目录。这是用于人工智能模型治理以及数据的开放智能数据目录。此选项为用户提供实时数据虚拟化支持、动态数据屏蔽和自动元数据生成。
- Oracle云基础架构。Oracle产品提供了搜索和探索选项,使用户可以通过多方面的搜索和过滤器从各种不同的来源中查找数据,并收集有关数据资产的技术元数据。
-