大数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点, 随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实际使用中的真正价值。
一般来说,大多数公司都希望有几个大数据项目,公司的主要目标是增强客户体验,但其他目标包括降低成本,更有针对性地进行营销,并使现有流程更有效率。
那么,如何对一个行业制定大数据应用架构呢?
在制定大数据应用架构之前,要先明确该企业面临的问题,业务需求场景以及用户的需求。
在现有企业的数据化情况之下,虽然业务系统、ERP、供应链系统已经上线,但对于集团管理层与业务层,仍面临着以下问题:
1.数据分散,存放于多个业务系统中,形成了一个一个的“数据孤岛",没有办法将这些数据打通,从多个角度对数据进行深度分析。
2.各业务部门迫切地希望通过数据解决一些管理、业务发展的问题,但是现有的报表展现形式不能满足分析需求。
3.依托IT取数的配合方式,传递效能低,易造成重复劳动,而且数据时效性也不能保证,往往从数据产生,到流入业务部门需要经过一周以上,风险并不能被及时暴露。
4.随着公司的发展,数据的安全和保密日趋重要,特别是一些公司财务信息、客户信息等,需要有权限的管理来对数据进行保护和管理。
接着再通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。
大数据平台的整体架构可以由以下几个部分组成:
一、业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,通过网页、App就可以收集到数据,比如很多银行现在都有自己的App。
更深层次的还能收集到用户的行为数据,可以切分出来很多维度,做很细的分析。但是对于涉及到线下的行业,数据采集就需要借助各类的业务系统去完成。
二、数据集成:指的其实是ETL,指的是用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。而这里的Kettle只是ETL的其中一种。
三、数据存储:指的就是数据仓库的建设了,简单来说可以分为业务数据层(DW)、指标层、维度层、汇总层(DWA)。