农业银行自主可控的大数据平台规划

金融大数据的应用场景,工行和建行都讲过,随着互联网+时代的到来,这些年数据的膨胀呈指数增长,分两类,一类是结构化数据,这部分增长基本可控,随着业务的增长是一个线性关系。而对非结构化数据,尤其语音、图像,优酷上的视频,一天产生的视频可能一辈子都看不完。现在应用潜力巨大,精准营销、风险控制、运营等等都对各业务,对大数据的应用提出更高的要求。深层次讲,现在随着大数据时代到来,我们处理大数据的技术手段和成本的下降都提供了对大数据的可能,不管是MPP还是Hadoop都是最近几年来风起云涌的,在技术上也是成长最快的一部分。应用的领域,大家基本相似,不细说了。
 
我们在2003年初开始搞大数据,当时有很多困惑,首先感觉到大数据到来了,现在各个行业,中央台什么东西都用大数据说话,我们在银行业我们能做什么呢?早期在十几年前我们大家做数据仓库的时候,大家可能选择面都很窄,四大行除了我们没用TD其他都是用TD做的数据仓库。我们当时用SbaseIQ(音)也很痛苦,计算资源可以扩,但IO能力就在那里。当时觉得列存储带来很大的优势,处理通用的数据量减少了很多IO。平台选用什么?还用传统的吗?新型的怎么样?金融在有些技术的选择上还是相对比较保守的,我们不会用最新的技术,不会用最新的版本,这也因为金融工委和国家人民银行对于我们的连续服务要求特别高,一旦出了事情领导交不了差。大数据在哪些领域能优先创造价值?你做了那么多大数据,领导说你能给我带来什么,不管你用什么技术积攒了多少数据,采用什么样的管控机制保证数据安全,另外又用什么运维保证机制保证业务的连续性。
 
农业银行对大数据的预言2003年就开始了,2004年的行长会上就明确了农业银行的大数据建设。我们在建设过程中,这20字就是我们工作的出发点,夯实基础、拓展服务、提升应用、深入挖掘、推动治理。目标是促进全行的业务创新、管理创新、营销创新和服务创新。我们实施的路径基本就是统筹规划、顶层设计、共享复用、分步实施。
 
自主可控方面,我们从几方面,硬件方面采用华为的RH2288系列,2C、docore、256内存、12 4T硬盘,不同时期买的硬盘的容量是不一样的,后来是4T,之前是3T。基础软件方面我们引进了国产的南大通用做的MPP架构数据库,我们在原形试运行阶段从2013年圆形环境开始投产,采用28个数据节点,2014年3月份把它扩到56个节点。非结构化,结构化的数据上游生产数据基本都是放在MPV架构数据库里,使用起来技术上更流畅,效率更好。Hadoop方面,非结构方面目前使用的是CDH开源版,大概有100个左右的Datanode。数据模型方面我们结合先进的建模理论,我们融合了范式和维度的思路。我们在主库核心层面基本是范式建模减少重复。维度方面由业务驱动的方式建立维度模型为主。自主可控在基础的工具上,大家知道有ETL、批量调度、源数据的管理,这些东西都是我们自主开发的。我们制定了一套比较完备的规范、制度、方法、标准。
 
这是我们整体的逻辑架构图,左侧是数据源层,上游的生产系统,几乎全行所有的生产系统的数据到今年底已经全部进来了,金融交易类百分之百都进来了,现在有60多个上游系统,通过一个交换平台,交换平台不仅仅为大数据服务,负责上游生产和下游数据消费系统总分行之间、总行各应用系统间数据交互的平台。第二,数据处理层,淡黄色指关系型的数据库,也就是MPP架构数据库。操作数据区、非结构化数据区、历史数据平台、流计算,流计算用Hadoop Stam架构。下面是Hadoop的东西。我们在整个大数据平台的结构化主库里分了基础数据库、共性加工区和指标区,非结构化有操作数据区、非结构化处理和历史数据平台。影像那部分早期已经建好了,为了减少网络压力基本上存在分行。
 
跟传统不一样的是大数据平台的日加工时间目前在七八个小时,早期批量一个是优化不到位,一个是处理的分层,所以用了Hadoop把ETL和操作数据区都放在Hadoop里,因为可以节点多、计算能力强,完成了ET的过程,上游来的全量数据在这里做了归类,生成了一个纯层量的数据,减少了一天的批量时间几个小时,提升33%的性能。数据集市层,现在规划8个数据集市,跟其他行没有太多区别,客户营销、风险管控、外部监管,对分行服务的集市,各行服务的对象都是一样的。底下研了数据提取平台,外部监管和数据提取任务特别重,早期都得到生产去导带生成,现在我们通过单独建一个环境,把一些数据预加工好,基本以宽表的模式,以前做加法的事情变成了做减法,至少80%的提出需求都在我的环境里直接提取,大大减轻了人力。底下是分析挖掘平台,ODM、SaaS都是农行已有的云,大数据只是它的用户而已,我们在Hadoop分装了应用,为全行的分期挖掘提供服务支撑。
【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章