中国电信大数据能力开放应用与分享

中国电信自身定位目前是在做数据能力开放平台商, 我们是把中国电信的数据资源和能力包装和合法合规的能力向社会开放,在这个当中有三个问题,一个是互信融合,安全合规和怎么高效,现在大家在讲数据在分享过程中需要融合训练,你的数据是你的,我的是我的,都互相不相信,这个数据融合很难推进。什么样的数据是安全的,数据的颗粒度开放出来要安全合规,什么样的数据要关联,这个过程中也出现这样的疑问,作为一个海量的数据,对于社会上广泛的合作伙伴,这个时候性能,以及设备灵活性会成为制约整个数据开放的很重要的问题。
 
我们当时在整个数据开放的过程中针对这三个问题想,我们到底应该怎么办,我们在想一开始的时候希望有没有成熟的解决方案,包括跟业内开源和大数据厂商做了很多交流,有没有一揽子的解决方案解决我们所有的烦恼,后来发现其实很难,在这个传统大数据处理能力,我们常说的Hadoop之外,要持续开放出来还缺什么东西,我们归结为三项基本能力,四项运营性能力和两项云处理能力,我们在大数据之外把标签的发布整个数据的隔离调度和数据安全的管控以及生产环境的实施构建,在Hadoop之外构建了我们自己的能力。有两套运营体系监控和审计,以及对于数据的治理,这个是我们的主要能力。
 
互信融合,解决这个问题,我们有一个很简单的思路,假如双边都有数据,把数据放在一个环境里,让他做运算,然后把服务器砸了,每人把这个统计结果去做,这个方式是不是能解决安全问题,大家说这个方式说不定能接受,但是把服务器砸了成本太高,云主机是一个很好的思考,2013年的时候我们过了工信部的认证,我们在想有没有一种可能,在一个云主机环境里构建一台主机,把大数据生产环境布上去,这样和用户的环境是一个专线的打通,大家把数据放上去,运算完之后把这个结果取走把整个云主机模板做删除,这种情况会让大家放心一些,敢把数据放上来,这是我们做的第一个尝试。现在也在做一些试水的应用,这个方式是比较口语化的,更多时候,我们是基于用户空间的处理方式,在整个要做数据融合运算过程中有一定预定义的模板,我们通过定制的模板给用户搭一个混合云出来,通过专线VPN的方式进行打通,通过PaaS技术在主机上时时生成大数据运营环境,生成之后双方把数据放进来做一些运算,最终把结果放在标签系统上,把结果取走,把这个结果做一个完整的删除包括虚机物理文件的数据,这样数据在一个黑盒子中完成运算,通过界面调度,这种情况比以前往前小小的走了一步。
 
第二是安全,在安全有五个核心,隔离脱敏,标识授权审计,隔离,在隔离上想做好安全运营,在技术上需要更多的探索和突破,第一,比如我们数据文件,两边的数据文件,如果要来给用户开放,第一,我能不能做到分段的抽取,第二,给这个用户提供三个字段那个提供五个字段,这样开放做融合训练,他能不能把用户的空间隔离起来,第二用户大数据的组件,他在生态里的弱项是多租户隔离,你们有这种技术能力实现这种隔离机制,这是我们去年整个研发工作的重点,我们更多时候是通过已有的开源软件的改造,能够实现一种多租户的隔离。
 
第三,数据的脱敏,整个数据从采集和生产环节出现之后,会在清洗和转换过程中把一些关键字段用户的信息姓名家庭住址等等包括终端通话记录信息,把这些脱敏做了,保证流入到生产环境的数据安全性要有保证,通过标识把脱敏的数据,假如脱敏之后找不到人了这个数据就没用了,我们通过标识把脱敏的数据彼此之间重新关联起来,产生逻辑关联,在数据使用过程中有授权,你使用哪些数据能做控制,要有审计的痕迹,这样有第三方审计机构做审计才能满足要求,整个安全合规一定要把隔离脱敏标识授权审计五个环节做好之后,数据的开放才能落到实处才敢开放出来。
【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章