随着大数据被广泛应用到各个领域,对于数据的应用以及安全和用户隐私保护的矛盾也在逐渐显现。如何平衡大数据在业务中的使用以及对数据的保护逐渐成为各个企业内部的矛盾。在上周于北京举办的2018年中央企业网络安全与工业互联网交流研讨大会上,360集团大数据高级总监刘超以及360集团系统部技术专家王锋分别和与会者分享了360在大数据安全治理上的经验。安全牛记者选取了几个对很多企业而言更需要重视的方面,进行了整理。
大数据面临的风险
刘超在会上首先提到了如今大数据治理上的“许四多”难点:多形态、多介质、多地域以及多业务。在大数据的环境下,数据结构已经不像曾经那样以结构性数据为主,而产生了半结构与非结构性的数据——包括图片、视频、语音等,如何处理这些数据已经成为了一个技术问题。另外,如今的数据有着不同储存介质,不仅仅是公开的数据库类型,也有厂商自己制作的类型,在管理上又是一个问题。同时,随着业务的发展,数据的储存地点会很多,不同地点之间的数据如何联动管理也是一大问题。而最后,如何用大数据支持新业务,又是值得思考的方向。
在这种情况下,大数据自身的生命周期就存在着采集合规、传输保护、存储安全以及合规应用的四个安全要求。在大数据信息系统方面,则需要做到检测、预警、防护以及响应的要求。
安全的关键在于与各个部门协调
安全部门可能是公司运营当中最不受待见的部门之一;因为在业务飞速发展的时候,安全部门出于安全考虑,可能会采取一些措施,减缓业务的发展以及绩效。因此,业务相关部门是很可能极其抵触安全部门的方案。而对于大数据本身,由于数据的体量巨大,仅仅靠人力去做数据融合或者分散,不仅仅会因为大材小用让员工产生不满情绪,对企业自身也是并未将员工的价值最大化。而360集团同样在自己内部推行大数据安全的过程中遇到类似的困难。
刘超表示,在360集团的实施当中,首先做的就是统一各个业务部门的思想:必须要让每个人都知道数据治理的严重性以及必要性,因为一旦无法统一思想,即使产生了价值,也很难维持。第二步就与业务部门沟通,让业务部门相信安全本身是不会对业务发展产生负担,而是能让业务有更好的绩效。而最后就是通过使用更高的技术,比如人工智能等,让员工更高效地完成工作的同时,有一种成就感。
在实际落地的过程当中,360制定了很多规范——然而这些规范是在数据融合、数据集成和数据采集的过程中自动化完成以及处理的。在业务部门没有感知的情况下,把数据做一些处理,集中化到大数据中心,从而在整个公司推广标准的过程当中,不给业务部门增加负担。在大数据本身统一了标准以后,标准将直接辅助新业务,确保新业务符合标准;而对于老业务,在升级变更的过程中逐渐参考这个标准进行改变。
对于360的大数据团队,他们做了另一件对整个业务部门很有价值的工作——他们的团队花了半年时间,对整个数据进行了梳理,使得数据更加可信,能产生到更高的价值。业务部门也就更愿意使用这个平台,接受相关的标准。
只有在业务部门愿意接受安全的情况下,才能真正落实安全的解决方案,带来真正安全的大数据使用。
Hadoop安全治理
360集团系统部技术专家王锋则带来了关于Hadoop的安全治理经验。
由于Hadoop在开发之时本身的目的是为了实现数据分析的功能而非安全,因此自始至终缺乏安全的设计。主要体现在缺乏安全管控,以及缺乏身份认证上。而对于Hadoop的安全管控需求,王锋则提出了三个大方面:集中式安全管控、平台边界安全管控以及自动化安全管控。
集中式安全管控是指保障集群内部的一些安全风险,主要是像身份认证、访问授权、数据静态加密[Office1]和数据流转过程中的动态数据加密,操作的审计。对于360来说,由于业务众多,有大量不同的需求,因此自身对Hadoop需要大量不同的组件,如果对不同组件特别管控,会大大增加管控难度。360的集中式安全管控是针对数据认证、服务控制、访问授权、数据加密、操作审计,所有操作都是集中在统一的服务下做安全管控的策略。从用户身份认证上,以Kerberos基础,提供基于令牌的统一身份认证。对于静态的数据加密,360也自研了一套透明的AES加密框架,也通过像AES-NI[Office2]这种加密指令[Office3]去做了优化。另外,360也有一套BigAudit操作审计系统,对Hadoop进行一个统一关联的审计。
平台边界安全管控则是指一个集群在边界范围内,去做一些管控。360的核心思想是一个数据网关的概念,主要设计目标是想第一个就是管控数据的出入通道,确保可信数据的一个导入,同时防止隐私数据的流出。另一方面则是对操作人员的出入管控,确保接入人员可信、整个操作可追溯可追责。
而在确保了集中式安全管控以及平台边界安全管控后,自动化安全管控主要是通过自动化的管控和智能化的运维技术,去控制减少运维自身人员手动干预平台的场景[Office4],提高了运维效率,也减少了人为操作出问题的概率。对于这方面的管控,360做了三个方面:数据完整性、远程数据容灾框架以及数据的自动迁移和恢复。
对于这些管控,360都是基于自己开发的工具进行。其原因在于基于社区的开源软件,并不适合360对于安全的管控需求。而360需要深度的定制以及整合,创建出最适合于360的工具,去更好地保护数据。