数量(Volume)
指大数据的“大”。通常,大数据是指比传统数据存储库大得多的数据集,可能超出传统数据库软件存储和处理的能力。然而,“大数据”是一个带主观性的术语;没有明确定义超过多少阈值(例如,多少兆字节)的数据才能称为“大”。沃尔玛正在筹建一个名为“数据咖啡馆”的数据分析中心,将包含40 PB的交易数据。
速度(Velocity)
指生成或更改数据的速度。大数据是不断产生和变化的,通常是实时的,而不是传统意义上通过提取、转换和加载(ETL)批处理作业加载数据的方法。比如,据《福布斯》杂志报道,脸书(Facebook)的12亿用户平均每分钟更新状态29.3万次。
多样性(Variety)
指大数据解决方案中可能使用的多种数据源和数据类型。数据可能来自内部系统、客户、消费者或第三方。此外,数据可能是结构化和非结构化数据的混合。结构化数据通常符合定义的数据模型(如列和行),而非结构化数据可能是原始文本、图像,甚至可能是音频或视频文件。例如,黑骑士公司(Black Knight Inc.)为抵押贷款行业提供了一个名为LoanSphere Data Hub的大数据解决方案,该解决方案将来自多个渠道的数据组合在一起,包括内部主机和基于客户端服务器的交易处理系统,以及来自平面文件和公共记录的行业数据。这些数据通常以扫描文档图像的形式存在。
值得一提的是,一些研究人员还建议增加更多的V来描述大数据,如真实性、价值、可变性和可视化等。虽然这些附加概念是有用的,但三个V模型更常用,足以对大数据作基本了解。
关键业务风险
随着企业越来越多地采用大数据解决方案来提升业务价值并保持竞争优势,IS审计师必须了解相关风险并考虑提供适当风险管理保证的方法。以下是相关风险的说明:
“组织可能没有足够的资源(尤其是人才储备)来充分利用大数据相关的商机。”
IT战略调整和资源
了解组织的总体战略以及如何利用大数据支持该战略是至关重要的。组织可能没有足够的资源(尤其是人才储备)来充分利用大数据相关的商机。确实,已经有预测指出,数据分析领域的人才会短缺。据IBM预计,到2020年,每年将有270万数据和分析类的新职位出现。这种人才短缺可能会削弱组织利用大数据实现业务战略的能力。此外,各组织可能会采取一些大数据新措施,主要将其视为技术项目,而未充分考虑业务目标和预期结果。
COBIT 5框架,特别是“调整(Align)、计划(Plan)和组织(Organization) ”(APO)流程,强调在制定、购入和实施技术解决方案之前,必须有效地进行人力资源管理,并将IT措施与业务目标调整一致。因此,审计师应评估技术战略和资源管理流程,以确保组织的大数据技术方案与其业务战略保持一致,并确保有充足且合格的资源(如合格的IT和开发人员及数据分析师)可用。
开发与实施
在与开发实施复杂的技术解决方案相关的实施和项目管理风险方面,大数据解决方案与传统信息系统没有区别。大数据技术项目可能在规模、质量、成本和上市时间方面遇到挑战。IS审计师应使用适当的项目管理和系统开发流程,确定大数据解决方案的获取和开发是否是通过控制的方式。重要的大数据新方案可能需要正式的项目规划以及由组织的项目管理办公室进行定期监督。
此外,大数据方案通常使用迭代敏捷开发方法,如Scrum。IS审计师可能比较熟悉传统的瀑布式系统开发过程,这些过程需要对通常定义得非常详细的需求和标准进行正式文档记录。然而,敏捷系统开发方法本质上是迭代的,强调的是可运行的软件而不是全面的文档记录。IS审计师可能会面临挑战,以确保根据规定的验收标准进行了充分的测试,从而确定大数据解决方案正在按预期运行。同时,应特别关注对数据质量的评估和保证。这一点可以归纳为第四个V,即数据的真实性。为实现这一目标,IS审计师应评估组织的大数据质量保证策略,甚至要确认是否实施了有效的数据治理计划。
开源和云技术
组织可以选择使用开源技术平台(如Apache Hadoop)或第三方云计算环境(如Amazon Web Services(AWS))实现大数据解决方案。这些技术具有独特的风险因素,必须由IS审计师加以考量。例如,开源软件的可配置性很高,可能更容易受到安全漏洞的影响。2017年2月有记录指出,有5000多个安全设置薄弱的Hadoop集群暴露在互联网上。
Hadoop是一种可高度扩展的软件,设计用于在低廉的商品服务器硬件上运行。随着节点数的增加,安全设置薄弱的风险也随之增加。在实施基于开源软件的技术解决方案时,另一个风险考虑因素是与用于组织大数据分析解决方案的特定开源技术相关的许可证类型。开源代码有许多类型的许可证,有完全开放的,也有限制严格的。大数据解决方案中使用的不同许可证类型会带来侵犯知识产权或暴露组织专有代码的风险。IS审计师应评估控制措施,以管理和减少这些漏洞,并监督是否遵循了开源软件许可证的要求。
此外,许多供应商正利用云技术提供大数据解决方案。选择在云环境中实现大数据的组织应该意识到相关的风险,包括第三方供应商的性能、偿付能力、合同合规性和安全风险。IS审计师应确认大数据云技术提供商有足够的安全控制,且管理层对第三方供应商关系提供足够的监管。
数据隐私与安全
与大数据相关的一个重要关注点是,确保有足够的保护措施来保护数据和遵守隐私要求,特别是消费者信息。由于安全控制不充分、恶意的内部人员、外部威胁因素和薄弱的系统安全配置等因素,数据可能被损坏或窃取。
“IS审计师应审查大数据基础架构,以确定它是根据行业或供应商安全配置指南进行配置的。”
2017年6月,一家为政治活动提供咨询服务的数据分析公司意外泄露了1.1万亿字节敏感的消费者信息,其中包括2亿美国选民的姓名、地址、出生日期和选民登记信息。
如果在大数据解决方案中收集和存储敏感数据,对于这些数据的保护、共享、保留和清除方式则可能有一定的法规监管或行业特定的要求,例如美国的Gramm-Leach-Bliley Act (GLBA) 法案、健康保险便携性和责任法案(HIPAA)以及欧盟的通用数据保护条例(GDPR)。因此,对于消费者财务、健康数据和非公开信息/个人识别信息(NPI/PII)等信息的保障措施的评估应予以特别关注。
大数据平台应以安全的方式配置,并应限制对数据的逻辑访问。特别敏感的数据应在静止状态和传输时加密。IS审计师应审查大数据基础架构,以确定它是根据行业或供应商安全配置指南进行配置的,如BMC软件和安全研究公司Securosis提供的Hadoop安全指南。应启用系统审计日志,并定期审查或监控。支持大数据分析解决方案的操作系统和软件平台也应定期扫描漏洞并进行修补。此外,还应考虑其它环境安全控制,如防火墙、入侵检测系统(IDS)和数据丢失预防(DLP)系统。应对基于互联网的大数据解决方案进行渗透测试,尤其是那些包含敏感信息的解决方案。IS审计师应仔细审核组织所在行业的有关数据保护和隐私的法规,并仔细评估大数据平台和相关基础架构和应用程序的安全控制。
总结
大数据分析解决方案已在许多行业广泛应用,并将在不久的将来继续经历大幅的增长。传统的数据仓库技术在成熟的数据库管理系统中使用高度结构化的数据,而现在,人们使用新兴开源软件在商用计算机硬件上存储大量非结构化数据。IS审计师必须更新自己的技能和知识,以适应这种模式转变。虽然大数据具有巨大的商业价值潜力,但是风险也相当大,必须进行妥善管理。IS审计师若能充分了解大数据,能够为这一新兴技术提供重要保障。
作者简介:
Joshua McDermott, CISA, CEH, CISSP, PMP 。本文作者是Black Knight Inc.的IT审计总监,Black Knight Inc.是金融业顶级软件提供商,维护着业界领先的美国房地产数据库,覆盖美国所有房地产记录的99.9%。Joshua McDermott在IT专业领域已经工作了20年,在IT审计、风险和信息安全领域拥有10年经验。麦克德莫特也是美国空军预备役网络防御作战军官。