一年前(或许更早一点),大数据才刚刚开始跻身业界最常用的热门词汇之列。今天,每个人都在谈论它作为一个潜在的强大的企业安全。但仍有许多从业者在努力理解这个概念,就像他们在几年前努力弄清楚云安全一样。
[此外:大数据成功的7个步骤]
但Zions Bancorporation公司的首席信息安全官兼安全执行副总裁普雷斯顿•伍德(Preston Wood)对这么多人认为大数据是个难题感到困惑。
[另见大数据的安全风险与回报]
几十年来,他一直以这样或那样的名字使用大数据来支持他的安全计划。近年来,伍德和他的团队对他们的计划进行了重大改革,以更好地处理数据,使数据能够更自由、更快速地进出网络。通过采用Hadoop等工具,他们极大地增加了数据量可以一次分析。他们已经找到了如何在接近实时的情况下进行分析的方法,从过去的全天任务中减少了。
这是关于锡安如何成功的故事。
旧的是新的
虽然“大数据”一词是新的,但Zions从20世纪90年代开始使用这个概念,当时它开始利用庞大的信息供应(仅安全工具和设备每周就产生约3tb的数据)来理解自己的安全态势。伍德说:“在大数据被称为大数据之前,我们就有一个大数据战略。
该公司当然有大量的数据可以利用。它在美国西部拥有8个银行业务和500个实体网点。雷竞技比分它是最早采用安全信息和事件管理(SIEM)技术,使用它更好地分析其数据流。
当涉及到大数据时,专家们倾向于关注如何利用它来增加收入;在较小程度上,他们可能会注意到并评估(潜在的)大数据仓库的安全风险有价值的商业智能和分析。但Zions做了一些不同的事情:它决定将大数据作为其安全的核心部分,而不是将信息视为其防御系统中的另一个潜在漏洞。
该公司的海量数据存储被用来更好地了解其网络上的活动。如果公司内部或外部有人四处窥探,试图侵入公司的系统,那么线索就在那里,等待从更大的数据源中筛选出来。
进入SIEM
为了更好地分析数据并将其用于安全部门,Wood and company成为了SIEM技术的早期采用者。除此之外,SIEM允许安全部门:
聚合来自多个来源的数据,包括网络、安全、服务器、数据库和应用程序。这提供了整合监控数据和避免错过关键事件的能力。
将事件分解成更小的桶,可以研究相似性,这可能指向攻击活动。
在出现异常活动时生成警报。
但到了2008年,锡安与锡姆相撞。数据供应变得过于庞大和复杂,无法处理。现在需要几个月甚至几年的时间才能拼凑出一幅可行的画面。数据积累的巨大力量和事件分析的频率简直压倒了SIEM。
“这并不是说SIEM已经过时,需要用其他东西来取代,”伍德说。“而是我们需要一些东西来增强SIEM。它非常适合告诉数据该做什么,但它不能告诉我们该做什么。”
规模问题
团队开始寻找这个谜题的缺失部分,并很快在Hadoop中找到了它。
开源Hadoop技术是推动当今许多更成功的大数据安全计划的引擎。公司使用它来收集、共享和分析流经其网络的大量结构化和非结构化数据。伍德对此发誓。
“现在,SIEM对于某些数据源来说只是安全数据仓库的一个提要,"Wood说。Hadoop成为了建立该仓库的核心要素。该公司于2010年开始转向Hadoop。不到一年,该团队就专门使用该平台。积极的结果迅速而令人愤怒。因为Zions无数的安全工具和设备每周产生数TB的数据,每天将日志加载到系统中stem将是一个为期一天的过程。现在它几乎是实时发生的。
在这个坏人已经开发出攻击公司数据和网络的快速方法的世界里,这一点至关重要。Hadoop可以一次处理超过100个数据源,可以发现外围的ping信号、感染部分网络的恶意软件、诸如鱼叉式网络钓鱼之类的社会工程尝试,等等。
Securosis的首席技术官兼安全分析师阿德里安·莱恩(Adrian Lane)表示,对于许多公司来说,Hadoop也让大数据安全变得实惠。他说:“云让大数据变得更容易获取,价格也更便宜。Hadoop等免费工具一直是一个重要的驱动因素。它总是归结于钱——什么更便宜。”。
Hadoop是如何工作的
Apache Hadoop网站将该技术描述为“一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。”它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。“与依赖硬件提供高可用性不同,该库本身旨在检测和处理应用层的故障,在计算机集群上提供高可用性服务,而每台计算机都可能容易出现故障。”
Hadoop包括以下模块:
Hadoop Common:支持其他Hadoop模块的通用工具。
Hadoop Distributed File System (HDFS):分布式文件系统,提供对应用数据的高吞吐量访问。
Hadoop纱线:作业调度和集群资源管理的框架。
Hadoop MapReduce:基于yarn的大数据集并行处理系统。
Apache的其他Hadoop相关项目包括:
Avro:数据序列化系统。
Cassandra:一个可扩展的多主Adatabase,没有单点故障。
Chukwa:用于管理大型分布式系统的数据收集系统。
HBase:一种可扩展的分布式数据库,支持大型表的结构化数据存储。
Hive:一种数据仓库基础设施,提供数据摘要和即席查询。
Mahout:一个可扩展的机器学习和数据挖掘库。
Pig:用于并行计算的高级数据流语言和执行框架。
ZooKeeper:面向分布式应用的高性能协调服务。
做你的家庭作业
与任何技术一样,Hadoop采用者需要了解工具本身的漏洞,以及任何此类工具可能出现的无数兼容性和配置问题。
Zions的技术和运营风险与治理主管亚历克斯•赫顿表示:“就像我们看到的一些GRC(治理、风险和合规)安装一样,这可能会造成巨大的爆炸,造成巨大的资金浪费。”
他的建议吗?冲进去之前先做作业。花所有必要的时间为您要处理的数据细化详细的路线图,仔细检查Hadoop将如何与您的网络的其他部分合作,并为其开发一个清晰的分类模型和严格的指标。
Hutton说,Zions通过使用自定义控件和事件记录和事件共享(VERIS)框架的词汇组合实现了这一点,VERIS框架提供了一种通用语言,以结构化和可重复的方式描述安全事件。
“自定义控件和VERIS是我们度量的本体。公平[信息风险因素分析]是我们的风险本体。具体的指标支持这些本体所描述的概念类别。
如果你没有这些东西,赫顿补充说,你还没有准备好把大数据作为安全工具。
由于伍德的团队在推出新仓库之前做了所有的准备工作,Zions的部署相对顺利。赫顿表示,只要其他公司也做足功课,它们也可以期待获得类似的成功。
这个故事“大数据的大目标”最初由CSO .