Verizon如何用R分析安全漏洞数据

资深科学家鲍勃·鲁迪斯称威瑞森数据泄露报告是一封“给R的情书”。

威瑞森

分析20万份记录似乎不是什么大任务。但是,当这些记录是每一个可能有数百个属性的安全事件时——不良参与者的类型、受影响的资产、组织类别等等——对于电子表格来说就有点复杂了。所以Verizon的年度安全报告,最初是用Excel完成的,现在是用R“从头到尾”生成的。

事实上,威瑞森数据泄露报告今天早些时候,Verizon企业解决方案公司的主管和高级数据科学家Bob Rudis在EARL (R语言的有效应用)波士顿会议上说,这有点像“一封写给R的情书”。

“和R一起工作很有趣,”他说。

决定从电子表格转移到R的主要问题之一是数据格式的复杂性。Verizon研究人员以嵌套的JSON形式从提供服务的组织接收事件数据,这意味着许多类别也有子类别。使用Excel导入和分析所有这些都存在问题。

鲁迪斯说,使用R还有其他好处。由于R公司的ggplot2软件包可以制作出高质量的公开版图形,该公司不再需要外部图形设计公司,因此节省了大约1.5万至2万美元。在发布之前对r创建的图形所做的唯一更改是在新字体中交换。“字体很糟糕,”鲁迪斯说。

不过,R提供了很棒的建模、聚类和Verizon想做的统计分析工具,而不仅仅是计算,比如根据组织类型检查攻击者可能会做什么。他指出,即使在金融服务领域,银行面临的最大威胁也与保险公司有很大不同。

报告团队还使用R创建交互式可视化,比如explore哪些行业面临相似的威胁?

安全数据是一种叫做VERIS的开源格式事件记录和事件分享的词汇表。对于那些想要分析公开报告的泄露数据的人,有一个真实社区数据库以及R包调用verisr很容易处理这些数据。Rudis和Jay Jacobs还写了一本书,数据驱动的安全,其中详细说明了如何使用VERIS模式和R来记录和分析安全事件。

鲁迪斯说,威瑞森报告中分析的数据比公共数据库中的数据要多得多,其中包括美国特勤局和联邦调查局等机构发送的事件。

他说,在与R合作分析数据的过程中,他学到的经验包括:

  • 使用R减价将解释性文字与分析和图形结合起来。R Markdown“使得记录、迭代、修改和分享分析变得超级容易,令人惊叹。”Rudis说。
  • “将所有东西打包”,甚至包括您不打算对外共享的内部分析代码。这使得记录函数和让其他人检查结果变得更容易。
  • 像git这样的版本控制是“生存的关键”。

项目中使用的其他开源工具包括GitLab内部协作开发和松弛的合作;Rudis写了一个R包叫做slackr使它容易发送分析从R直接到Slack。

还使用:SurveyGizmo,Room.co安全的视频聊天;谷歌他说,Hangouts没有成功,因为谷歌记录了这些环节,GPG套件加密通信和RStudio在R中工作。

鲁迪的幻灯片为波士顿伯爵会议,可在Slideshare。

这篇文章,“Verizon如何用R分析安全漏洞数据”最初发表于《计算机世界》

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对最重要的话题发表评论。

版权©2015Raybet2

工资调查:结果在