编码器和图书馆员组队保存科学数据

志愿者急于归档数据从政府网站消失之前

在多佛,N.H./Photo数据救援活动沙龙·戈丹

在大风,下雪的晚上在多佛,新罕布什尔州,大约15人聚集在一个古老的转换机,盯着电脑屏幕,并疯狂地在他们的键盘敲击。

这群人——一些学生,一些程序员,至少有一个兼职的洗碗机和数据录入员——冒着暴风雪,自愿花时间来防止科学数据丢失。

这是数十个数据救援活动中的从多伦多到洛杉矶城市铺开之一,休斯敦到芝加哥。这些事件,很多在大学校园里,已持续12月以来汇集的软件程序员,图书馆员和其他志愿者谁试图安全地归档从政府网站的科学数据。

data rescue event nh lauren moore1  100713818 莎伦·戈丹

劳伦·摩尔,前端Web开发人员和数字营销经理必须学会后端编码技能与DataRefuge努力帮助。“这是一种压倒性的,但我得到了它的窍门,”她说。

“有任何管理数据的丢失,”丹尼尔Pontoh,数据录入员,洗碗机和大湾社区学院在朴茨茅斯,新罕布什尔州一名学生说:“我们只知道如何快速的数据的丢失可能与这个政府发生。”

有总统以来唐纳德·特朗普上任更值得关注。他的政府已表示,它怀疑气候变化的现实,提出了深削减环境保护署的预算与国内最顶尖的天气和气候代理,美国国家海洋和大气管理局(NOAA)。

科学家担心失去关键的研究,并在如此广泛的领域海洋温度变化,温室气体排放,在极地冰盖变化,枪支暴力和长期的研究研究设施中的动物治疗

参考气候变化被拆除从就职日的Whitehouse.gov网站。而特朗普管理据说告诉EPA网上删除教育资源和链接到气候变化的数据。

有些人担心数据会丢失故意或改变。其他要确保数据可在多个位置,尤其是不止一个政府网站,因为预算削减可能意味着这些数据集的服务器空间和保养可能不再是一个优先事项。

“我们最担心的数据可能被脱机和公众开放将消失,它只会可作为请求[信息自由法],”玛格丽特Janz,在宾夕法尼亚大学的数据收藏图书管理员说。“我们的目标是使数据的副本守信所以这将是提供给公众,并适用于研究。......这些数据本来就不应该只在一个地方。”

玛格丽特janz datarefuge 纳奥米沃尔瑟姆 - 史密斯

玛格丽特Janz,在宾夕法尼亚大学的数据馆员策,是对规划委员会DataRefuge努力。

Janz是规划委员会DataRefuge,努力已经坐在政府网站存档的科学数据的组织之一。

DataRefuge,这是之间的联合项目潘库佩恩计划人文环境,是在总统选举结束后放在一起在十一月。

该小组,与工作环境数据和治理倡议,帮助组织数据抢救活动。

DateRefuge举行了约30个数据归档的事件,每一个在约100参加者自备,根据Janz。新罕布什尔州的事件,举行3月10日,是小道岔之一。主办方也正在研究如何让他们的社区从事的长途。

“删除数据就像焚烧书籍,”马特·琼斯,在美国马萨诸塞州的Yieldbot一名软件开发人员说,被归档在新罕布什尔州事件的数据。“我热爱的数据和信息....我不相信任何东西扔出来,所有的数据是相关的人。”

与DataRefuge志愿者不侵入的网站也没有他们窃取的数据。他们正在努力使这是在公共领域数据的副本。

志愿者们在活动中接受培训,然后工作,有时持续在家努力。

工作的一部分正在做被称为播种,与会者提名将被存储在网址互联网档案馆,一个总部位于旧金山的非营利组织,公共数字图书馆。如果存档的网络爬虫可以从指定的网页中提取必要的数据,它会的。

公司DataRescue亚光jones1 100713820原稿 莎伦·戈丹

马特·琼斯,一个软件开发者,在多佛,一个新罕布什尔州事件DataRefuge档案资料

如果页面太复杂 - 说它有100个不同的文件或者是高度互动性 - 对网络爬虫工作,那么播种机会注意到,和志愿者将获得作品“收获”的信息。

使用具有两种编程语言Python或R语言构建脚本和工具,该收割机将通过手动将这些网页,收集的数据集,如天气地图或GIS文件,他们需要保存。

在新罕布什尔州的事件,志愿者分成两组 - 一个使用Python和一个使用R.然后,他们得到了从复杂的页面采收工作。

活动主办方不能说有多少数据,在这种情况下,收获,但是这是在新罕布什尔州在二月大学举行,约40人志愿一晚较早的公司DataRescue事件能够种子,可以收获约1100页通过网络爬虫。

同时在UNH和多佛,新罕布什尔州,事件,他们正在将数据从环保局网站上保存。

志愿者说,当他们通过环保局的网站去,却发现这里的页面或数据集已经被删除的情况。

环保署并没有对在其网站上的科学数据是否已被删除或更改回应置评请求。美国宇航局和诺阿,但是,上述数据并没有被删除。

Lauren Moore, a front-end web developer and digital marketing manager with Durham, N.H.-based Blue Truck Studios, said she is passionate about protecting decades worth of scientific research and has had to learn back-end coding skills to help with the DataRefuge effort.

摩尔在新罕布什尔州最近的活动中担任志愿者,他说:“这有点让人应接不拒,但我已经掌握了窍门。”“学习一门新语言并做好这份工作绝对是值得的。”

克拉丽斯佩里曼,国家科学基金会研究员,新罕布什尔大学的地球科学的研究生,说这是值得的志愿者,她有什么小的空闲时间,因为她关心保护的科学研究。

“该网站是深刻的,和网络映射也不是很大。你需要人去,并找出其中的事情联系在一起走,”佩里曼说。“不管政治背景,环境数据丢失是一个大问题......到的信息流的公共访问是非常重要的,尤其是当你有政界人士说,气候变化是不是真实的,用水问题是不是真实的。

“这是关于诚信,”她说。

丹尼尔曼纳里诺,与IBM的一名程序员,与在新罕布什尔州的公司DataRescue事件训练帮助。他说,节能的科学数据是不是政治问题。

“事情可能会丢失完全无辜,”他说。“我们需要的数据真正留下来......否则你做的一切从无到有,那里只是没有足够的资源,尽一切从头开始。科学是站在巨人的肩膀上,所以你必须确保肩膀仍有或我们迷路了。”

它已经两个月以来的特朗普政府上台,但DataRefuge志愿者说,这还不算太晚不断尝试尽可能多的数据保存,因为他们可以。

“目前只是一直不是所有被暂未改变的机会,”佩里曼说。“白宫把气候变化起飞就职日的[WhiteHouse.gov]网站都不在话下......但如果数据是如此之大和如此之深,我们有一个很难归档这一切,它可能是如此之深,他们“再有一个很难得到它一切。也许我们更快地得到它比他们“。

这个故事,“编码器和图书馆员组队保存科学数据”最初发表计算机世界

加入对网络世界的社有个足球雷竞技app区Facebook的LinkedIn对那些顶级心态的话题发表评论。
有关:

版权所有©2017年Raybet2

IT薪资调查:结果是