Hadoop正在从阴影中走出来,并在企业IT商店中投入生产。但是,开源平台的相对新颖和经验丰富的Hadoop人才的短缺,构成了企业IT团队在深入Hadoop世界的过程中需要解决的障碍。
Hadoop它正在从阴影中走出来,并在IT部门投入生产,这些部门被其存储、处理和分析大量数据的能力所吸引。但开源平台相对较新,而且缺乏有经验的Hadoop人才带来技术上的挑战企业IT团队需要解决的问题。
Hadoop起源于Doug Cutting和Mike Cafarella的工作,他们最初开发它是为了支持开源搜索引擎Apache Nutch。当Cutting和雅虎的一个工程师团队从Nutch crawler中分离出分布式计算代码来创建Hadoop时,它变成了一个Apache项目。
今天,Hadoop的权力每一次点击雅虎,在Hadoop的生产环境跨度超过42,000个节点。那种可扩展性的Hadoop是一个甜蜜点,其目的是为了处理数据密集型分布式应用跨越数千个节点和数据的艾字节的,具有很高的容错度。
Hadoop的先驱在网络世界中 - 包括eBay,Facebook和LinkedIn,Netflix和推特——为金融、科技、电信和政府等其他数据密集型行业的公司铺平了道路。越来越多的IT公司开始在他们的数据架构计划中寻找Hadoop的位置。简而言之,其吸引力在于Hadoop可以在廉价的商品服务器上实现大规模并行计算。公司可以收集更多的数据,更长时间地保存数据,并执行过去由于成本、复杂性和缺乏工具而不实用的分析。
在Concurrent Computer上,使用Hadoop的决定很大程度上是由数量驱动的。
“可扩展性是最大的问题。Concurrent的工程总监威尔•拉扎罗(Will Lazzaro)表示。Concurrent提供视频点播系统,每天处理数十亿条与观众、内容消费和平台运营相关的记录。
Lazzaro说:“当把昨天的数据导入我们的系统,或者通过千兆大的日志文件时,Hadoop是引入这些数据的合适技术,不管这些数据是结构化的、半结构化的还是非结构化的。”
玩大数据
Hadoop允许企业存储和处理它们以前丢弃的数据——例如日志文件——因为它太难处理了,而且不完全适合传统的数据库模式。451 research公司的数据管理和分析研究经理马特•阿斯莱特(Matt Aslett)说,这就是所谓的大数据的症结所在。“这是一种处理数据的方法,以前这些数据都被丢弃了,但现在有了新的应用程序和新项目。”
除了可伸缩之外,Hadoop计算系统也是灵活的。Hadoop是无模式的,它允许用户连接和聚合来自不同来源的数据,以进行更复杂的分析。可以根据需要添加新节点,Hadoop内置的容错功能允许系统在某个节点丢失时将工作重定向到另一个位置。
“非模式化的方法,它可以让你只是存储数据,然后找出你想做的事,更适合于非结构化和半结构化数据像Web日志数据,以及数据,你知道的有价值的组织,但是你可能需要做一些实验来找出这个值是什么,“Aslett说。“在企业数据仓库中这样做的成本太高了。”
返回路径,电子邮件认证和口碑监测的公司,于2008年开始使用Hadoop试验,通过其巨大的存储潜力,并轻松地通过添加服务器扩展平台的能力所吸引。返回路径从互联网服务提供商收集大量数据并对其进行分析,以确定电子邮件发件人的信誉,精确的产能问题或监控潜在的有害信息,例如。
在创业初期,签署新的ISP或两个可能导致其数据的四倍。该公司发现自己在一个位置,它不能保证数据的,只要它愿意,也不可能处理数据的速度,因为它想,回忆首席技术官安迪Sautins。多年来,他和他的团队尝试了一些定制的解决方案,以增加公司的传统企业级数据仓库。“这些工作还算不错,但需要更多的时间和投资在软件开发比是有道理的,” Sautins说。
Hadoop改变了游戏规则。“它让我们改变了关于保留数据意味着什么的谈话。它不是以周为单位的,而是以年为单位的,”Sautins说。“Hadoop确实帮助我们经受住了存储和处理更多数据的风暴。”
移动走出阴影
的Apache Hadoop的包括两个主要子项目:Hadoop分布式文件系统(HDFS),其提供高吞吐量的应用数据访问,和Hadoop MapReduce的,其是用于对计算群集大的数据集分布的处理的软件框架。它是由一组不断增加的Apache项目,如猪,蜂房和动物园管理员,扩展其可用性的增加。
Hadoop作为企业平台的出现在很多方面反映了Linux:在部署之前,先进行影子IT项目(shadow IT projects,或skunk works),以测试软件的优点,然后在更大范围内采用它。
采用通过“谁得耳地面,搞清楚什么其他的企业都在做,”开发商大幅成长451 Research的阿斯莱特说。“这就像我们看到的通过IT部门和内部项目交给企业Linux的移动,当CEO / CIO并不一定知道,这是在那里。这正是使用Hadoop一样,”阿斯莱特说。
的出现的供应商通过商业的、面向企业的Hadoop发行版——包括支持、管理工具和配置帮助——进一步加速了企业领域的采用。这个领域的关键人物是Cloudera, MapR技术和Hortonworks,这是纺出雅虎去年开发自己的Hadoop分布。
Concurrent使用Cloudera CDH平台。“当然,我们可以在没有Cloudera支持的情况下使用开源版本,但我们找到了一个供应商合作伙伴,让我们可以扩展我们的解决方案,利用他们的专业知识,真正了解系统是如何工作的,而不是仅仅因为它是。开源”一员说。
Return Path去年开始与MapR的商业发行合作,此举是为了提高稳定性和性能。Sautins说:“我们已经能够看到工作负载的性能大约提高了2.5到3倍。”“这意味着我们可以以两倍的速度运行,这很好,或者我们可以运行一半的服务器,这也非常有吸引力。”[Also see: "MapR使Hadoop更好、更快、更容易”)
随着乘以商用的Hadoop发行版的选项外,还有其他迹象开源平台收集蒸汽。风险资本是流动的,以及与管理层的插件和分析应用程序的出现以惊人的速度新创公司。它也正从传统的数据管理的球员越来越多的关注 - 其中包括IBM,甲骨文,微软EMC——渴望从这一行动中获利。
在融资方面,2011年对Hadoop供应商来说是非常重要的一年:Cloudera获得了4000万美元的D轮融资;MapR获得了2000万美元B轮拨款;Datameer在其第二轮融资中获得了925万美元的资金,该公司生产基于Hadoop的分析工具;今年9月,DataStax获得了1100万美元,它提供了一个商业版本的Apache Cassandra分布式数据库管理系统,以及一个将Cassandra与Hadoop analytics结合起来的新产品。
另一个事件预示着Hadoop的相关初创企业增加金融投资是Accel Partners的发射这笔1亿美元的大数据基金专门用于在数据管理、存储、数据分析和商业智能等领域工作的初创公司。为了帮助花费资金,Accel组织了一个基金顾问团队,Hadoop领域的代表人物是Cutting,他现在在Cloudera工作;Gil Ebaz, Hadoop用户事实的创始人;Cloudera首席科学家Jeff Hammerbacher曾在Facebook领导数据团队;还有Facebook的Jay Parikh。
“已经有第二代和第三代创业公司在利用这一宏观趋势。在做了三年之后,我们现在是这里的老家伙了,”Cloudera产品副总裁查尔斯•佐德列夫斯基(Charles Zedlewski)说。
选择工作负载,寻找人才
Hadoop使处理大数据变得更容易,但它不是万能的。企业面临的一个共同挑战是如何选择最合适的技术来处理不同类型的数据。
Aslett说:“我认为,对于什么应用程序、什么工作负载应该在Hadoop上,而什么应该在传统的企业数据仓库中,仍然存在很多混淆。”“不幸的是,在这一点上,没有任何简单的答案。”
随着Hadoop逐渐成为主流,另一个挑战只会加剧,那就是寻找与该技术合作的人。Aslett说:“他们缺乏技能,这对于Hadoop的继续使用来说无疑是一个挑战。”
包括Cloudera、IBM、Hortonworks和MapR在内的主要公司都在培训项目上投入巨资,教授IT专业人员如何部署、配置和管理Hadoop产品。“他们很清楚,这实际上是一个问题,可能会限制Hadoop在企业层面的继续应用。”
Cloudera负责客户解决方案的副总裁欧默•特拉曼(Omer Trajman)承认:“如果你去招聘,那是非常困难的。”他建议,更可行的方法是在内部寻找成熟的候选人来学习Hadoop。
“最成功的企业并不一定走出去,并试图积极聘用。他们谁具备的基本技能的人需要的,谁在统计背景的人,科学,数据处理,Java开发和分析,” Trajman说。“这是真正关心向内寻找到一个组织,发现谁已经有企业和行业专长,熟悉的人,教他们如何使用这些工具。”
从积极的方面来看,随着Hadoop的认知度的提高,学习Hadoop的IT专业人员的数量也在增加。
“在过去的两年里,我每次与招聘人员交谈时,都会问他们是否有人有Hadoop经验。通常答案是“哈-什么?”Concurrent的拉扎罗说:“这个行业越来越成熟,所以你会看到越来越多的人加入进来。”
搞清楚什么样的人是最好的租赁本身也可能是一个挑战。
“我们最初认为我们需要找到一个核心的Java开发人员,”Return Path的Sautins说。但实际上,最适合使用Hadoop的人才不一定是Java工程师。Sautins说:“这是一个能够理解集群中正在发生的事情的人,他对挑选其中一些工具并弄清楚它们如何协同工作感兴趣,并且能够处理Hadoop生态系统中几乎所有东西都还不是1.0版本这一事实。”“这是一套真正的技能。”