Hadoop有什么大不了的?

Hadoop是所有的愤怒, 它似乎。同150余家企业它使用各种尺寸的 - 包括大公司如摩根大通,谷歌和雅虎 - 它似乎不可避免该开源大数据管理系统将在你的店铺降落了。

但在冲前,请确保你知道什么你要报名参加。使用Hadoop需要培训和分析的专业知识,并不是所有的公司都有相当的是,客户和行业分析师说的水平。它仍然是一个非常年轻的市场;一些Hadoop的供应商正在与各种实现进行较量,包括为基础的。

企业Hadoop供应商

免费的开源应用程序,Apache Hadoop,可为企业IT部门来下载,使用和更改但是他们的愿望。

但对于很多企业用户,需要支持和技术专长往往在很大程度上掩盖了的自由做它自己的应用程序的诱惑,尤其是当有危在旦夕关键IT系统。

这就是支持的Hadoop的企业就绪的版本可以代替是一个更好的,更现实的选择。

下面是一些主要的商业供应商,可以帮助你的公司开始使用Hadoop的采样。有些提供本地软件包;他人在云出售的Hadoop。也有开始出现,包括最近发布一些Hadoop的数据库设备。

Amazon Web服务运行Amazon Elastic MapReduce,这是一个托管的Hadoop框架,运行在Amazon的弹性计算云和它的简单存储服务上

Cloudera企业订阅服务

使用Hadoop的数据分析解决方案

该DataStax企业的Hadoop软件

Greenplum的,EMC的业务部门,提供的Greenplum HD企业就绪的Apache的Hadoop

该Hortonworks数据平台

BigInsights,一个来自IBM的基于Hadoop的无结构数据云服务

Karmasphere分析师使用Hadoop的工具包,以帮助生产数据

MAPR提供它的Hadoop软件的企业就绪的M5版

这个列表只提供了目前许多提供企业Hadoop产品和服务的供应商中的一部分。随着Hadoop在数据市场上获得稳定的吸引力,供应商的数量也在不断增长。

——托德·韦斯

也许最重要的:不要购买到炒作。Forrester Research的分析师James Kobielus说指出,只有1%的美国企业都在生产环境中使用Hadoop。“这将增加一倍,或在未来一年三倍,”他预计,但警告仍呼吁,与任何向上和未来技术。

可以肯定的是,Hadoop比传统的数据库管理系统更有优势,特别是在处理结构化数据(比如关系数据库)和非结构化信息(比如视频)的能力上。该系统还可以扩大规模,以最小的混乱和麻烦。eBay公司负责经验、搜索和平台的副总裁休•威廉姆斯(Hugh Williams)表示,eBay拥有9pb的tb级结构化集群数据,以及运行在“数千”个节点上的基于hadoop的非结构化集群数据。

“Hadoop确实改变了我们的处境,”他说。

“您可以在同一硬件上运行许多不同类型的不同作业。在hadoop之前的世界是相当不灵活的,”威廉姆斯解释道。您可以以一种不同于上一个用户使用集群的方式来充分利用集群。它允许你在几乎没有进入障碍的情况下进行创新。这是很强大的。”

扩大规模,最多

一个早期的Hadoop采用者,德卢斯,乔治亚州。基于并发,销售视频流系统。它还为客户存储和分析大量的视频数据。为了更好地应对it处理的不断增长的数据量,Concurrent在两年前开始使用Cloudera的Hadoop CDH。

Concurrent的工程总监威廉•拉扎罗(William Lazzaro)表示:“Hadoop是我们用来解决大数据问题的铁锤。”“它让我们能够在短时间内接收和处理大量数据。”

一只并发部门收集和存储消费者对视频的统计数据。这就是Hadoop的就派上用场了,拉扎罗说。“我们现在有一个客户正在生成和存储三个十亿[数据]记录了一个月。我们预计在未来三个月内,这将是一个每月10个十亿记录全面铺开。”

过去并发的两个关键限制是,传统的关系数据库不能处理视频等非结构化数据,而且要处理和存储的数据量呈指数级增长。Lazzaro解释说:“我的客户想要保存他们的数据4到5年。”“当他们一天产生一个拍字节时,这可能是一个大数据问题。”

用Hadoop,并发工程师发现,他们可以处理他们的客户不断增长的需求,他说。“在测试过程中,他们试图处理每天两个十亿记录客户,并通过添加另一台服务器,我们发现,我们可以完成他们所需要的节点,它马上缩放,”拉扎罗说。

该公司使用跑传统数据库相同的试验比较,发现的的Hadoop的主要好处之一是,额外的硬件能方便,快捷地对根据需要,而不需要额外的授权费用,因为它是开源的加入,他说。“这成了一个与众不同,”拉扎罗说。

另一个Hadoop的用户,生命科学和基因组学公司NextBio,圣克拉拉,加利福尼亚州,在涉及巨大的数据集人类基因测序及相关科研项目的作品。

“我们把各种基因组数据,那么它策划,丰富它,它与其他数据集比较”使用Hadoop萨特南阿拉克,为NextBio工程副总裁说。“它允许对大量公开数据的质量分析”为他们的客户,其范围从药厂到学术研究人员。NextBio使用从MAPR一个Hadoop发行版。

一个典型的全基因组序列可以包含120GB到150GB的压缩数据,大约需要0.5 tb的存储为了处理,他说。过去,分析它需要3天时间,但现在有30到40台机器运行Hadoop, NextBio的员工只需3到4个小时就能完成。Alag说:“对于任何需要使用这些数据的应用程序来说,这都有很大的区别。”

另一大优势是,根据需要通过简单地添加更多的节点,他可以保持扩大系统。“没有Hadoop的,比例将是具有挑战性的和昂贵的,”他说。这种所谓的横向扩展 - 增加商品硬件到Hadoop集群中多个节点 - 是一个“缩放我们的系统非常具有成本效益的方式,”阿拉克说。Hadoop框架“自动处理集群中的故障节点的。”

这极大地改变了公司能够扩大其计算能力,以满足其需求的方式,他说。“我们不想花费数百万美元的基础设施。我们没有那种可用的钱。”

允许新类型的应用程序

Hadoop的一个巨大优势是它能够分析海量数据集可以快速识别趋势的能力,拉扎罗说。对于一家大型零售商,这可能意味着淘Facebook或Twitter的用户数据,以了解围巾颜色是时尚中的最后一个赛季,才能够比较今日热点色彩流行趋势,以帮助这些信息确定哪些将出售这个季节。

“它给你回头看的时间去寻找新的销售机会的能力,”拉扎罗说。这在并发发挥出当公司分析了汽车经销商商业或广告。“我们可以看一下数据,看看谁在观看了广告。那么你可能有一个有针对性的销售线索,您可以利用做销售你总是不知道你在找什么。”

Lazzaro说,传统的数据库可以满足许多排序和分析需求,但由于拥有超大的数据集,Hadoop可以成为一种更有效的查找方法。“它就是为处理这些问题而设计的。”

对他们来说,eBay的工程师“之类能够与非结构化数据...和建立新的产品,为eBay的工作很快,”威廉姆斯说。由于eBay的工程师可以访问该公司的3名亿列表,历史资料和大量的相关信息,威廉斯说,“这可以让我们了解他们希望客户建立的体验。”这不是真正的结构化与非结构化问题;相反,“它是关于我们的工程师能够前所未有挽起袖子和工作,我们的数据一样,”他说。

在过去的一年,eBay已经做了“一些非常了不起的事情用Hadoop,包括销售,买家体验和客户如何使用网站的改进,”威廉姆斯说。

例如,在一年中,eBay的工作人员可以看到客户何时开始输入万圣节查询和圣诞节查询。有了这些,我可以告诉你人们在寻找什么样的东西。五年前,我们根本不理解这些数据的这种用途。”

小心在那里

尽管Hadoop很好,但也有一些警告。首先,福里斯特公司的Kobielus建议,“不要对某一家厂商做出承诺,也不要将其标准化”,因为目前的市场是如此“动荡”。“供应商都在继续快速发展。”On the other hand, that does create a "vibrant ecosystem," he says.

高德纳(Gartner)的分析师马库斯•柯林斯(Marcus Collins)表示,企业需要获得充分利用Hadoop所需的专业知识。他表示:“这要求企业具备某种程度的分析能力,而目前许多企业还没有这种能力。”“你需要对员工进行培训,并在分析方面进行投资,这将使你处于开发这项技术的最佳位置。”

另一个重要的考虑因素:多数商店将需要聘请专业的Hadoop,谁是紧张,或将需要培训的内部员工。“这是不平凡的使用,” eBay的威廉姆斯说。“因此,我们已经投入了大量的培训到位,使我们的工程师知道如何使用Hadoop和可编写代码。你将不得不投资于你的开发人员和项目经理,使他们能够精通的用户,千万不要小看那。”

同时也要做好组织学习曲线的准备,因为在关键任务应用程序中需要依赖开源系统。将它用于一些不为人知的项目是一回事,但开发一个全世界都能看到的大型系统则完全是另一回事。最好准备好向管理层介绍开源的好处。

柯林斯另一个秘诀是保持“密切参与”与该项目,以确保其按计划进行。“不要只是给你的问题,你的Hadoop供应商,”他说。在一天结束的时候,“你要运行它。”

此外,Kobielus说解释说,用Hadoop最佳实践仍在不断发展,所以最好找出一些你可能会从系统中,并避免任何过于长远,开始获得短期利益。当你建立起来的专业知识,你可以找出更多的事情要做软件。同时,这种方法上的尝鲜使用来构建和扩展其集群范围“遍布板,”他说。

添加,而不是取代,其他数据库

大多数客户使用Hadoop作为其他类型软件的补充,而不是替代。例如,在eBay,公司仍然使用关系数据库以及做“许多定制数据库工作,”Williams解释说。“在eBay,我们看到了使用多种技术处理数据的价值。Hadoop对于某些用途来说是一个极好的选择,而其他技术也可以用于其他目的。”

例如,当涉及到事务时,“使用关系数据库系统是完全有意义的,”他说。但总的来说,我们的想法是“在eBay使用的技术上保持灵活性;我们看不到一个世界会有一种统一的技术。”

技术建议

eBay的Williams在处理Hadoop时提供了以下策略:

了解如何通过学习它的组织结构,有效管理的Hadoop。“如果你有大量的使用Hadoop集群的人,他们很可能会试图做一些同样的事情一次,”威廉姆斯说。“这意味着,他们很可能会产生相同的中间数据集进行分析,这是一种浪费。”

相反,他认为,一旦运行一个早晨,并将结果保存在一个地方,任何人谁需要他们可以用他们常用的数据查询,节省了大量的处理时间和相关资源。“想想很辛苦什么数据集是为用户提供实用,并创建这些数据集。”

清理你的Hadoop集群是一个重要的保养项目。“这是非常重要的,”威廉姆斯说。“你可能跑了很多Hadoop作业的,你会创造大量的数据。不过,通常来说,人们做的工作与文件将一走了之,这是对用户非常典型的。如果你这样做,虽然,你就会有很多额外的Hadoop文件结束。

“所以,你真的要创建一个策略,让您的Hadoop集群整齐,所以你不要的磁盘空间耗尽,请人清理他们做了什么并不需要。像这样的东西变成是,如果你很重要”已经有了一个大的Hadoop集群“。

在Concurrent也是如此。Hadoop还没有取代公司对传统关系数据库的使用,包括MySQL、PostgreSQL和甲骨文。“这是一个综合的解决方案,”拉扎罗说。“我们使用的Hadoop做繁重,如大规模的数据处理。然后,我们使用地图/内Hadoop的减少创建是通过传统的RDBMS方便的汇总数据。”

他解释说,在关系数据库中,通常会发生的情况是,当系统变得太大——比如说,每天有2.5亿条记录——数据库就会“对数据查询没有响应”。"However," he says, "Hadoop at that scale is not even breaking a sweat. Hadoop therefore can store, say, 5 billion records and with Map/Reduce we can create a summary of that data and insert it into a standard RDBMS for quick access."

在一般情况下,威廉姆斯说,“我并不想太多”关于Hadoop的局限性。“我想机会。你可以很快找到任何解决问题的办法”,通过开源社区。“有些人做他们不满的Hadoop的不同方面,但它是一个相当新的东西。这就像Linux的是早在1993年或1994年。”

“在我们的规模和极端数据方面,我们确实看到了独特的技术挑战,”Williams解释道,其中包括架构数据中心、设计支持Hadoop的网络以及选择合适的硬件。雷竞技电脑网站

总体来说,Hadoop对eBay来说是一个很好的策略,Williams说。“对我们来说,这绝对是游戏规则的改变者。这是我们的工程师想要使用的,它帮助我们成为一家真正的数据驱动型公司。”

这个故事,“Hadoop有什么大不了的?”最初是由计算机世界

加入对网络世界的社有个足球雷竞技app区Facebook的LinkedIn对最重要的话题发表评论。
有关:

版权所有©2012Raybet2

IT薪资调查:结果是