比较顶级Hadoop发行版

Hadoop引入了一种简化大型数据集分析的新方法,在很短的时间内重塑了大数据市场。事实上,今天的Hadoop经常是大数据的同义词。

由于Hadoop是一个开源项目,许多供应商都开发了自己的发行版,添加了新的功能或改进了代码库。本文通过Altoros他提供了主要发行版的概览,描述了它们与标准版的区别。

标准开源Hadoop发行版(Apache Hadoop)包括:

这只是一组基本的Hadoop组件;还有其他解决方案——如ApacheHive、ApachePig和ApacheZooKeeper等——广泛用于解决特定任务、加速计算、优化常规任务等。

当然,供应商发行版的目的是克服开源版本的问题,并为客户提供额外的价值,重点是:

  • 可靠性.当检测到错误时,供应商的反应会更快。他们及时交付补丁和补丁,这使得他们的解决方案更加稳定。
  • 支持.许多公司提供技术支持,这使得采用关键任务和企业级任务的平台成为可能。
  • 完整性.Hadoop发行版经常会使用其他工具来解决特定的任务。

此外,供应商通过将更新后的代码回馈给开源存储库来参与改进标准Hadoop分发版,从而促进整个社区的发展。

Cloudera、MapR和Hortonworks提供了三个顶级的Hadoop发行版。下面的图表说明了市场调查的结果。2012-2017年大数据供应商收入和市场预测它比较了这些主要Hadoop供应商在2012年的收入。

hadoop分布图表

图1所示。2012年主要Hadoop发行版的市场价值为100万美元

虽然Cloudera和Hortonworks声称他们是100%开源的,但MapR在M3、M5和M7 Hadoop发行版中添加了一些专有组件,以提高框架的稳定性和性能。

除了Cloudera、MapR和Hortonworks, Hadoop发行版还可以从IBM、英特尔、Pivotal Software和其他公司获得。这些发行版甚至可以作为软件套件的一部分发布(例如,IBM的发行版),或者设计用于解决特定任务(例如,英特尔为Xeon微处理器优化的发行版)。

三种流行Hadoop发行版的关键特性

表中单元格中的值表示特定Hadoop发行版中可用的相应组件的版本。有关性能比较,请参阅我们的Hadoop发行版:Cloudera、Hortonworks和MapR研究。

hadoop

Hadoop 2.0

尽管经过了各种供应商的改进,Apache Hadoop 1.0仍然存在以下问题:

  • 只有一个NameNode管理整个集群。它处理所有元数据操作,并将元数据存储在RAM中。由于可扩展性仅限于约4000个节点和40000个任务,因此该节点是单点故障。
  • 无法在某些节点上更新Hadoop组件。
  • MapReduce范例只能应用于有限类型的任务。
  • 没有其他数据处理模型(MapReduce除外)。
  • 集群的资源没有得到最有效的利用。

虽然大多数发行版都是为了解决这些限制而开发的,但与开源版本相比,它们没有引入任何重大的体系结构更改。这就是为什么Hadoop 2.0在2013年出现时成为一个真正的突破。特别是,它的特点是Thread(另一个资源谈判者),一个新的集群管理系统,将Hadoop从批处理数据解决方案转变为一个真正的多应用程序平台。更新版本消除了以下问题:

  • 单NameNode系统的漏洞(单点故障)
  • 集群中可能的节点数大大增加。
  • YARN扩展了Hadoop可以成功解决的任务数量

下图展示了在Hadoop 2.0中实现的多应用原理,YARN实际上是HDFS和数据处理应用之间的一层。

hadoop架构

图2。架构比较:Hadoop 1.0与Hadoop 2.0。

来源:Hortonworks

YARN的主要思想是将两个主要任务—资源管理和调度—分解为两个独立的概念。YARN有一个中央的ResourceManager和一个ApplicationMaster,它们分别为每个应用程序创建。这种方法允许同时运行批处理、交互式、内存中、流、在线、图形和其他类型的应用程序。下面的图3和图4展示了两个Hadoop版本的架构差异。

Hadoop

图3。在Hadoop 1.0中管理任务

Hadoop 1.0只有一个JobTracker,它必须处理数千个tasktracker和MapReduce任务。这种架构限制了可伸缩性选项,并允许集群一次运行单个应用程序。

Hadoop总经理

图4。管理Hadoop 2.0中的任务

Hadoop 2.0有一个ResourceManager和多个applicationmaster。由于每个应用程序都由一个独立的ApplicationMaster管理,因此它不再是集群中的瓶颈。作为所述在Hortonworks开发团队的说明中,他们能够“模拟由现代硬件组成的10,000个节点集群,没有重大问题。”将集群管理任务与应用程序生命周期分离可以极大地提高集群的可伸缩性。

同时,通过全局ResourceManager, YARN提供了更好的资源利用率,这也增加了集群的旋转。YARN允许运行共享公共资源池的不同应用程序。没有预定义的Map和Reduce槽,这有助于更好地利用集群内的资源。

在Hadoop内部运行非mapreduce任务的能力使YARN成为下一代数据处理工具。Hadoop 2.0提供了额外的编程模型,例如图形处理和迭代建模,这扩展了使用该工具可以解决的任务范围。

此外,我们希望在不久的将来看到纱线应用的快速增长。ApacheGiraph(用于分析图形,例如Facebook上的社交关系)、Spark(机器学习和数据挖掘)、ApacheHama(机器学习和图形算法)、Storm(实时的无限数据流)等调整新架构。

Hadoop发行版明天

Hadoop发行版的发展有几个趋势:

*采用纱。Hadoop 2.0支持更大的集群,这可以同时运行更多的计算。它接受了一个新的集群管理系统,适合更广泛的任务,包括支持更灵活的数据处理和合并算法。因此,Cloudera和Hortonworks在2013年一直在积极采用它。由于MapR在其发行版中使用了一些专有组件,所以它需要多一点时间。支持YARN的MapR 2.0版本是计划2014年3月(但实际上已在今年4月的4.0.0测试版中实施)。虽然它仍然使用自己的文件系统,而不是默认的HDFS,但似乎该供应商可能转向更广泛地使用开源Hadoop代码,因为它现在为不同的开放Hadoop组件提供了更多支持。

*第三方数据整合。Hadoop发行版正在与第三方解决方案集成来分析数据。例如,Cloudera添加了将CDH (Cloudera的发行版包括Apache Hadoop)与数据分析和报告系统(如Oracle、Tableau、Teradata等)绑定的连接器。CDH支持Talend Open Studio for Big Data,这是一个易于使用的图形环境,允许开发者可视化地绘制大数据源和目标,而不需要学习和编写复杂的代码。该工具包含450多个连接器,用于从各种数据源获取数据。

*显著的性能改进。Cloudera最近宣布支持Spark。通过内存计算,该模型可以极大地提高数据处理速度,在某些情况下可达100倍。Hortonworks也在致力于提高计算速度。该公司发起好讽刺人的人,这是一个旨在使Apache Hive查询速度提高100倍的项目。它还在努力优化存储的数据,以加快处理速度。

ApacheDrill是一个由MapR支持的项目,旨在解决类似的任务。它基于谷歌在白皮书中发布的模型。”Dremel:Web级数据集的交互分析“然而,该项目是全新的,可能还没有准备好投入生产。

Pivotal Software发布了PivotalHD,这是一个Hadoop发行版,以HAWQ为特色,HAWQ是一个专有组件,能够处理类似sql的查询快318倍比蜂房。不幸的是,没有独立的评估可以证明这些结果。

如果您对具有大规模并行处理器架构的类似系统的第三方性能基准测试感兴趣,可以查看这些数据从AMPLab伯克利。

*数据安全。显然,Hadoop供应商将更加努力地提高数据访问的安全性,限制权限,并解决更广泛的数据保护问题。

*扩展特定任务的功能。提供Hadoop发行版的公司总是希望添加将新功能引入框架的模块。例如,Cloudera的发行版包含全文搜索和Impala,Impala是一个使用SQL查询实时处理HDFS中存储的数据的引擎。Hortonworks在Stinger计划中增加了对SQL语义的支持,并正在开发ApacheTez,这是一种新的体系结构,它将通过消除不必要的任务和改进HDFS的写/读操作来帮助加速迭代任务。Wandisco通过其雷竞技电脑网站不间断的Hadoop技术。

结论

如今,Hadoop不仅是大数据生态系统中不可或缺的一部分,而且是一股核心力量,为一系列相关工具提供了新的起点。虽然Hadoop 1.0在企业系统中的应用仅限于特定类型的工作负载,但情况会随着时间的推移而改变。

新的架构扩展了Hadoop可以解决的案例范围。例如,如果与Storm一起使用,它将加速处理无限的数据流;如果与SPARK合并,它将促进数据分析计划;有了Tez,迭代算法的运行速度会更快。

本文只概述了生态系统的趋势,没有对性能进行比较。对于现实生活中基于Hadoop发行版的YARN集群,仍然很难找到性能结果。详尽的数据仅适用于Hadoop 1.0:在这里已经在HDP 2.0上更新了Hive),在这里(Hortonworks、Cloudera和MapR)。

原因很简单。就Cloudera而言,新架构仍处于测试阶段;MapR计划于2014年3月发布其2.0版本。大多数其他供应商也在开发过程中。因此,比较Hadoop 1.0和2.0“实际运行”的性能将是一件有趣的事情,并找出这种差异如何影响构建在Hadoop发行版之上的整个集群。

Grigorchuk是Altoros公司的研发总监,该公司专注于加速大数据项目和平台即服务实现。他是大数据、分布式计算、数学建模和云技术等多个研究项目的作者。

关于Altoros:Altoros是大数据和平台即服务专家,为IaaS/云提供商、软件公司和信息驱动企业提供系统集成。该公司在Hadoop、NoSQL、CloudFoundry PaaS和多云部署自动化的交叉点上构建解决方案。欲了解更多信息,请访问www.altoros.com或跟随@阿尔托罗斯

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对自己最关心的话题发表评论。

版权©2014Raybet2

资讯科技薪酬调查:结果在