如何不同的SQL-On-Hadoop引擎满足BI工作负载

当涉及到商业智能(BI)工作负载时,Impala、Spark和Hive发现他们各自都有自己的优缺点。

Bi商业智能
思想库

根据一个新的基准,三个领先的SQL-On-Hadoop发动机 - Apache Impala 2.3,Apache Spark 1.6和Apache Hive 1.2 - 所有这些都具有独特的优势和劣势,使它们非常适合一些商业智能(BI)用例和不太适合别人。

“结论确实是一台发动机不符合所有要求,”戴夫玛利亚尼说,首席执行官和创始人说Atscale.,一个专门从事Hadoop上启用BI的启动。“我们在我们的部署中所做的内容,是我们的客户,是插入多个发动机。”

Hadoop基准上的商业智能,Atscale旨在帮助技术评估人员选择BI用例的最佳SQL-On-Hadoop技术。Atscale的测试团队使用了Star Schema基准(SSB)基于广泛使用的TPCH数据的数据集进行了修改,以更准确地代表典型的面向bi的数据布局。该数据集允许测试团队跨大型表测试查询:lineorder表包含近60亿行,而大型客户表包含超过10亿行。

[相关:Atscale希望在Hadoop上轻松添加BI]

hadoop上的sql引擎有不同的“甜蜜点”工作负载

Mariani解释说,AtScale考察了三个关键需求,以评估SQL-on-Hadoop引擎及其满足BI工作负载的适用性:

  • 执行大数据。SQL-On-Hadoop引擎必须能够始终如一地分析数十亿或十万亿数据而不产生错误,并且在10S或100秒的订单上的响应时间。
  • 快速在小数据上。该引擎需要在已知的查询模式下提供交互式性能,因此,SQL-on-Hadoop引擎返回的重要事项在小数据集上不超过几秒钟(大约数千万或数百万行)。
  • 对许多用户稳定。企业BI用户基础由数百甚至数千个数据工作人员组成。底层的SQL-On-Hadoop引擎必须在高度并发的分析工作负载下可靠地执行。

Mariani致力于建立世界上最大的奥拉普立方体在雅虎的努力!他认为,他认为这三个标准是主要要求,在Hadoop上的平均企业将必须满足。从测试团队的经验中汲取标准,在金融服务,医疗保健,零售,电信等行业的大量公司工作。

“我们使用真实的企业体验来制作一个文件,即每位技术评估者都可以作为评估过程的一部分,”Atscale产品管理副总裁Josh Klahr添加。

测试团队发现,所有三个发动机都通过了测试,并且足够稳定,以支持BI工作负载,但是一个发动机不适合所有需求。每个人都有自己的“甜蜜点”,而企业可能会发现所有引擎的混合使用可能是最合适的目标。

[相关:Tableau合作伙伴在Hadoop上]

虽然Hive通常被认为是SQL-On-Hadoop的默认值,但它远远地远离了基准中的发动机最慢,使其适合交互式查询。

“如果您想专门使用蜂巢TEZ作为您的交互式查询引擎,您将要做的最好的是2.4秒,”Mariani说。

但是,虽然它可能很慢,但蜂巢也是三个发动机最稳定的,跨多种查询类型的最佳一致性。

“蜂巢Tez是乌龟,”Mariani增加了。“它将永远完成比赛,但不是壮观,快速的时尚。这是最可靠的。”

另一方面,Impala和Spark在处理较小的数据集时表现最好。Impala在所有工作负载上都超过了Spark,但Mariani指出,Spark 1.6在性能上比Spark 1.5有了巨大的提升,他预计这一趋势将继续下去,因为Spark吸引了大量关注其开发的开源社区。Cloudera最近提议将Impala捐赠给Apache软件基金会,这也可能为它的发展提供额外的动力。

[相关:MapR的目标是将hadoop上的sql提升到一个新的水平]

目前,Impala是需要大量用户的使用案例的国王。

“普通峡击屁股谈到并发时,”玛丽安娜说。“如果你要拥有一堆运行小,快速查询的用户,那么Impala就是比火花更好的选择。”

他补充道:“如果速度不是优先考虑的因素,而是稳定性和可靠性,我会选择Hive Tez作为我的数据管道引擎。”“对于那些大批量的工作量,我会选择Hive Tez。如果我想让我的BI用户访问我的仓库,我会选择Spark或Impala。”

Mariani指出,虽然该团队没有对Apache Drill或Apache Presto等其他引擎进行基准测试,但他们将在下次测试中进行测试。

他说:“在释放和释放之间,你永远不知道谁会是一匹更好的马。”

这个故事,“如何不同的SQL-On-Hadoop引擎满足BI工作负载”最初发布首席信息官

加入网络世界社区有个足球雷竞技appFacebooklinkedin.对自己最关心的话题发表评论。
有关的:

版权所有©2016.Raybet2

SD-WAN买家指南:向供应商(和您自己)提出的关键问题