为什么谷歌BigQuery在大数据并发方面优于BI

您是否应该使用Hadoop进行大数据商业智能需求？bigquery？内部部署Hadoop，云中的Hadoop和像Google BigQuery这样的无服务型号有什么区别？Atscale的一个新的基准测试旨在帮助您导航这些问题。

如果你想在大数据上做商业智能(BI)，处理大量并发查询的能力对你来说是一个关键问题，谷歌BigQuery可能是你的选择商业智能的基准星期四由Atscale发布，一个专门从事帮助组织在大数据上启用BI的启动。

“并发是Achilles的脚跟，为Hadoop的挑战，”Atscale产品管理副总裁Josh Klahr说。

但Atscale的基准发现并发成为Bigquery的最大实力。其无操作系统的模型意味着小数据集上的并发查询性能显示没有查询劣化，即使在25份并发BI用户上方的Query卷。

“我认为，并发性是最大的问题，”Klahr说。“但是BigQuery的用户体验也非常棒。也许这并不令人惊讶，因为谷歌多年来一直专注于消费品:使用该产品的一切都非常好。实际上花费最长时间的是将数据从本地网络加载到云上。一旦我们有了数据，创建表格就非常容易了。”

对于其基准，Atscale使用了它去年部署的相同模型SQL-On-Hadoop发动机的基准测试关于BI工作负载。对于该测试，该想法是帮助技术评估人员选择最佳的SQL-On-Hadoop技术，为他们的BI使用情况。Google BigQuery基准的目标是相同的。

“Atscale基准为企业领导提供了有用的比较，他们需要在星座研究中的副总裁兼首席分析师Doug Henschen在星期四表示。“随着数据增长更复杂和多样化，这些基准统计数据有助于企业了解领先的大数据查询选项，并为支持BI基础设施提供更好的决策。

[相关:谷歌的bigquery将大数据带到云端]

AtScale的测试团队使用了Star Schema基准（SSB）基于广泛使用的TPCH数据的数据集进行了修改，以更准确地代表典型的面向bi的数据布局。该数据集允许测试团队跨大型表测试查询:lineorder表包含近60亿行，而大型客户表包含超过10亿行。

对于谷歌BigQuery基准测试，AtScale研究了去年用于评估SQL-on-Hadoop引擎的三个关键需求，以及它们满足BI工作负载的能力:

执行大数据。SQL-On-Hadoop引擎必须能够始终如一地分析数十亿或十万亿数据而不产生错误，并且在10S或100秒的订单上的响应时间。
快速在小数据上。该引擎需要在已知的查询模式下提供交互式性能，因此，SQL-on-Hadoop引擎返回的重要事项在小数据集上不超过几秒钟（大约数千万或数百万行）。
对许多用户稳定。企业BI用户基础由数百甚至数千个数据工作人员组成。底层的SQL-On-Hadoop引擎必须在高度并发的分析工作负载下可靠地执行。

去年，Atscale发现，Apache Impala 2.3，Apache Spark 1.6和Apache Hive 1.2 - 这三个SQL-On-Hadoop发动机它基准测试 - 所有这些都具有独特的优势和劣势，使他们更适合一些BI用例，不太适合其他人。例如，Hive是发动机最慢的，使其适合交互式查询，但到目前为止三个引擎最稳定，具有多种查询类型的最佳一致性。Impala和Spark都更适合较小的数据集。

正如Klahr指出的，BigQuery提供了对并发的最佳支持。它也不需要太多的调优或系统配置就可以开始使用。

“BigQuery不要求您做多种调整，不允许您做更多的工具，”他说。“我们对Hive和Impala和Spark SQL的经验是，这些引擎中的每一个都需要几天到几周才能获得您的参数。”

Atscale发现，BigQuery管理控制台，查询工具和文档使得易于使用，并支持快速登机。此外，将数据移动到Google Cloud并将其加载到BigQuery中的过程简单且良好，虽然Klahr Notes，但云本机数据肯定比上提数据更快。

表演明智，BigQuery没有Zip那巨头，火花SQL夸耀，但它很接近，Klahr说。

“值得考虑获得表现的多少努力与可接受的表现所花费多少，”Klahr说。

如果有一个区域，Bigquery落后于其他选择的大幅滞后，它就在加入。

“它不能很好地处理大型连接，”Klahr说。“[谷歌]确实在积极推广嵌套数据结构，即所有数据都在一个表中。”

AtScale的首席技术官和联合创始人马特·贝尔德(Matt Baird)认为，最近的基准测试结果表明，大数据市场已经非常成熟，谷歌这样的平台供应商已经成为一个可行的企业解决方案。

“这一基准的结果表明，大数据市场正在迅速发展，”他在周四的一份声明中说。“这样的速度可能会让企业望而却步，因为他们已经在处理相当多的复杂性:他们应该使用Hadoop吗?”他们应该使用BigQuery吗?本地Hadoop、云内Hadoop和谷歌这样的无服务器模型之间有什么区别?这就是我们创建AtScale的原因。”

相关视频：