超越Hadoop的大数据需求

对于需要新的、更快的方法从海量数据集中提取业务价值的企业来说，Hadoop已经不够了

通过Jaikumar维贾雅恩

《计算机世界》 |

Hadoop和MapReduce长期以来一直是大数据运动的支柱，但一些公司现在需要新的、更快的方法，从庞大且不断增长的数据集中提取业务价值。

当许多大型组织仍在转向开源的Hadoop大数据框架时，它的创建者谷歌和其他一些人已经转向较新的技术。

Apache Hadoop平台是谷歌文件系统和谷歌MapReduce技术的开源版本。它是由搜索引擎巨头谷歌开发的，用于管理和处理商品硬件上的海量数据。

它是谷歌用来抓取和索引Web的处理技术的核心部分。

数百家企业都采用Hadoop的过去三年年左右来管理结构化，半结构化和非结构化数据的快速增长卷。

开源技术已经被证明是比传统的企业级数据仓库技术的应用，如日志和事件数据分析，安全事件管理，社交媒体分析和涉及PB级数据集的其他应用程序更便宜的选择。

分析人士指出，一些企业已经开始将目光投向Hadoop以外的领域，不是因为该技术的局限性，而是因为它的设计目的。

Hadoop是为处理批处理作业而构建的，在批处理作业中收集和处理数据。Hadoop环境中的数据被分解并存储在高度分布的商品服务器或节点集群中。

为了得到从数据的报表，用户必须先写一份工作，提交并等待它得到分发到所有节点，并得到处理。

虽然Hadoop的平台执行好，它的速度不够快一些关键应用简略的蒙纳士大学，数据库和分析专家，主要在蒙纳士大学的研究说。举例来说，Hadoop的不针对大型数据集上运行的互动，即席查询活得很累，他说。

“Hadoop的有是交互式响应麻烦，”莫纳什说。“如果你能忍受几秒钟的延迟，Hadoop是好的。但是，Hadoop的MapReduce的永远不会是亚秒级时延非常有用。”

公司需要这样的能力已经超越期待的Hadoop为他们的大数据分析的需求。

事实上，谷歌大约在五年前开始使用一种内部开发的名为Dremel的技术来交互式地分析或“查询”由其遍布世界各地的数千台服务器生成的大量日志数据。

谷歌说，Dremel技术支持“通过共享的商品机器集群对非常大的数据集进行交互式分析”。

该技术可以运行在几秒钟内过万亿行数据表的查询，并扩展到成千上万的CPU和PB级数据，并支持像语言SQL查询，很容易让用户与数据交互，并制定即席查询，谷歌表示，。

虽然传统的关系型数据库管理技术已支持交互式查询多年，的Dremel提供更大的可扩展性和速度，争辩谷歌。

成千上万在谷歌业务的用户使用的Dremel用于多种应用，如分析抓取的网页文件，跟踪Android应用程序，崩溃报告安装数据和维护磁盘成千上万的磁盘I / O统计信息。

谷歌最近推出了基于Dremel的BigQuery大数据分析服务，其产品经理Ju-kay Kwek说，Dremel并不是MapReduce和Hadoop的替代品。

谷歌与MapReduce的结合使用的Dremel，他说。MapReduce的Hadoop的使用做准备，清理，转换和服务器日志数据的阶段，大量的，然后的Dremel是用来对数据进行分析。

Kwek说，Hadoop和Dremel都是分布式计算技术，但它们都是用来解决非常不同的问题。

例如，如果谷歌正试图解决其Gmail服务出现问题，那就需要通过看日志海量数据快速确定问题。

“Gmail的拥有450万个用户。如果每个用户都必须使用Gmail几百相互作用认为事件和互动，我们将不得不日志的数量，”郭令说。

“的Dremel允许我们进入系统，并开始询问投机查询这些日志，”郭令说。一个谷歌工程师可能会说，“告诉我一切均高于10秒的响应时间。现在，通过区域拿出来给我，”郭令说。的Dremel使工程师能够非常迅速地找准放缓正在发生，郭令说。

“的Dremel在许多，许多机器分布数据，并查询分发到所有的服务器，并要求每一个‘你有我的答案吗？’然后，它聚集并回来的答案字面上秒。”

对同一任务使用Hadoop和MapReduce会花费更长的时间，因为它需要编写一个作业，启动它，等待它在集群中扩散，然后信息才能被发送回用户。“你可以做到，但会很麻烦。这就像用杯子切面包一样，”Kwek说。

Kwek说，几年前将谷歌推向德梅尔的那种数据量已经开始出现在一些主流企业组织中。

汽车、制药、物流和金融服务行业的公司经常被数据淹没，它们正在寻找工具来帮助它们快速查询和分析数据。

谷歌的托管的BigQuery分析服务被定位在利用需要新的大数据技术的优势。

其实，说Gartner分析师丽塔萨拉姆，基于的Dremel托管服务可能是一个改变游戏规则的大数据分析。

Sallam表示，该服务允许企业交互查询大量数据集，而不需要购买昂贵的基础分析技术。她说，企业可以探索和试验不同的数据类型和不同的数据量，而成本只是购买一个企业数据分析平台的一小部分。

BigQuery的真正值得注意的方面是不是它的底层技术，但其潜在的削减大公司的IT成本，她说。

Sallam表示，与传统的企业数据平台相比，“它提供了一种分析大型数据集的成本效益更高的方式，它确实有可能改变成本平衡，并允许企业试验他们的大数据。”

主要供应商的商业智能产品，包括SAS研究所，SAP，甲骨文，Teradata和惠普公司，已经抢着交付提供更好的数据分析能力的工具。像谷歌一样，大多数这些厂商看到Hadoop的平台主要是针对其他工具分析筹备和正式举办多结构化数据的大规模数据存储。

就在上周，SAP推出新的大数据捆绑旨在让大型企业整合与SAP的HANA内存数据库及相关技术的Hadoop环境。

捆绑产品采用SAP HANA平台读取和Hadoop的环境负荷数据，然后做快使用SAP的报告和分析工具对数据的交互分析。

SAS宣布几周前，它的高性能分析服务器也有类似的功能。惠普通过收购Vertica获得了技术，Teradata拥有Aster-Hadoop适配器，IBM拥有Netezza工具集，提供或即将提供类似的功能。

该业务也吸引初创企业屈指可数。

一，Metamarkets，开发旨在帮助企业基于云的服务分析实时的新鲜流数据的丰富金额。在服务的心脏是一个内部开发的分布式内存，列式数据库称为德鲁伊技术，根据该公司的CEO迈克尔·德里斯科尔。他在概念上比较德鲁伊的Dremel。

“的Dremel被从地面架构是一个分析数据存储，”斯科尔说。其列为本，并行化，在内存设计使得它几个数量级比传统的数据存储速度更快，他说。

“我们有一个非常类似的架构，”斯科尔说。“我们是，分布式内存面向列的。”

该Metamarkets技术，不过，甚至允许之前，将流数据存储企业跑过来的数据查询，因此允许更快的洞察力比的Dremel，他说。

Metamarkets今年早些时候德鲁伊发布到开源社区来推动技术各地的开发活动。

Driscoll说，对这种技术的需求是由对速度的需求驱动的。

Hadoop的，他说，简直是太缓慢的公司，需要亚毫秒级的查询响应时间。，斯科尔说，由传统的企业供应商所提供分析技术，例如那些比Hadoop的速度较快，但仍不能扩展，以及一个的Dremel或德鲁伊。

Nodeable，另一家风险投资支持的启动，提供了一个名为StreamReduce云托管服务，类似于Metamarkets产品。

StreamReduce由风暴，最初由BackType开发的是前一个开源的数据分析技术提供支持由Twitter收购去年。Storm也被Twitter内部使用，旨在让企业对流数据进行实时分析。

Nodeable提供一个连接器的Hadoop这样的企业可以使用该服务在其上运行存储在他们的Hadoop环境以及数据交互查询，首席执行官Dave罗森伯格说。

Nodeable推出的云系统管理公司，但看到了大数据分析技术的机会后，切换曲目。“我们意识到有一个缺乏实时补充Hadoop的。我们问自己，我们怎样才能实时使用Hadoop的？”罗森伯格说。

服务如Nodeable的不更换的Hadoop，他们补充它，罗森伯格说。

他说，StreamReduce为公司提供了一种从流数据中提取可操作信息的方法，这些流数据可以存储在Hadoop环境中，也可以存储在其他数据存储中，以便以后进行更传统的批处理。

Nodeable和Metamarkets提供的流媒体引擎与Dremel等技术在一个重要方面有所不同——它们的设计目的是在原始数据进入数据库之前进行分析。Dremel和其他技术被设计用来对已经存在于数据存储(如Hadoop环境)中的数据进行特别查询。

与此同时，主要的Hadoop玩家并没有袖手旁观。

Cloudera的，商业的Hadoop技术的最大供应商，在上周推出了一个名为技术Cloudera的黑斑羚，用于存储在Hadoop分布式文件系统数据的实时查询引擎。

因帕拉技术将允许公司做批量和实时业务的结构化和非结构化数据的一个系统内，根据Cloudera的。

Jaikumar维贾雅恩涵盖了计算机世界的数据安全和隐私问题，金融服务的安全性和电子投票。按照Jaikumar在Twitter上@jaivijayan或订阅Jaikumar的RSS提要。他的电子邮件地址是jvijayan@computerworld.com。

了解更多关于大数据在计算机世界的大数据主题中心。

这个故事，“超越Hadoop的大数据需求”最初发表《计算机世界》。

加入网络世界社区有个足球雷竞技app脸谱网和LinkedIn对那些顶级心态的话题发表评论。

Jaikumar维贾雅恩是一个自由撰稿人专门从事计算机安全和隐私的话题。

工资调查:结果是