HPCC承担Hadoop的大数据统治

Hadoop无处不在,但一个强大的竞争对手正在市场上取得进展。这一切都要归功于多年的生产使用,以及价值数十亿美元的LexisNexis数据库所依赖的坚实的大数据血统。

当你听到“大数据”的表达时,你经常听到“Hadoop”。这是因为底层技术使得可访问大量数据的潜在技术基于开源Apache Hadoop项目

从外部看,你会理所当然地认为Hadoop大数据,反之亦然;没有一个人就不能。但是有一个Hadoop竞争对手,在许多方面更加成熟和企业准备:高性能计算簇。

[也:11个开源公司要看]

HPCC系统是来自数据服务公司的疏通lexisnexis.自21世纪初以来,数据即服务(data-as-a-service,简称DaaS)一直在为该公司价值15亿美元的庞大业务提供动力。

像Hadoop一样,HPCC在Apache 2.0许可下开放,可以自由使用。同样同样利用商品硬件和通过IP网络互连的本地存储,允许并行数据处理和/或跨架构查询。信息安全副总裁Flavio Villanustre表示,这是大多数相似之处的地方。

HPCC老年,比Hadoop更聪明?

HPCC已经在生产使用超过12年,尽管HPCC开源版本只有一年多一点。另一方面,Hadoop最初是螺母Google将Google放在一起解析和分析日志文件,甚至不是它自己的Apache项目,直到2006年。尽管如此,它已成为大数据项目的事实标准,远远超过HPCC 60左右的企业用户。Hadoop也由数百万的开源社区提供支持,并迅速利用这一领导地位。

新闻:Hadoop创作者概述了大数据平台的未来

也就是说,HPCC是一个更成熟的企业级包,它使用一种称为企业控制语言的高级编程语言(ecl.)基于C ++,而不是Hadoop的Java。这是Villanustre表示,在易用性和备份和生产恢复方面提供了HPCC优势。HPCC中的速度增强,因为C ++在操作系统的顶部本身运行,而Java需要Java虚拟机(JVM)执行。

Forrester Research的应用开发和交付副总裁兼首席分析师Boris Evelson说,HPCC还拥有更多的关键任务功能。因为HPCC已经使用了很长时间,所以它拥有Hadoop所缺乏的安全、恢复、审计和遵从等层次。Evelson说,在搜索过程中丢失的数据不会永远消失。它可以像传统的数据仓库一样被恢复Teradata

指南:在Hadoop中保护大数据

赛门铁克大数据产品高级经理RAGS Srinivasan撰写了关于此缺点2012年5月博客帖子企业Hadoop的问题:“没有存在Hadoop集群的可靠备份解决方案。哈索存储三个数据副本的方式与备份不同。它不提供存档或时间点恢复。”

尽管Hadoop在这些领域的成熟程度不那么成熟,但它并非旨在在生产环境中使用,因此目前这些区别可能不是那么重要,杰夫凯利大数据分析师维基.它的用途是分析大量数据,找到迄今为止难以连接的数据点之间的关联。一旦发现这些点,数据通常会转移到更传统的业务智能解决方案和数据仓库进行进一步分析。

分析:大数据如何将BI和预测分析结合在一起

“目前,Hadoop最常用的用例是一个大规模的分期区域,”凯莉说。“基本上[它是一个用于将结构添加到大量多非结构化数据的结构的平台,以便通过关系式数据库技术分析它。”

ECL:具有拖放接口的高级查询语言

Villanustre说,ECL的另一个关键好处是,它非常类似于SQL等高级查询语言。如果您是Microsoft Excel专家,那么,使用ECL应该没有问题。

Work HPCC与分析提供者完成的工作进一步简化了开发查询Pentaho及其开源水壶项目,它允许用户在拖放界面中创建ECL查询。这对于Hadoop来说是不可能的蜂巢询问语言。

HPCC还旨在回答现实世界问题。Hadoop要求用户为他们寻求的每个变量组合在一起;HPCC没有。

“ECL有点像SQL……因为它是陈述性的,所以你告诉电脑你想要什么,而不是怎么做。”另一方面,Pig和Hive则相当原始。“它们很难编程,很难维护,也很难扩展和重用代码,而这些代码是任何计算机语言成功的关键因素。”

Hadoop的优势?它可扩展,灵活,廉价

Charles Zedlewski,产品副总裁Cloudera.他不同意这种观点。毕竟,Cloudera是最知名、最成功的Hadoop初创企业之一,为eBay、雪佛龙(Chevron)和诺基亚(Nokia)等公司提供全套Hadoop实现。

“事实上,今天Hadoop可能有能力迎合更广泛的最终用户,而不是以前的数据管理系统,并且这一直是Hadoop的力量,”Zedlewski说。“Hadoop的三件事确实很好,这是非常可扩展的,它非常灵活,非常便宜。”

除了灵活和强大的情况下,这是最后一点,这有很多对Hadoop感兴趣的人。但是,当Hadoop运行商品硬件时,您要么必须雇用某人将所有东西放在一起或找到第三方提供商,如Cloudera为您做。使用HPCC,您需要的大部分功能都可以在框中提供 - 它也在商品盒上运行。

分析:企业用合作伙伴填补Hadoop技能需求

在最后的分析中,一方面,如果您正在寻找一个更健壮的解决方案,提供企业级的功能,那么HPCC可能是一条路。另一方面,如果你只是想了解大数据是什么,然后Hadoop可能是更好的选择,因为它有一个巨大的开源生态系统开发人员每天和大量的第三方公司涌现利用大数据代表的机会。

“驱动这一切的宏观趋势是数据的爆炸,”Zedlewski说。“数据的增长速度超过了摩尔定律,这就要求我们采用不同的架构和不同的数据处理方式。它比摩尔定律增长得更快的原因是越来越多的东西连接到电脑上,无论是你的房子,你的电视,你的手机,你乘坐的航班。当这种情况发生时,它们最终都会以惊人的速度生成数据。”

Allen Bernard是俄亥俄州哥伦布市的一位作家,主要研究IT管理和将技术集成到企业中的问题。你可以通过电子邮件或者在Twitter上跟随他@ allen_bernard1..在Twitter上关注CIO.com上的一切@CIOonline, 在脸谱网,上谷歌+

阅读更多关于大数据的内容CIO的大数据深入挖掘。

这篇文章《HPCC挑战Hadoop的大数据优势》最初是由首席信息官

加入网络世界社区有个足球雷竞技app脸谱网linkedin对自己最关心的话题发表评论。

版权所有©2013 IDG ComRaybet2munications, Inc.

SD-WAN买家指南:向供应商(和您自己)提出的关键问题