周一,EMC Greenplum发布了一款新的Apache Hadoop发行版,希望它能很快成为事实上的标准,将Cloudera和Hortonworks等目前的领导者挤掉。这进一步表明,大数据正开始大步前进。
[也:大数据成功的7个步骤]
“我们在Greenplum的赌注是,我们的大数据业务的未来是Hadoop,所以我们有自己的分销渠道很重要,”
Josh Klahr
产品管理副总裁
EMC Greenplum。
EMC Greenplum产品管理副总裁乔希·克拉尔(Josh Klahr)表示:“几乎我们接触过的每一位客户和潜在客户都在用Hadoop做一些事情。”“从听说过Hadoop并组建了一个大数据团队来研究如何使用它的首席信息官(cio),到对Hadoop更有想法并找到了用例的人。”
他补充道:“我们看到了快速普及。”“Hadoop业务每年增长60%到70%。我们认为这是一个真正的巨变。”
自2006年作为Apache Lucene的子项目出现以来,Apache Hadoop迅速成为拥有大量非结构化数据存储库的大数据应用程序的首选解决方案。Hadoop有很多值得推荐的地方:它灵活、可扩展、构建在普通硬件上并具有容错能力。
然而,在企业中实现Hadoop存在障碍。一个关键的障碍是缺乏用于商业智能和数据挖掘的有用接口和高级工具。克拉尔说,这正是Greenplum看到的机遇所在。
Greenplum认为Hadoop是大数据的未来
Klahr解释道:“我们在Greenplum的赌注是,我们的大数据业务的未来是Hadoop,所以我们有自己的分销渠道非常重要。”“我们在发行版中添加了一些Apache还不支持的东西。我们认为Hadoop市场将会非常大,所以我们想要拥有自己的发行版。”
EMC Greenplum发行版的一些元素,Pivotal HD,可能永远也不会回到Apache项目中。Pivotal HD的核心是Greenplum的大规模并行处理(MPP)数据库技术与Apache Hadoop框架的结合,该技术被称为HAWQ。HAWQ本质上是一个功能齐全、高性能的关系数据库,运行在Hadoop上,原生使用SQL。
Klahr说:“我们的计划是积极地为Apache贡献一些元素,但我们将HAWQ作为一项专有服务,我们不会开源。”
Klahr表示,与Hadoop上现有的sql类服务(如Hive)相比,HAWQ的性能提高了50X到500X。
HAWQ连接数据工作者、数据工具和Hadoop存储库
“与我们合作的企业中存在着一群数据工作者和数据工具,他们很难与Hadoop沟通,”克拉尔说。“但是成千上万的人会讲SQL。我们带来了一个纯SQL数据库引擎,并将其嵌入到Hadoop发行版中。这是一个SQL数据库,你可以连接任何BI工具。”
有了HAWQ, Hadoop可以成为一个单一的数据存储库,组织可以轻松地运行MapReduce查询和SQL查询。
与关键高清”,我们可以检查了Hadoop愿望清单上的许多项目——诸如插件支持工具的生态系统,提高数据管理和更大的弹性存储和计算层而言,“Steven Hirsch说,首席数据官和全球高级副总裁在纽约证交所-泛欧交易所的数据服务。
“但最重要的是,”Hirsch说,“它为数据工作者和工具提供了真正的SQL查询接口——不是目前常见的那种肤浅的实现,而是提供了真正的SQL处理和优化能力的本地实现。”
“使用单一的Hadoop基础设施进行大数据调查和分析将改变一切,”Hirsch说。“现在,加上所有这些功能,SQL的性能比其他产品快了100倍,我们纽约泛欧交易所对此感到非常兴奋。”
EMC计划在第一季度末推出Pivotal HD,作为一种纯软件或基于设备的解决方案。
托尔Olavsrud涵盖IT安全、大数据、开源、微软工具和服务器。在推特上关注索尔@ThorOlavsrud。在Twitter @CIOonline上关注CIO.com的所有内容,脸谱网,谷歌+和LinkedIn.发邮件至tolavsrud@cio.com
这篇文章,“EMC Greenplum用Hadoop分布式处理大数据”最初是由首席信息官 .