道格切割,Hadoop和Apache Hadoop项目的创始人的创造者说,大数据是不是炒作,它是不是泡沫。他列举了他的Hadoop的怎么会变成大数据系统的圣杯愿景
Apache Hadoop在大数据的心脏开源软件框架,是一个批处理计算引擎。这是不是很适合到网上,需要真正的实时数据洞察交互数据处理。是这样吗?道格切割,Hadoop的创造者和创始人Apache Hadoop项目的(和总设计师,在Cloudera的)说,他相信Hadoop的有前途超越批次。
“我认为,一批有它的地方,”切割说。“如果你是移动数据的批量金额,你需要真正地分析一切,这不是互动,但批量和在线计算的组合是什么,我认为人们会很感激。”
“我真的看到的Hadoop逐渐成为主流的数据处理系统,企业将使用的内核,”他补充道。
当Hadoop的支架现在
说起在奥赖利地层会议+ Hadoop的世界在纽约市,切割解释了他对Hadoop的堆栈的核心主题和它的标题想法。
“Hadoop是称为批处理计算引擎,实际上这就是我们开始的地方,与MapReduce的,”切割说。“的MapReduce是一个奇妙的工具,这是一个简单的编程比喻人们已经发现,许多应用程序。对于如何实现各种MapReduce的算法书籍。”
的MapReduce是一种编程模型,通过设计谷歌批量处理使用分布式计算并行大规模数据集。MapReduce的接收输入并且将其分解成许多较小的子问题,它们分布到节点来并行处理。然后,它重新组装回答这些子问题,以形成输出。
“这也是非常有效的,”切割说。“它允许您将计算移动到数据,这样你就不会复制围绕数据为你处理了。这也形成了一个共享平台。建立一个分布式系统是一个复杂的过程,不是你可以做过夜。所以,我们不希望有一次又一次地重新实现它。MapReduce的已证明自己了坚实的基础。我们已经看到了许多工具在它的上面,如Pig和Hive的发展。”
“但是,当然,这个平台不只是用于批处理计算,”他补充道。“我相信,这是一个更为通用的平台。”
定义的Hadoop平台的特点
为了说明这一点,切割,勾画出了他认为的Hadoop的两大核心主题,因为它存在的今天,与他认为的事项一些其他的东西放在一起“的风格。”
首先,他说,Hadoop的平台,通过其可扩展性定义。它适用于存储在内存中的小型数据集就好了,但能够缩放大规模处理庞大的数据集。
“可扩展性,我们没有听到很多谈论的一大组成部分的是经济承受能力,”他说。“我们在商用硬件上运行,因为它可以让你进一步扩展。如果你可以买到每美元存储10倍的量,那么你可以存储每美元数据的10倍。所以承受能力是关键,这就是为什么我们使用商品硬件,因为它是最经济实惠的平台“。
同样重要的是,他指出,Hadoop是开源的。
“同样,开源软件是非常实惠的,”他补充道。“核心平台,人们开发他们的应用对是免费的。你可以支付厂商,但一分钱一分货的供应商,因为他们提供的价值,你不继续支付他们年复一年,即使你没有从他们那里得到任何东西从根本上新。厂商需要赢得您的信任,并通过一段时间为您提供价值赢得你们的信任。”
除此之外,他说,有他所认为的Hadoop的风格元素。
“有这样一种概念,即在加载数据时,不需要使用严格的模式来约束数据,”他说。相反,您可以以原始形式保存数据,然后在使用数据时将其投射到各种模式。我们在读取时调用这个模式。
在大数据空间的另一种流行的主题是,常常只是有更多的数据是一个更好的方式来了解你的问题,而不是有一个更聪明的算法。这往往不如花更多的时间收集数据,而不是微调的算法在一个较小的数据集。直观地说,这很像是具有更高分辨率的图像。如果你想尝试分析它,你宁愿放大比低分辨率图像的高分辨率图像“。
HBase的是在线计算的在Hadoop中为例
批量处理,他说,是不是Hadoop的一个标志性特征。为了证明他指出,Apache的HBase的非常成功的开源,非关系型分布式数据库,仿照谷歌的BigTable,这是Hadoop的堆栈的一部分。HBase的是一个在线的计算系统,而不是一个批处理计算系统。
卡廷解释说:“它执行相互作用的个人价值的投放和获取。”但它也支持批处理。它与HDFS以及栈的每个其他组件共享存储。我认为这就是它受欢迎的原因。它被整合到系统的其他部分。它不是一个单独的系统,您需要将数据移进移出。它可以共享堆栈的其他方面:它可以共享可用性、安全性和灾难恢复。有很大的空间允许人们只拥有一份他们的数据的副本和这种技术堆栈的一次安装。”
展望Hadoop圣杯
但是,如果Hadoop是不是批量定义,如果是将是一个更一般的数据处理平台,会是什么样子,以及它将如何到达那里?
“我认为有许多事情我们想在那种看‘圣杯’大数据系统,”切割说。“我们当然希望它是开源的,在商品硬件上运行,我们也希望看到线性缩放:如果你需要存储十倍的数据,你想只买十倍的硬件,并自动有工作无论你的数据集有多大得到。
同样具有性能,切削说,两个批次的性能,如果你需要更大的批量吞吐量或短,小批量的等待时间,你想提高硬件的量。至于交互查询,同样的事情成立。增加硬件应该给你线性的性能和数据处理的幅度可扩展性。”
“有我们希望看到其他的东西,”他补充道。“我们希望看到复杂的交易,连接,大量产生这个平台一直缺乏技术。我认为,古典,人们一直认为,他们没有以往任何时候都存在于这个平台上,当你采用了大数据平台,你放弃了某些事情。我不认为是这样的话,我觉得有非常小的,我们正在将不得不需要在长期放弃。”
谷歌提供的地图
究其原因,切割说,是谷歌已经证明建立Hadoop的堆栈这些元素的方式。
“谷歌给了我们一张地图,”他说。“我们知道我们要去哪里,他们开始了他们的发布GFS和MapReduce的论文,这是我们在Hadoop项目快速克隆。这些年来,谷歌已经生产了多种方式激发了开源堆栈出版物的继承。该Sawzall的系统为先导,以Pig和Hive。BigTable的直接启发HBase的,等等,我感到非常激动,今年看到谷歌发布了一个名为扳手一篇关于一个系统,在分布式系统中,多表的交易工具交易上运行在全球范围内的数据库。这是什么,我想我们很多人没有想到我们会很快看到,它确实能帮助我们看到的天空是这个平台的极限“。
扳手,切割笔记,是复杂的技术,任何人都不应指望看到它作为Hadoop的下一个春天的一部分。但它提供了圣杯的路线,他说。在此期间,他指出,黑斑羚,本周Cloudera公司在会上发布了新的数据库引擎,它可以使用SQL查询存储在HBase的数据集。
“黑斑羚是一个巨大的下台走向圣杯这条道路,”他说。“现在,你再也不能[只有]做网上puts和值的获得,你可以做网上查询,交互与黑斑羚,而且黑斑羚遵循从谷歌,再次一些工作,这是几年前出版,这是非常令人兴奋的。这是在这个平台上,我认为是对自己的一个非常有价值的一步,将帮助你建立更多更好的应用在这个平台上,但我也认为这有助于使这一点上,这个平台是不是一个根本性的新功能利基。它不是单点技术,它是一个通用的平台“。
我们知道我们用它去,“切割说,”而且我们知道如何到达那里在许多情况下。因此,我鼓励你舒服,现在采用它,知道你可以期待更多的明天。我们要保持这个事情前进。”
雷神Olavsrud涵盖IT安全性,大数据,开源,微软工具和服务器的CIO.com。按照雷神在Twitter上@ThorOlavsrud。在Twitter上关注@CIOonline和Facebook一切从CIO.com。电子邮件托尔在tolavsrud@cio.com
了解更多关于商业智能(BI)在CIO的商业智能(BI)追溯。
这个故事,“Hadoop的造物主纲要大数据平台的未来”最初发表CIO 。