一个研究小组周二将发布表明并行SQL数据库比谷歌的MapReduce的数据运算技术快了高达6.5倍的论文。
谷歌绕过并行数据库和MapReduce的发明作为一种指数万维网在其全球的低端PC服务器的网格。截至2008年1月,谷歌已经使用的MapReduce来处理每天20个PB的数据。
去年11月发表的内部测试的结果,谷歌MapReduce的使用在1000台服务器上运行的排序,在短短68秒1TB的数据。
这样的结果已经赢得了MapReduce和它的开源版本Hadoop的众多球迷,谁认为该技术已经优于40岁的关系一个大型网格,如用于云计算的基础设施,并最终呈现数据库过时的其他任务。
微软技术研究员大卫·德威特和迈克尔·斯通布雷克,数据库业的传奇和首席技术官Vertica的系统公司,谁共同撰写的论文,有以前认为MapReduce的缺乏许多关键功能已经标准数据库和普遍“落后重要的一步。”一
论文,题为“的比较途径大规模数据分析,”这里查看。这是一定要激起了每一种方法的技术优点数据迷们的热烈讨论。它将由出版美国计算机协会(ACM),一个92,000件IT社会在数据管理其SIGMOD记录杂志的六月29日至7月2日发行。
除了德威特和斯通布雷克,布朗大学,耶鲁大学,麻省理工学院和美国威斯康星大学的研究人员5共同撰写的报告。
在论文中,德威特和斯通布雷克肉放在他们的说法通过测试两个100节点并行,“无共享”数据库集群,一个正在运行的基于列的Vertica的,而另一个运行从“一个主要的关系供应商提供的基于行的数据库,“对相同尺寸的类似配置的MapReduce的一个。服务器必须运行64位Red Hat Enterprise Linux的4GB内存以及所有通过千兆以太网端口连接的两个250GB SATA-I硬盘驱动器2.4-GHz的英特尔Core 2 Duo处理器。
他们的结论?数据库“是显著更快,需要更少的代码来实现每一项任务,但需要较长的时间来调整和加载数据,”研究人员写道。数据库集群分别为3.1和6.5倍更快之间“不同的分析任务。”
MapReduce的也需要开发者编写的功能或手动执行任务,它可以自动被大多数SQL数据库来完成,他们写道。
MapReduce的可能是“非常适合与少数程序员和有限的应用领域的开发环境,”他们说。“这种缺乏约束的,但是,可能不适合长期和较大规模的项目。”
数据库行业分析师柯特·莫纳什同意的结果。“结果是赞成的数据库很清楚,”莫纳什说。“数据库是比较成熟的产品。”
研究人员指出大约有十几个并行数据库厂商,包括Teradata的,ASTER数据,Netezza公司,DATAllegro(现微软),Dataupia,Vertica的,ParAccel,惠普,Greenplum的,IBM和甲骨文。
结果增强莫纳什的信念,MapReduce的是仅适用于多种任务的限制,如文本索引优越和搜索谷歌没有,或者数据挖掘,他说。
否则,“使用的MapReduce使得只有当它否则将很难使用一个SQL数据库,大多数组织的意义,”他说。
研究人员并允许并行数据库,它可以建立在大规模电网是紧缩数百TB或数据甚至PB级的,是“更具挑战性”比Hadoop的正确安装和配置。将数据加载到MapReduce的Hadoop的或者比为Vertica的还快三倍,而且比未命名的数据库快20倍,他们写道。
研究人员保卫基础上100服务器集群他们的测试,而不是由谷歌所使用的1000个服务器集群。“现代[数据库]缓解了优越的效率在1-2 PB的范围内为使用的数据集,例如大规模的硬件,”他们写道。“由于在世界上少数几个数据集,甚至接近大小PB级的,它是根本不清楚有多少的MapReduce用户真正需要1000个节点。”
这个故事,“研究人员:数据库仍然打败谷歌的MapReduce”最初发表计算机世界 。