研究人员：数据库仍然打败谷歌的MapReduce

通过埃里克·赖

计算机世界 |

一个研究小组周二将发布表明并行SQL数据库比谷歌的MapReduce的数据运算技术快了高达6.5倍的论文。

数据库厂商加入谷歌的MapReduce

亚马逊自动使用Hadoop的开发人员

谷歌绕过并行数据库和MapReduce的发明作为一种指数万维网在其全球的低端PC服务器的网格。截至2008年1月，谷歌已经使用的MapReduce来处理每天20个PB的数据。

去年11月发表的内部测试的结果，谷歌MapReduce的使用在1000台服务器上运行的排序，在短短68秒1TB的数据。

这样的结果已经赢得了MapReduce和它的开源版本Hadoop的众多球迷，谁认为该技术已经优于40岁的关系一个大型网格，如用于云计算的基础设施，并最终呈现数据库过时的其他任务。

微软技术研究员大卫·德威特和迈克尔·斯通布雷克，数据库业的传奇和首席技术官Vertica的系统公司，谁共同撰写的论文，有以前认为MapReduce的缺乏许多关键功能已经标准数据库和普遍“落后重要的一步。”一

论文，题为“的比较途径大规模数据分析，”这里查看。这是一定要激起了每一种方法的技术优点数据迷们的热烈讨论。它将由出版美国计算机协会（ACM），一个92,000件IT社会在数据管理其SIGMOD记录杂志的六月29日至7月2日发行。

除了德威特和斯通布雷克，布朗大学，耶鲁大学，麻省理工学院和美国威斯康星大学的研究人员5共同撰写的报告。

在论文中，德威特和斯通布雷克肉放在他们的说法通过测试两个100节点并行，“无共享”数据库集群，一个正在运行的基于列的Vertica的，而另一个运行从“一个主要的关系供应商提供的基于行的数据库，“对相同尺寸的类似配置的MapReduce的一个。服务器必须运行64位Red Hat Enterprise Linux的4GB内存以及所有通过千兆以太网端口连接的两个250GB SATA-I硬盘驱动器2.4-GHz的英特尔Core 2 Duo处理器。

他们的结论？数据库“是显著更快，需要更少的代码来实现每一项任务，但需要较长的时间来调整和加载数据，”研究人员写道。数据库集群分别为3.1和6.5倍更快之间“不同的分析任务。”

MapReduce的也需要开发者编写的功能或手动执行任务，它可以自动被大多数SQL数据库来完成，他们写道。

MapReduce的可能是“非常适合与少数程序员和有限的应用领域的开发环境，”他们说。“这种缺乏约束的，但是，可能不适合长期和较大规模的项目。”

数据库行业分析师柯特·莫纳什同意的结果。“结果是赞成的数据库很清楚，”莫纳什说。“数据库是比较成熟的产品。”

研究人员指出大约有十几个并行数据库厂商，包括Teradata的，ASTER数据，Netezza公司，DATAllegro（现微软），Dataupia，Vertica的，ParAccel，惠普，Greenplum的，IBM和甲骨文。

结果增强莫纳什的信念，MapReduce的是仅适用于多种任务的限制，如文本索引优越和搜索谷歌没有，或者数据挖掘，他说。

否则，“使用的MapReduce使得只有当它否则将很难使用一个SQL数据库，大多数组织的意义，”他说。

研究人员并允许并行数据库，它可以建立在大规模电网是紧缩数百TB或数据甚至PB级的，是“更具挑战性”比Hadoop的正确安装和配置。将数据加载到MapReduce的Hadoop的或者比为Vertica的还快三倍，而且比未命名的数据库快20倍，他们写道。

研究人员保卫基础上100服务器集群他们的测试，而不是由谷歌所使用的1000个服务器集群。“现代[数据库]缓解了优越的效率在1-2 PB的范围内为使用的数据集，例如大规模的硬件，”他们写道。“由于在世界上少数几个数据集，甚至接近大小PB级的，它是根本不清楚有多少的MapReduce用户真正需要1000个节点。”

这个故事，“研究人员：数据库仍然打败谷歌的MapReduce”最初发表计算机世界。

加入对网络世界的社有个足球雷竞技app区Facebook的和LinkedIn对那些顶级心态的话题发表评论。

IT薪资调查：结果是