数据仓库的一个更平凡的部分是,将数据导入仓库。
这个问题长期以来都是由专家处理的提取,转换和加载(ETL)域。即使在那里,创新也更多地集中在数据转换的问题上。加载数据似乎是小菜一碟相比之下。
直到商业智能(BI)和分析技术开始出现24小时不间断的工作。此外,如今最大的BI用户——银行、电信提供商、网络广告商——也在运营数据仓库的大小大于pb导入大量的数据——每天50TB的数据,就像Teradata的一个客户那样。
BI和ETL供应商也做出了回应。在过去的几个月里,我们看到了一些初创公司和不太知名的公司在吹嘘惊人的数据加载速度,无论是在实验室还是在实际应用中。
数据库启动公司Greenplum Inc.说,它的客户通常在半小时内加载2TB的数据,有效吞吐量为每小时4TB。
其竞争对手Aster数据系统公司声称,其nCluster技术可以使客户达到近4TB / h(具体来说,3.6TB / h)。
数据集成供应商Syncsort Inc.说,经过第三方验证的实验室测试显示,其软件可以在不到一小时的时间内将5.4TB的数据加载到Vertica Systems Inc.的columnar数据仓库。
语义数据集成初创公司Expressor Software Corp.也不逊色,称内部测试显示其数据处理引擎可以达到每小时11TB的速度。
福瑞斯特研究公司(Forrester Research Inc.)的分析师吉姆·科拜鲁斯(Jim Kobielus)说:“如果他们真的以这样的速度表现,那就相当重要,也真的令人印象深刻。”因为“每小时1tb以上的数据就足够了。”
超越了现有的BI和ETL供应商
那些已经成立的公司呢?萨斯学院和孙两年前演示了在Sun Microsystems硬件上运行的SAS数据仓库,其中的StorageTek阵列在17分钟内达到1.7TB,相当于每小时近6TB。
但除了SAS之外,其他知名厂商发布的数据集成性能基准测试都远低于这些新兴厂商。
三年前,Informatica声称其PowerCenter 8软件加载数据的速度为每小时1.33 TB。该公司今天拒绝发表评论,也没有发布任何更新的性能基准。
去年秋天,甲骨文和惠普发布了面向两方面的惠普甲骨文数据库机器,他们说这台机器能以每小时1TB的速度加载数据。
微软在一年前的SQL Server 2008发布会上声称,其SQL Server集成服务2008在一小时内的加载量相当于2.36TB。
那么他们是怎么做到的呢?
这些速度更快的数据整合商大多都依赖于相同的基本秘密武器:在通过快速网络将要加载的数据传输到数十个数据仓库服务器或更多在大规模并行网格中运行的服务器之前,将数据分解的软件。
这就是Greenplum的“分散-聚集流”技术的工作原理。Greenplum的产品管理总监本•韦瑟(Ben Werther)说,该公司的客户、MySpace.com的运营商福克斯互动媒体(Fox Interactive Media Inc.)可以在半小时内将2TB的网络使用数据加载到其200TB的Greenplum数据仓库中。
要达到4TB/小时的负载速度,需要40台Greenplum服务器无共享网格,维特说。服务器翻倍,负载率也翻倍。
“你的系统越大,速度就越快,”维特说。
Expressor Software的首席科学家罗素(John Russell)说,该公司的数据处理引擎也具有类似的可扩展性。公司可以“购买和增加他们的渠道,因为他们的性能需要增加。”
Russell曾长期为《财富》100强公司担任数据仓库架构师,他表示,他与他人共同创立Expressor,部分原因是“在处理那些高端DI工具的性能限制和瓶颈时感到沮丧。”
Russell说,Expressor的引擎充分利用了64位和多核cpu以及大规模并行系统的优势。而且代码很精简——“在运行时实际执行的代码只有12000行,”他说——这有助于Expressor达到每小时11TB的最高速度。
Aster数据的nCluster技术略有不同。据Aster首席执行官Mayank Bawa说,它依靠一个专门的并行加载服务器层来实现近4TB /小时的速度。
Bawa说,在网格中分配特定的数据库服务器来只加载数据,将其他数据库服务器从这种cpu密集型任务中解放出来,提高了整体性能。
害群之马是Syncsort。与其他初创公司不同的是,Syncsort是一家位于新泽西州伍德克利夫(Woodcliff)、已有41年历史的公司,最初是一家大型主机软件供应商。
Syncsort拥有2000个客户,其中包括2004年推出的DMExpress数据集成软件的525个客户。它试图不取代大型数据集成供应商,而是与它们共存。
Syncsort的高级产品营销经理Ganesh Iyer说:“我们主要是为了解决客户在使用Informatica或IBM的DataStage时遇到的ETL性能问题。”“我们从来没有因为性能问题而失去过客户对我们理念的认可。”
Syncsort也不一样Iyer说,因为不像其他厂商依赖昂贵的、巨大的服务器网格,Syncsort的5.4TB/小时的基准测试是在去年12月通过一套25万美元的HP blade服务器实现的,这些服务器运行的是其软件的常规副本。
“我们没有做任何调整。这是软件的试用版,就是我们发给客户的那个。”客户通常为DMExpress支付约4万美元,其中包括5年的维护费用。
客户真的需要速度吗?
Russell说,客户都在寻找超快的加载性能。
“我们接触的每一家金融公司都说他们想要……大约每天1TB。”他说。“对于[来自网站的]点击流数据来说,这些数字可能高达2000亿次点击,也就是每天近24TB的点击量。”
一位独立的数据库分析师Curt Monash不同意这种观点。“我认为大多数商业数据仓库将为大多数用户提供比他们实际需要的更多的加载速度,”莫纳什去年秋天在博客中写道。
甚至Teradata,去年秋天为超大规模的BI用户推出了一个50 pb的数据仓库设备,对此持怀疑态度。
“极端的数据负载率通常与大多数客户环境无关,”Teradata的产品和服务副总裁Randy Lea说。他认为,首先,客户可以一整天加载数据,而不是在很短的时间窗内,从而减少了对超快批量加载的需求。
大多数数据仓库系统,包括Teradata,可以配置以每小时多兆兆字节的速度加载数据,Lea说。问题是,这样的系统有变得不平衡和在其他领域表现糟糕的风险。
此外,Lea说,“目前的数据加载自夸没有什么价值,因为没有基准标准。”
事务处理委员会(TPC)正在解决这个问题,它位于设计一个新的ETL基准的过程。
Syncsort和Teradata都是开发委员会的成员,根据Syncsort的Iyer,他们将在下个月举行第一次会议。
这个故事,“新贵在数据加载速度超过BI供应商”最初是由《计算机世界》 。