大数据是如何改变数据库的

从NoSQL到NewSQL,再到“数据代数”等等,这些创新正在快速而迅猛地涌现出来

IDG新闻服务

一提到“数据库”这个词,大多数人就会想到古老的RDBMS,它已经统治了这个领域超过30年。然而,这种情况可能很快就会改变。

一大批新的竞争者正在争夺这个关键的企业市场,尽管他们的方法多种多样,但大多数都有一个共同点:对大数据的高度关注。

驱动替代产品激增的主要原因是通常被称为“3v”的大数据:数量、速度和多样性。

从本质上讲,今天的数据正以前所未有的速度、更大的容量向我们袭来;它也更加多样化。换句话说,这是一个新的数据世界,而传统的关系数据库管理系统并不是为此而设计的。

KDnuggets是一家分析和数据科学咨询公司,其总裁Gregory Piatetsky-Shapiro表示:“基本上,他们无法扩展到规模大、速度快或多样化的数据。”

这就是哈特·汉克斯最近的发现。直到2013年左右,营销服务机构一直在使用不同数据库的组合,包括Microsoft SQL Server和Oracle Real Application Clusters (RAC)。

“我们注意到,随着时间的推移,数据不断增长,我们的系统处理信息的速度不够快,”该公司的技术和开发主管肖恩·伊恩努齐(Sean Iannuzzi)说。“如果你继续购买服务器,你只能坚持到此为止。我们希望确保我们有一个可以向外扩展的平台。”

最大限度地减少干扰是一个关键目标,Iannuzzi说,所以“我们不能直接切换到Hadoop。”

相反,它选择了Splice Machine,它将一个完整的SQL数据库放在流行的Hadoop大数据平台上,并允许现有的应用程序与之连接,他说。

Iannuzzi说,Harte Hanks目前还处于实施的早期阶段,但已经看到了它的好处,包括改进的容错性、高可用性、冗余、稳定性和“整体性能的提高”。

国际数据公司(IDC)的研究副总裁卡尔?奥洛夫森(Carl Olofson)说,一场完美风暴正在推动新的数据库技术的出现。

首先,Olofson指出,“我们使用的设备比过去更能快速灵活地处理大型数据收集。”

他解释说,在过去,这样的收集“几乎必须放在旋转磁盘上”,数据必须以一种特殊的方式构造。

现在有了64位的寻址能力,使得建立更大的内存空间、更快的网络以及将多台计算机连接在一起作为单个、大型数据库的能力成为可能。

奥洛夫森说:“这些东西开启了以前不可能的可能性。”

与此同时,工作量也发生了变化。举例来说,10年前的网站基本上是静态的,而今天我们有了实时的Web服务环境和交互式的购物体验。他说,这反过来又需要更高水平的可伸缩性。

公司也在以新的方式使用数据。传统上,我们主要关注的是处理交易——例如,记录我们的销售额,并将数据存储在可以分析的地方——而今天,我们做的更多了。

应用程序状态管理就是一个例子。

假设你在玩网络游戏。Olofson解释说,这项技术必须记录你与该系统的每一次接触,并将它们连接在一起,以呈现一种持续的体验,即使你切换设备或你的各种动作是由不同的服务器处理的。

这些数据必须是持久的,这样公司才能分析诸如“为什么没有人穿过水晶室”这样的问题。在网上购物的情况下,另一个相似之处可能是为什么更多的人在点击选择颜色后不去购买特定品牌的鞋子。

奥洛夫森说:“以前,我们并没有试图解决这些问题,或者说,如果我们想解决的话,我们只是试图把它们塞进一个不太合适的盒子里。”

Hadoop在今天的新竞争者中是重量级的。虽然它本身不是一个数据库,但它已经成长为处理大数据的公司的一个关键角色。从本质上讲,Hadoop是一个以数据为中心的平台,用于运行高度并行的应用程序,而且它具有很强的可伸缩性。

Olofson说,通过允许公司以分布式的方式向外扩展,而不是通过额外昂贵的服务器向外扩展,“它可以以非常低的成本收集大量数据,然后看看你得到了什么。”

在其他新的RDBMS替代品中有NoSQL产品系列,包括MongoDB——目前第四大最流行的数据库管理系统,根据db引擎和标记逻辑。

MarkLogic的产品执行副总裁Joe Pasqua说:“关系型技术已经发展了30年,但它是在一个不同的时代发展起来的,有着不同的技术限制和不同的市场需求。”

他说,大数据并不是同质化的,但在许多传统技术中,这仍然是一个基本要求。

“想象一下,你的笔记本电脑上只有一个Excel程序,”帕斯夸说。假设你想要和朋友们保持联系,或者你正在写一份合同。那些不适合行和列。”

组合数据集可能特别棘手。

他补充道:“Relational表示,在把所有这些数据集合在一起之前,你必须决定如何排列所有的列。”“我们可以采用任何格式或结构,并立即开始使用。”

NoSQL数据库不使用关系数据模型,而且它们通常没有SQL接口。尽管许多NoSQL存储为了支持速度和其他因素而牺牲了一致性,但MarkLogic将自己的产品定位为为企业量身定制的更注重一致性的选项。

NoSQL市场有相当大的增长空间,根据市场调查媒体,但不是每个人都认为这是正确的方法,至少不是所有情况下。

NoSQL系统“用他们的扩展架构解决了很多问题,但是他们抛弃了SQL,”Splice Machine的CEO Monte Zweben说。这反过来又给现有代码带来了问题。

拼接机是另一种备选方案的一个例子NewSQL——另一类期待强劲的增长在未来的岁月里。

Zweben说:“我们的理念是保留SQL,但增加向外扩展的架构。”“是时候做些新东西了,但我们正努力让人们不必重写他们的东西。”

Deep Information Sciences也选择坚持使用SQL,但它采用了另一种方法。

该公司的DeepSQL数据库使用与MySQL相同的应用程序编程接口(API)和关系模型,这意味着不需要更改应用程序就可以使用它。但它使用机器学习以不同的方式处理数据。

公司表示,DeepSQL可以自动适应任何工作负载组合下的物理、虚拟或云主机,因此无需手动优化数据库。

该公司首席战略官查德·琼斯(Chad Jones)表示,其结果包括性能大幅提升,以及扩展到“数千亿行”的能力。

一种完全不同的方法来自于代数数据,它说它已经发展了第一个真正的数据数学基础。

尽管计算机硬件在被制造出来之前是用数学建模的,但是软件却不是这样,代数的CEO查尔斯·西尔弗说。

“软件,尤其是数据,从来没有建立在数学基础上,”他说。“软件很大程度上是语言学的问题。”

经过五年的研发,代数已经创造了所谓的“数据代数”,利用数学集合理论为“数据的通用语言”,Silver说。

“大数据的肮脏小秘密在于,数据仍然处于与其他数据不相吻合的小竖井中,”Silver解释道。“我们已经证明了它都可以用数学表示,所以它都是集成的。”

在此基础上,配备了一个平台,代数现在为企业提供商业分析服务。改进的表现,能力和速度都是代数承诺的好处。

时间会告诉我们,哪些新的竞争者会成功,哪些不会,但与此同时,像甲骨文(Oracle)这样的长期领导者并没有原地不动。

“软件是一个非常注重时尚的行业,”甲骨文数据库服务器技术部门执行副总裁安德鲁·门德尔松(Andrew Mendelsohn)说。“事情往往会从流行到不流行,再回到流行。”

他说,如今的许多初创公司都“把同样的老东西带回来,再加上一点修饰或修饰”。“这是新一代的孩子走出学校,重新创造事物。”

SQL是“唯一能让业务分析师提问并得到答案的语言——他们不一定非得是程序员,”Mendelsohn说。“大市场永远是关系型的。”

至于新的数据类型,关系数据库产品早在20世纪90年代就开始支持非结构化数据,他说。2013年,Oracle的同名数据库在12c版本中增加了对JSON (JavaScript对象表示法)的支持。

Mendelsohn说,推动行业变革的不是对不同类型数据库的需求,而是商业模式的转变。

“云是每个人都要去的地方,它将扰乱这些小家伙,”他说。“大公司都已经在云端了,那么哪里还有空间给这些小公司呢?”

“他们会去亚马逊的云平台与亚马逊竞争吗?”他补充道。“这很难。”

甲骨文拥有"最广泛的云服务," Mendelsohn称。“我们对今天的位置感觉很好。”

Gartner的研究主管里克•格林沃尔德(Rick Greenwald)倾向于持类似观点。

Greenwald说:“新的替代方案不如传统rdbms功能齐全、健壮。”“一些用例可以用新的竞争者来解决,但不是所有的,也不是用一种技术。”

展望未来,Greenwald预计传统RDBMS供应商将感受到日益增长的价格压力,并向其产品添加新功能。他说:“有些公司会自由地将新的竞争者引入数据管理的整体生态系统。”

至于新成立的公司,他预测,少数公司会存活下来,但“很多公司要么被收购,要么资金枯竭。”

今天的新技术并不代表传统rdbms的终结,IDC的Olofson说:“传统rdbms自身正在快速发展。”“RDBMS需要定义明确的数据——总是会有这样的角色。”

但他表示,一些较新的竞争者也将发挥作用,特别是在物联网和非易失性双内联存储模块(Dual inline -line Memory Module)等新兴技术的情况下。NVDIMM)。

奥洛夫森补充说:“会有许多问题需要许多解决办法。”“有趣的东西有很多。”

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对最重要的话题发表评论。
相关:

版权©2015Raybet2

工资调查:结果在