DIY与完全集成的Hadoop - 什么是最适合您的组织?

亲自构建与一个预集成的,出的现成的平台去的权衡

Hadoop的/肖像历史

该供应商编写的技术底漆已经被网络世界编辑,以消除产品推广,但读者应该注意到它可能会倾向于提交者的做法。有个足球雷竞技app

你不必看远,看的令人惊奇的事情是企业与大数据技术,这样做的:过去的交易,社交媒体和其他来源提取信息来开发他们的客户的360度全景。分析的过程成千上万查明故障和效率低下的原因。将不同的数据源到了前所未有的认可揪出连接在一起。

所有这些创新,更多的,是可能的时候,你可以从整个组织收集信息和数据的科学应用到它。但是,如果你已准备好进行跳跃到大数据,你面对严峻的选择:你应该使用预集成的“乱用”的平台?还是应该下载开源的Hadoop软件,并建立自己的?

哪一条路径是适合您的组织?让我们来仔细看看。

组装拼图

首先,要知道,如果你去DIY,还有你需要与股票Hadoop的集成许多不同的组件:蜂巢,纱,MapReduce的,等等。(一个领先的Hadoop发行版包括23个不同的软件包。)你需要弄清楚哪些组件,以及软件版本,这样可以为您的部署,以及如何使他们一起工作,并与您的环境。

这不是一个一次性作业;所有这些工具都在不断更新,所以你需要弄清楚如何支持和维护一个持续的基础上的解决方案。由于这些原因,大多数企业建立自己的平台上使用第三方专业服务来处理很多繁重的。

那么,为什么选择DIY的路径?你结束了这正是调整为你想用它做什么的解决方案。你的IT部门保留对平台的流程和能力的完全控制。如果你在寻找一个相对较小的项目(设计用于特定目的,特定数据的选择和接口),这可能是一个不错的选择。但是,也可以是一个缺点广泛的定制:如果你想扩展您在未来的平台,它可能会比设计用于多个用例一个现成的解决方案不够灵活。

称重费

这是很有诱惑力的假设,建立自己的平台,利用现成的,现成的硬件和开源软件,天生就比一个预集成解决方案更便宜。这些数字,但是,不一定证实了这一点。

一个集成平台的标价可能会更高,但总拥有成本很可能是不相上下,甚至更低在解决方案比DIY群的生活。试想一下:任何大数据平台将需要相同的计算能力,存储和基础架构,因此硬件成本可能相当。但是,如果你打算自己动手做,你应该预计花费在软件几十万美元,以及安装和第三方专业服务,所有这些都包含在一个预集成解决方案的持续支持。

成本差异可以,但是,如果你正在考虑云计算变得显著。各种预集成解决方案现已作为基于云的服务(或者甚至是混合服务,其中一些数据遗骸的处所)。这种模式允许企业开始以低得多的前期成本采用大数据,不是建立自己的解决方案,甚至部署在内部部署一个预集成全面解决方案快得多。

收集和使用的数据是不一样的东西

重要的是要记住,数据科学需要不止在一个地方聚集的数据是非常重要的。有收集数据,并能够使用它之间的许多步骤。

取提取从非结构化数据,例如电子邮件的结构化信息的一个常见的例子。下面是一个可以工作的一种方法:首先,成千上万的电子邮件中基本的HTML到达。要提取有意义的洞察,你现在需要解析的文件,清理它们,提取条件,定义一个有意义的词汇,等等。

外的现成解决方案通常提供预建的工具来管理作业调度工作流一起收集数据,使您的数据分析做好了准备。一个更通用的预建的平台也可能是灵活的,允许开发人员编写程序使用自己选择的语言,并且相信他们会在系统中的任何数据的工作。所以,它应该很容易创建和不断更新周围的数据,你正在收集工作流程。

如果你去DIY,确保你的基础架构可以处理所有围绕数据收集工作流程的,或者说,它愿意支持他们。而且,一定要设计自定义解决方案是尽可能开放,使你不再受限于未来的选项。

从实验室走向生产

一个在DIY项目的风险较大的正值当是时候从实验室转移到生产。下面是可能发生的事情:你建立了一个示范的Hadoop环境,展现你可以用它做什么。每个人都留下了深刻印象,你会得到绿灯前进。但是,当它的时间把它投入生产,你面对它的一些不舒服的问题:如何将这种融入我们的业务流程?你将如何安全地访问?在休息加密的数据?这将如何扎入我们的身份基础设施?

企业IT花费很多事情是理所当然的,任何数据库平台,将已加密存储,使用Active Directory,严格的审核日志集成,定义细粒度的访问控制策略的手段。如果您的解决方案还没有检查了所有这些箱子,没有一个在有必要的实验室,它不会靠近你的生产网络的任何地方。

不幸的是,股票的Hadoop不提供了极大的这些问题的答案。甚至基本加密和AD集成复杂,并且默认的访问控制机制的粗粒度。有没有一种机制给不同用户的不同级别的访问相同的数据,例如,如果你的平台服务是谁需要访问完整记录,分析谁是唯一有权查看去标识的信息客户服务人员。

任何生产就绪的大数据平台需要所有这些功能。如此反复,这是权衡定制对灵活性的问题。如果你去DIY,你应该会需要一个显著的集成工作。但你最终会使用专门为现有的安全,认证和策略基础设施建设的解决方案。

如果你出的现成的解决方案去,你要这是一个从底层向上构建,以满足企业的安全性和私密性要求,包括基于策略的访问控制,加密和审计开箱即用的平台。有的甚至可以动态生成不同用户的数据的不同看法,如呈现记录全景一些用户去识别的版本给别人,对飞。只要知道你可能不得不适应一些内部流程围绕一个预先构建的平台。

最终,你选择的大数据路径归结为了解您的组织。也许你有需求的定制解决方案的独特需求。也许你正在处理一组有限的问题,或者有现成的数据收集流程和基础设施,你不想改变。如果是这样,正是针对您的需求定制的大数据平台可能是最合适的。但如果不是这种情况,如果大数据只是一个工具来支持你的核心业务战略 - 一个预集成的企业级解决方案可以提供一个相对快速,简单的方式开始解锁你的数据的价值。

洛伦特负责推动在PHEMI系统的产品愿景和战略 - 基于BC-温哥华,启动集中存储,管理和结构化和非结构化数据的管理。他与领先的医疗保健科研机构,医疗保健机构和支付机构紧密合作,帮助他们定义和实现自己的大数据战略。

加入对网络世界的社有个足球雷竞技app区Facebook的LinkedIn对那些顶级心态的话题发表评论。

版权所有©2016Raybet2

IT薪资调查:结果是