回顾2014年

Hadoop的继任火花数据分析的演变

通过押杰克逊

美国记者，IDG新闻服务 |

回顾2014年

显示更多

如果2014是一年的Apache Hadoop的引发了大数据革命，2015年可能是当年那个Apache的星火取代了Hadoop的与更丰富更及时的分析，其卓越的性能。

IT分析公司Monash Research的负责人Curt Monash说:“业界有一种强烈的共识，认为Spark是正确的选择。”

+也:参见网络有个足球雷竞技app世界回顾2014年的故事列表+

明年，你会看到很多的[Hadoop的]用例创见的Hadoop，”阿里Ghodsi，为Databricks产品管理和工程的负责人说，由一些火花，提供了一个托管星火服务的创造者形成了公司，以及为软件经销商销售星火包装技术支持。

火花是用于分析存储在不同的计算机的集群数据的引擎。Hadoop等，星火可以用来检查是太大，无法进入传统的数据仓库或关系数据库中的数据集。另外像Hadoop的，星火可以在非结构化数据，如事件日志，还没有被格式化成数据库表的工作。

火花，然而，已经超出了Hadoop的可以很容易做到的，因为它可以分析流式数据，因为它是脱落导线。

因此，它可以更快地替代用于数据分析的Hadoop MapReduce框架。在年度代托纳灰色排序挑战(Daytona Gray Sort Challenge)中，Spark测试了数据分析系统的速度轻松战胜了Hadoop的MapReduce的，并能够通过100TB的23分钟内的记录进行排序;花了Hadoop的三倍多，只要执行相同的任务，约72分钟。

最初，实时处理似乎并不像一个大的区别，但是，这种能力被用于创建企业全新的线路。

“我们已经建立了我们的身边星火知识产权，解释说：”天窗数据CEO兼联合创始人Sharmila沙哈尼 - 穆里根。天窗数据提供一种新的商业智能服务这使得团队可以将一系列可视化的数据组合成一个叙述，就好像他们是一个PowerPoint演示。数据可以来自许多来源，并且可以在新数据进来时进行更新。

“人们希望快速的响应时间。他们不想等了一天的答案，” Ghodsi说。例如，星火可以用来帮助数字广告主决定投放的广告，用户可以根据自己的最后点击几下，而不是在他们点击数天或数周之前哪些网站。斯巴克的数据处理速度是很重要的，因为当数据量，我们收集正在快速增长，计算机处理能力的提高是渐行渐远。

Spark还提供了更丰富的数据分析方法，莫纳什说。Hadoop的默认分析引擎MapReduce主要能够执行一种问题，包括跨不同服务器的数据过滤和排序(任务的“映射”部分)和结果汇总(问题的“减少”部分)。

相比之下，Spark被设计用来处理涉及机器学习和预测建模等技术的更复杂的查询。“Hadoop MapReduce非常擅长的事情，Spark可能更擅长，”莫纳什说。

另一个早期采用Spark的公司是音乐流媒体服务Spotify，它使用该技术来根据用户的特定喜好生成音乐播放列表基于一系列的机器学习算法。

即使是Hadoop的用户所得到的消息。Hadoop的分配器Cloudera的，其中还包括在其释放火花，在某种形式使用星火约60企业客户根据莫纳什的说法。其他Hadoop发行商，特别是Hortonworks和MapR，也在它们的发行版中提供了Spark。

Spark项目于2008年在加州大学伯克利分校启动AMPLab（AMP的代表算法，机器和人）。现在，Apache软件基金会的指导下，该项目比任何其他Apache软件项目获得更多的贡献。核心贡献者包括来自英特尔、雅虎、Groupon、阿里巴巴和Mint等公司的工程师和开发人员。

Spark可以与Hadoop结合使用，以分析Hadoop文件系统(HDFS)上的数据，或者它可以在其自己的运行。开发者构建应用程序关闭或者使用Python和Java或Scala编程语言星火。

“星火的吸引力的部分原因是它有一个相当不错的API [应用程序接口]这使得它可以访问使用开发人员和工程师，”雷诺昕Databricks联合创始人说。

Databricks的Ghodsi预测，明年我们将看到更多基于Spark的产品和服务。程序员经常被问及他们的“火花”。

Ghodsi说:“我们有多个(工作)候选人说他们看到了多个令人兴奋的Spark项目。”