Q&A: Hortonworks CTO展开大数据路线图

Hortonworks'Scott GNAU谈论Apache Spark Vs. Hadoop和Motion的数据

HortonWorks在大数据和Hadoop上建立了业务,但Hortonworks数据平台提供了分析和功能支持Hadoop以外的一系列技术,包括MapReduce,Pig,Hive和Spark。同时,Hortonworks DataFlow提供流式分析并使用技术apache nifi.和kafka。

InfoWorld Executive Editor out Gaul Kririll最近与Hortonworks CTO Scott GNau发表过关于该公司如何看到数据业务的震动,Spark与Hadoop面对面,以及Hortonworks的发布策略和努力来构建数据流动作数据的平台。

InfoWorld:你如何确定Hortonworks的现在职位?

吉瑙:我们坐在一个我们想要利用社区创新的甜蜜点。与此同时,我们也必须有点成年监督,以确保所有这些新的东西,当它集成时,工作。这是我们拥有的一个核心信念,我们真的对一个平台负责,而不仅仅是一系列技术。我们修改了我们将新版本带到市场的方式,使我们只纠正核心。当我说“rebase核心”时意味着新的HDFS,新的纱线.我们每年只重新建立核心基础一次,但我们会每季度集成项目的新版本。这让我们可以做什么,当你考虑当你重新建立核心或者当你对Hadoop的核心功能进行改变时,会有很多与不同项目的交互。有很多测试,它引入了不稳定性。这是软件开发的基础。这并不是因为糟糕的技术或糟糕的开发者。介绍了不稳定。

InfoWorld:这次重新成功,您是否愿意在每年同时这样做?

吉瑙:如果我们每年这样做,是的,它将同时同时。这将是目标。下一个目标将在2017年下半年。在两者之间,往往频繁的季度,我们将有非竞争版本,我们将为该核心添加新项目或添加新功能或更新版本的项目。

它的表现方式有几个优势。首先,我们认为我们可以以一种更消耗性的方式更快地推出新产品,因为它对我们的客户意味着稳定性。相反地,我们也认为,我们的客户将更愿意接近最新的版本,因为它是非常容易理解的,什么在里面,什么改变了。

我举的例子是,我们最近发布了2.5版本,基本上在2.5版本中,我们只改变了两个东西:Hive和Spark。如果您设想有一个客户,他的操作人员正在四处奔波进行变更管理,那么这就非常容易了。在内部,我们首次允许客户可以选择Spark的新版本或旧版本,或者同时运行这两种版本。现在如果你在运行变更管理,你会说,“好吧,我可以安装所有的新软件,并且我可以默认它在旧版本的Spark上运行,所以我不需要去测试任何东西。”如果我有一些想要利用新版本Spark的特性功能,我可以简单地让他们将该版本用于那些应用程序。

InfoWorld:已经谈到了Spark正在取代Hadoop.像海鲜与Hadoop一样发生了什么?

吉瑙:我不认为这是火花与hadoop。这是火花和hadoop。我们一直非常成功,很多客户都非常成功地走下了这条道路。我提到的是,即使在我们的新版本中,当最新版本的火花出来时​​,它在发布到Git的90分钟内,它就在我们的分销中。我们高度致力于作为使用案例的执行引擎,所以我们不仅投入了包装,还与我们拥有的贡献和提交人一起投入,也是如此Apache飞艇(它使数据科学家和Spark用户能够创建笔记本,并更有效地对它们共享算法以及它们如何优化它们根据这些数据集编写的算法。我不会像/或更好地将其视为“和。”

最后,对于正在发挥作用并面向客户的关键业务应用程序来说,平台背后有很多价值,包括安全性、操作性、备份和恢复、业务连续性以及平台所附带的所有这些东西。我认为“和”比“或”更重要。对于某些工作负载来说,Spark确实很好,但对于另一些工作负载来说却很糟糕,所以我不认为这是Spark与世界的对决。我认为是Spark和用例的世界才有意义。

InfoWorld:这有什么意义呢?很明显你对Hive的SQL很忠诚。Spark还提供了一个SQL实现。你会利用这一点吗?这一领域的有趣之处在于,所有这些平台供应商都希望为几乎所有类型的处理提供每种工具。

吉瑙:有火花供应商想要只提供火花。

InfoWorld:这是真的。我在想克劳德拉,就是你和mapr.在美国,已建立的Hadoop供应商。这些平台有很多工具,我们想要了解哪些工具正在用于哪种类型的分析。

吉瑙:简单,互动在相当小的数据配合火花上。如果您进入Petabytes,您将无法购买足够的记忆以使Spark工作有效。如果您进入非常复杂的SQL,则不会运行。是的,有许多事情有很多工具,最终有互动,简单,内存居民在火花适合的小数据用例上。与任何这些参数中的任何一个,当你开始到达任何这些参数的出血边缘时,它会减少有效,并且目标是让那个蜂巢流血。

InfoWorld:你对自己的平台有多固执,你在决定不再支持某个工具或放弃某个工具时有多自由?

吉瑙:任何一家产品公司所能做的最困难的事情就是让一个产品退役,这是世界上最可怕的事情。我不知道你会不会看到我们退休很久,但也许会有一些东西被放到牧场。的好处是,还有一个生活社区,所以即使我们可能不会关注试图推动投资,因为我们没有看到需求市场,仍有一个社区,可以出去拿东西,我看到它更多的作为一个牧场。

InfoWorld:要采取一个例子,风暴仍然是一个核心元素,我认为这是因为你决定这是一种比Spark或其他人更好的流程处理方式。

吉瑙:这不是更好的方法。它提供了窗口函数,这对许多用例都很重要。我可以想象一个世界在哪里写SQL,你会发送那个SQL的世界,我们将抓住它,我们实际上会帮助决定它应该如何运行,它应该运行它应该如何运行。这将是必须可持续的。

我们在这里和占位符到那里有一些能力,但我认为作为一个行业,如果我们没有让它更简单消耗,那么行业范围内会有一个问题,无论我们是谁'Re Smart或Cloudera是聪明的,无论如何。它将是一个行业问题,因为它不会被群众消耗。它必须是消耗和容易的。我们要创建一些工具,可以帮助您决定如何部署和帮助您管理您可以在哪里进行何处,以便认为他们与API与API与API进行交流,我必须为此运行Hive和HBase不得不了解所有不同的东西。

InfoWorld:您能识别出现在未来一年左右的平台中的新技术吗?

吉瑙:重要的是重要的是,在休息时的运动与数据的整个概念。当我说“运动中的数据”时,我不是在谈论的只是媒体。我不是在谈论的是数据流。我在谈论正在移动的数据以及你如何完成所有这些东西?你如何应用复杂的事件处理,简单的事件处理?你真的如何保证交付?您如何加密和保护以及如何验证和创建出处,所有情况下的出处都在运动中的所有出处?我认为这是一个巨大的机会。

显然,我们制作了收购Onyara并根据Apache Nifi发布了Hortonworks DataFlow。当然,这是最可见的东西之一。我会说那是不是单独的nifi,你会在内心看到什么我们的hortonworks dataflow包括NiFi, Storm和Kafka,一堆组件。你会看到我们将DataFlow打造为一个动态数据平台,我们已经并将继续沿着这条路线进行投资。当我外出时,有人问我:“你对流媒体有什么看法?”我说,流是动态数据问题的一个很小的子集。这是一个需要解决的重要问题。但我们需要把它看作一个更大的机会,因为我们不想只解决一个问题,然后有六个其他的问题阻止我们成功。这将是由设备,物联网,所有的流行词驱动的。

InfoWorld:在这个动议的未来,如何阶段或多么重要,是时间序列数据库,构建的数据库,以存储时间序列数据,而不是使用其他东西?

吉瑙:时间序列分析很重要。我会提交这些分析可以设计的许多方法。时间序列数据库是一种方式之一。我不知道所有使用情况都需要特定的时间序列数据库。可能还有其他方法可以获得相同的答案,但时间序列和数据的时间性越来越重要,我认为你会看到一些成功的项目沿着这些线上出现。

这个故事“Q&A: Hortonworks CTO展开大数据路线图”最初由霍顿出版infoworld.

加入网络世界社区有个足球雷竞技app脸谱网linkedin评论是最重要的主题。
有关的:

版权所有©2016.Raybet2

工资调查:结果是