旨在消除大量繁重的数据工程任务,MapR今天更新了其的Hadoop分布包括Apache钻0.5。
钻是分布式的ANSI SQL查询引擎自助服务数据探索一个开源的 - 谷歌的的Dremel系统的开源版本,用于交互式查询大型数据集,其中的权力了BigQuery服务。Apache的钻项目的既定目标是使其能够扩展到1万台服务器以上,而在几秒钟内处理的记录数据的PB级和万亿。
+也在网络世界有个足球雷竞技app你应该了解Hadoop公司+
钻取查询引擎提供做以下的能力:
- 浏览原生格式的数据(包括拼花、JSON文件和HBase表),不需要数据库管理员(DBA)干预。
- 分析来自NoSQL数据存储(如MongoDB和在线REST api)的进化和半结构化/嵌套数据。
- 创建同时结合不同Hadoop数据源(如文件、HBase表和Hive表)的查询。
- 重用现有的SQL技能集、BI工具和Apache Hive部署。
(相关:MapR通过大数据App Gallery扩展了Hadoop的影响力]
MapR首席营销官杰克•诺里斯表示:“我们对此感到兴奋,因为它真的开启了hadoop上sql的新时代。”“专注于Hadoop上不需要IT参与的自助数据探索。”
由于Drill提供了直接在各种格式上运行SQL查询的功能,因此可以使用它在实时数据到达时进行探测,而无需花费数周时间准备和管理模式以及设置ETL任务。通过这种方式,它可以跨多个数据源提供即时的、自服务的数据搜索。
451 research的数据平台和分析研究主管马特·阿斯莱特(Matt Aslett)说:“企业希望向拥有现有SQL分析技能的更广泛的用户提供访问存储在Hadoop和NoSQL数据库中的数据的机会。”“Apache Drill能够提供对Hadoop数据的访问,而不需要集中式模式,而且NoSQL数据集具有复杂的数据结构,包括嵌套和重复字段,这使它有别于Hadoop上的sql的传统方法。”
“其他的sql -on hadoop解决方案,不管是Hive还是Tez,都依赖于固定的模式,”Norris补充道。“不管你是在谈论MapReduce、Hive还是其他hadoop上的sql解决方案,都需要这个中间人来做建模、数据转换和支持分析的管道。”Drill不需要等待数据生成过程就能发现数据,这给你带来了速度和灵活性的优势。”
MapR是包装钻与MapR 4.0.1,也在今天发布。Hadoop发行版的新版本为包括操作应用程序、交互式查询和流处理在内的用例扩展了实时功能。
新版本包括多个批处理框架,包括MapReduce 1。x和2。x(纱线基础),以及Spark(0.9和1.0.2)。它还支持五种hadoop上的sql技术:Hive(0.11、0.12、0.13)、Drill(0.5)、SparkSQL(1.0.2)、Impala(1.3.1),以及与HP Vertica的认证集成。它增加了对HBase(0.94.21, 0.98.4)和MapR-DB NoSQL技术的支持,以及Mahout(0.8, 0.9)、MLLib(0.9, 1.0.2)和GraphX三种机器学习和图形库的支持。
托尔Olavsrud覆盖IT安全性,大数据,开源,微软工具和服务器的CIO.com。按照雷神在Twitter@ThorOlavsrud。按照一切从CIO.com的Twitter@CIOonline,脸谱网,谷歌+和LinkedIn。
这篇文章名为“MapR旨在将hadoop上的sql提升到一个新的水平”,最初发表于首席信息官 。