评论:Databricks使得大数据梦想成真

基于云的星火机器学习和分析平台是数据科学家的优秀,功能全面的产品

斯蒂芬·绍尔/拼贴肖像历史
编辑推荐

对于那些你只是在星火调整,计算框架的开源集群,最初是由马·萨里亚在U.C.开发伯克利的AMPLab在2009年,后来开源并捐赠给Apache基金会。动机用于创建火花的部分原因是MapReduce的只允许通过数据单次,而机器学习(ML)和制图算法通常需要执行多遍。

火花被宣传为“快速和一般用于大规模数据处理引擎,”具有标语“闪电快速集群计算”。在大数据的世界里,星火备受关注和投资因为它提供的Hadoop内一个功能强大的内存数据处理组件,既实时和批量事件的交易。除了Databricks,星火已被IBM,微软,亚马逊,华为和雅虎等拥抱。

星火包括MLlib分布式机器学习和GraphX分布式图计算。

火花生态系统

星火内核支持的API,R,SQL,Python和Scala和Java的。附加火花模块包括火花SQL和DataFrames;流;MLlib机器学习;和GraphX用于图形计算。

MLlib是在本次审查特别感兴趣的。它包括一个宽范围的ML和统计算法的,所有定制的基于分布式存储器-Spark架构。MLlib器具,其他项目,汇总统计,相关性取样,假设检验,分类和回归,协同过滤,聚类分析,降维,特征提取和转换功能,和优化算法中。换句话说,它是数据科学家一个相当完整的软件包。

继续阅读这篇文章现在注册

IT薪资调查:结果是