就像我写于今年三月, Databricks服务是数据科学家的优秀产品。它有各种各样的摄取、特性选择、模型构建和评估功能,以及与数据源的良好集成和优秀的可伸缩性。Databricks服务提供了Spark的超集作为云服务。这家公司是由Spark的最初开发者Matei Zaharia和加州大学伯克利分校AMPLab的其他人创立的。与此同时,Databricks仍然是Apache Spark项目的主要贡献者。
在这篇综述中,我将讨论火花毫升, Spark的开放源码机器学习库。更准确地说,Spark ML是Spark的两个机器学习库中较新的一个。在Spark 1.6中,对于大多数功能,建议使用Spark ML包中的基于数据框架的API,而不是Spark MLlib包中的基于rd的API,但是这些API并不完整。现在,从Spark 2.0开始,Spark ML是主要的和完整的,Spark MLlib处于维护模式。
火花毫升特性
Spark ML库提供了常见的机器学习算法,如分类、回归、聚类和协同过滤(但是不以及用于特征提取、转换、降维和构建、评估和调优ML管道的选择工具和工具。Spark ML还包括用于保存和加载算法、模型和管道的实用程序,用于数据处理以及进行线性代数和统计。
Spark ML在文档中也称为MLlib,这很容易混淆。如果这让您感到困扰,您可以忽略旧的Spark MLlib包并忘记我曾经提到过它。
Spark ML是用Scala编写的,使用线性代数包Breeze。Breeze依靠netlib-java来优化数值处理。如果幸运的话,您的平台上有机器优化的本机netlib-java二进制代理,这将使整个库运行得比纯JVM实现快得多。在Mac上,这就是苹果的veclib框架,它是默认安装的。