作为一名物理学家,我最初接受的训练是用精确方程来描述世界。后来,作为一名实验高能粒子物理学家,我学会了处理大量带有错误的数据,以及评估竞争模型来描述数据。大量的商业数据往往比我所熟悉的物理数据更混乱,更难建模。简单地说,人类的行为是复杂的、不一致的、不被很好理解的,它受到许多变量的影响。
如果你的目的是根据历史模式来预测哪些以前的客户最有可能订阅一个新优惠,你可能会发现除了明显的相关性之外,还有一些不明显的相关性,以及相当大的随机性。当绘制数据和做探索性的统计分析时,并不能指出一个模型来解释正在发生的事情,这可能是机器学习的时候了。
亚马逊的机器学习服务旨在帮助分析师理解正在解决的商业问题,不管他们是否理解数据科学和机器学习算法。正如我们将看到的,这种意图会产生不同的产品和界面微软Azure机器学习(点击我的评论),尽管结果是相似的。
对于这两种服务,您都从历史数据开始,从观测数据中识别预测目标,提取相关特征,将它们输入模型,并允许系统优化模型的系数。然后你评估这个模型,如果它是可以接受的,你就用它来做预测。例如,银行可能想要建立一个模型来预测新的信用卡收费是合法的还是欺诈的,制造商可能想要建立一个模型来预测潜在客户可能在其产品上花费多少。
一般来说,你需要先上传和清理你的数据;然后创建、训练和评估一个ML模型;最后通过创建批量或实时预测。每一步都是迭代的,整个过程也是如此。机器学习并不是一个简单的、静态的、神奇的子弹,即使把算法的选择留给亚马逊。