12个预测分析螺杆式窗口

犯了这些错误,你就不需要用算法来预测结果了

数据挖掘专家分享失败的经验和教训。

无论你是预测分析的新手,还是手头有几个项目,都很容易犯错误。“绝大多数的分析项目都充满了错误,”数据挖掘公司Elder Research的首席执行官John Elder说。

其中大多数都不是致命的 - 几乎每一个模型可以改善 - 但许多项目惨遭失败,尽管如此,弃商在软件和时间的代价高昂的投资,并没有显示它。

即使你开发了一个有用的模型,也会遇到其他的障碍。Elder说,他的公司90%的项目都是“技术上的成功”,但其中只有65%是在客户组织中部署的。

我们要求专家在三个咨询公司 - 上古研究,雅培分析和预测的影响 - 来形容最严重的业务和技术失误他们跑横跨根据他们在此领域的经验。这里是他们的12肯定火的方式失败列表。

1.开始时心中没有目标。

你对预测分析很感兴趣。你看到了它的潜在价值。只有一个问题:你没有一个明确的目标。

这是一家大型公司的情况,该公司聘请了Elder Research开始利用其数据来预测某样东西——任何东西——某位高管可能会把它卖给他的业务部门。研究咨询公司确实同意与他合作,并开发了一个供他使用的模型,但“这些业务部门中没有人问他想卖什么,”埃尔德研究公司(Elder research)的运营副总裁杰夫•迪尔(Jeff Deal)说,这个项目毫无进展。

迪尔补充说,这位高管“出于自己的目的在内部使用这些数据,但直到今天,他仍然希望有人能认识到这些数据的价值”。

教训:不要先造一个锤子,然后再去找钉子。在你开始之前要有一个明确的目标。

2.定义围绕一个基础,你的数据不能支持这个项目。

一个讨债公司想要确定在试图从拖欠的债务人那里讨债时采取的最成功的一系列行动。挑战:该公司有一套严格的规则,在每一个案例中都遵循相同的行动路线。

“数据挖掘是一门比较的艺术,”Abbot Analytics总裁迪安•阿博特(Dean Abbott)表示。由于公司有规则,总是适用于完全相同的行动,雅培不知道哪种顺序更适合收集债务。“你需要历史上的例子,”他说。

如果你没有这些例子,你需要通过一系列精心设计的实验来创造它们,这样你才能收集数据。例如,对于给定的1,000名债务人,第一步可能是500人收到一封恐吓信,而其他500人则会接到电话。他表示:“然后,可以建立预测模型,预测债务人的哪些特征对硬信函/电话的响应更好,以及债务人的哪些特征对先接到电话的响应更好。”

在这种情况下,特征可能包括发生债务的历史模式、偿还过去债务的天数、收入、居住的邮政编码等等。他表示:“基于预测模型,催收机构将能够使用最佳、最具成本效益的策略来催收债务,而不是对每个人都使用相同的策略。”但是你需要做实验来开始。“预测分析不能凭空创造信息,”他说。

3.在数据达到最佳状态之前不要继续。

人们经常错误地认为,在开始预测分析项目之前,他们必须将数据组织得完美无缺,没有漏洞、混乱或缺失的值。

一个全球性石化企业,长辈研究客户,刚开始的预测分析与投资潜力巨大的回报项目时,数据科学家发现,运营数据的状态是差很多比他们最初想象。

在这种情况下,缺少一个关键的目标值。如果企业等着收集新的数据,这个项目就会被推迟至少一年。“很多公司会止步于此。我认为这比其他任何错误都要扼杀更多的项目,”Deal说。

但是数据科学家习惯于处理混乱和不完整的数据,而且他们有方法,在许多情况下,允许他们解决这个问题。埃尔德研究公司(Elder Research)的数据科学家约翰•安斯沃思(John Ainsworth)表示,这一次,业务取得了进展,最终数据科学家们找到了一种方法,可以从其他数据中推导出缺失的目标值。

通过准确地预测故障、避免昂贵的停机和准确地确定在何处应用昂贵的预防性维护程序,该项目现在正步入节约大量成本的轨道。如果他们等待完美的数据,然而,这永远不会发生,Deal说,“因为优先级改变,数据永远不会得到固定。”

4.在审查数据质量,也懒得去倒垃圾。

咨询公司“预测影响”(Prediction Impact)总裁、《预测分析:预测谁会点击、购买、撒谎或死亡的能力》(Predictive Analytics: the Power to Predict Who Will Click, Buy, Lie, or Die)一书的作者埃里克?

乍一看,历史数据似乎表明,没有高中文凭的员工在工作至少9个月的可能性是有其他教育背景的员工的2.6倍。西格尔说:“我们几乎是在建议客户优先雇佣高中辍学生。”

但有两个问题。首先,数据,已被手动从求职者的简历键,已经不一致标记。一个数据录入人员核对施加各级教育,而另一只检查最大程度完成。

令问题更加复杂的是,由于某种原因,后一种人比前一种人标记了更多停留时间最长的人简历中的数据。这些问题本来是可以避免的,只要确保贴标签的人被随机分配一组简历输入,并且每个人都使用相同的贴标签方法。

但更重要的信息是,西格尔说:“垃圾进来,垃圾出去。请务必仔细地对您的数据进行质量保证,以确保其完整性。”

5.从将来的使用数据来预测未来。

数据仓库的问题是,它们不是静态的:信息是不断变化和更新。但预测分析是依赖于历史数据,或分析“培训资料”,创建模型的归纳学习过程。所以,你需要重新创建数据是在客户生命周期较早时的状态。如果数据不是日期戳记和时间标记,很容易包括产生误导的结果对未来的数据。

这就是发生在一个地区的汽车俱乐部,当它着手建立一个模型,它可以用来预测哪些成员将是最有可能购买其保险产品的任务。

出于建模的目的,所需要的俱乐部重新创建什么数据集就像早期之前,当成员购买或拒绝购买保险,并排除后续数据。该组织设立了一个决策树,其中包括含有电话,传真或电子邮件数据的文本变量。当变量包含的任何文字,有100%的把握,这些成员后来买保险。

埃尔德说:“我们确信,当时这个指标是已知的”——在会员们购买保险之前——但汽车俱乐部的工作人员“无法告诉我们这意味着什么。”埃尔德参与了这个项目。他知道这太好了,以至于不可能是真的,于是他继续问问题,直到他在组织中找到了一个知道真相的人:这个变量代表了成员是如何取消保险的——通过电话、传真或电子邮件。“在你购买保险之前,你不会取消它,”埃尔德说。所以当你建模时,你必须锁定一些数据。

6.不要只是进行,但因为你知道你的数据是完美急于过程。

60%之间,并花了一个新的预测分析项目80%的时间是由数据准备根据研究长老消耗。分析师要拉从各种来源的数据,结合表,卷东西和聚合,而该过程可能需要多达一年来取得的一切权利。有些组织绝对有信心,他们的数据是原始的,但雅培公司说,他从来没有见过用完美的数据的组织。意外的问题始终出现。

考虑到聘请长老研究医药商业的情况下,

但在分配给数据工作的时间上犹豫不决,并坚持了下来

加快进度。阿伯特让步了,这个项目开始了

提前完成缩短的计划和更小的预算。但不久之后

项目开始后,公司发现了一个问题:有些产品的发货日期

接到命令的日期早于接到命令的日期。“那些

不是我们无法克服的问题,而是需要时间来解决的问题

说 - 时间是在预算不再。

有一次,他指出了问题,行政意识到有问题

不得不回到管理团队解释项目的原因

需要更长的时间。“这对他来说成了一个可信度的问题

点,“交易说。教训:不管你认为你的数据有多好

是,预期的问题:这是更好地设定预期保守和

然后超过他们。

7.大的开始,一个高调的项目,将震撼他们的世界。

2011年,英国朋克摇滚乐队“冲撞”(the Clash)的联合创始人米克·琼斯(Mick Jones)。

一家大型制药公司有宏伟的计划,它认为这些计划太大而不能倒。当它开始建立一个内部预测分析服务时,团队决定做一些事情,“彻底改变医疗保健行业,”Deal回忆起他们在最初的会议上宣布。

但该项目的目标是刚刚过大,拉断需要太大的投资 - 尤其是对一个新的团队。“如果你没有看到结果很快你没有什么鼓励你去投资保持这个水平,”他说。

最终,该项目在自身雄心的重压下宣告失败。所以不要在围栏上挥杆,尤其是你第一次击球的时候。Deal建议:“设定小的、现实的目标,在这些目标上取得成功,然后从那里开始建立。”

8.在构建模型时忽略主题专家。

这是一个普遍的误解,认为创建一个伟大的预测模型,你只需将数据插入到一个黑盒子,把曲轴 - 准确的预测模型只是弹出。但是,谁取数据的数据挖掘专家,走开,回来与模型通常有缺陷的结果而告终。

这就是与雅培分析公司(Abbott Analytics)合作的一家电脑维修公司所发生的事情。该公司希望根据客户呼叫记录中的问题文本描述,预测技术人员应该为每个服务呼叫带来哪些部件。

“这是很难从一个方式,因为语言是如此含糊不清这对预测模型有用的文本拔出关键概念,”雅培说。该业务所需的90%的准确率在预测部分要求,第一款企图使基于特定的关键字出现在文本预测。“我们创造为每个关键字变量,并用它填充‘1’或‘0’,表示在该特定问题票该关键字,存在”,其中包括客户呼叫的文本。

“我们惨败了,”阿博特说。

所以他去寻找更多的数据——从技术人员那里。他表示:“秘密武器是利用你拥有的数据,并对其进行扩充,使属性中包含更多信息。”在与领域专家交流之后,他的团队提出了一个成功的方法。

“而不必数百个地广人稀的变量,我们凝聚到这几十个信息丰富的变量,每个绑到部分的历史关系被需要,”雅培解释。从本质上讲,他们匹配了在维修记录某些关键字的发生,发现已被需要部分时间有多少百分比。

“我们所做的是对数据进行重新处理,使其更符合专家的想法,而不是仅仅依靠算法把东西拼凑在一起。”这是一个我们经常使用的技巧,因为算法只擅长把这些模式组合在一起,”他说。

9.只要假设数据的保管者会全力配合就可以了。

许多大预测分析项目失败,因为发起人并没有继续之前涵盖所有的政治基地。其中最大的障碍可能是谁拥有数据谁控制数据或谁控制企业如何利益相关者可以使用这些数据的人。一位长者研究客户 - 一个发薪日贷款公司,提供短期贷款,以潮人过来,直到他们的下一个薪水 - 从来没有过的项目启动会议,由于内部分歧。

12 第1页
第1页共2页
IT薪资调查:结果在