运输署Ameritrade的大数据推1年。后:从好处各个角落

数据质量正在提高,个性化能力正在出现,创新的步伐正在加快

Ameritrade公司
Ameritrade

有个足球雷竞技app网络世界主编约翰·迪克斯第一个说话的德里克·斯特劳斯一年前当时他刚刚开始担任TD Ameritrade的第一任首席数据官。他建立了一个新的小组——企业数据和分析小组,并刚刚完成了18个月的工作来支撑九个新平台,包括一个Hadoop数据存储和一个元数据存储库。迪克斯最近拜访了施特劳斯,看看这个巨大的事业是如何运作的。

德里克·施特劳斯,CDO Ameritrade公司

德里克·施特劳斯,TD Ameritrade首席数据官

我们从哪里开始对我们上次辐你已经取得了什么更新?

我有一长串的事情我们一直在跟踪方面的价值,所以我可以打一些高的点,然后它会退后一步,看一些其他的事情,我们唯一可能的准备,因为我们已经奠定的基础。我们将开始一个相当积极的时间表为这些新的倡议,我感觉良好的积极,因为基金会是在适当的地方。

您提到了Hadoop的工作,那么我们为什么不从这里开始呢?Hadoop的动力是围绕个性化,这样我们的客户就会觉得我们了解他们,我们可以提供有用的见解和教育,而不会感到毛骨悚然。重点是像亚马逊的建议,你会说,“哇,我喜欢他们的建议,真的很有用。”

我们将Hadoop环境称为数据编组场。为什么?因为这是仓库的上游。想想原材料被整合在一起被制造成某种东西。它们通常会被铁路运输,然后进入编组场,在那里它们会被分拣,然后送到各个工厂和下游的仓库,然后你就可以对这些原材料进行分析。因此,把它称为数据编组场似乎是一个很自然的类比。

我们用什么与做呢?一对夫妇的关键的东西。我们主要集中在拉动聊天信息和电子邮件,很多文本的东西,尝试和了解客户的行为,所以我们可以在场景方面优化客户体验。我们还看什么我们的客户都在谈论和阅读。当他们给我们打电话,他们想谈点什么?把所有与他们在我们网站上的活动,一起的,我们计算出该客户真正感兴趣的某些类型的资产类别,然后我们可以看一下,看是否有第三方的任何报告,由政府,无论谁,说:“It seems like this is an area you’re interested in. Are you aware these resources have just been published and here’s a link to them.” All of that is around personalization.

因此,我们实现分析的好处,但也有围绕数据和数据管理的好处。

让我们举一个代码表的简单例子。代码可以是任何东西,但是让我们看看国家代码。南非是ZA。美国是美利坚合雷竞技比分众国。当程序员编写程序时,如果没有一个国家的代码表,每个人都可以引用为权威的表,每个人都硬编码到他们的程序。但任何大型组织都有数百个系统,所以可能有100个国家代码表,或者更糟的是,每个程序都有一个。

主数据管理是所有关于试图解决。国家代码只是一个简单的例子,但是当我们开始寻找这是令人惊讶的是很多时候人们已经创建了冗余桌子,和可能导致的监管及合规问题,各种和大量不准确的。

就拿我来说吧。我出生在罗得西亚。罗得西亚不存在了,但如果你正在寻找Derek的发源地,你要知道,现在的罗得西亚津巴布韦是?保持地域的东西,记忆集中是每个企业的需求,没有人真正拥有。

我们实现了主数据管理功能,我们处理的第一件事就是国家代码。现在我们的应用程序开发团队知道他们可以通过一个权威的来源找到它。他们不会继续延续数据中的冗余和错误,而且如果有什么变化,他们也不需要记得更新他们的程序,因为公司里的人现在拥有并负责更新这些数据。

这种效率是巨大的,而且经常被忽视。当你想到首席数据官这个角色时,人们只会想到分析方面的激情,但是在数据集上有一个非常实际的效率方面,这对任何组织来说都是一个很大的优势。

一旦您拥有了主数据管理能力,我想您会四处寻找重复的工作和多个版本的事实吗?

正确的。当你找到它的时候,你需要找到拥有它的人。这就是数据治理的一面。你找到一个所有者,所有者点的数据管理员通常是已经工作的人试图解决这个问题,你会说,“这是一个工具,你可以分析所有的不同的值你有今天,和谐,创建一个源的真理和你自己的,确保是最新的和其他人开始使用。“这有很大的不同。

但实际上有成百上千的例子可以应用这一点,这是一个与业务团队合作的问题,他们经常在这些事情上出错,把它们排序,然后一次挑出一个,然后解决它。

房间里的一头大象是客户,因为我们,像许多金融机构,都长大了是帐户为中心。因此,约翰,让我们开一个帐户为您服务。哦,你想吃点别的什么?好吧,让我们打开另一个账户给你,另外,和其他。我们每次开设一个账户,用户时间,冗余创建该帐户记录您的信息。我们不会对你一个中央记录。

在幕后,为了让金融公司能够把你作为客户来处理,了解你和我们之间的全部业务,并以此来对待你,我们有一千个侏儒整晚跑来跑去,试图把所有的信息整合在一起。

I’m exaggerating for effect, of course, but it’s a big thing because it’s like open heart surgery for the organization and you’ve got to really know that you’re going to be successful and you’ve got to plan the creation of a client master very carefully. We now have an opportunity to address that head-on because we’ve put a lot of the building blocks in place. I’ll come back to that one. That was just sowing the seed. Master data management is a key benefit and it’s all about efficiency.

数据质量的改进是另一个关键好处。《爱国者法案》规定了很多关于反洗钱的内容,客户的五个主要属性是非常重要的,必须井然有序。其中一个是出生日期。

怎么可能有周围的任何波动?

已经通过收购成长的任何公司不得不做出一些决定,其中权宜之计战胜了保证数据的最高品质。For example, if we had acquired a book of business with a couple thousand clients and their records related to date of birth were incomplete, we might have decided to bring them in with today’s date being the date of birth and the idea that we would go back and fix it over time. The expedient thing was to get the conversion done. Other times the programs capturing the data in the companies we acquired didn’t have the right sort of edits so you had people with birth dates in the 1800s instead of the 1900 or birthdates in the future. Just crazy stuff.

我们看到所有这些事情,并认为,“好吧,这将是有趣的。我们将不得不做一些实实在在的工作,这些分析并找出根源,并找出补救的最佳方式。”

过去我们不知道问题的严重程度。我们偶尔会碰到它,并在运行各种类型的报告时遇到问题,我们不得不赶回去,试图弄清楚发生了什么。现在我们知道是怎么回事了。现在我们知道问题在哪里了。现在我们要回去解决这个问题,这是非常大的问题。这是当局想从他们审计的任何组织那里得到的所有东西。他们知道这并不完美。这是你在做什么,你知道其中的风险吗。

所有这些事情,当然,有剥离的优势分析组,因为他们开始处理数据更好,当然如果你工作数据的高完整性你决定要更强,这将是更容易。

你是把所有的数据放在一个地方来提高质量,还是试着在它所在的地方改进它?

我们试着把它固定在它所在的位置,在真正的源头。但这是一个很好的观点,因为当我们开始考虑创建一个客户机主服务器时,理想情况下,在适当的时候,我们只有一个数据所在的地方,而且它将是好的数据。但因为我们现在开始在源处修复它,当我们创建客户端master时,我们会用好的数据来创建它而不是我们需要修复的数据。

但其复杂。如果有七个不同的来源为这个特别的事情,比如说,出生日期,其中那些将我们认为是权威来源?如果我们真的想挽救自己的努力来解决这些问题的全部七,哪一个会,我们现在解决这个麻烦?我们正在试图做的是思考为好。

在某些情况下,这是不可能做到这一点;我们必须走出去所有七个,因为我们的系统设置方式。但在其他情况下,它可能现在一个后才行。同样,这阻止和解决围绕数据扯皮不是性感尤物,它不是嘶嘶声,但它是得到它的权利为组织的关键。

所有这些努力都需要你引进一些新型的专家吗?

我们不会雇佣100名数据科学家。在我们这样规模的公司里,这是不可能发生的。最好是尝试和思考一种方法来集中我们的数据科学技能。

因此,我们与一些大学合作,利用亚马逊云建立了一个合作数据科学平台。我们把大量的数据搬到那里,和大约12所大学签订了保密协议,我们说,“你们需要真实的数据,这样你们的硕士和博士学生就可以卷起袖子来摆弄数据,我们需要集思广益。这是一场婚姻。我们可以从中得到一些东西。”

我们有一个正式推出在六月的平台,我们有我们的分析师和大学球员之间真正的良性互动。该大学有回来与惊人的想法和见解,我们仍处于发展阶段。随着时间的推移它给了我们访问一些最好和最聪明的学生,其中一些可能要来参加我们的。这一直是非常成功的,我们将继续推进。

回到客户主,你在创建它的过程中处于什么位置?

我们从收集的大量数据中创建了一个客户配置文件,它是关键客户属性的整合视图。我们从来没有这样的客户记录,这只是一个开始,但还不是主记录。这是一种策略,但我们已经开始使用它来有效地针对特定客户,因为我们现在知道他们的兴趣是什么。事实上,这是更大的个性化计划的一部分。

在个性化中可能有20个不同的主题。其中一个是新员工。当我们在客户端上运行时,我们创建了30个与客户端相关的属性现在我们将它保存在Oracle数据库中,但我们将设置客户端主域并将它移到客户端主域。

所以,你仍然有多个版本,但现在同步?

它需要一些,在它是唯一一个,每个人都直接使用。通常情况下,首先要创建一个注册表,它是一个中心索引,用于创建保存客户端记录的所有这些不同实例之间的连接。你会开始使用它作为人们可以参考的点,随着时间的推移,它会增长,你会创造出越来越多的权威数据。随着时间的推移,它逐渐精炼,最终成为黄金的来源,每个人都在使用的黄金唱片。这是一个旅程。这需要几年的时间来实现,但是注册表,客户索引,是你可以更快地站起来的东西。

因此,有朝那个圣杯临时步骤。

是的。有些数据是我们的业务人员一直想要得到的,但由于这样或那样的原因,很难得到。我们现在已经实现了这个虚拟功能,不需要移动数据。我们实际上可以创建跨许多不同来源的数据视图,这帮助人们不必编写新的程序就可以理解数据。

过去,一些分析专家会说,“为了做到这一点,我认为我需要这类数据,而且我认为这些数据就在那些系统中。”然后他们会去找数据仓库团队说,“我需要将这些数据提取、转换并加载到企业数据仓库中。”

相关:
12 第1页
第1页共2页
IT薪资调查:结果在