减少数据管理复杂性的10个步骤

许多数据驱动的企业都在寻找客户数据的单一视图，这些视图通常是孤立的和分散的。

资深作家，CIO |

现代企业是数据驱动的。以在信息快速接入和行动的能力已经成为一个重要的竞争优势。但是，业务数据往往是孤立和割裂。从您的信息获得竞争优势，你需要你的数据的单一视图。

如今，大多数组织都有一个复杂的数据管理流程，该流程通常涉及多个结构可变的数据源、摄入和转换、加载到操作数据库并支持需要数据的业务应用程序。分析、商业智能(BI)和报告工具需要访问数据，这通常需要单独的数据仓库或数据湖。这些层都需要遵守安全协议、信息治理标准和其他操作需求。

这种复杂性的结果往往是信息被困在竖井中。系统是为处理当前需求而构建的，而不是精心设计成现有应用程序状态的，或者服务需要额外的属性来支持新的功能。由于业务合并和收购，新的数据源不断积累。关于单个业务实体(如客户)的信息最终会出现在十几个不同的、不相连的地方。

“我们知道数据就在我们身边，”MongoDB的产品和市场分析总监Mat Keep说，该公司推出了开源NoSQL面向文档的同名数据库。“它以每年40%到50%的速度增长。移动，网络，传感器数据，社交网络。把所有的数据放到一个视图中，越来越成为优先考虑的事情。它是非常复杂的，常常是竖井式的，很少是一致的，很难付诸行动。很长时间以来，企业一直试图建立单一视图。”

为了帮助组织实现这一目标，MongoDB开发了一个10步方法论，用于交付单一的数据视图，基于从客户参与中得来的辛苦经验。

第1步：定义项目范围和赞助

客户经常以非常雄心勃勃的计划来处理单视图项目，Keep说。有一个远景是很好的，但是从计划将每个系统中的每个客户数据提取到单个视图开始通常是错误的。

他说:“我们发现，在项目的第一阶段，试图煮沸海洋，获取每一条数据是一个很大的问题。”“我们发现，最成功的做法是专注于单一的业务问题。”

也许您希望减少呼叫中心的平均解析时间(MTTR)。将项目的范围缩小到特定目标，将使识别与成功最相关的数据变得更加简单。

“你真的应该在跑步之前先走，”Keep说。“从一个特定的业务问题开始，这个问题有一组确定的数据和一组确定的目标，这样你就可以衡量成功。”

这还将帮助您确定将受益的关键涉众。他们不会每天运行项目，但他们可以帮助获得必要的资源，以确保项目的成功。

第2步：确定数据的消费者

一旦确定了要解决的业务问题，下一步就是了解要创建的单一数据视图的使用者。为了得到正确的需求，您需要了解他们是谁，他们是如何工作的，以及最终如何使他们的工作更简单。

“你必须留出一些时间和他们在一起，”Keep说。“观察。它们是如何查询数据的呢?是文本搜索吗?按客户ID查找?你不能过度设计它，你也不能得到足够的数据。”

比如，Keep说，MongoDB帮助保险公司大都会保险(MetLife)为其呼叫中心代表建立并运行了一个视图。观察显示，该公司的呼叫中心代表必须在多达15个不同的屏幕上浏览，以回答常见的客户问题。通过精确地观察他们每天在做什么——他们为客户回答的问题以及如何才能得到这些答案——MetLife和MongoDB能够构建一些更简单的东西。

第三步:确定数据生成者

第三步(通常与第2步相辅相成)是识别生成项目所需数据的数据源。

“这可能意味着创建新的数据源，但通常数据是存在的，”Keep说。“关键是要知道它在哪里，以及如何得到它。这可能意味着修改现有的应用程序以获取新的属性，或者将以前手工操作的东西数字化。”

像第2步，这一步将帮助你确定正确的要求。

第四步:指定数据管理员

该方法的前面的步骤包含您的单一视图项目的发现阶段。他们关于创造的需求的框架。第4步，你任命负责在源系统中的数据的数据管理员进入开发阶段。您的数据管理员将在兼具创造您的单一视图项目及日常维护的关键球员。

“他们往往持有步骤2或3发现的数据源，”继续说。“他们知道什么表中的数据生命，它是如何格式化的，它是如何提取的，他们知道，如果有获取数据出不中断的核心数据系统的清洁方式。”

步骤5:开发单视图模型

这关键的一步，将决定后面的一切，但请记录它的那么可怕，如果你已经成功地完成了初步的前期发现。确定数据的类型，它生活的地方，你需要如何查询。

“在这里，我们可以看看哪些数据是强制性的，哪些是可选的，”Keep说。“对于你的申请，电子邮件地址，出生日期和信用卡号码可能是强制性的。社交媒体账户可能是可选的。然后找出需要索引的数据。这将加速消费应用程序想要运行的查询。这就是具有灵活数据模型的数据库的真正帮助所在。我们不需要知道所有的可选字段是什么，我们可以添加它们。我们只需要强制性的数据。”

步骤6:数据加载和标准化

一旦有了单视图数据模型，就需要定义如何在该单视图中表示数据。您需要为要捕获的属性设计通用字段名。您的各种数据源可能会以不同的方式捕获“DoB”、“Date of Birth”和“Birthdate”。你需要标准化这些字段名。

“在第六阶段，我们实际上要做的是确保从源系统转换所有的数据，使其符合这个标准，”Keep说。“它从初始数据加载开始。”

“在初始加载时，你有一个空的单视图数据库，你从源系统中拉入所有数据，这样它就能满足你定义的要求，”他补充道。然后你就会捕捉到对你的单一视图的更新。你可能会批处理，但我们现在看到的更常见的是他们想要一个更新鲜的视图。因此，[Apache] Kafka现在非常流行。它提供了接近实时版本的数据。这就是我们所说的三角洲负荷。”

步骤7：匹配，合并和调和

尽管在上一步中已经对数据进行了标准化，但仍需要使用算法根据源系统识别哪些记录没有对齐。例如，商务旅行应用程序可能会利用“Mat Keep”、“Mr. Keep”和“Matthew Keep”等记录。你的单视图应用程序需要匹配、合并和协调这些记录。

“这确实是最艰难的阶段做的一个，”继续说。“我必须告诉它我在同一个人了解我的观点这就是匹配和合并进来时你可以像使用信用卡号码的唯一标识符：。在这些领域的搜索，以确定它是同一个人。如果你没有这样的规范的数据，或者如果有一个错字，你需要捕捉的文件属性，你可以用类似的属性簇的记录在一起，并开始做差不多的人不管是与否的决定。你可以使用工具来自动完成这个处理。”

机器学习可能会在这里发挥作用。

步骤8:架构设计

您的单一视图项目的部署阶段的架构设计的步骤标记开始。

“这就是我们实际部署的方式，”Keep说。“它是关于确保底层系统满足性能目标以及系统的可用性和安全目标。”

在此步骤中，您将为个人可识别信息(PII)实现适当的安全保护，并确保系统对故障和中断具有弹性。

步骤9:修改消费系统

在此步骤中，您将看到的是消费数据，并确保应用程序指向单一视图的系统。在大多数情况下，这意味着创建RESTful API中的哪些应用程序可以拉动他们的数据。

步骤10:实施维护流程

没有业务系统是静态的。他们不断变化的新流程中添加或修正错误。你可能会创造出完美的数据模型，它会继续这样做了五天，直到源系统的变化或断裂之一。这就是为什么一个灵活的数据模型是关键，让你的单一视图项目的权利。数据模型需要跟上快速变化的源系统的步伐。

“说真的，第10步是元一步，”继续说。“为了保持单一视图，您需要通过前面的九个步骤回去和不断更新的数据模型。第10步是真正围绕前步骤的循环。你需要变更管理流程到位，使单一的视图保持电流，数据管家是真正的源系统的监护人作为新的应用功能推出，他们需要与单视点团队告诉他们的变化是工作应当点播;单视点队还以因为它们是由与数据管理员应密切与开发团队的合作做好准备，以适应变化。”

单一视图成熟度模型

一旦您掌握了几个单视图项目，并且熟悉了该方法，您就可以对您的远景更加雄心勃勃了。

“试图将海洋煮沸是非常诱人的，但更有效的做法是解决一个明确的问题，”Keep说。

“一旦单一视图证明了自己，你知道它是有效的，客户就会在如何使用它上变得更加冒险，”他补充道。“他们开始向单一视图写入数据，以获得更新鲜的数据。我们有一些客户，比如国际银行集团(International Banking Group)，采取了单一视角优先的方式。当他们需要新的功能时，他们首先在单个视图中实现它。当他们对后端源系统做了所有更改后，他们反向加载到源系统。”

这个故事，“削减数据管理复杂性的10个步骤”最初是由CIO 。

加入网络世界社区有个足球雷竞技app脸谱网和LinkedIn对那些顶级心态的话题发表评论。

Thor Olavsrud为CIO.com提供数据分析、商业智能和数据科学方面的服务。

工资调查:结果在