应用程序始终决定了数据。历史上这是有道理的,并且在某种程度上仍然是这种情况。但是,一种“应用程序”方法会创建数据孤岛,从而导致操作问题,并防止组织从其商业智能计划中获得全部价值。
在过去的几十年中,公认的最佳实践是将运营和分析系统分开,以防止数据分析工作负载破坏业务运营。通过这种方法,对存储在操作系统中的数据进行的任何整体分析都需要提取,转换和加载到单独的分析集群或数据仓库中。这需要额外的资源,生成重复的数据并花费大量时间,使得分别由Ernst&Young和Gartner推荐的运营敏捷性或算法业务流程变得困难或不可能。
相反它可用。这种融合的体系结构简化了数据管理和保护,支持结合操作和分析的新应用程序,并避免了可怕的“真相的多个版本”,该现象固有的现象。
这里概述的是任何组织开始实施数据首先策略的三个增量和可管理步骤。
步骤#1:创建一个数据湖。首先创建数据湖,并包括尽可能多的数据集和来源。为了最大程度地减少重复,通过充分迁移其数据集,努力使数据湖成为记录系统的记录系统。然后根据需要或需要复制那些现有应用程序的数据来“完成”数据湖,而这些数据集不能以任何原因迁移,而这些应用程序无法迁移。换句话说,迁移您可以的东西,并复制您必须的东西。为了实现更多的整体分析,也一定要在数据湖中包括那些目前未使用但具有潜在价值的数据源。
在填充数据湖的同时,请注意任何共享数据环境的要求,包括满足全球名称空间,统一安全性,高可用性,高性能,多租期,数据保护(复制,备份/备份/还原和灾难恢复)的需求)等。在这些要求中,唯一可能与数据湖进行数据湖有新的或实质上不同的要求是多租期。由于需要由不同部门的不同应用程序和用户同时共享合并和融合的数据,因此以保留数据可用性,安全性和完整性的方式支持各种“租户”非常重要。
为了使数据湖可扩展时保持低廉的成本,请考虑使用集群中部署的商品硬件。为了最大程度地发挥数据湖的最终潜力,请使用开放的基于标准的软件,其中包含已发布的界面,插件和其他方式与其他应用程序,服务和系统集成。这种“开放的第一”方法将优先考虑Linux,KVM,Hadoop,Spark,Mesos和OpenStack等技术,并将仅根据适用的行业标准(例如SQL或NFS)限制使用任何扩展或增强。
为了避免挫折,请抵制诱惑过早地接受太多数据。即使是部分实现的数据湖(思考:加利福尼亚州的水库)也可以通过从数据仓库,Web分析,数据库,大型机和其他企业存储系统中至少卸载一些数据来提供直接利益,这些数据是数量级的订单。因此,开始小,但是想大。
步骤#2:开始使用数据湖。第二步是通过识别一个或多个新应用程序或使用以前与不同的数据源不切实际或不可能的情况来开始实现这些直接利益。为了最大程度地进行首次尝试的潜力,请选择一些易于实施的低悬挂水果,并对企业施加最小的风险。但还考虑将能够利用广泛而深的数据湖的用例。
初始项目的示例包括将分析纳入某些操作,利用湖泊增加的数据品种,量和/或速度的增加,以及采矿新可用的数据源。的确,实施一个利用新数据源的新应用程序可能会花费更多的精力,但是奖励可能对企业更有意义。
几乎所有行业中常见的一个很好的示例是一个“客户360”应用程序,它利用现有数据和新数据。但是,至少在最初,仅使用该应用程序仅支持营销活动或增强CRM应用程序,请保持简单。
在获得数据湖的经验和能力之后,请认真考虑一些用例,以更充分利用其数据的广度和深度,尤其是那些增加收入,降低成本,简化操作,减轻风险和减轻风险和减轻风险的应用程序/或解决安全需求。
步骤#3:实时使数据湖实时。第三步涉及将数据湖通过实时应用程序进行测试。实时获得可行的见解是孤立的体系结构难以做到的事情,因此具有最大程度地提高数据第一策略投资回报的潜力。
实时功能是许多新的变换应用程序的核心,需要能够在可用的过程中直接对操作数据进行分析。这些应用程序通常是每个行业独有的,在零售,金融服务和电信领域具有可见的早期采用者。但是,他们共享的是需要速度,多功能性和可扩展性来适应各种要求,团体和业务功能 - 所有这些都体现了数据湖设计的工作。
这种变革性的操作洞察力和敏捷性需要能够在上下文中快速分析和理解流数据。上下文来自理解来自剩余数据和传入数据的短期和长期趋势和模式。
这提出了一个重要的观点:为了获得数据湖的最大收益,应用程序需要能够使用静止数据和数据恢复。许多数据分析师倾向于一如既往地考虑“大数据”,对其数量和多样性感到惊讶,并且可能会忽视这样一个事实,即所有这些数据都是从一个广泛的来源(又一个)创建的一个事件 -以及新的,批处理和交易。
的确,正是这种能够利用许多不同数据流的能力,并在上下文中和实时理解其含义,应被视为成功数据的标志。当实现该能力时,数据湖将成为“企业等级”,并准备采用真正的变革应用。
此处概述的三个增量步骤可以使任何组织以审慎的方式接近数据湖:脚。通过帮助建立能力和灌输信心,这些小的第一步将为深入研究以发现以前隐藏在表面下方的操作见解和竞争优势的道路。