Intuit的数据工程副总裁Bill Loconzolo跳进了两只脚的数据湖。Dean Abbott,智慧培训率的首席数据科学家,为云制成了一只远线。大数据和分析的主要边缘,包括以其本机格式持有庞大的数据商店的数据湖泊,当然,云计算是一个移动目标。虽然技术选择远非成熟,但等待根本不是一个选择。
“现实是该工具仍然是兴起的,并且[Hadoop]平台的承诺不是它需要为企业依赖它而依赖它的水平,”洛尼佐洛斯说。但大数据和分析的学科正在发展如此之快,即企业需要涉及或冒险留下。“过去,新兴技术可能已经花了几年来成熟,”他说。“现在人们在几个月的时间内迭代和驱动解决方案。”那么你的观察名单或在测试实验室中应该是什么样的新兴技术和趋势是什么?Computerworld向IT领导,顾问和行业分析师称重。这是他们的名单。
1.云中的大数据分析
Hadoop.,最初设计用于处理非常大的数据集的框架和一组工具,用于处理物理机器集群。那已经改变了。“现在,越来越多的技术可用于在云中处理数据,”Forrester Research的分析师Brian Hopkin说。示例包括Amazon的Redshift托管BI数据仓库,Google的BigQuery数据分析服务,IBM的Bluemix云平台和Amazon的Kinesis数据处理服务。“未来的大数据状态将是内部部门和云的混合动力车,”他说。
最近从内部Hadoop和Hadoop和Hadoop和Hadoop和Hadoop和Hadoop和Hadoop和Hadoop和Hadoop和Hadoop)的营销提供者更聪明的培训率MongoDB.数据库基础架构到亚马逊红移,基于云的数据仓库。基于印第安纳波利斯的公司收集在线和砂浆零售销售和客户人口统计数据,以及实时行为数据,然后分析信息,以帮助零售商创建有针对性的消息,以引出在购物者的一部分中的理想响应,在某些情况下实时。
Abbott表示,Redshift对Smart Membereter的数据需求更具成本效益,特别是因为它具有结构化数据的广泛报告功能。作为托管产品,它既可扩展且相对容易使用。“在虚拟机上扩展比购买自己的物理机器更便宜,”他说。
因为它的山景,加利福尼亚州的Intuit已经谨慎地向云分析进行了致意,因为它需要安全,稳定和可审计的环境。目前,金融软件公司在其私人Intuit分析云中保持一切。“我们正在与亚马逊和Cloudera合作,如何拥有一个可以跨越世界的公私,高度可用和安全的分析云,但尚未解决这个问题,”Loconzolo说。然而,对于像Intuit这样的公司销售在云中运行的产品的公司来说是不可避免的。“它将达到一定程度,将所有数据移动到私有云,”他说。
2. Hadoop:新的企业数据操作系统
分布式分析框架,如Mapreduce.霍普金斯表示,正在发展成为逐渐将Hadoop转向Hadoop的分布式资源管理器。通过这些系统,他说:“您可以通过将Hadoop作为分布式文件存储系统中的Hadoop执行许多不同的数据操作和分析操作。”
这对企业意味着什么?作为SQL,MapReduce,内存,流处理,图形分析和其他类型的工作负载能够在Hadoop上运行充足的性能,更多的企业将使用Hadoop作为企业数据集线器。“运行许多不同类型的[查询和数据操作]在Hadoop中的数据中运行许多不同类型的能力将使它成为将您希望能够分析的数据的低成本,通用的地方,”霍普金斯说。
Intuit已经在其Hadoop Foundation上构建。“我们的策略是利用Hadoop分布式文件系统,它与MapReduce和Hadoop密切合作,作为能够与人和产品的所有类型的互动进行操作,”Loconzolo说。
3.大数据湖泊
传统数据库理论决定您在输入任何数据之前设计数据集。Chris Curran,PricewaterhouseCoopers'F.S.Superatory练习的顾问练习说,也称为企业数据湖或企业数据集线器的数据湖。“它表示我们将采用这些数据源并将它们全部转储到大型Hadoop存储库中,我们不会尝试预先设计数据模型,”他说。相反,它为人们提供分析数据的工具,以及湖中存在的数据的高级定义。“人们在他们走向时将视图构建到数据中。这是一个非常渐进的有机模型,用于构建大规模数据库,“Curran说。在缺点方面,使用它的人必须高技能。
作为其Intuit Analytics云的一部分,Intuit有一个数据湖,包括点击流的用户数据和企业和第三方数据,但焦点是“民主化”围绕它的工具,使商业人员能够有效地使用它。Loconzolo表示,他在Hadoop建立数据湖的问题之一是该平台并不是真正的企业就绪。“我们希望传统企业数据库多十年来的功能 - 监控访问控制,加密,保护数据并将数据划分为从源到目的地划分,”他说。
4.更预测性分析
霍普金斯说,通过大数据,分析师不仅要使用更多的数据,还具有处理大量记录的处理能力。传统的机器学习使用基于总数据集的样本的统计分析。他说:“你现在有能力做出非常大量的记录和非常大的属性”,这提高了可预测性。
大数据和计算权力的组合也让分析师全天探索新的行为数据,例如访问或位置的网站。霍普金斯呼叫“稀疏数据”,因为找到了感兴趣的东西,您必须通过无关紧要的数据涉及许多数据。“尝试使用传统的机器学习算法对此类型的数据进行计算不可能。现在我们可以为这个问题带来便宜的计算能力,“他说。“当速度和内存停止是关键问题时,你完全不同地制定问题,”雅培说。“现在您可以通过在问题上推动巨大的计算资源来找到哪些变量最佳地是最佳的。这真的是一个游戏更换者。“
“为了使实时分析和预测模型与同一Hadoop核心产生,这是兴趣为我们的地方,”Loconzolo说。问题一直是速度,Hadoop需要多达20倍的时间来获得问题,而不是更多既定的技术。所以Intuit正在测试阿帕奇火花,大规模数据处理引擎及其关联的SQL查询工具,Spark SQL.。“Spark具有此快速交互式查询以及图形服务和流式传输功能。它正在Hadoop中保持数据,但是施入足够的性能来缩小我们的差距,“Loconzolo说。
5.在Hadoop上的SQL:更快,更好
如果您是智能编码器和数学家,您可以删除数据并对Hadoop中的任何内容进行分析。这是Gartner的分析师Mark Beyer表示,这是承诺 - 和问题。“我需要有人将它放入我熟悉的格式和语言结构中,”他说。这就是Hadoop产品的SQL进来的地方,虽然任何熟悉的语言都可以工作,Beyer说。支持SQL的查询的工具让已经了解SQL的业务用户对该数据应用类似的技术。SQL on Hadoop “opens the door to Hadoop in the enterprise,” Hopkins says, because businesses don’t need to make an investment in high-end data scientists and business analysts who can write scripts using Java, JavaScript and Python — something Hadoop users have traditionally needed to do.
这些工具没有任何新的。Apache Hive.已经为Hadoop提供了一个结构化的一个结构化的SQL样语言一段时间。但是,来自Cloudera,Pivotal软件,IBM和其他供应商的商业替代品不仅提供了更高的性能,而且还可以一直越来越快。这使得该技术适合“迭代分析”,分析师要求一个问题,收到答案,然后询问另一个问题。传统上,该类型的工作是需要构建数据仓库。Hadoop上的SQL不会替换数据仓库,至少不会随时不再很快,“霍普金斯说,”但它确实为某些类型的分析提供了更昂贵的软件和设备的替代方案。“
6.更多,更好的NoSQL
Curran表示,传统的SQL的基于SQL的关系数据库(不仅SQL“)数据库的替代品,称为NoSQL(”不仅是SQL“)数据库,迅速获得普及的工具,而且势头将继续增长。他估计,那里有15到20个开源NoSQL数据库,每个数据库都有自己的专业化。例如,具有图形数据库功能的NoSQL产品,例如阿兰戈布,提供更快,更直接的方式来分析客户或销售人员之间的关系网络,而不是关系数据库。“这些数据库已经存在了一段时间,但由于人们需要的各种分析,他们正在捡起蒸汽,”他说。新兴市场的一个普华永道客户在商店货架上放置了传感器,以监测有哪些产品,客户处理它们的长度以及多长时间的购物者站在特定架子前。“这些传感器正在淡化呈指数增长的数据流,”Curran说。“一个NoSQL键值对数据库如redis.是这样做的地方,因为它是专用,高性能和轻量级的。“
7.深度学习
深度学习霍普金斯表示,这是一种基于神经网络的一套基于神经网络的机器学习技术,但仍然表现出解决业务问题的巨大潜力。“深入学习。。。他说,使计算机能够识别大量非结构化和二进制数据的感兴趣的物品,并在不需要特定模型或编程指令的情况下推断关系,“他说。
In one example, a deep learning algorithm that examined data from Wikipedia learned on its own that California and Texas are both states in the U.S. “It doesn’t have to be modeled to understand the concept of a state and country, and that’s a big difference between older machine learning and emerging deep learning methods,” Hopkins says.
“大数据将使用高级分析技术的大量不同和非结构化的文本,如深度学习,以帮助我们现在只开始理解的方式,”霍普金斯说。例如,它可用于识别许多不同类型的数据,例如视频中的形状,颜色和对象 - 或甚至在图像中存在的CAT的存在,作为由其构建的神经网络谷歌在2012年做了着名。“这种认知参与,先进的分析和它所暗示的事情的概念。。。霍普金斯说,是一个重要的未来趋势。
8.内存分析
Beyer说,使用内存数据库来加速分析处理的分析处理越来越受欢迎,非常有益。实际上,许多企业已经利用混合交易/分析处理(HTAP) - 允许事务和分析处理驻留在同一内存数据库中。
但是HTAP周围有很多炒作,Beyer说,企业一直过于过度耗材。对于用户需要在白天多次以相同方式看到相同数据的系统 - 并且数据中没有重大变化 - 内存是浪费金钱。
虽然您可以使用HTAP执行更快的分析,但所有事务必须驻留在同一数据库中。Beyer说,这个问题是,今天的大多数分析都是关于将来自许多不同系统的交易在一起。“只是把它放在一个数据库上返回到这种不合理的信念,如果您想为所有分析使用HTAP,它需要您的所有交易都在一个地方,”他说。“你仍然必须整合各种数据。”
此外,带入内存中的数据库意味着还有另一个产品来管理,安全和弄清楚如何集成和缩放。
对于Intuit,Spark的使用已经删除了一些接受内存数据库的冲动。“如果我们可以用Spark基础设施和内存系统可以解决100%的70%,我们将在我们的分析云中使用70%,”Loconzolo说。“所以我们将逼近,看看它是否在内部在内存系统上准备就绪并暂停。”
继续前进
在大数据和分析周围有这么多的新兴趋势,IT组织需要创造将允许分析师和数据科学家进行实验的条件。“你需要一种评估,原型并最终将这些技术集成到业务中的方法,”Curran说。
“IT经理和实施者不能用缺乏成熟作为停止实验的借口,”Beyer说。最初,只有少数人 - 最熟练的分析师和数据科学家 - 需要进行实验。然后,那些高级用户,它应该共同确定何时向组织其余部分提供新资源。它不一定在想加上全油门的分析师中不一定。相反,Beyer说,它需要与分析师合作“在这些新的高功率工具上放置变速节气门”。
这个故事,“大数据分析的8大趋势”最初发表于Computerworld. 。