该供应商编写的技术底漆已经被网络世界编辑,以消除产品推广,但读者应该注意到它可能会倾向于提交者的做法。有个足球雷竞技app
在IT我们喜欢创造新的技术成熟度曲线和标语。而像时尚潮流,我们似乎有一个20年的周期,我们回去,这是我们以前做过,但它拍一个新的名字,并坚持每个人都必须立即“拥有”它。最新的炒作:大数据。
从互操作云会议,甚至迪尔伯特,我们被告知,如果我们没有一个大数据战略 - 即,顺便说一下,我们的云战略是一致 - 我们落后了,我们公司会和好如初。
图辑:“人脸大数据”
大约有大数据的三个重要的现实检验。首先,它不是真正的新。公司像亚马逊,微软和谷歌一直在做自上世纪90年代大数据工作。事实上,公司已经几十年来挖掘数据。这可能是只访问或负担得起的几个非常大的公司有很大的钱包和大主架的安装,但它已经存在了。今天,先进的数据挖掘能力和算法是几乎每个人都得益于廉价的计算和存储能力,以及新的工具和技术进行访问。
事实上,很多人认为大数据只是一个新名字商业智能(双)。虽然有相似之处,大数据超出了BI。我爱斯图尔特Miniman,在Wikibon的高级分析师,对“位翻转”从BI到大数据如何谈判。这里是我看到的是位翻转在行动:
第二个现实检查:“大”的部分是相对的。我们绝对应付各个行业和组织的数字数据增长创纪录的水平。根据IDC的数据,我们正在创造每秒超过58个TB的数据,我们希望有一些35泽字节到2020年,但是以数字形式存储的数据,大数据并不一定是巨大的。这不是这么多的大小,但你需要用它做什么,需要的时间来处理它。一家小公司,100TB的数据可能有一个大的数据的问题,因为它需要提取,分析和有关其产品的多个数据集做出决策。
第三,在大数据过程中所使用的数据的定义是广义的。它可以包括结构化和非结构化数据,而对于一些公司来说,最重要的大数据的元数据,或关于数据的数据。Gartner的定义做一个好工作在大数据的数据特征为具有批量,多品种和速度。
麦肯锡大数据定义为“数据集,其大小超出了典型的数据库软件工具来捕捉,存储能力,管理和分析。”我想补充的情况是:“需要大规模并行软件(系统)对数十,数百或服务器(云)的甚至上千运行。”
除了即将形成共识和大数据的定义,大多数公司的下一个重大的障碍是如何开始的。与云计算,大数据似乎都需要庞大的投资,并实现多个解决方案,新的IT和业务流程和业务灵活性的一个新的水平。这里有七个步骤,以大数据的成功:
第1步:承认你有问题。这一直是最难的一步。十年前,我们拒绝承认我们的网络不再受防火墙和代理服务器设置的环形保护,我们必须打开我们的员工远程接入基础设施和拥抱互联网。随着大数据,IT领导者需要退一步,并评价他们的数据的情况。
- 你跟你的数据集不堪重负?
- 你不知道你的所有数据坐镇?
- 你(或企业领导)没有得到你从你的数据需要的信息?
- 你有企业领导人不做出基于数据的决策?
- 你看到一个机会,使其在经营方针和战略决策的相关性?
如果你像大多数企业来说,答案是肯定的,以部分或全部的这些问题,它的时间,让您的数据的控制,你可以从数据获得的情报中受益的企业。
第2步:承认你有大数据的大机会。我们总是被告知要更相关的业务。术语“业务科技”已经扔了好几年,但它并不总是很容易看到我们最新的软件和流程直接影响收入或全球经济增长。大数据可以。为什么?因为信息就是力量,企业领导人需要被困在数据中的信息进行竞争,茁壮地成长。该业务,从销售到营销到C套件,是由员工,客户和市场所产生的数据量淹没。你的能力,使数据的简洁和实时的信息和分析,并能够将带动收入增加。
第3步:创建你的大数据计划。对于任何计划,你应该考虑到年底动工。什么是企业需要知道什么?什么是他们需要回答的问题?这个定义并获得合资协议之前,你甚至开始玩Hadoop的。如果驾驶的商业智能和成功这项工作的关键所在。然后,请按照下列步骤(显然过于简单,每一步可能需要几周或几个月取决于你的组织):
- 隔离是你的“大数据”等式的一部分数据
- 独立的“产品”,由“公司”大数据,如使得所需要的人力资源分析,确保员工数据大数据是来自客户或产品搜索数据单独在电子商务平台
- 认识并理解你的数据的高峰和低谷
- 了解哪些技术实现实时(或近实时)大数据处理
- 确定关键解决方案/供应商
- 从小事做起,评估和成长 - 做一个项目,在那里你可以快速显示成功和投资回报率,然后移动到下一个大数据项目
- 不断地分析,调整,给输入 - 大数据是敏捷的,应调整你的数据,情报和业务需求的变化
第4步:想想分布。大数据需要我们我们的思维转变对我们的系统和基础设施。正如虚拟化从根本上改变了我们如何能够利用服务器和应用,所以没有分布式系统和处理使我们能够管理大数据,分布式架构可以让我们把问题分解成多个任务,然后在多个系统分配的任务。好消息是,我们已经有越来越多的工具和体系结构框架,以杠杆作用。名称,如卡桑德拉,Hadoop的,VMware的,红帽还有很多。分布式系统是不是新的,但大数据需要更早接近到一个全新的水平。分布式方法的一些例子包括:
- 多租户架构
- 分布式数据库
- 虚拟化
- 多线程
- 多核CPU
- 并行处理
- 分布式文件系统
- 分布式负载均衡
- RAID算法
第5步:超越分发到分散。这是大多数企业的真正转变。而这正是云计算和大数据走到了一起,因为互联网是世界上最大的分布式和分散体系,我们可以实现大数据的时候,我们应该充分利用互联网骨干之多。
我们是舒适的分布式实例或计算处理,但分散化往往带来失控的感觉。为什么是这个必要吗?拥抱分散的方式来大数据是必需的,因为所有未使用的实例和存储容量要浪费,以及因过度打造出来的和孤立的服务。
更重要的是,分布式组件本身并不能让我们跟上我们的数据增长。请记住,35个zettabtytes预计到2020年?即使我们留在节奏与我们目前的雷竞技电脑网站打造出来的,这是达到创纪录的全球高,我们不能建立集中的基础设施不够快。IDC估计,到2020年,我们将有创建的数字数据和可用的数据中心容量之间的60%的间隙(见下面的图)。雷竞技电脑网站
资料来源:IDC数字宇宙研究,2011
然而,这部分是因为我们没有充分利用我们已经有能力。Gartner估计,大多数计算机,服务器和网络以30%的产能,以准备好峰或未来的增长运行。虽然我们绝不会在90%或100%的产能运行,我们可以做得更多更好地利用产能过剩,我们已经没有造成过多的风险,同时节省了数百万美元,并改善我们已经拥有了基础设施的总体拥有成本。
什么是权力下放的主要特点:
- 没有中央瓶颈
- 大量的电力
- 在产能有机物,需求驱动型增长
- 充分利用现有的基础设施优势和设备
- 共享信息
- “贡献”给社会的概念
- 假定每个人/每一个节点是“不可信”
- 的地理分布:
- 所有权和参与
- 成本
- 管理开销
- 风险
今天有分散的方法很好的例子。也许最知名的一个,我们真的不认为是分散的是开源运动,其特点为:谁支持程序员开源运动理念有助于开源社区通过自愿写作和软件开发交流编程代码。如果你看一下上面下放的定义,开源社区是分散发展的一个很好的例子。而且,虽然在10年前很少有企业使用的生产源代码开放,今天你是少数,如果你不以你的栈利用开源组件。
有在开发/ OPS的社区,我定义为分散的云系统分权两种较新的例子:的CloudStack和OpenStack的。我喜欢OpenStack的不仅是社会方面以及如何甚至大厂商喜欢的是IBM,惠普和思科跳上板,但它是如何通过提供集中式仪表板和接口铲球分散架构的“控制”的问题。我们仍然在分权的早期阶段,但是这将是在未来几年走势的关键,我们将继续经历记录数据的增长和需要需要处理,分析和有关数据进行决策。[另请参见:“厂商继续回暖的CloudStack,OpenStack的双方之间“]
第6步:服务/成长合适的人与技能。我早就说过,云计算并不意味着更少的IT工作,但是云计算和大数据的出现确实意味着我们需要发展我们的技能和人才储备。还有一些现有角色,如数据库管理员,即成为即使在大数据世界变得更加重要。其他角色,你应该开始培养和招聘您的IT组织包括:
- 数据科学家
- 建筑师
- 随机理论家(算法)
- 业务分析师
- UX / UI专家
围捕:前5个城市进行大数据工作
有些看似合乎逻辑的一个IT部门,但那些我总是得到有关的问题是业务分析师和UX / UI的角色,已经不是传统坐在它。你可以把产品管理这些角色,但他们需要工作,携手与开发/运营团队在大数据解决方案。这是因为如果你不能想像的大数据信息业务方面,你不会成功。仪表板,图表和易于理解的分析是关键。
而且,由于我提到这个问题,如果你还没有整合你的开发/运营团队开展工作,以便更好地管理你的云实施,那么现在就做。我们的世界不再有这两个功能作为单独的孤岛运行。他们必须在臀部被连接在任何云或大数据战略完全一致的努力取得成功。
第7步:与你的大数据应用的数据。就像它的角色可能会开始看起来奇怪的业务为重点,它需要改变它,测量的方式。在你的团队每个人都必须度量驱动的,有跟踪,并朝着那个关键绩效指标(KPI)移动的热情。而这些应与业务指标保持一致不只是释放时间或提供高质量的代码。
我想这需要文化转变的最好的描述是“增长黑客”一个增长的黑客是谁的人喜欢对指标的驱动,是一个创造性的解决问题的能手,并不断探索新的方法来推动指标向上和向右。虽然通常这是业务方面的工作,科技的每一个成员团队应该有明确的指标,并有权寻找新的方法来推动拉伸的效果。
大数据可能不是解决所有我们的祈祷,但它确实代表了一个机会,它有桌子的座位和直接驱动更强的收入,市场渗透力和声音的份额在竞争日益激烈的全球市场。
玛格丽特·道森是一个20年的高科技行业资深人士和云计算专家。她是一个频繁的作者和演讲云计算,大数据,网络安全,集成等业务和技术主题。目前,玛格丽特是在产品管理副总裁Symform。

