将核心IT系统移动到私人或公共云网络中,您的工作尚未结束。现在您有一个不同的技术问题来处理:管理云以确保您的投资为您的企业偿还,并提供您期待的效率和投资回报率。
云管理和监控在4月份之后变得更加重要Amazon弹性计算云(EC2)当IT界看到云环境遇到问题时会发生什么,采取的操作许多公司都因此而倒下。已经有其他最近严重的云中断也
IDC分析师玛丽•约翰斯顿•特纳(Mary Johnston Turner)表示,“公有云的一大‘难题’是让企业付出代价获得绩效。”在一个最近的研究她说,在250家用户公司中,服务水平协议(SLA)性能保证的重要性排名第二,仅次于应用程序本身的具体需求。
“企业非常关注表现,”她说。“您在私有云中看到这么多兴趣的原因之一是因为IT领导人负责对用户的良好表现”,他们并不总是准备将这些巨大的责任交给第三方云供应商。
更多的云管理资源
(三款均需内部人士免费注册)
说到云计算,管理软件不再是事后才想到的东西;它必须是实现的一部分,是关于如何最好地将云功能集成到it架构的决策的一部分。本指南强调了需要考虑的要点。
两种类型的云计算 - 软件作为服务(SaaS)和基础设施作为服务(IAAS) - 承诺对企业中的作用带来了巨大的变化。IT专业人士真的需要学习如何在萨斯和IAAS延伸到萨斯和IAAS的谈话中。
谈到云计算合同,知识是关键,阅读是基础。
而且,她添加了,不仅仅是云问题,而是由复合应用程序的复杂性引入到云环境中创建的。
“这是一个巨大的挑战,”特纳说。“用户需要投资用于复合应用和虚拟化环境的应用程序性能管理[产品]。现在有一个整个类别。”
特纳说,她的想法是,当应用程序通过网络或云时,能够独立地监控它们的性能,然后能够衡量它到达终端用户的性能,无论终端用户是在防火墙内部还是外部。
David Ting是世界上最大的电子游戏评论网站之一IGN.com的工程副总裁,负责监控公司的游戏云性能至关重要,因为业务生存或死亡,基于其2540万用户与该网站的广告支持的在线属性连接的能力。
“对我们来说,性能是金钱,因为页面浏览量是关键,”他说。“我们是广告支持,所以每页查看计数,并帮助公司带来收入。“这些是我们非常仔细观察的东西。”
为了实现这一功能,媒体巨头新闻集团(News Corp.)旗下的IGN娱乐公司(IGN Entertainment)使用了总部位于旧金山的New Relic提供的性能监控工具,该工具可以让IGN在云计算中持续监控其网站的性能。“我们非常依赖这个工具,”Ting说。“对我们来说,最重要的是IGN网站的响应时间和每秒的交易量。”
随着云部署的扩展,跟踪性能
IGN.com使用New Relic工具已经有18个月了。首先,它将非生产开发和其他应用程序转移到云,以了解它们是如何工作的。Ting说,现在IGN.com正在把一些新项目放到云服务器上,包括一个社交媒体堆栈,这样公司就可以根据需要增加应用程序,扩大规模。网络的灾难恢复基础设施也将被放置在云计算中。
Ting在谈到公司的It系统时说:“它最终可能会全部转向云计算。”“要做到这一点,未来的性能稳定性必须更加确定,但我们正在关注这一点。”
他说,新遗物的监测提供了绩效指标IGN无法获得其他工具。旧工具“对物理机器监控做得很好,但没有从工程团队的大量工作中进行应用程序堆栈监控。”
通过观看新的遗物管理工具,IT工作人员可以旋转更多的基于云的服务器,降低表现不佳的应用程序,然后根据需要添加新的实例以对用户保持响应时间,他说。通过以前的工具,Ting的团队将仅在正常运行时间内获得见解,而不是响应时间。
Ting解释说:“New Relic让我们对响应时间有了极大的了解,”它允许IT员工在服务器运行时采取行动。例如,“我们发现一些实例,其中一个memcached服务器的性能比池中的其他服务器差得多。经过进一步调查,我们发现其中一个内存模块有缺陷。在Nagios世界中,服务器将在池中运行,直到它死亡。”
Ting说,Ign.com正在使用Amazon的EC2进入云中的云。
有了New Relic, IGN.com可以监督其三层架构的所有部分,从前端到数据库再到API层。管理工具有助于确保用户的响应时间保持最佳状态,而不是激增。
“我们可以使用收集数据的插件来查看云上运行的内容,并将所有分析发送回新的遗物工具。“他们为您提供了关于服务器组如何执行的详细报告,”他补充道。
“数据的数量和精度是巨大的,”Ting说。“从这里开始,我们可以开始关注指标,并据此做出明智的商业决策。”
Ting说,除了移动IT基础设施,IGN.com一直在探索云托管,以提高其100多个网站的性能和正常运行时间。主要网站包括IGN.com、Askmen.com、Gamespy.com、Fileplanet.com、Teamxbox.com和Gamestats.com。
Ting说,到目前为止,试验看起来是积极的。他指出:“我们已经有一些基础设施组件向云计算转移。”“它现在还处于实验阶段,我们正在检查性能。”
使用各种工具
Bleacher Report是一家专业和大学体育爱好者通讯的在线出版商,在一年前将其核心基础设施转移到云计算之后,也很快发现了性能监控的重要性。
Sam Parnell,旧金山公司的技术副总裁说,他的公司担心潜在的性能问题,包括潜在的延迟问题,因为它努力扩大其2,000万独立用户和每月5亿页面浏览量。为了防止瓶颈,他引入了一系列工具,用于监控和管理广告支持网站的新云环境。
“没有一种工具可以为我们做所有的事情,”帕内尔说。“我们在不同的层面上使用了各种各样的工具,这给了我们一个全面的监控套件。到目前为止,还没有出现延迟问题,但我们已经利用它们来优化系统的各个部分。”
该公司的工具箱包括Scout,这是一个服务器级的工具,IT人员可以通过它查看主数据库和从数据库的负载情况,以及服务器的CPU利用率和内存消耗情况。监视是通过在云服务器上运行的代理来完成的,这些代理会用警报和状态数据报告回来。
还使用了Nagios Enterprises的监控工具和Monit的开源工具。
“这些工具当然有很多重叠之处,但它们都有各自擅长的东西,这就是为什么我们要把它们放在一起使用,”Parnell说。
Bleacher Report还使用Pingdom的ping工具来确保它的各个站点在云上运行良好。
Parnell表示,在每一个监控案例中,100%的正常运行时间和快速页面响应都是至关重要的。“如果人们无法登陆网站并看到广告,那么我们就在赔钱。”
该公司还使用新的遗物进行应用程序性能监控,因此IT人员可以获得效果见解,页面运行快速或缓慢,内存消耗和CPU使用率。
实时观看
帕内尔说,监控数据实时地出现在他的员工不断观看的屏幕上。
他注意到的关键是通过各种产品监控,因此您可以尽快获得尽可能快的信息,以便在出现问题时进行修复。“一般来说,我宁愿在这一边犯错的东西而不是足够的,”他说。“新的遗物在仪表板中介绍重要信息,所以您不必通过数据涉及。这有助于快速查看正在发生的事情。”
为了实时观察性能,Parnell的团队使用了几个大显示器,不断地循环查看不同的报告,这样团队成员就可以全天观察这些报告。帕内尔解释说:“我们并不是每天都在挖掘这个问题,但我们确实会监控那些看起来不寻常的事情。”“当我们需要更深入地挖掘时,所有这些工具都能给我们提供更深入的数据。”
监控器屏幕主要由一组首席工程师监视,特别是在部署新特性或高负载的时候。
帕内尔说,另一个需要记住的要点是,云环境和云监控仍处于起步阶段。他说,IT部门需要灵活,找到并使用云监控工具,但仍要寻找可能更好的新工具。
“我们只使用了五六个月的童子军,现在工作得非常好,但在五个月内,这可能是”这项工作更好,Parnell说。“你需要把手指放在市场的脉冲中,所以你可以遵循新工具。有新公司一直弹出。”
他说,另一件事是要记住的,是你必须不断监视云供应商提供的服务器,以确定您始终拥有最佳性能的单位。
帕内尔说,这是使用云的最大好处之一。“有了云,你就可以抛弃一台慢速服务器,通过控制面板换一台。”
监控工具也被内部使用,以改进针对Bleacher报告读者的新网站功能的开发。
Parnell说:“如果一个工程师正在部署一个新功能,我希望他们关注性能,并确保它不会对其他地方的性能产生不利影响。”“我们继续调整和完善系统内的一切,以确保它尽可能快。如果有重大体育新闻报道,我们的流量就会激增。一切都需要规模化,我们需要有能力应对这一点。”
知道你得到了什么 - 并监控什么
为了获得公司的表现,您必须为Forrester Research的分析师James Staten表示,您必须为您的云供应商铺设您的特定要求。
“最重要的事情之一是透明度,也就是‘他们给你提供的具体表现是什么?’”他说。这包括询问他们允许您直接执行何种级别的监控,以及他们将向您发送哪些日志,以便您可以看到发生了什么。
他说:“如果他们不提供,就向他们要。”
斯塔顿说,你与云供应商的关系很大一部分是管理你的期望。他指出,您想要进行的任何性能监控都是您的责任,而不是您的供应商。
如果你没有这样的监测自己,那么有很多公司可以为您雇用,包括Hyperstratus,Keynote Systems,Hewlett-Packard,IBM,埃森哲等。
他说:“很多人认为他们的sla涵盖了性能监视,但事实并非如此。”“sla涵盖了可用性,但仅此而已。”
与此同时,并不是你的公司在云网络上运行的所有应用程序和服务都是关键任务,他补充说,所以你可能不必监视云上所有东西的性能。“你必须弄清楚那些(关键)应用是什么,”斯塔顿说。
端到端云管理还有很长的路要走
IDC的Turner说,云性能监测市场仍然是非常不成熟的一决赛。
在完整的软件包中,有许多供应商“会从路线图的角度与您讨论这个问题,但还没有多少”。她表示,“今年的重点仍将是配置部分的自动化”,这将实现真正的端到端云监控。“我认为,随着时间的推移,我们会看到越来越复杂的产品。”
她说,随着越来越多的公司开始过渡到云生产环境,对监控的需求将变得更加迫切。特纳预测说:“我认为这将是今年许多组织的优先投资领域。”“由于所需要的复杂性,可能还需要一两年的时间才能实现这一目标。”
斯塔顿说,当然,所有的监控需求都有一个“第二十二条军规”。他说,当你支付监控费用以确保你获得合同规定的性能时,你也可能会侵蚀最初让你的公司进入云计算的成本节约。
“如果你花了很多钱来处理延迟问题,”Staten说,“那么你甚至应该在云中吗?”
托德·r·韦斯(Todd R. Weiss)曾是自由撰稿人,现在是Computerworld的姊妹网站CIO.com的新资深写手。可以通过tweiss@cio.com联系到托德。
这篇文章“管理您的云的性能:最佳实践”最初是由《计算机世界》 。