IT操作应该是事件驱动的还是数据驱动的?

怎样才能达到合乎成本效益的服务质素?

事件概述

过去30年(自20世纪80年代中期分布式系统出现以来)IT运营管理的本质一直是理解什么是“正常的”,什么是“异常的”,然后对异常发出警报。事件是异常的。

事件的来源多种多样。整个堆栈的每个元素(磁盘、存储阵列、网络设备、服务器、负载平衡器、防火墙、系统软件、中间件、服务和应用程序)都能够发送事件。

事件通常有两种形式。与环境中的故障相关的硬故障和警报(此磁盘驱动器已故障,此交换机上的此端口已故障,此数据库服务器已停机),以及各种监控系统上人为设置的阈值违反所产生的警报。

指标(数据)概述

任何IT环境的操作也可以用指标或数据来描述。在任何复杂的硬件和软件堆栈中都有成千上万的指标,其中重要的可以归结为以下几类:

  • 能力-每种类型存在多少容量。这包括整个环境的可用存储容量、可用网络带宽、服务器上的可用内存和可用CPU资源。
  • 利用-你的每种类型的容量在每个时间点被使用了多少。利用率趋势对于了解何时将耗尽每种容量非常重要。
  • 争用-关键资源是“排队等待”的应用程序和进程。VMWare环境中的CPU Ready告诉您虚拟和物理CPU资源的争用情况。内存交换可以指示内存资源的争用。存储层的I/O队列说明存储设备可能已饱和。
  • 性能-这是关键的一点。抽象环境(虚拟化和基于云的环境)中的性能不是资源利用率。绩效是指完成任务所需的时间。因此,性能是事务级的响应时间和基础设施级的延迟相等的。
  • 吞吐量-这些度量标准衡量单位时间内完成的工作量。事务层的每秒事务数以及网络和存储层的每秒读/写数都是吞吐量指标的很好的例子。
  • 出错率-这些指标衡量的是失败的事务和丢失的网络数据包。

今天的情况

今天,大多数企业IT运营团队发现自己处于事件驱动的阵营。许多团队都被大型机时代发明的遗留事件管理系统所困扰。现代团队并没有评估使用自然语言处理或先进机器学习技术或人工智能的新一代事件管理系统。但无论你的活动管理系统多么复杂,你仍然会面临以下问题:

  1. 来自无数监视工具的所有事件都是基于手动设置的阈值。这样做的问题是,不同的人设置的阈值不同,使得这些警报成为非常不一致的数据来源。
  2. 在将这些事件发送到事件管理系统之前,它们之间没有任何关联。这就留给了事件管理系统去尝试将事后发生的事情关联起来。
  3. 整个事件管理过程都是事后反应的。就其本质而言,它直到收到警报后才启动,这意味着它直到问题开始发生后才启动。
  4. 调整阈值以不遗漏任何内容(不出现误报)和不被误报(误报)淹没是一个巨大的挑战。

指标(数据)如何提供帮助?

在这个大数据时代,可以结合和挖掘数据来衡量整个堆栈的性能、吞吐量、争用、利用率和错误率,并得到以下类型的见解:

  • 当前环境中的热点在哪里?可能影响事务和应用程序性能的关键资源中的争用源在哪里?
  • 竞争的趋势是什么?在不久的将来可能会有哪些问题?如何主动避免这些问题?
  • 度量标准之间的关系能帮助解决根本原因吗?IT运营的高级大数据系统不仅捕获指标,还捕获事务和应用程序之间的关系,以及它们在虚拟和物理基础设施中的运行位置。
  • 识别僵尸VM和云映像只会让你花钱,但没有做任何有用的工作
  • 向业务组成部分和应用程序所有者通报关键事务及其支持基础设施的服务级别状态。

总结建议

关于硬件和软件栈关键元素的可用性(或缺乏)的硬故障应该明确地直接发送到现代事件管理系统。然而,对于关键的性能和吞吐量相关指标,现代大数据后端将允许以相关的方式分析这些指标,并最终帮助事件管理系统变得更加准确。

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对自己最关心的话题发表评论。

版权©2017Raybet2

SD-WAN买家指南:向供应商(和您自己)提出的关键问题