IT操作应该是事件驱动的还是数据驱动的?

事件概述

过去30年(自20世纪80年代中期分布式系统出现以来)IT运营管理的本质一直是理解什么是“正常的”，什么是“异常的”，然后对异常发出警报。事件是异常的。

事件的来源多种多样。整个堆栈的每个元素(磁盘、存储阵列、网络设备、服务器、负载平衡器、防火墙、系统软件、中间件、服务和应用程序)都能够发送事件。

事件通常有两种形式。与环境中的故障相关的硬故障和警报(此磁盘驱动器已故障，此交换机上的此端口已故障，此数据库服务器已停机)，以及各种监控系统上人为设置的阈值违反所产生的警报。

任何IT环境的操作也可以用指标或数据来描述。在任何复杂的硬件和软件堆栈中都有成千上万的指标，其中重要的可以归结为以下几类:

能力-每种类型存在多少容量。这包括整个环境的可用存储容量、可用网络带宽、服务器上的可用内存和可用CPU资源。
利用-你的每种类型的容量在每个时间点被使用了多少。利用率趋势对于了解何时将耗尽每种容量非常重要。
争用-关键资源是“排队等待”的应用程序和进程。VMWare环境中的CPU Ready告诉您虚拟和物理CPU资源的争用情况。内存交换可以指示内存资源的争用。存储层的I/O队列说明存储设备可能已饱和。
性能-这是关键的一点。抽象环境(虚拟化和基于云的环境)中的性能不是资源利用率。绩效是指完成任务所需的时间。因此，性能是事务级的响应时间和基础设施级的延迟相等的。
吞吐量-这些度量标准衡量单位时间内完成的工作量。事务层的每秒事务数以及网络和存储层的每秒读/写数都是吞吐量指标的很好的例子。
出错率-这些指标衡量的是失败的事务和丢失的网络数据包。

今天，大多数企业IT运营团队发现自己处于事件驱动的阵营。许多团队都被大型机时代发明的遗留事件管理系统所困扰。现代团队并没有评估使用自然语言处理或先进机器学习技术或人工智能的新一代事件管理系统。但无论你的活动管理系统多么复杂，你仍然会面临以下问题:

在这个大数据时代，可以结合和挖掘数据来衡量整个堆栈的性能、吞吐量、争用、利用率和错误率，并得到以下类型的见解:

关于硬件和软件栈关键元素的可用性(或缺乏)的硬故障应该明确地直接发送到现代事件管理系统。然而，对于关键的性能和吞吐量相关指标，现代大数据后端将允许以相关的方式分析这些指标，并最终帮助事件管理系统变得更加准确。

加入网络世界社区有个足球雷竞技app脸谱网和LinkedIn对自己最关心的话题发表评论。

贝恩德·哈佐格是公司的首席产品和战略官OpsDataStore所有IT运营管理数据和供应商的实时大数据后端。OpsDataStore的开放大数据后端消费和关联来自多个来源的数据，并立即利用市场领先的BI和可视化工具使这些数据对决策者有用。