本篇文章1752字,读完约4分钟

祝英航:重新定义云时代的服务器硬件监控(2) 我们通常做什么来监控我们当前的硬件?我们通常使用带内IPMI。制造商将有接口并定义各种传感器。基于收集的数据,将会有一套完整的服务,这将避免与其他制造商有一个共同的界面。适应工作通常是,如果你的制造商在标准化质量控制方面做得更好,那么你的工作量可能会更大。如果质量控制很差,即使服务器是统一的并且是同一型号的,它也可能有一些不同的名称并带来额外的适应工作。

祝英航:重新定义云时代的服务器硬件监控(2)

各位下午好。我是协会的技术总监朱英航。目前这样的现状,我们的一套做法和解决方案,这种解决方案不一定是最好的一个。

我们通常做什么来监控我们当前的硬件?我们通常使用带内IPMI。制造商将有接口并定义各种传感器。基于收集的数据,将会有一套完整的服务,这将避免与其他制造商有一个共同的界面。适应工作通常是,如果你的制造商在标准化质量控制方面做得更好,那么你的工作量可能会更大。如果质量控制很差,即使服务器是统一的并且是同一型号的,它也可能有一些不同的名称并带来额外的适应工作。纯带内代理收集了更多的数据,并确定除IPMI外,可以通过系统管理基本输入输出系统、中央处理器本机接口、硬盘/磁盘阵列本机接口和系统文件捕获109个项目。这些数据无法通过当前的带外方法实现。带内工作带来了另一个问题,即存在一定的安全风险和相对较高的成本。在研发的早期阶段投入的人力和精力相对较大,这相当于随着服务器的更新和改变而增加合适的工作。这是带内代理的另一个技术阈值。一旦跨过这个技术门槛,好处将超过它带来的风险。

祝英航:重新定义云时代的服务器硬件监控(2)

我们定义新时代的监控系统有四个主要特征。首先,它是统一的,相当于多个供应商。因为您直接从硬件级别获得数据,所以它与您的供应商无关。第二是完整性,数据是本机硬件必须提供的接口,第三是后期服务,包括故障闭环和处理能力。智能优化拓扑各方面的成本和数据。以上数据指的是在实践白皮书中获得的具体数据的数量经过刚才的方式。这四个数据实际上在资产、性能、故障和配置方面有它们自己的重要性。第二个是性能数据,它对您的容量预测有很大帮助。这里的故障数据与传统意义上的带外故障数据有些不同。由于您可以在带内实现代理,因此您可以在代理中更加智能和灵活。您可以使用一些与硬件相关的精细逻辑来优化代理内部,然后在外部突出显示更有价值的点,即数据分析的结果。它可以投入售后服务,数据可以发送出去。逻辑基本上是一样的。它可以固化为代理,使其成为一个更智能、更有价值的代理。配置数据通常不是硬件故障。还有一些额外的配置。如何获得这些配置和数据将提供给企业。业务方面将根据数据类型定义监控基线。基于这个基线,开始时有一些简单的情况。经过很长一段时间,一些规则或判断分析可以根据这些全面的数据。售后服务解决问题的能力,从选型到需求、预算、采购、到达和交付,这里的业务操作称为业务操作和维护。总的来说,它是从发现问题到解决问题的思路。我们从数据的角度出发,从业务或我们自己那里扣除不同的点,并找出优化的内容。大局,无论大小,都是协调和优化的。

祝英航:重新定义云时代的服务器硬件监控(2)

目前,我们大多数人仍处于第一阶段,手工阶段,下一阶段是专家经验后的自动化阶段,第三阶段是进入智能化阶段,第三阶段可以在战略层面上以非常丰富的方式进行扩展和拓展。

我们有一个演示。

演示显示界面将显示详细的参数、指示器和异常点。您可以关注左边的列,它相当于从刚才提到的点中整理出来的详细数据产品。这些数据产品是最核心的关注点。这些东西可以进化。根据腾讯刚才分享的内容,我们可以使用各种想法、大数据协议、流计算和基线处理方法。这是支持这一点的方法。核心出发点是我们要做什么,这反映的是左派。当您向用户报告问题时,您必须在问题与故障本身的影响相结合之前或之后分析问题是什么,以便能够及时向用户报告问题。这才是真正有价值的硬件监控。

祝英航:重新定义云时代的服务器硬件监控(2)

我们可以分析这些机器的能耗。CMDB链接更适合显示和分析这些能耗。故障预测,基于我收集的大规模硬件数据,需要多长时间给用户提前反馈?当然,这种故障预测可以与业务系统联系起来。报警中心相对简单,这是一个相对清晰的东西,所有这些东西,整个系统是一个静态的东西,连接整个系统的唯一方式,无论是性能报警还是系统报警,都是通过这些东西连接整个系统,这是事件管理的中心。

祝英航:重新定义云时代的服务器硬件监控(2)

就这些了,谢谢。

标题:祝英航:重新定义云时代的服务器硬件监控(2)

地址:http://www.yunqingbao.cn/yqbxx/1345.html