本篇文章3612字,读完约9分钟
百度高级工程师闫晓云:分享数据中心基础设施运营和维护的最佳实践 9月27日,在开放数据中心委员会的主持下,由百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔共同主办的2016ODCC开放数据中心峰会在北京隆重举行。在ODCC数据中心解决方案分公司,百度高级工程师严晓云发表了题为“数据中心基础设施运维项目最佳实践分享”的演讲。 9月27日,在开放委员会的主持下,由百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔共同主办的2016ODCC开放数据中心峰会在北京隆重举行。在ODCC数据中心解决方案发布会上,百度高级工程师严晓云发表了题为《数据中心基础设施运营与维护项目最佳实践分享》的演讲。以下是演讲的全文:
严晓云,百度高级工程师
我叫严晓云,来自百度系统部。首先,我要感谢ODCC提供了这样一个平台,并给了我们这样一个项目的机会。在此过程中,我们得到了朱将军的大力支持,今天我们也提供了这样一个机会与大家分享。因此,我想对ODCC和所有参与这个项目的制造商和个人表示衷心的感谢。
今天,我想和大家分享四个方面。首先,我想谈谈这个项目的背景,也就是为什么我们要做这个项目。第二,我想看看项目要达到什么目标,或者我们在项目开始时设定了什么目标。第三,我希望你能更感兴趣。我们此次峰会的成果可以向您发布和展示。最后是我们的下一个计划。
看看这个项目的背景。事实上,在过去的一年里,我们已经发生了15或16起事故,国内外许多著名的数据中心公司都发生过这样或那样的事故。每一次事故实际上都有很大的影响。事实上,我个人更感兴趣的是这么多事故对我们数据中心的影响是什么?让我们看看右边的图片。这是一项由美国一家研究机构在16年初联合进行的调查。他们得出的结论是,银行业每次中断损失近100万美元。我们可以看到,通信、医疗和电子商务行业每次停电损失超过90万英镑。接下来,我们将考虑一些造成如此巨大损失的停机事故。原因是什么?在同一份研究报告中,他们还进行了排名。第一个是电力系统故障。第三个是我用红色的勾号把它勾掉了。人为误差也占2%。因此,我个人认为这是一个非常高的比例。然而,除了这家公司,像其他研究机构一样,也发布了一些研究报告。13年来,阿富汗做了一份研究报告。我们可以看到,在报告中提到的所有事故中,有67%是由设备故障引起的,根据标准操作程序,这些故障可能不是由每个操作和维护人员触发的。另一方面,并不是所有的操作和维护人员都是好的操作和维护人员。他还可以避免我们数据中心的一些严重事故。设备故障很容易在数据生命周期的前端和末端发生。很有可能当数据中心刚刚投入运行时,由于设备的使用和调试原因,一些设备会出现故障。在这种情况下,并非所有事件都会导致影响我们最终结果的事故。41%的此类事件是由于我们数据中心的冗余造成的,设备损坏不会导致故障。我想说的是,另外29%是由于操作和维护人员的及时干预,以消除故障。
例如,支持我们刚才所说的都是事实。首先,业内很多同事都知道,Xi安有一个变电站,由于施工原因,没有按照规定正确使用电池操作电源,导致电气系统不运行。然后,其当前系统的故障没有及时排除。最后,整个变电站爆炸,影响了10多万人的供电。这是今年在Xi正式发布的,可以在网上找到。这一次是因为在操作和维护期间没有固定的操作。还有两个很好的例子。我们曾经有一个操作和维护人员巡逻,因为数据中心在水泵房里很吵。然而,因为这位同学更有经验,他发现两个水泵同时有异常噪音。最终,调查发现,这两起事故都是由于联轴器故障造成的,后来进行了修复。另一个例子是我们有一个位于一个大公园的数据中心。除了我们自己的数据中心,这个园区的其他企业也在使用电力。另一家企业与我们来自同一个变电站,但一旦另一个变电站连接起来,就会发现故障,进而导致我们数据中心的高压线路出现异常。当然,通常会有保护措施来切断故障并从另一个角度供电,但是线路可能会更长。保护系统失败。在这种情况下,我们的操作和维护人员迅速切入,并在几分钟内切断,从另一边切断故障电源,从而确保我们机房的正常运行。因此,我想我可以用刚才的一句话来总结,那就是,一个好的运维团队可以帮助我们,如果他很有经验,他可以帮助我们避免失败,但是如果一个不好的运维团队,就可能导致失败。
因此,年初的时候,我们就在思考如何总结数据中心运维的最佳实践,总结和传递人们心中的运维经验,从而避免运维事故,发现一些潜在的事故,积累经验,快速处理事故,避免影响我们的业务。因此,这就是我们开展本项目的背景,所以我们在今年5月启动了一个项目,即数据中心基础设施运维,当时不叫运维系统。以前,我们称之为数据中心基础架构运营和维护的最佳实践,我们希望总结最佳实践。当这个项目刚刚建立时,我们组建了一个项目团队,包括三大运营商,包括英美烟草。在建立之初,我们设定了一个目标。一个是我们称之为“没有规则,没有规则,没有方圆”。我们希望建立一个完善的操作和维护框架。从计划的开始到结束,我们将监控一个框架,从方法论的角度系统地规范我们的操作和维护行为。第二,我们想建立一个交流的平台。我们将坐在一起,互相交流,以一种特殊的方式总结和分享。
到目前为止,我们在峰会上取得了哪些成就?刚才我们说我们已经完成了操作和维护系统的框架。整个系统有八个方向。从一开始的规划和设计,我们的运行和维护同学应该注意什么方向,测试和验收,如组织管理,维护管理,安全和合规运行管理,包括最终的工具支持,如何建立节能PCO,如何建立他们之间的接口,如何通过数据等。,我们会把它融入整个系统。分为八个主要方向,然后再细分,我们还建立了许多二级和三级目录。这里我举一个例子。主目录中的八个主要方向的维护管理也包括许多主要方向的维护管理,例如监视和巡视检查、卫星维护管理的预防,包括故障处理。然后在每个辅助目录下,我们将划分成每个小的操作和维护场景。故障处理将如何分类?如何报告失败,如何快速处理掌声,如何分析掌声直到结束,要点非常详细,这样总结起来,在八个主要方向的39个二级目录和105个三级目录的操作和维护场景就形成了,这就是我们整个框架的情况,这是我做的封面,整个框架和前言有大约10页的外观,每个人都可以在ODCC的公共号码下载。这可以说是一个相对全面的系统和框架,涵盖了数据中心基础设施的运营和维护。当然,我们在这次峰会上也提出了两个具体的最佳实践,一个是失败出席的专利,另一个是标志标签管理的主题。我将讨论如何组织操作和维护最佳实践的文本。
事实上,数据中心最重要的任务之一就是处理故障。我想我们已经把这个话题分成了四个三级目录。对于每一个三级目录,我们将其分为三个部分。例如,就故障分类而言,首先要考虑的是,例如,我们在设计时会遇到什么样的操作和维护困难,在讨论时,我们会考虑每个用户场景的困难是什么。例如,我建议故障分类基于什么样的标准。这是我们考虑的第一件事,无论是3级还是4级,它是什么样的标准鉴于这一困难,我们将从运营商的角度提出我们有什么最佳实践,我们如何分析它们,以及我们将它们与什么标准区分开来,最后将有一些实际的例子,我们也将从这个案例中写出来。因此,对于每个故障,我们将为每个产品制造这三个零件。
对于故障处理,我们的操作和维护难点是根据什么样的难度来分析故障。以下是最佳实践。我们不能一一列举。例如,我们可以去网站找出什么是一级故障,什么是二级故障。我们可以看看整篇课文。最后一个是案例欣赏。我们将制作一个表格,粗略地总结目前在我们市场上使用的第一级故障,即高压双回路电源故障。一级故障有双向断电,联箱有双向断电,常见的二级和三级故障是什么。我们都可以制作一个表格文本并粘贴到最佳实践中。我们不仅知道系统应该如何构建,还知道其中每个模块的操作和维护场景。因为BAT运营商做他们所做的,并让他们知道他们是如何做的,这是在这次峰会上发布的结果和框架系统,加上我们的两个主题,除了错误。
下一步大约有三个计划。第一个是我们的月度会议。框架完成后,成员将聚集在一起选择更感兴趣的主题。对于以下行业中的一些电路监控系统,我们有什么样的连接和协议?这些人想起来可能不太清楚。我们可以召集所有人。如果我们提出一个关于管理体系结构的话题,我们可以讨论它。然后,每隔一个月,我们将向ODCC公众推出一个关于最佳实践的原创用户主题。
第二,如果我们需要每个月推行一个最佳实践,到明年的峰会时,可能会有12或11个最佳主题。我们可以把它组织成书,甚至用IDC的方式出版,甚至考虑以后出版一本书。
还有新成员。我们现在有7个价格的项目成员单位。我们也希望更多的行业成员能够加入项目团队。特别是,我们做世纪互联。在一线数据应用方面有丰富经验的企业可以加入我们的项目团队。也欢迎你离线联系我。谢谢你。
标题:百度高级工程师闫晓云:分享数据中心基础设施运营和维护的最佳实践
地址:http://www.yunqingbao.cn/yqbxx/2513.html