本篇文章5217字,读完约13分钟
[2018亚太数据中心峰会]杨志国:银行数据中心应急管理的策略与实践 会上,杨志国主要介绍了我行数据中心的运行维护经验。他认为,银行的数据中心正面临着巨大的趋势,尤其是新兴业务的发展,必须做出一些改变。关于如何变革和如何合理运作,杨志国分享了他几年前出版的《银行数据中心应急管理的战略和实践》一书,其中提到了许多难题。为什么数据中心运营反映了效率和优势?银行如何才能安全稳定?在数据中心出现故障时,如何有序有效地解决问题?有这么多数据中心,如何做好运营和维护? 过去2017年,亚太地区的市场增长率接近15%,领先于世界其他主要地区,与整体经济增长水平保持同步。该地区多元化的经济发展特征使得各国的数据中心市场有着明显的差异。以香港和新加坡为代表的成熟市场保持了稳定增长,而以印度、印度尼西亚和其他国家为代表的新兴市场表现出强劲的增长势头。
2018年5月15日至17日,由中国国际数据中心年会组委会主办、中国国际数据中心圈和云百思买主办的“2018亚太数据中心峰会”在深圳举行。
5月17日,“2018亚太数据中心峰会”正式召开。中国银行数据中心副总经理杨志国现场精彩分享了《银行数据中心应急管理策略与实践》。
中国银行数据中心副总经理杨志国
以下是这次演讲的文字记录:
杨志国:大家好,这里的每个人。今天正是与每个人交流的机会。在座的各位可能都是信息技术领域的领导者或专家。今天,我只想和大家分享一个关于如何操作和维护银行数据中心的经验。刚才,我谈到了许多尖端技术和智能及人工智能的理论,并与你们分享了一些。我们有两条路可走:第一,传统银行如何运营和维护,我们必须赶上智能化和数字化的运营和维护。智能操作和维护没有错,但是如果它不能着陆,它将在空之间浮动。现在许多数据中心已经建成,但是如何操作和维护它们确实是摆在我们面前的一个难题。目前,国际数据中心发展迅速,但我们也有一些经验教训。一些数据中心投入运行后,许多数据中心会发生故障并遭受火灾,包括运行过程中的不规则行为和不正确方法,导致整个数据中心停机。例如,2015年,一家国际数据公司在更换部件时导致所有系统瘫痪。这带来了巨大的调整。如何操作和维护数据中心是我们应该考虑的问题。
现在,数据中心有很多特征(见PPT)。根据我的统计,有43万个数据中心,从10平方米到10万平方米不等。数据中心是如何运作的?它的规模非常大。众所周知,我们通常不是通过数据中心的规模,而是通过交易量来衡量数据中心的规模。现在我国的超级中心非常大,过去每天有3亿笔交易,现在有6亿笔交易。中国已经成为第二大经济体,这意味着业务发展迅速,业务量也很大。目前,普通银行,如工农钟健银行,约有6亿笔交易。让我们计算一下每秒有多少个事务。这些银行是巨大的数据中心。例如,德意志银行,我已经和他们谈过了。他们的交易量是2亿到3亿。中国工商银行、建设银行、农业银行和中国银行都有超过6亿笔交易,最高时达到10亿以上。对于我们的银行来说,确保其日常和每一秒钟的交易不会中断是一个挑战。
银行数据中心正面临大趋势,特别是新业务的发展,必须做出一些改变。有传统银行,也有新兴银行。互联网业务的快速发展给银行数据中心的运营和维护带来了巨大的挑战。我们一直强调,当数据中心第一个成为首席信息官或首席执行官时,您应该考虑您的数据中心是否还存在。如何生活?如何生活得更好?以下是一些解释。左派必须活下去,右派必须活得更好。应急管理,我们的策略在左边。我在书里。今天结束后我可能会获奖。我将奖励一本书。这是我刚刚出版的书。这就是“银行数据中心应急管理的策略和实践”。前年,我还出版了一本有许多难题的书。为什么效率和效率得到了体现?银行也有总的运营和维护成本。我们称之为TOC。我们也注重效率。没有高效的操作和维护,这是不可能的。作为一家银行,你需要安全、稳定和可靠。这是你的基本条件。你如何才能安全可靠?例如,您处于2+N模式。快速、有序、有效,如何做到?银行交易数量达到6亿。如果你停下来一秒钟,你损失了多少笔交易?我们合作的基本条件是,当出现故障或事件时,如何有序有效地解决问题。作为数据中心的领导者,你不能这样做,那么就没有办法成为领导者。有这么多数据中心,如何做好运营和维护?数据中心不仅仅是花钱,现在绿色数据中心,自动操作和维护,体现了效率和效益。这项政策是我的数据中心35年的经验。
我们有另一种见解。作为一个数据中心,我们需要建立一个系统。他们想要一个系统吗?当然,制度统治着人,制度死了,人活着,制度没有实施。同时,流程应该划分为责任,流程应该划分为责任,每个流程都应该开放,包括配置管理。这些流程必须在每个环节中划分责任。职责划分后,应该有角色定位。角色定位完成后,应该有做事的标准。所有数据中心都应该有标准、事件监控标准、按照标准做事的标准和自动化工具。这是数据中心管理系统。我今天谈到的应急管理也是其中之一。
数据的基本轮廓、管理和要求。在这种情况下,我们如何进行应急管理?如果你有这本书的运气,你可以得到前50本,如果你没有,你可以在网上购买。应急管理的重要性并不是数据中心的一个例子(参见PPT)。今天的市场变化很快。911事件后,一家银行做出了良好的应急反应。一些银行在没有应急响应的情况下破产了。应急管理具有速度快、范围广、影响大、响应要求高的特点。这是数据中心的应急管理。
你为什么说这本书?这是我35年的工作,揭示了本质,给了每个人方法上的帮助。目标是银行数据中心的经理、经理和技术人员,包括研究人员。我们如何提高管理意识和日常管理的工具和方法?这是一件非常重要的事情。本书共分11章,其中最重要的是几章,特别是第7章,主动维护、紧急情况和计划,以及处置和启动。这些章节都很重要,你可以看看。
什么是数据中心应急管理?基础设施、系统、外部、其他操作和网络攻击是我们必须处理的事情。我们该怎么办?我们以目标为导向,创新建设管理体系,推进落地咨询。这是我们的管理策略。它的管理目标是什么?总共6个字,快速、有序、有效,这是应急管理的精髓,如何做到快速、有序、有效?有效性是指预先设定的应急计划的有效性。我在银行做了1800多个计划,涉及基础环境、设备、网络、系统、应用等方面。这些计划必须有效。我们制定计划的条件是,例如,不间断电源坏了,坏了之后还有一个计划。这个计划必须是有效的,不能有任何影响。目前,在操作过程中,我们经常碰到我们的头。我们忍不住要有计划,而不是把它们解决掉。网络的当前带宽为99.9,无法执行系统事务。我该怎么办?你分一步、两步和三步打扫。我们制定的计划很有效。然后是有序的,现在这个岗位是制度化的,内部协作是面向过程的。事件发生后,应在30分钟内报告连接故障。我们都应该在30分钟内恢复事务,在30分钟内恢复RPO。因此,你应该快速、有序、有效地进行分析和判断。
应急管理的框架,如何做好应急管理和应急管理的框架,包括前期计划、应急演练、应急响应、应急处置、分析依据和人员等。,都是应急管理的精髓。什么是管理框架和思想?在事件之前、期间和之后,我们必须强调事件之前、期间和之后的控制措施。第7章主动操作和维护非常重要。主动运行维护是对所有事件进行全面分析。失败还没有发生,失败应该在之前消除。重启行动是消除许多故障的手段。分析大数据日志并判断组件是否出现故障非常重要。最高理论是积极遵循运行维护理论。老实说,我已经提到多少年前了。作为数据的运行和维护,有必要积极做好这项工作,即提前做好,在过程中快速有效,事后积累经验,不断优化应急预案。
在组织结构上,我们有一个指挥层、一个执行层、一个支持层和一个应急支持小组,这些都是重要的关键步骤。外部支持,许多产品不是由数据中心操作的,如购买IBM的大型机等。这些外部支持非常重要,它们还需要建立一套有组织的支持系统。在应急过程中,我们如何处理这个问题是非常重要的。我们提出了三大纪律和八项原则。所有行动都服从命令。发现任何问题都应立即报告。我们不推卸处理这个问题的责任。在数据中心运行和维护之后,应该有一个总指挥官,也就是说,他应该完成所有这些重要的任务。八项原则:首查监控、相关变更、历史回顾、自力更生、背靠背联动、平行处置、优先回收和信息共享。我非常了解恢复的优先顺序。如果数据中心出现问题,应该采取什么措施来解决?三个轴的紧急恢复非常有用。第一个是重启,许多事务被阻塞,一些资源在重启后被释放。当没有足够的磁盘空时,立即找人。还有隔离,因为我们的主机都是导入的,系统将在隔离后恢复。根据我的经验,基本上85%的问题可以用三个轴来解决。
这本书是我自己的。我自己已经把它处理好了。这本书是我第一次出版。当我自己读它的时候,我认为它真的很合理。
我们需要建立一个基本的管理模式,配备专职值班经理,加强事件经理的双重职责,保护重要的敏感日子,以及操作和维护培训。完成数据操作和维护后,我们将知道这些点有多重要。
基础管理、服务请求关联的建立和升级、智能筛选、大量自动运输和智能运行维护都是基于人和智能的分析,这些东西是否应该与我们的应急管理和通信机制相匹配。我们需要建立许多管理标准。我们都知道数据中心有五个步骤,可以给我们带来体验。今天的数据中心估计远远不够。数据中心发展了五个阶段。第一阶段是标准阶段,标准化是一个阶段。标准化完成后,数据中心应建立在基于过程和基于过程的管理中,并开放过程。之后,应该建立平台化。平台化是数据中心的一个更好的飞跃。平台化是必要的。所有操作和维护都应完成。移动平台、智能监控平台、配置管理平台等都是平台化的。第四,自动化。数据中心仍然主要基于平台。自动化不是很好。我们的目标是在未来实现数据中心的智能注册运行和维护。我们需要管理规范、订单标准等等,告诉每个人如何操作和维护。
如何实行24小时制,如何制定这些标准,以及如何组织和处理这些标准都是至关重要的。
我们还需要根据不同的级别完善系统,并根据不同的级别管理它需要多长时间。
应急站点,包括显示和自动IP电话以及虚拟云桌面,是应急管理的主要站点。
基础设施、监控点和应急指挥所是我们应对紧急情况最重要的地方。
还有必要的测试和钻探场地以及技术分析场地。数据中心没有进行技术分析的地方,没有进行测试和演练的地方,也没有判断应急管理和应急项目是否有效的地方。
积极的运行和维护以及应急计划是相辅相成的。它们是围绕信息安全程序实施的。在萌芽阶段,我们组织运行和维护,以消除事件发生时的所有故障。在主动操作和维护之后,我们应该阻止数据中心75%到85%的高级事件和故障。应急计划结束后就太晚了。因此,在应急计划和主动运行维护中有一个CCR理论。也就是说,如何在主动操作和维护后进行大数据分析并消除零件中的问题。理论出来后,我们认为技术框架更适合我们的数据中心操作和维护。
应急预案,这么多组成部分都要做应急预案,我们已经做了1800多个应急预案,应急预案是有效的,达到95%以上的有效。
同时,在应急计划完成后,仅仅有过程管理系统的方法论是不够的。我认为所有应急计划都应该基于平台,包括应急计划平台、应急合作平台和流程平台。过程平台是通过所有的事件和所有的电子信息,而不是纸质信息。所有流程都通过APP和您的办公室电脑进行处理。从事件到服务流程到应急管理的所有流程都已完成。所有应急管理问题都能得到快速、有序和有效的处理。工具构造意味着基于工具的智能构造不能孤立。只有将所有应急管理建立在一个平台上,采用自动化和智能化的手段,才能尽快实现应急措施。我们过去常常这样做应急管理。应急管理理论实施后,解决问题的平均时间超过50分钟。理论建立后,我们的时间减少到25分钟,下降了100%。你们的应急管理系统是有效的,我们不能忘记它的有效性。应急管理是确保数据中心能够快速、有序、有效地解决其所有问题,这是我们的核心理论。
5月8日至10日,会议在成都举行。我谈到了银行数据中心数字化智能运维的转型。它也是为了转型、应急管理或快速、有序和有效地解决问题。因此,应急管理是数据中心最关键的部分。如果你想生活得更好,你必须解决这些问题。
常规应急管理和非常规应急管理相结合,可以防止突发事件变成紧急事件或小事件变成大事件,最大限度地化解不和谐因素。应急管理应持续并持续改进。现在我们已经谈了很多关于智能操作和维护的问题。智能操作和维护的可靠性基于这些应急管理。没有这些数据的收集,应急管理是无效的。智能操作和维护就像一个士兵说炮兵只能解决表面问题,而步兵仍然需要解决战斗。真正准确的操作和维护仍然取决于我们的经验和应急管理,没有经验的操作和维护绝对行不通。
时间有限,下面还有活动。我在这里不是很精确。这本书讲得很好。好好看看它会对每个人都有帮助。谢谢大家!
标题:[2018亚太数据中心峰会]杨志国:银行数据中心应急管理的策略与实践
地址:http://www.yunqingbao.cn/yqbxx/221.html