本篇文章4751字,读完约12分钟
郭雪:对可信云信息技术风险管理的思考 12月20日至22日,第十一届中国国际数据中心行业年会在北京国家会议中心举行。本次会议由中国信息与通信研究院、云计算发展与政策论坛和数据中心联盟主办。由中国国际数据中心行业年会组委会主办,中国国际数据中心圈主办,得到众多媒体的大力支持。 中国国际数据中心圈12月26日报道,第11届中国国际数据中心行业年会(IDCC2016)于12月20日至22日在北京国家会议中心隆重举行。在中国信息与通信研究院、发展与政策论坛和联盟的指导下,本次会议由中国国际数据中心行业年会组委会主办,中国国际数据中心圈主办,得到了众多媒体的大力支持。
作为中国云计算和数据中心领域最大、最具影响力的标志性事件,IDC中国行业年会已经成功举办了10次。本次会议的规格和规模都是“上一层楼”,吸引了全部现场人员,其影响力涵盖了数据中心、互联网、云计算等所有领域。
会上,中国信息与通信研究院总工程师郭雪出席了会议,并在同一天的国际数据中心上市公司大会上发表了题为“信息技术风险管理的思考”的主旨演讲。
中国信息与通信研究院总工程师郭雪
以下是这次演讲的文字记录:
郭雪:大家好,我是中国信息与通信研究所的郭雪。我们的团队从可信云开始,所以今天我将从云服务市场介绍它。
这部电影来自我们研究所今年的白皮书。可以说,经过前两年的快速发展,云服务市场已经进入了稳步发展的阶段。我们可以看到红线是增长率。增长率已经开始稳定,可以说已经下降。2015年,全球云市场规模达到522.4亿元。中国的私有云和公共云的规模为378亿元。在开发的早期阶段,云市场的规模相对复杂。许多人最初是作为设备供应商转变成云服务的。有些是转型为云服务的运营商,有些可能是初创公司。他们之间有很大的差异。有些可能集中于政府和企业客户,有些集中于小型和微型客户,有些规模很大,有些规模相对较小。差别很大。面对这样一个相对差异化的环境,我们也在思考如何帮助用户选择云服务。因此,我们在2014年提出了可信云。你们中的一些人有一些理解。当时,该提议的目的是帮助用户选择可信的云服务。本着这一初衷,我们当时制定了三个系列的标准,包括数据安全、服务质量和权利保护的标准评估指标,以筛选和评估云服务。
从2014年到现在,三年后,我们已经评估了六批超过150个项目的云服务。现在我们已经评估了市场上相对较大的云服务。整个评估过程如下所述,包括文件审查和技术测试。在整个评估过程中,有一个非常重要的内容,那就是可用性监控,刚才也有专家介绍过,那就是服务质量。对于通过我们信任的云的所有云主机,我们将持续监控其可用性。这是我们今年的可信云会议上发布的数据。这些数据都是由70多个不同物理节点组成的不同主机,由可信云进行身份验证。来自不同供应商的虚拟主机的平均可用性是我们所监控的趋势。最低点是94.11,可用性不是特别高,因为我们的监测。可用性达到94%,这意味着它一个月内不可用的时间超过40小时。这实际上是一件非常可怕的事情。
符合率是服务提供商在向外部世界提供服务时将签署服务协议,并将向外部世界承认其可用性,可能是99%,可能是99.99%,等等。对符合率的评估是,实际监控值达到其对用户承诺值的概率只占24%,也就是说,当云服务提供商提供云服务时,只有24%的云服务达到其对用户的承诺,也就是说,其稳定性和可用性,其实我们的理想很高,但在实际监控情况下,并不是特别理想。
这背后的问题是什么?我列出了今年的主要云服务事故,包括停机。在提供服务的同时,他们将面临各种风险,如服务不可用和服务质量低。这不是我们想在中国的网络环境中看到的。网络环境无法控制,包括操作和维护人员的误操作。操作和维护人员有可能加班到12点。块的盲目和删除是常见的情况。这是不可避免的,而且有许多风险。我们如何降低这种风险,也就是说,降低云服务运行过程中的风险。第一种方法是不断提高他们的容灾能力和提高他们的架构能力,包括操作和维护能力,但这意味着这是一个相对烧钱的行为,其投资将非常大。我们只是想知道是否有第二种方法,通过保险的方法。云服务的风险可以通过保险来降低吗?我们提出了云保险的概念,希望将其作为云服务控制风险的一种手段。云保险概念的提出主要是因为许多云服务提供商目前正从小型微型客户转向行业客户。行业客户非常重视云服务的不可用性,甚至一秒或几毫秒的不可用性对他们来说都是一个非常大的事故。因此,他们希望有这样的保险保障机制来保证云服务在运行过程中的稳定性和安全性。
让我简单介绍一下云保险。云保险也计划最早在2014年完成,相关工作组将于2014年9月启动,在2015年上半年制定计划。保险的内容是服务不可用,您的平台可能会遭受各种停机,另一个内容是数据安全、数据泄露、数据丢失等。主要保证内容是可靠性和数据安全性。2015年5月,我们云服务提供商的保险计划版本得到了确认。云服务提供商版本的保险计划是,云服务提供商将购买保险,保险公司将在事故发生后直接赔偿客户。当我们在2015年7月的时候,第一批被保险单位已经签订了合同,包括电信、联通等。在云服务提供商版本的保险被提出后,我们想知道是否可以提出用户版本的保险。我们的政府和企业客户以及金融客户将直接为云平台购买保险。当云平台出现故障时,保险公司可以直接索赔。我们目前的计划也已经完成。我现在已经简要介绍了这项保险的整个计划。
对于保险来说,两个非常重要的环节是风险评估和损失确定。风险评估是让第三方机构在你投保前评估你的风险概率,因为保险公司并不愚蠢。他不可能为所有云服务提供商购买保险。例如,云服务提供商昨天才建立了一个客户。保险公司也在考虑是否可以投保。这是由中国信息与通信研究所完成的。还有固定负债和固定保险。事故发生后,保险公司应该赔偿服务提供者多少,如何确定责任和赔偿损失也是我们的工作。我们的工作是判断责任方在哪里,以及应该为事故支付多少赔偿。
我们的整个风险评估、固定责任和固定损失都是从100多项可信云评估经验中积累起来的,这是一个一次性的风险评估公式。
以下内容都是风险平均的简单介绍。在座的许多专家更关心什么是风险评估,什么样的数据中心和什么样的云平台是低风险。我们还总结和思考了云服务平台的风险评估,总共有十几家或二十多家保险公司参与。一个是数据中心,另一个是云平台的结构稳定性。风险评估也围绕这两点进行。整个风险评估过程将去现场机房查看,包括检查支持文件,包括不间断电源等。它将在现场看到。同时,我们还有一项重要的任务要做。我们将查看故障日志,并根据实际故障情况获得风险值。在这里我给出了一个可用性评估方法,它已经获得了专利,主要是一个基于可信云的100多个云服务的平均可用性的经验评估方法。主要考虑红栏中的公式,主要考虑机房、网络、软件、服务器的可用性和综合监控值,因为我们刚刚监控了云主机的可用性,将会有一个基于综合监控值和用户数量的云服务提供商风险系数的评估方法。
我还列出了机房的风险评估方法。我们将参考机房的实际水平,因为我们中的许多人都是国际数据中心领域的专家。我们将去机房看看它是否达到T3+或T4水平。我们将看看它的环境、位置和建筑结构。最重要的是包括检查其功率模块、商用功率、柴油功率以及空调整。
至于服务器可用性、网络可用性和软件可用性,这三个方面的可用性调查主要是针对设备的具体型号,不同型号对可用性有影响。一个是可用性架构。你能允许多少台服务器鼓掌?将对您的架构进行审查。
对于数据存储持久性的评估方法,这意味着什么,也就是说,我们将评估云平台上丢失数据的概率。这里我还给出了一个基于积累经验的计算方法,即下面的公式。事实上,核心总结是我们将判断您的硬盘和存储体系结构的具体故障率。主要目的是调查当一条数据丢失时,在数据恢复期间丢失其他副本的可能性。我这边有一个红色的W标记。在我们看来,每个公司的核心技术是数据恢复时间。检查服务提供商的故障响应、故障检测能力和快速故障恢复能力实际上是数据丢失的一个非常重要的环节。
这是另一种存储方法。没有具体介绍擦除代码冗余。
我们对已投保的公司进行了现场评估,包括数据中心访问、整个体系结构的深入沟通,包括如何实现高可用性。通过十几项风险评估,我们已经得出结论,哪种云服务是低风险的。我们也在思考这个问题。我能为保险公司承保什么样的云服务,这种云服务风险可控吗?
首先,我们发现了一个共同的特征。在过去两年中,风险相对较低的云平台是相对较大的云服务提供商。它们的规模和数量已经相对较大,包括成千上万的企业,包括成千上万的虚拟机,包括可能选择运营商数据中心的数据中心,并且它们的可靠性将相对较高。此外,在机房基础设施方面,遵循T4的设计标准,各方都做了2N冗余。
对于云平台,它还在不同的地方做更多的工作,使超过30%的资源余量处于高可用性状态。数据丢失,一些家庭3份,甚至其他家庭4份,可以确保高可靠性和无数据丢失。在操作和维护管理方面,即对故障的响应方面,需要监控平台,并且需要快速处理这种异常情况,包括相对标准化的事件管理和问题管理流程,包括您是否仍在进行手动检查,这需要4小时的检查,以及何时许多家庭已经进行了自动检查。包括针对故障的常规演习,通过风险评估做得更好的制造商将进行常规演习,包括人员资格,并对后备人员具有更高的资格。
可以说,通过这种保险机制,我们正在思考能否通过这种保险机制建立一个良性的云服务提供商的自我循环。刚才,一些专家说云服务提供商只有两种方法来降低风险。第一种手段是提高自己各种硬件和软件的实力,但这种手段比较昂贵。第二种方法是你可以通过保险机制引入保险来降低你的风险。在真正的事故发生后,保险公司会用真正的钱和银来补偿你的用户和你,从而降低你的风险。同时,由于保险引入后,必须有两个环节:风险评估和责任认定。风险评估可以帮助您提前做出预先判断,责任认定和损失认定也可以帮助您追踪事故现场,降低整体风险。
在过去两年的云保险试运行过程中,我们发现云和IT服务都存在风险。为什么刚才我总是强调运行维护人员的误操作?因为在设定责任和确定损失的实际过程中,我发现一半的事故是人为和误操作造成的。风险是不可避免的,包括软件和硬件故障,包括网络不稳定,包括人员删除等。然而,整个信息技术风险管理不够标准化。现在我们需要一套相对完整的信息技术风险管理程序和规范,包括一些法律环境规范,包括一些加强监管的政策和保险保障机制的引入。
目前,国内外已经形成了比较完善的法律环境。对于国外,加拿大已经通过了电子文件管理的相关法律,德国也有一些关于网络安全的法律。对于我国来说,今年10月刚刚出台的《网络安全法》相对比较明确。它将于明年6月实施。这实际上是对整个网络环境相对较大的法律支持。
还有一种通过信息技术保险来改善整个信息技术风险管理环境的方法。事实上,无论是风险评估还是风险分配,信息技术都是在预先和过程中。只有保险是事后的保证。通过保险,可以完善整个信息技术风险管理链。最后,通过保险,云服务提供商(包括IT服务提供商)的损失可以降至最低。
我在这里列出的信息技术保险实际上是一个非常好的服务提供商和客户的事情。对于客户来说,客户体验可以得到改善,包括选择风险可控的服务提供商。对于供应商来说,风险评估可以预先判断潜在的风险和安全隐患,事后确定责任和损害,帮助其找出问题的原因,最重要的是,可以增强用户的信任。我对整个信息技术保险的介绍大概是这样的。我们的相关工作已经开始,包括各方面的风险评估标准,包括相关保险条款的制定。如果会后你有兴趣,我们会交换意见。这就是我的介绍。谢谢你。
标题:郭雪:对可信云信息技术风险管理的思考
地址:http://www.yunqingbao.cn/yqbxx/2207.html