本篇文章4754字,读完约12分钟
ODCC天蝎测试项目高级技术顾问刘兴海:硬盘在大型数据中心的应用及质量保证 9月27日,在云计算发展与政策论坛和数据中心联盟的指导下,由开放数据中心委员会主办,由百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息与通信研究院和英特尔主办的“2016ODCC开放数据中心峰会”在北京隆重举行。ODCC天蝎测试项目高级技术顾问、企业硬盘测试项目经理、阿里巴巴服务器质量专家刘星海下午在“ODCC纺织测试”分论坛发表了题为“大型数据中心硬盘应用与质量保证”的演讲。 9月27日,由百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息与通信研究院和英特尔主办的2016ODCC开放数据中心峰会在发展与政策论坛和联盟的指导下,由开放数据中心委员会主办,在北京隆重举行。下午,ODCC天蝎测试项目高级技术顾问、企业硬盘测试项目经理、阿里巴巴服务器质量专家刘星海在ODCC纺织测试分论坛发表了题为《大数据中心硬盘应用与质量保证》的演讲。以下是演讲的全文:
ODCC天蝎座测试项目高级技术顾问刘星海
大家好,我是阿里巴巴服务器团队质量保证团队的刘星海。我目前在ODCC纺织测试工作组工作,我目前是硬盘纺织测试项目经理。今天,我想和大家分享一下我们在海量数据中心使用硬盘方面的一些经验、问题和相应的对策。让我们来看看现在信息技术行业硬盘的市场规模。在这里,我们计算了近年来世界上所有的硬盘出货量,包括消费者、台式机、移动和企业数据中心产品。从图中可以看出,自2010年以来,每块硬盘的总从机出货量一直在逐渐下降,这与固态硬盘出货量相比是显而易见的。自2010年以来,全球固态硬盘出货量一直以每年相对较高的速度增长,直到2015年,固态硬盘出货量仅占硬盘出货量的一小部分,约为16%。然而,整个行业对固态硬盘在未来几年将继续高速增长充满信心。这与固态硬盘和硬盘这两种不同产品的技术特点分不开,包括加工技术、市场和业务。但即便如此,在硬盘市场,由于云服务在各种数据中心和数据中心的快速增长,企业级应用(包括数据中心的全部硬盘)在统计周期中保持了增长趋势。
事实上,每个人都使用更多的硬盘,无论是在他们自己的笔记本电脑中,还是在过去,他们曾经自己分发电脑,包括现在我们工作中使用的服务器或笔记本电脑。在这里,我将简要介绍硬盘的基本原理和结构。这些基本原则和结构决定了硬盘在未来的实际使用中会遇到什么样的情况和问题,尤其是在大规模数据中心环境中,以及我们将如何应对这些情况。
这是硬盘背面的照片。这是一个企业硬盘。移除时,前表面看起来像这样。中心是整个硬盘的控制核心。这是硬盘被移除后的内部结构。顶部是磁盘、主轴电机、过滤器、硬盘不工作时的停放区等结构。从这里可以看出,硬盘是电子和机械高度集成的整体。它实际上是一个很小的系统,而且它是一个对设计和加工有很高精度和很高技术要求的产品。稍后我们会有一些详细的说明。
以下是一些基本的硬盘构造概念。第一幅图显示了硬盘在同一磁盘上的磁道分布。它以同心圆的形式分布在同一个磁盘上,从内到外分为不同的磁道,并在同一磁道上细分为多个扇区。这个例子只是一个例子,事实上,它远远不是同一个轨道。轨道密度是指每英尺可放置的轨道数量空。这不是最新的设计,现有技术远远超过这个值。
最后一幅画是关于轨道的形状。我们只知道它是一个圆,但实际设计或生产的硬盘轨道的形状不同于实际的理论圆。不匹配。通常它是偏心的或略呈椭圆形。这一点在后面,实际使用中可能会有一些现象与此有关。
当硬盘工作时,磁头在磁盘的一侧、两条磁道之间以钟摆的形式移动。因此,从右图可以看出,红色和白色是写磁头和读磁头,蓝色磁道的相应位置将随着它们位置的变化而变化,这将影响磁头的写精度和信号捕获,并且也将随着磁盘环境的变化而变化。
硬盘工作时,磁头直接悬挂在磁盘上方,但这个距离或高度称为飞行高度,由空空气动力学决定。事实上,当高速移动时,磁头相对于磁盘的状态有点像飞机,而飞机相对于地面或相对于空空气的状态。它的工作原理是通过空的空气动力学产生下降浮力,并精确控制与磁盘的距离。
目前,在普通硬盘设计中,在操作期间磁头和磁盘之间的距离通常是纳米,通常在2纳米和10纳米之间,具有动态飞行高度技术。因此,在实际操作中,高度将在2纳米和10纳米之间变化。这是通过在磁头上具有加热单元,以及通过磁头的热膨胀和收缩来实现的。目前,主流硬盘的转速为5400、7200、10000和15000。相对速度约为每小时100公里或更高,这是一个非常惊人的高速。
如果磁头和磁盘之间的尺寸和体积成比例地扩大,它就相当于一架飞机在离地面不到1厘米的高度以每小时100万公里的速度飞行。同时,它必须准确地读取地面上一个小地址的内容,或者在飞行时从地面上抓取一个小地址的内容,这对电子设备和机械来说都是一项非常复杂的任务。为了实现这一功能,需要在硬盘内部安装一个定位系统来帮助磁头和磁盘上的磁道扇区精确定位。这个东西叫做(英语),它是一个伺服回路。磁头在工作期间可能会偏离磁盘的位置,磁盘在工作期间也会偏离理想水平和磁头,因此这两个方面都会影响磁道定位。模块的这一部分的功能是当发现它们偏离理想位置时将它们拉回。
刚才我谈到了通用硬盘的结果和一些原理。在使用数据中心的过程中,您遇到过哪种硬盘故障?通常,电子元件的故障曲线由几个部分组成,包括左边的红色部分。这条线叫做早期失败率,早期失败率越高,逐渐降低。中间的绿线是随机故障率,这是电子元件固有的故障率,所以它基本上不随时间变化。通常,这是由半导体、环境、其他设备的一些辐射或环境空中的电子干扰引起的。这条红色的翘尾曲线是老化的失败率,它是由电子设备、半导体器件和机械器件在长期使用过程中的老化引起的。
我们计算了大型数据中心中硬盘故障率与所有服务器故障率的比率。在这里,我们统计了多个大型数据中心的50,000多台服务器空。我们发现超过三分之一的故障是由硬盘造成的,硬盘是我们数据中心质量保证的主要工作对象。在相同的统计样本空中,我们统计了某一年中每个月的失败率,这似乎并不相同,而且与浴缸曲线有些不同。每年统计同一样本空的硬盘故障率,发现故障率随时间逐渐增加。前三年的失败率没有太大的不同,可以看出在接下来的两年中,失败率显著上升。根据我们对许多故障硬盘样本的分析,最常见的硬盘故障是无法识别的硬盘、主机看不到的硬盘或主机突然发现在正常运行过程中无法识别的硬盘。二是硬盘正常工作时读写出现一些错误,导致很多问题。第三点和第四点实际上与前两点重叠。很多时候硬盘无法识别,读写错误是由第三和第四个故障引起的。
让我们举几个例子。通过对故障硬盘的分析,我们发现由于PCBA函数的问题,PCBA有一个很大的类别。例如,该硬盘的一条信号线损坏,导致整个硬盘无法工作,系统无法识别硬盘。这个问题是,我们已经分析了光盘分开,并发现这样一条线是不同的同一轨道(英语),有一个很长的划痕。该图是根据磁记录从磁盘恢复的硬盘的示意图。它可以看到每个磁道的正常和异常磁介质。读写过程中磁头与磁盘发生碰撞,导致磁盘被划伤。
接下来,一个类似的问题是磁头和磁盘之间有碰撞的痕迹,外来颗粒和碎片从磁头落下,并且磁头也可能被损坏。
也有很多输入输出错误,通过分析我们可以看到一种是硬盘表面有一些粒子或非常小的粒子,甚至是指纹。当然,没有人会用手碰它们。也就是说,指纹和其他东西也会影响磁头的飞行高度,导致信号强度下降。例如,目标高度是多少?受此影响,其高度上升,读写信号强度下降,这将导致输入输出错误。
另一个有趣的现象是,在使用实际机房的过程中,我们分别在两个不同的机房中发现了类似的现象。一台机房设备出现故障,警报设备响起。当它工作时,频带非常高。在机柜附近的服务器硬盘上传导的高频噪声,导致磁盘偏离磁头,导致读写错误。然后,警报消除后,读写磁盘的错误将自动消失,硬盘不会造成不可逆的错误,并可能恢复正常。
在一些工厂测试中,我们将对磁盘磁介质进行一些压力测试。当反复读写某个区域时,相邻区域的磁记录会由于漏磁的影响而被重写。这是一个水平水平。现在许多技术已经变成垂直的,但原理是相似的。它会导致相邻轨道的内容发生变化,因此读取它们时会出现错误。
这些故障的许多原因与硬盘的结构有关,并且会随着时间的推移而被放大。例如,硬盘的马达有润滑液,润滑液会蒸发并受到温度和湿度的影响。磁盘和磁头会老化和磨损。硬盘内的一些聚合物材料包括主板内的聚合物材料产生的挥发性颗粒。这些分子大约有100微米,但它们是纳米级硬盘内部结构的一座大山。还有一些腐蚀性气体,空气体,一些有害的腐蚀性气体会损坏印刷电路板。前面是硬件故障和软件故障。例如,长时间重复读取和写入特定磁道将导致漏磁并导致读取和写入错误。对于这些,我们会有相应的改进措施。机房的环境和空气体的净化程度可以缓解我们遇到的这些问题。
我在这里谈论的是磁盘磨损的原理。在高速磁头和磁盘表面,它产生的空气浮力空受到温度、湿度和气压的影响。因此,在不同的条件下会有不同的工作条件和工作高度,这就会产生我们刚才提到的一些问题。一些腐蚀性气体是由于磁头的大分子相对较大。
总而言之,硬盘可靠性或故障率有两个关键因素,一个是外部环境,另一个是工作负载。我们有很多生意。他们在磁盘使用和IO特性方面有很大差距。搜索业务不同于其他业务,如普通的云业务或存储业务。写入相同或相近的数据卷对磁盘有不同的影响。这不是我们实际数据中心的结果,而是一个行业的分析结果。蓝线和红线是相同的写入级别,但是因为它们的IO模式完全不同,所以硬盘的可靠性和故障率也非常不同。这是硬盘和固态硬盘的长期故障率之间的比较。固态硬盘写入的寿命在达到此限制后将会延长,但固态硬盘没有此限制,这是由原则上的差异造成的。
硬盘质量保证简介。在硬盘的研发过程中,硬盘也是一个像服务器一样的系统。它也可以分为EVT,数字电视和其他阶段常见的每个人。在不同阶段,制造商还将从功能、性能、气候、结构、机械等方面进行各种测试,以确保硬盘的设计规格以及加工和生产的余量。
在我们面前,我们看到我们计算了硬盘在某一年中12个月的性能,但实际上没有显示出浴缸曲线的前一部分。在工厂里,将对污染物、磁头磁盘质量、读写功能和电源进行大量筛选。在数据中心的实际使用中,我们有一个实时监控系统,用于实时监控在线海量硬盘故障。制造商也为我们的监控系统提供了很多贡献,许多他们自己的建议,以及一些相应的参数或监控方法来帮助我们改进监控模型。事实上,主要有两点,一是硬盘的响应时间,这可以有一个标准的参考值。还有一个典型的工作负载,IO模型。同时,在SMART时代也有一些错误的信息。同时,硬盘制造商也将有一个推荐的使用环境和使用负载。我们将根据这些实际环境、温度、湿度等预测未来的长期故障率水平。结合制造商推荐的参数。
有一个小视频,请帮我播放一段。这是一些国外数据中心的工程师对他们的产品所做的实验。这类似于我们刚刚在计算机房观察到的高频噪音对硬盘的影响。你可以看看。
这个人正在用软件对他的系统做一些性能测试。上面一行看起来像硬盘的响应时间。他用一个标记来标记每个磁盘,以知道他正在测试哪个磁盘数据。他现在冲着磁盘大喊,磁盘的级别已经变了很多。从上面和下面,我们可以看到在这个时间点,性能有所下降。这与磁盘的结构及其受外界影响的特性十分一致。数据中心通常会监控许多硬盘的这些参数和选项,主要错误包括硬盘可以记录的温度和影响值,包括我们担心企业和IOPS使用情况的时间。硬盘寿命预测也是基于上述数据,我们可以根据使用情况预测长期故障率的趋势。
今天的分享到此结束。谢谢你。
标题:ODCC天蝎测试项目高级技术顾问刘星海:硬盘在大型数据中心的应用及质量保证
地址:http://www.yunqingbao.cn/yqbxx/2530.html