本篇文章4830字,读完约12分钟
同方计算机有限公司高性能事业部R&D总监唐斌:模块化——服务器开发之路 9月27日,在开放数据中心委员会的主持下,由百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔共同主办的2016ODCC开放数据中心峰会在北京隆重举行。下午在服务器分公司,同方计算机有限公司高性能事业部R&D总监唐斌发表了题为“模块化——服务器发展之路”的演讲。 9月27日,在开放委员会的主持下,由百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔共同主办的2016ODCC开放数据中心峰会在北京隆重举行。下午在服务器分公司,同方计算机有限公司高性能事业部R&D总监唐斌发表了题为《模块化——服务器发展之路》的演讲。以下是演讲的全文:
唐斌,R&D同方电脑有限公司高性能事业部总监
我是唐斌,R&D同方电脑高性能事业部总监。我今天演讲的主题是模块化水平服务器的未来发展。我希望通过这样一个主题,我能在模块化设计中分享更多同一个电脑的产品特点、优势和理念。在提出模块化服务器之前,我们必须首先回顾Scorpio以及Scorpio和模块化之间的关系。
六七年前,我非常幸运地参与了天蝎座这一代。百度称之为北极项目的起草、研究和研发设计。从0.1到0.2,0.3,0.4,1.0,最后到天蝎座。在一次又一次的开发迭代过程中,我越来越深刻地认识到集中供电、集中散热和集中管理是天蝎座的核心精髓。然后,模块化实际上是创建这三个集中的基本方式和实现硬件的方法。
你怎么说?集中式电源,我们将1+1冗余电源从每台服务器中分离出来,形成一个集中式电源模块。有了这个模块,硬件购买成本大大降低,我们的转换效率可以提高,并且以后的维护会变得非常方便。
其次,出于集中散热的同样原因,原本分散在每台服务器内部的独立风扇是一个组件。我们将它们分开形成风扇墙,每个风扇模块都可以支持热插拔,从而降低了购买成本并增加了功耗。
集中管理,我们使用RNC作为集中管理模块,使得管理者从原来管理每一把刀和每一台服务器到管理整个机柜。管理单元得到改进,管理数量减少,维护工作量减少。当然,也有节点,无论是计算节点还是存储节点,都是以类似于刀片式服务器的模块化方式设计的。因此,根据我们的需求,存储或计算灵活的刀片选择服务都归因于模块化,所以模块化是不可或缺的。
由于模块化非常好,例如一体机、刀片服务器、IT产品中的核心交换机和路由器,以及高端磁盘阵列,实际上是大量的模块化思想和概念。因此,我们想知道为什么我们不能将这些好东西应用到通用1U 2U机架式产品服务器上。因此,在接下来的两三年里,我们努力闭门开发了一系列模块化的服务器和存储产品。
也许这个模块化产品的家庭照片会给每个人一个相当混乱的印象。太多了,无法区分。让我一个一个地向你介绍这些产品是如何模块化的,以及它们在哪里体现了模块的优势和特点。
首先,高密度刀片产品。1U3节点、2U6节点、3U12节点,有点像单机版的小天蝎产品,我们在维护前就把计算节点做成可插拔的,我们的客户可以根据自己的需要灵活选择,比如低功耗氙D,或者E3v3/v4。我们采用集中供电和集中散热的方式,这是一种高密度的刀片产品。如果您认为该产品的PCIe可扩展性不是很好,或者您认为磁盘数量不够。
我们还有第二种众所周知的双子和四方,这也突出了该产品的模块化产品。传统产品通过背板和SAS电缆在主板和硬盘之间传输。我们独特地采用主板和侧板,通过侧板和扁平电缆的连接,灵活地实现不同规格的传输。因此,当我们需要实现不同的规格时,我们需要做的就是灵活地更换中间侧板,这是双子座和四年一次的产品。
如果您认为这类产品的密度太高,并且您将四个放在2U中,您可能更习惯于使用单个节点。我们也给你这个选择。模块化服务器和机架安装。首先看看它的图片,1U。这里有一个小扳手可以拔出这个模块,2U8,2U12。经典已经过时,2U16。正是因为模块化,我们可以在服务器内外增加四个热插拔硬盘。因此,我们是2U16,而不是2U12。内置硬盘是另一回事,也可以应用。这是一个主板插件,要么是传统的服务器,要么是服务器。实现这一点的方法是将主板放在机箱内。当我们需要维护这个纸板时,我们需要打开上盖,增加内存,更换中央处理器,或者扩展PCI塔等等。今天,通过这种模块化设计,我们只需要保持硬盘简单,并把它作为一个拔出键,并拔出来,以确定。这是我们的模块化产品。如果以前的3路服务器产品,每个人都认为我是一个存储用户,我希望有更多的硬盘,我不需要这么强的处理器,你有存储产品可供选择吗?一切。
第一类模块化存储产品。事实上,这个产品和我刚刚介绍的模块化产品是一样的。然而,它的机柜变得更小了,可以放入600毫米的配电柜中使用。此外,3U16、3U24、4U24和4U36的存储密度更高。这是一种存储产品。
如果你认为存储产品的密度是一样的,4U36其他人的家可以做到这一点。你有高密度存储吗?好的,没问题。模块化高密度存储将立即问世。1U12 3.5英寸大板,2U24,4U60。该产品的亮点是我们将12个硬盘放入一个抽屉,将60个硬盘放入五个抽屉。在这个产品的实现中,我们也放弃了一个硬盘一条电缆,60个硬盘60条电缆,所以我们的设计方案中几乎看不到任何线,散热问题很好的解决了,维护性问题也解决了。这是我们的高密度存储产品。
也许有些朋友最终会挑战我。您所说的只是存储服务器适用于冷数据或分布式存储。您是否有双控制磁盘阵列、双组和双模式?我们也有2U12,2U24,3U16,4U24用于这类产品。可以说,双控制存储将模块化设计发挥到了极致。无论是我的主机A和B、风扇还是电源,都可以根据需要选择主机的接口。可以选择后端磁盘接口为8GB解决方案或12G解决方案为模块化设计。这是我们双控制磁盘阵列模块化的巅峰之作。
至此,我们基本上已经介绍了模块化服务器的六个产品线。总而言之,模块化是我们产品优势的核心。正是因为模块化,我们创造了高密度。正是通过模块化,我们能够实现我们的无电缆热插拔,从而便于后期维护。模块化是好的,但是我们在模块化设计中确实遇到了许多挑战和困难。所以,我想和你们分享我们今天在模块化设计中遇到的两个案例。
首先,散热的挑战。众所周知,在传统的产品服务器中,我们的每台服务器都有自己独立的散热风扇。但是,由于采用了模块化,将风扇做成一组风扇壁,采用集中散热,必然会带来散热方面的挑战。风扇的距离越大越好,风道越不利,而位于机箱后部的风扇产生的噪音越大。如何在平衡噪音的同时很好地解决散热问题?一个巨大的挑战。
我该怎么办?我认为有很多方法,但是在早期阶段有一个非常关键的技术和方法叫做热模拟,我认为这很重要。在研发之初,同方将把机械电路的硬件设计和我们的器件选型工程师结合起来,进行一轮又一轮的热模拟迭代。通过电路板上热器件的合理分布,背板上孔的合理添加将影响布线组装。通过对风道的合理优化,然后在不影响电磁干扰的前提下,适当提高机箱的开度,培养合适的风扇和散热器,最终在解决散热问题的同时降低噪音。
这里有一个小例子,可以快速传递,增加人们的感性认识。这是3U12刀片式服务器的外观,具有集中散热、集中供电和集中管理功能。主板的布局图、主板上热器件的布局、每个器件功率的TPP值的估计以及基于这些值的相关图的模拟。这是每把刀的模拟。最后,有一个结论可以通过。当然,这是一个已通过的结论,在早期阶段肯定有许多措施需要纠正。这是第一次。
第二个挑战是信号完整性挑战。事实上,电缆是一件好事。传统的T型服务器、L型服务器和主板放置在机箱中。软线的连接使我们有最短的布线距离,高速信号在电缆上传输。今天,必须实现模块化,必须丢弃电缆,必须执行热插拔,并且必须不使用电缆。此时,我的信号只能通过连接器传输。事实上,此时,我的信号完整性挑战非常大。
如何解决这些问题?充分利用信号完整性分析工具,找出瓶颈在哪里,如何突破,如何改善高速信号的传输过程。例如,在不增加成本的前提下,可以在印刷电路板上合理地布置一些器件,可以避免长距离布线等串扰问题。当然,这是以不等待成本为前提的。当我们的信号完整性没有什么影响的时候,我们还有其他的方法,比如高速板,混合压制法,比如我们选择高速连接器等等。最后,我们到达了一个点,在这个点上,我们的信号是完整的,而不是在接收端实际接收到的。我们严格按照规范的要求,我们实现了10到负15次方的码率。
在此,我也简单分享一下这样一个案例。该产品实际上是一种无电缆设计,不同于传统的T型服务器。这里,使用一组高速连接器来实现背板和产品之间的热插拔。模拟完成后,首先要分析主板的结构。什么是12层板和14层板,什么是层压结构?主板和背板之间的整个链路的拓扑图以及背板和硬盘之间的拓扑图应该进行关联和分析。基于前面的分析,应该建立一套完整的12级链路仿真模型。仿真模型的准确性是非常重要的,然后我们找到这样的指标,如存储芯片,耦合电容的影响和我们的连接器的影响。这些都是我们寻找规避措施和解决办法的方法和手段。当然,CPIe的链向量也是如此。这是重复的。让我们快速浏览一下。
所以,在这一点上,我今天不能和你分享更多,因为时间。事实上,在模块化设计中会遇到许多挑战。例如,对于模块化设计,这些主板模块和风扇模块需要热交换。因此,电磁干扰问题、电磁干扰问题和电池电容问题将非常突出。如何从组织的角度解决这些问题是一个挑战。例如,为了实现集中供电,几百安培的电流被传输到每把刀的刀刃上,而这些电流可以通过电缆传输。电流只能通过印刷电路板传输。印刷电路板如何解决数百安培电流的传输问题?这是另一个挑战。因此,感兴趣的朋友可以在会后互相交流。
最后,今天的话题是关于论坛。几个朋友提到了锂电池。因为Scorpio 2.5通过添加BBS(电池备用单元)是与纯Scorpio版本相比的最大改进,也就是说,当链条脱落时,整个机柜可以继续通过BBS向整个机柜供电。我们对投放市场的产品感到非常自豪。事实上,我们两年前发布的所有双插槽服务器产品,包括我们的存储产品,都已经将电池解决方案作为标准配置。我们称之为DBU。它的逻辑实际上和论坛一样。当然,我们实施它的方式不能说是遵循论坛,因为我们两年前就实施了这个计划。所以,总的来说,我后来看了这个论坛,基本上我们认为这是一个非常巧合的事情,同样的事情发生了。首先,隧道里的电池是18650个锂电池。根据您自己的需要,您可以在链条脱落后将电池保持6分钟或12分钟,并且您可以选择不同的电池。
第二,我的逻辑也很简单。正常情况下,电源由4路交流220伏供电,内置电源,在电路掉电后检测监控信息,快速切换到BBU电源。然后,在切换到电池供电后,电池将向整个机器供电超过6-10分钟,这是BBU的设计理念。为了解决电池的问题,例如,在BBU的设计过程中,除了与电信工厂合作,我们还实现了三次保护,包括过流、过压、过温等方面的保护,使得电池在底盘上使用时非常安全。
然后,一些朋友可能会说,我看到一些服务器安装了类似于BBU的标准电源,这种电源也曾出现过。然而,独立的选择比我们的更有优势。例如,如果您选择带有BBU的电源模块,首先该电源模块不能是标准CRPS,首先它必须是异形的,并且必须有空的电源。因此,没有办法使设计标准化,成本肯定会受到影响。
有了像我们这样的电池,你想用的时候可以选择,不需要的时候可以用。此外,整个BBU电池的成本在整个服务器中几乎可以忽略不计,非常便宜。电池在充电和放电时最怕热,不会过热。事实上,我们把BBU放进了电源模块。电源本身是一个发热元件,因此导致BBU散热不良。就我个人而言,我认为这也是一个潜在的安全隐患。因为我们使用并联模式,这不可避免地导致并联放电的不平衡,我们监控的电压必须控制在50 mV以内。当电压超过50毫伏时,我们认为电压已经偏移,不平衡,我们将切断放电,解决不平衡引起的问题。
因此,在电池的设计过程中,我们的同事也有这样好的想法和想法与您分享。今天,由于时间限制,我们已经到了这一步。最后,我想用一句话来结束今天的演讲,那就是模块化服务器的未来发展道路。清华同事致力于成为模块化服务器的领导者。谢谢你!
标题:同方计算机有限公司高性能事业部R&D总监唐斌:模块化
地址:http://www.yunqingbao.cn/yqbxx/2537.html