本篇文章4685字,读完约12分钟
构建数据中心高可用性的五个步骤 高可用性是当今存储专业人员最常用的术语之一。然而,简单地向数据中心的存储阵列投资资本和最新技术并希望有效地避免停机显然是不可行的。因此,企业数据中心迫切需要实施一套有效的计划。 Litao984lt编译 高可用性是当今存储专业人员最常用的术语之一。然而,简单地将资金和最新技术投入到您公司的存储阵列中并希望有效地避免停机显然是不可行的。因此,企业数据中心迫切需要实施一套有效的计划。
在本文中,独立顾问Ben Maas将为我们的读者和朋友概述如何有效保护企业应用程序免受最常见的数据丢失和停机原因影响的五个关键步骤。这五个步骤是:
1.了解您的企业软件的功能;
2.了解企业中所有应用程序的运行时需求;
3.适当调整您的企业数据中心的环境;
4.适当调整公司数据存储库的大小和设置
5、实施更完善的实习计划
练习步骤1了解您企业的数据保护软件
目前,许多企业实际上使用一些数据保护软件,而不知道它们的所有功能或限制。例如,备份软件可以使用几种不同的方法来创建安全的恢复集。它可以在文件、应用程序、存储卷、虚拟机管理程序或操作系统级别进行复制。或者,它还可以支持多种方法的组合,以提供多种恢复选项。虚拟机备份软件就是一个很好的例子。大多数企业使用快照技术来执行此任务,尽管每个企业可能使用不同的技术来完成此任务。一些企业采用无代理方法,称为VMware的本机虚拟机快照技术。其他一些企业使用部署在每个虚拟机上的软件代理。
如果您企业的备份软件依赖代理来执行虚拟机备份,它将更直接地与虚拟机文件系统一起工作。在这种情况下,备份软件可能会使用微软的卷影复制服务(VSS)将数据合并到磁盘,然后再拍摄虚拟机的快照。
但是,如果您企业的备份软件以无代理方式拍摄快照,它可能仍然部分依赖代理进行备份。当备份软件执行备份以调用微软VSS创建快照时,它会临时将一段软件放入虚拟机。为此,它将使用VMware API启动快照,然后将软件代码放在虚拟机上创建快照。一旦快照完成,它将删除已安装的代码片段。
即使这种混合虚拟机备份方法也可能不够。在某些情况下,备份软件可能需要与特定应用程序(如微软交换或SQL Server)集成,以将数据同步到磁盘。这将创建恢复后可用的应用程序一致备份。
同样,许多备份软件产品也使用重复数据消除技术来最大限度地减少存储需求。一些备份软件产品可以消除客户端和其他服务器上的重复数据。有些仅在数据到达存储设备时执行重复数据消除。有些甚至提供了在这三个位置中的任何一个位置执行重复数据消除或根本不执行重复数据消除的选项。
企业软件支持的选项将影响您执行此操作所需的带宽量,以及您在客户端、媒体服务器或磁盘目标上消除重复数据所需的处理能力。
理解备份软件的这些功能和限制非常重要,因为它们会影响备份和恢复所需的时间,并最终影响备份的可靠性。
超出备份和恢复任务关键型的应用程序应始终保持在线或尽可能保持在线。这种服务级别需要比备份软件更高级的工具。具有零宕机容忍度的企业应该考虑为关键系统采用高可用性解决方案。高可用性通过将系统实时复制到远程站点来确保不间断服务。如果生产环境中断,高可用性使您的企业能够立即将故障转移到辅助位置,并继续在那里运行,直到您的本地问题得到解决。高可用性恢复以分钟或秒为单位进行测量,从而将数据丢失降至接近零。
练习步骤2,了解应用程序的正常运行时间要求
了解贵公司使用的备份软件的功能和使用限制后,您需要了解每个应用程序的恢复目标。一旦您确定了这些目标,您就需要将它们映射回软件中可用的功能,甚至映射到您企业中的流程,以确保它们的一致性,并根据业务需求维护这些应用程序的可用性。
例如,MySQL没有官方认可的实时数据快照方法。因此,您无法证明您的备份软件可以随时将数据同步到磁盘以创建可恢复的快照。
唯一可行的备份MySQL的方法是关闭MySQL(这对于需要100%正常运行时间的应用程序来说毫无意义),或者制作一份数据拷贝,然后拍摄拷贝的快照。像MySQL这样的例子说明了为什么企业需要知道您的数据在哪里以及它是如何工作的,所以您的企业不需要运行恢复来发现您正在丢失数据或者数据已经损坏。
相反,由软件(如微软的SQL)提供的API可以为您的企业提供比MySQL更好的数据保护体验。有了VSS卷影副本,企业可以避免这些问题。同样,企业需要确保您的备份软件知道如何正确调用API来验证您的数据是否已写入磁盘,从而最大限度地减少并理想地避免数据丢失或损坏的可能性。
这一步非常重要,尤其是当您的企业正在处理需要备份软件来加密存储在驱动器或内存中的数据的应用程序时。加密创建了额外的保护级别,您需要确保备份软件在数据进入驱动器之前对其进行加密。许多提供商要求企业客户管理和保留自己的加密密钥。信息技术专业人员负责保护这些密钥。如果您的企业丢失了加密密钥,它将丢失备份;如果它丢失了备份,它将导致数据丢失。
练习步骤3正确调整您企业的数据备份环境
企业需要考虑两种类型的备份,以便正确调整公司数据备份环境的大小。
数据中心备份
数据中心备份可能是最容易量化和扩展的。企业通常有一个专用网络来备份这些应用程序服务器,而这种备份流量甚至可能不会通过企业网络。生产应用程序数据可能会受到基于阵列的快照技术的保护,在这种技术中,备份软件会启动数据的快照,这些快照会在阵列上存储一小段时间,并由备份软件进行管理。然后,备份软件可以将快照备份到磁盘、磁带甚至云,以进行长期存储。企业数据中心中使用的更复杂的备份软件通常使备份数据中心中托管的应用程序变得更容易。
当企业开始讨论应用程序的备份位置位于数据中心之外时(无论是企业数据中心大楼中的其他位置、园区还是远程位置),正确扩展备份和恢复环境变得更加困难。
如果通过局域网连接执行本地备份,您需要在备份窗口期间验证是否有足够的计算机资源和网络带宽,以避免中断生产应用程序。由于备份通常在下班时间运行,因此这通常不是一个无法解决的问题。
但是,如果您的企业在核心数据中心之外运行24x7应用程序,并且该应用程序不需要低活动期,您可能需要升级这些服务器上的计算资源或为这些应用程序提供额外的网络带宽,以确保它们的备份和恢复可以在计划的备份窗口内进行。您可能还需要考虑更高级的备份工具,如高可用性解决方案。高可用性技术使用即时故障转移功能来确保任务关键型应用程序和数据的正常运行时间要求。
远程备份
如果您的企业需要在远程位置通过广域网连接备份或恢复应用程序的运行,其挑战将变得更加严峻。除了确保可用的计算和网络资源来备份和恢复数据之外,还必须验证数据是否能够及时恢复。否则,您企业的恢复目标将无法实现。
真正知道它是否可行的唯一方法是在生产环境中测试它。
当您的企业这样做时,在执行备份或恢复时,考虑备份环境中可能遇到的一些变量非常重要。例如,如果您想通过VPN通道运行备份或恢复,吞吐量将会降低。另外,在通过局域网或广域网链接发送数据之前,您是否需要对数据进行加密?如果是,请确认加密数据的设备能够及时执行,以满足您的备份或恢复服务级别协议。
还需要注意的是,存储备份数据的磁盘必须足够快,以满足备份和恢复要求。我遇到过一种情况,企业中的许多机器同时写入或读取数据,导致处理速度缓慢。
考虑您的企业可能有24台机器需要在24小时内恢复的情况。您的企业可能不会尝试逐个恢复它们。您将并行恢复它们。同时,有必要确保从中恢复数据的存储设备能够处理满足这些要求所需的输入/输出量。同样,有计算器可以帮助公司执行这些类型的评估,但我发现唯一可以确定的方法是在您的业务环境中亲自测试它们。
练习步骤4:适当调整数据存储库的大小和设置
我遇到过这样的情况,软件提供商对存储在存储库中的数据量有严格的限制。例如,备份软件提供商可能会强制实施2 TB限制(或对单个备份存储库的其他限制),这可能会迫使企业客户将备份分散到多个存储库。
如果企业同时运行多个恢复流,这将有效。在这种情况下,您的企业需要确保存储库能够快速读取数据,以满足您的恢复时间目标(RTO)。
有许多供应商可以提供大规模的文档,这对于为您的企业环境适当调整存储库的大小非常有帮助。您需要做的只是确保您已经配置了足够多的存储库,并同时使它们可用。
在备份过程中,当对数据进行重复数据消除时,使这些存储库具有适当的大小尤为重要。
还要注意,供应商使用备份代理来更接近虚拟主机上的存储。在这种情况下,您的企业需要确保进行了适当的调整,以确保您的企业有足够的内存、CPU和本地存储,从而避免备份或恢复过程中出现瓶颈。
我还被用作数据库服务器的虚拟机,它承载7到8TB的数据。有时,这种规模的虚拟机会试图从存储库中恢复这些数据。在这种情况下,由于吞吐量不足,它已经成为一个真正的问题。只有在将数据分发到多个存储库之后,才能及时恢复数据,因为企业用户可以同时在多个驱动器上运行恢复。
练习步骤5:实施更好的练习计划
实施一个更完美的实际计划。这意味着您的企业应该运行多个测试。在您实际执行恢复过程之前,您的企业永远不会完全意识到恢复过程将涉及多少迁移片段。最复杂的可能是那些涉及从地理位置分散的备份中执行恢复的备份。在这些情况下,您需要运行恢复测试,以确保您想要的一切都会发生。
在大多数情况下,我会在测试过程中遇到一些我从未考虑过的问题。有一次,我遇到了一个软件许可问题。在测试期间恢复应用程序后,应用程序软件必须验证其许可证授权。在呼叫总部过程中,授权软件检测到,自从我在测试服务器上运行该应用程序以来,托管该软件的服务器的IP地址发生了变化。然后它使软件许可证无效。尽管这很不方便,但它成为了一个生产问题,因为它使软件许可证在测试和生产期间运行的软件副本无效。这种疏忽已经破坏了生产环境。
从测试中自信地恢复您的业务环境。
这改变了我进行灾难恢复测试的方式。现在,当我提议一个测试环境时,我将关闭出站网络流量。在这段时间内,我将查看哪些流量是出站的,以确保没有软件试图远程报告故障警告,这可能会无意中导致测试或生产环境的中断。这可能在一定程度上代表了我的偏执。我没必要告诉别人这么极端。然而,一朝被蛇咬,十年怕井绳。我个人发现软件许可在恢复过程中是一个问题。
企业需要执行测试的另一个很好的例子是确保数据可以恢复。我曾经工作过的一家公司在其微软SQL服务器上创建了一个X驱动器或文件共享。然后每周将数据备份到X驱动器一次。但是,我对此一无所知,公司的另一位同事也知道这个X驱动器及其用途,所以他决定用它在两台SQL Server数据库服务器之间执行一些复制,当时它运行良好。
然而,一段时间后,该公司改变了备份程序,并决定其SQL server不再需要这些数据库服务器上的X驱动器。我评估了系统,并将X驱动器放在整个环境中。一天结束时,在两台SQL Server数据库服务器之间执行复制任务的人开始对我们大喊:为什么复制被中断了?
总之,这些情况解释了为什么测试如此重要。除了环境中的频繁变化之外,总会有一些细微的差异,例如X驱动器不可用,这使得很难根据用户的期望执行恢复,除非您的企业经常执行恢复测试。
2020-02-29 21:22:12 国际信息公司谷歌今年将在其美国办公室和数据中心投资100亿美元。 谷歌宣布了2020年的扩张计划,计划在11个州投资100多亿美元建设办公室和数据中心,包括加州、科罗拉多州和乔治亚州。
标题:构建数据中心高可用性的五个步骤
地址:http://www.yunqingbao.cn/yqbxx/694.html