改变数据中心面貌的五大数据挑战 新的数据中心架构带来了新的数据挑战:数据收集将如何推动数据中心架构从边缘到核心的发展。 新架构带来了新的数据挑战:数据收集将如何推动数据中心架构从边缘到核心的发展。
这些数据显然不是过去的样子了。作为数字转型的一部分,各种组织都在寻找数据的新用途。从飞机引擎数据到杂货店消费数据,每个行业都有大量的例子,而数据成为企业竞争优势的关键。人们称这些数据为新数据,这与最熟悉的财务和企业资源规划数据完全不同。大多数原始数据是事务性的,从内部资源中获取,而新数据推动了客户机/服务器革命。
新数据既有事务性的,也有非结构化的,公开的和私下收集的,它们的价值来自于它们的总结和分析能力。粗略地说,我们可以将这些新数据分为两类:用于批量分析的大型集合数据集,以及从许多来源收集的用于快速数据以便于立即决策的数据。大数据和快速数据模型正在推动数据中心新架构的发展。
以下是新数据中心架构带来的五大数据挑战:
(1)数据捕获正在推动数据中心体系结构从边缘到核心的发展:
从源获取新数据。这些数据来自海洋、石油和天然气勘探,也可能来自卫星轨道、气象应用、电话、图片、视频以及推特或电影中的场景。从源头收集的数据量将比目前已知的要高几个数量级。
(2)数据规模正在推动数据中心的自动化发展:
大型云提供商的规模已经非常大,他们必须在自动化和智能方面投入大量资金来管理基础架构。任何人工管理在其操作规模上都是昂贵的。
(3)移动数据改变全球网络:
如果数据无处不在,那么必须移动数据进行总结和分析。当人们认为并希望网络能够以40到100 Gbps的速度满足互联网带宽的要求时,对数据移动的需求可能会增加100到1000倍。
(4)数据价值是革命性的存储:
毫无疑问,数据对组织越来越有价值。随着机器学习和基于人工智能的分析,数据在长时间内的实用性正在增加。这意味着需要在更长的时间内存储更多的数据,并且这些数据必须能够作为一个整体进行处理,以便进行有效的分析。
(5)数据分析是未来计算密集型体系结构的驱动因素:
通过分析的本质,尤其是机器学习,组织必须保留更多的数据,以便将其聚合到大数据存储库中。当应用于多个较大的数据源时,这些类型的分析提供了更好的答案。然而,分析和机器学习是计算密集型操作,因此对大数据集的分析会驱动大量的高速处理。同时,分析的计算强度促使组织引入各种新方法来存储和访问从内存数据库到100 PB级对象存储的数据。
新数据从源头收集。从源头收集的数据量将比人们目前所熟悉的要高几个数量级。例如,自动驾驶汽车每天将产生高达4TB的数据。世界上有数亿辆汽车,未来人们必须应对这一新的数据冲击。
显然,人们无法从源头收集所有数据,并试图通过今天的网络将其转移到一个集中的位置进行处理和存储。这促进了新数据中心模型的开发。不同环境的特点是数据类型不同。这种新的边缘计算环境经过优化,可以在传输到独立的核心数据中心环境之前捕获、存储和部分分析大量数据。
新的边缘计算环境将推动计算基础设施的各个方面发生根本性变化:从中央处理器到图形处理器,甚至微处理器(MPU),从低功耗小闪存存储到物联网网络和协议,而不需要有价值的IP地址。
让我们看看数据收集的不同例子。在生物信息学领域,数据在源头爆炸式增长。在乳腺癌的x光检查中,获取这些图像的系统正从二维图像转变为三维图像。二维图像需要大约20MB的存储容量,而三维图像需要高达3GB的存储容量,这意味着存储这些图像所需的容量增加了150倍。不幸的是,大多数存储二维图像的数字存储系统根本不能经济有效地存储三维图像。在过去,只有当存储系统被大型数据库取代时,数据才能蓬勃发展。
此外,组织希望对这些图像执行的处理类型是基于机器学习的,并且比任何以前类型的图像处理计算都强大得多。最重要的是,为了进行机器学习,研究人员必须收集大量的图像进行有效的处理。处理这些图像意味着跨组织移动或共享图像。这些图像需要从源获取数据,以可访问的形式(不是在磁带上)存储它们,将它们聚合成大型图像库,然后用于大规模机器学习分析。
图像可能以原始形式存储,但元数据通常是在源位置添加的。此外,一些处理可以在源端完成,以最大化信噪比。能够支持这些图像的最终架构的特征在于(1)在源存储数据。(2)将数据复制到共享存储库(通常在公共云中)。(3)处理来自共享存储库的资源以分析和处理数据。(4)使用网络连接,以便将结果返回给研究人员。这一新的工作流程正在推动包括多个存储位置的数据架构的发展,并根据需要移动数据和在多个位置处理数据。
对于制造业中物联网的使用情形,这种数据架构的变化更加剧烈。例如,在西方数据公司,人们从世界各地的机器上收集数据。这些数据被发送到存储在三个位置的中央大数据仓库,一些数据被推送到亚马逊的Apache Hadoop数据库进行快速数据分析和处理。结果可被整个公司的工程师用于可视化和后处理。处理源数据以提高数据的信噪比并使数据标准化。对数据执行额外的处理,因为它收集在对象存储库中逻辑上集中的位置。
由于这些数据必须长期受到保护,因此需要擦除编码,并分布在三个不同的位置。最后,一旦数据进入亚马逊平台,它将被再次分析。支持制造用例的体系结构是一种边缘到核心的体系结构,它可以在许多地方处理大数据和快速数据,这些组件是专门为流程的每个步骤所需的处理类型而构建的。
由于集中式数据的概念不再适用,这些用例需要一种新的数据架构方法。人们需要一个逻辑上集中的数据视图,并且能够灵活地在任何工作流的多个步骤中处理数据。数据量将非常大,盲目地将所有数据推送到中央存储库将带来更多的成本和时间限制。智能架构要求开发人员了解如何逐步处理数据,同时考虑数据大小、传输成本和处理要求之间的权衡。
数据需要存储在适合其预期用途的环境中。人们称之为数据激增的环境。大型数据集需要共享,不仅是为了协同处理,也是为了机器学习和云之间的分离,以便进行计算和分析。以数据中心为中心的体系结构不是解决大数据存储问题的好方法。为了从未来的大型数据集获得最大价值,需要采用边缘到核心架构,并与混合云架构相结合。
2020-02-29 21:22:12 国际信息公司谷歌今年将在其美国办公室和数据中心投资100亿美元。 谷歌宣布了2020年的扩张计划,计划在11个州投资100多亿美元建设办公室和数据中心,包括加州、科罗拉多州和乔治亚州。
心灵鸡汤:
标题:改变数据中心面貌的五大数据挑战
地址:http://www.yunqingbao.cn/yqbxx/278.html