京东云的李道兵:对象存储的新挑战 在对象存储方面,富媒体的增量未来仍然非常乐观。此外,对象存储将显示出以下两个发展趋势:第一,半结构化数据的大量流入;其次,固态硬盘正在逐步取代硬盘。 未来,对象存储将蓬勃发展,以富媒体为主要力量,而半结构化数据将慢慢成长,并可能成为新的主流数据存储需求。 2018年3月21日至22日,由中国信息通信研究院主办、中国通信标准协会支持的“奥斯卡”在国家会议中心举行。
随着技术的不断发展及其进入深水领域,开源技术与云计算的融合进一步深化,成为工业发展的重要支撑。“OSCAR云计算开源产业大会”将邀请业内众多大公司讨论和交流云计算开源技术、研发、治理和产业化方面的经验,探索开源和云计算创新发展的新途径。
京东云高级总监李道兵出席会议并发表主题演讲,主题为“对象存储的新挑战”。
以下是这次演讲的文字记录:
李道兵:大家好,我是京东云的李道兵。今天我想和大家分享的是对象存储的最新趋势,以及未来几年我们可能会看到的相对较新的东西。
首先,让我们看看过去几年对象存储的数据量的趋势。自2013年以来,对象存储总量已经超过了结构化数据。在接下来的几年中,结构化数据的数量没有显著增加,这可能是一个非常稳定且缓慢的增长趋势,而对象存储是一个爆炸性的增长趋势。爆炸式增长从何而来?大量的增长来自于教资会的内容,为什么教资会的内容会有如此大规模的爆炸性增长?以下几点可以解释。
首先,全球带宽容量增长和带宽价格下降。五年前,中国处于移动通信的2G时代,与中国联通和中国电信连接的3G时代,现在是4G时代,过去每个月有200兆的流量包,现在几乎每个人都有几千兆字节,家庭带宽从2兆、5兆到100兆不等。这就是中国的情况。然而,世界形势,如印度和非洲,以及大量移动设备的引入,导致了带宽的大幅增加。带宽的急剧增加带来了大学英语教学内容的增长。
第二点是大量新的传播媒体的诞生,最早的是文本、短信、QQ和微信文本版本。接下来,图片通过微信平台发送,慢慢地从图片到视频,再到视频直播。我们也看到了大量视频直播平台的诞生,如快播、莫言和梅派。这意味着消费升级是不可逆转的。你现在回到了以前的时代。你不允许在朋友圈子里发照片或炫耀这个孩子有多可爱。你不能忍受。你不会接受这个结果的。
第三点是,我们已经看到大量的企业,富媒体企业,已经成功地从他们那里探索利润模式。例如,美图已成功在香港和上海上市,莫莫已在美国上市。快车道几乎已经成为中国最大的流动企业之一。虽然没有上市,但整体估值非常高。所有这些都可以在富媒体推动的大规模增长中看到。
另一个好消息是,今年我们可以看到家庭宽带和企业宽带将继续下降,这意味着这一领域的增长趋势将继续下去。在这方面,我们可以看到一些新的观点。在人工智能引入之前,我们最早只处理数据库,然后在我们能够处理单词之后,我们就诞生了基于搜索引擎的大公司,比如谷歌和百度。接下来,通过人工智能的引入,我们通过图片和视频逐渐获得了分析能力。我们不确定未来我们能带来什么,但至少我认为在未来我们能看到大量基于图片和视频的公司,并通过他们的资源挖掘能力成为一个超级大公司。人工智能是一个强大的工具,可以将许多公司的富媒体数据从成本变为资产。许多银行以前有许多传统的票据。他们拍了很多照片并藏了起来。随着人工智能增强的光学字符识别技术的引入,这些票据都可以数字化。过去,大量的法院判决也是用图片保存的,但现在它们已经成为大量的司法文本。我们可以看到富媒体数据的价值正在逐渐增加。
因此,在对象存储方面,富媒体的增量未来仍然非常乐观。
未来的趋势是什么?对我来说,不止两点。第一点是半结构化数据大量流动。其次,固态硬盘逐渐取代硬盘。什么是半结构化的?通常存储在数据库中的数据称为结构化数据,存储在图片、音频和视频中的数据称为非结构化数据,而中间一些日志的海量数据则是半结构化数据。为什么半结构化数据的数量在快速增长?首先,物联网,家庭中的各种传感器,佩戴在身上的传感器,这些传感器会产生大量的数据,这些数据如何产生价值?它必须被保存和分析以产生有价值的数据。这将导致您需要保存的数据量大幅增加。第二是自动驾驶。自动驾驶行业是一个巨无霸行业。它的价值是什么?它可以为全世界节省数千万人年。这个有价值的行业更依赖于我们从大量的驱动数据(即半结构化数据)中提取我们未来决策的基础。第三是精细化操作。几年前,互联网市场容量很大。当每个人都能迅速扩张时,就不需要精细的操作了。然而,现在我们进入了互联网的后半部分,互联网后半部分的每个企业都面临着这样一个问题:就你的收入和客户的成本而言,谁是最重要的。为了赚钱,你需要做大量细致的操作。无论是为了降低你获得客户的成本。从单个客户身上挖掘出更多的利润价值,并通过分析用户的行为来获得这一价值,仍然是一个问题。这导致需要保存大量用户行为数据并分析行为数据。
我们可以看到,半结构化数据的存储方法仍然非常原始,这些原始的方法在将来可能无法满足某些需求。例如,大量的数据仍然存储在HDFS、弹性搜索、TSDB或英流数据库和其他时间序列数据库中。容量非常有限。在查询旧数据时,必须将旧数据移动到存储中,并且必须将其移回。这个问题也很难解决。那么,我们能否考虑一下,我们是否可以将大量的计算带入存储,以及它需要做什么来存储?回到刚才的问题,在大多数情况下,我们要做的计算不仅是MapReduce,更准确地说是FilterMapReduce,它首先从大量数据中过滤,然后进行MapReduce计算。然后我们可以简单地做一些优化。这种优化意味着我们使用对象存储作为半结构化数据的存储池,然后我们在存储中完成过滤操作,并将过滤结果送到计算引擎去做。这样,刚才的许多问题都可以解决。您的计算引擎无法支持如此大量的数据。此时,过滤器存储用于承担大量数据的操作。从这个角度来看,对象存储面临一些挑战,但挑战并不大。以前,我们只提供简单的PUT、GET、DELETE接口。现在我们只需要将过滤器相关的接口添加到原始接口中。AWS已经提供了S3精选等服务,可以帮助我们实现我们想要的功能。
固态硬盘未来对硬盘的影响现在主要是基于传统磁盘。12个硬盘,一个8TB或10TB,放在2U空之间,这个数字是固态硬盘的价格变化曲线,下面的红线是传统硬盘的价格变化曲线,蓝线和紫线都是固态硬盘的价格变化趋势。从这里,我们可以看到,在不久的将来,固态硬盘的价格可能会低于硬盘价格。当然,现在说这个有点不合适,因为固态硬盘和内存价格最近上涨很厉害。人们可能不这么认为,但这件事可能在未来三到五年内成为现实。另一份报告预测固态硬盘在企业市场中的份额为0以上,例如,2020年约为15%。固态硬盘能给我们带来什么好处?首先,单位机架容量。在传统硬盘时代,每台硬盘的平均容量约为90TB。在固态硬盘时代,每台硬盘的容量仅为1000TB。我的存储容量单位增加了10倍。我在机柜空房间或计算机房中的存储容量直接增加了一个数量级。第二个是功耗。传统硬盘的功耗需要1.5瓦/TB,SDD可以降低到0.2瓦。从环保和节省机架成本的角度来看,我们可以将其降低一个数量级。第三个是IOPS。算了,等效单位容量差约为30倍,传输速率约为5。唯一的区别是价格。如果价格不再是问题,固态硬盘可以为我们带来更多的大容量存储,并且只需要更小的尺寸。
新的固态硬盘型号会有什么新问题吗?这是一台1U 1PB固态硬盘存储服务器。这带来了一个大问题。每个固态硬盘可以提供500B/s的吞吐量,30个固态硬盘可以提供15GB/s的吞吐量,网卡的瓶颈可以通过过滤来解决,我们从磁盘上读取15GB/s的数据,但是我们不需要向网卡中吐这么多数据,只需要吐出需要的数据。然而,15GB/s远远超出了中央处理器的处理能力,即使是顶级的E5双路中央处理器也不能满足需求,而且这种中央处理器太贵了。我们是否有可能将我们的计算能力进一步融入固态硬盘?固态硬盘有自己的计算芯片,以实现自己的调度算法。我们能不能在芯片中做一些简单的处理,比如过滤和汇总,这样过滤过程就可以直接在固态硬盘中完成,而不需要CPU的参与?这在新的固态硬盘架构中是非常必要的。此外,我们还可以获得额外的好处,例如半结构化数据的可压缩性非常强,并且该框架还可以用于数据压缩,这可以在不影响使用的情况下进一步提高存储密度,同时不会增加CPU负担。从这个角度来看,可以说两端计算是半结构化数据。我们尽力将计算转移到双方。一方面,我们将它向下推,推至服务器,推至磁盘,然后推至固态硬盘以完成计算。在另一端,我们将汇总的数据推到另一端。对于spark这样的集中式计算引擎,这种半结构化数据过滤模型更加方便,能够满足未来半结构化数据计算的需求。您不需要对对象存储进行太多的更改。您需要一个新的支持查询的API、一个查询语法规范(类似于SQL)以及对程序的修改,例如支持这个规范的Spark。
我认为未来几年对象存储的蓬勃发展肯定不会有问题,富媒体的作用是主要力量,但半结构化数据将慢慢成长,并逐渐可能成为新的主流数据存储需求。通过双端计算模型,可以更好地利用半结构化数据和存储过程的优势,充分发挥半结构化数据的价值。这就是我想说的,谢谢你!
2020-02-15 16:50:37 云信息京东云与AAAI 2020收集的人工智能10篇论文京东科技实力登上世界舞台 近年来,人脸分析因其潜在的应用价值而受到越来越多的关注。论文“一个新的数据集和边界注意语义分割的人脸配对”是从人脸分析领域存在的。
心灵鸡汤:
标题:京东云的李道兵:对象存储的新挑战
地址:http://www.yunqingbao.cn/yqbxx/440.html