来自 科技 2020-06-27 11:41 的文章

鲲鹏和Pro:华为云BigData Pro大数据解决方案的两大

关于华为,每个人都有自己的观察角度,聚焦企业级IT市场,本文讲讲最近一段时间我看到的华为实力。我的切入点是鲲鹏,更进一步说是华为云最新发布的业界首个鲲鹏大数据解决方案——BigData Pro。

先说说鲲鹏,这个最近一段时间华为最频繁提及的词汇之一。明白了鲲鹏,对于鲲鹏大数据解决方案也就理解了一大半。

“鲲鹏”是什么?

可能你已经看到了,华为近期密集地发布了各种带着鲲鹏字样的产品、解决方案,包括鲲鹏处理器、鲲鹏云服务,其中就包括本文将重点展开的华为云鲲鹏大数据解决方案——BigData Pro。

鲲鹏究竟是什么?

简单理解,鲲鹏是一套基础架构体系,不仅仅局限于鲲鹏系列服务器芯片,还包含了兼容的服务器软件,以及建立在新计算架构上的完整软硬件生态和云计算生态。最初, 鲲鹏指华为在今年1月初发布的一款基于ARM指令集的通用计算芯片鲲鹏920。

为什么华为在大力发展鲲鹏?原因有很多,最直接的因素就是必须拥有自己的核心技术。

本质原因则是摩尔定律正在失效,计算体系进入百花齐放的时代,鲲鹏的发布,给客户带来了更多元的选择。

华为云鲲鹏大数据解决方案(BigData Pro)第一个值得关注的点,正如华为云云存储服务总经理林超所说,不管是存储还是计算,都是基于鲲鹏架构实现的。这在业内目前也是独一份。

了解过鲲鹏后,接下来认识一下鲲鹏大数据解决方案的第二个关键词Pro。在消费级产品领域,Pro被用的很多了,字面意思专业版,更直观的认识,Pro的功能会更强大。

那么,华为云鲲鹏大数据的Pro体现在哪些方面?我觉得可以总结为三个维度:

“存算分离”——提升资源利用率

华为云对传统的大数据架构进行了升级,推出了基于云服务的存算分离架构。存储和计算资源可以根据业务需要各自独立进行弹性扩展,灵活配置,从而使资源匹配更精准、更合理,让大数据集群资源利用率大幅提升。据介绍,经此创新,综合分析成本最高可降低50%。

至于为什么要这样做?还得从大数据架构的限制说起。目前,业界使用最多的大数据架构是Hadoop,而当初设计的时候,它基于计算和数据就近处理的原则,采用计算和存储融合的架构,通俗的理解就是“一体机”。按照一体机的设计,计算和存储的比例是固定的,这显然不符合实际业务需求,无形中造成很多浪费。

有一组数据供参考,在原有存算一体方案中,计算资源的利用率一般不到50%,存储空间的利用率一般不到33%。换句话说,大量的计算、存储资源都被浪费了。

而华为云BigData Pro鲲鹏大数据方案能将大数据集群的资源利用率提升75%,成本最高可降低50%。

多协议互通数据分析效率大增

在鲲鹏大数据解决方案中,华为云使用OBS对象存储来管理企业海量数据。OBS具备业界领先的性能,支持千万TPS超高并发,单流2.4Gb/s单流带宽,超业界3倍,小对象10ms稳定低时延。在此基础之上,华为云还做了很多创新。

比如,OBS对象存储服务的多协议互通。什么意思?没有这个能力之前,企业不同格式的数据是存储在不同存储系统中的,在进行数据分析时,需要进行协议转换,影响效率不说,转换完成后还要另存一份,又造成存储空间浪费。有了多协议互通,数据可以通过计算、存储的接口,或者HDFS的接口写进来,然后再通过另外的协议,包括POSIX等读出去,相当于一个数据可以用多种语义解读,省去了转换过程,效率大增。据测算,单此一项创新就能帮助数据访问效率提升25%。这是华为云对象存储服务的一个独特优势。

再比如,基于对象存储华为云创新了修改写和追加写。原来的修改写和追加写,按照传统厂商们的做法,修改写相当于先新增一个数据,然后把老数据删掉,需要两个步骤。现在华为云可以做到直接修改,对于处理大文件,这项能力尤其有用。

其三,华为云在OBS对象存储上实现了HDFS原生接口。

量变产生质变,一点点小的创新积累,使存储不再是大数据分析过程中的性能瓶颈。所以,同样是存算分离,可以说华为云比友商多走了半步,能带给用户更高的效率,更优的成本。

这还不够,别忘了鲲鹏大数据解决方案还有一个Pro,它与鲲鹏的特性紧密相关,这也是为什么开篇会说,明白了鲲鹏也就了解了鲲鹏大数据解决方案的一大半。究竟是什么?

鲲鹏多核从容应对数据高并发