当前位置: 首页 > 业界动态 > 技术评论 > 本文


中兴通讯业务研究院总工赵培:云计算与云存储技术和应用发展




发布时间: 2012-10-9 9:12:58  
    第四届中国云计算大会于2012年5月23-25日在北京国家会议中心隆重举行。本次大会由中国电子学会主办,北京市经济和信息化委 员会协办,中国云计算技术与产业联盟、中国电子学会云计算专家委员会承办,CSDN与《程序员》杂志协办。在2012国内公共云全面开花、云计算实践元年 之际,本次大会云集云计算核心专家,就国内外云计算核心技术以及行业应用创新实践进行了深入探讨。

    中兴通讯业务研究院总工赵培主要分析了云存储的基础发展趋势。通过云存储与传统系统的差异分析,结合中兴通讯云存储系统,重点介绍EC、消重、压缩、海量云存储服务系统的架构;如云存储的数据管理、数据第三方加密等技术,如差异化的小文件读写方式、针对媒体应用的数据加速技术等内容。本演讲还分享了中兴通讯云存储应用案例,包括云存储系统在视频云、办公云、家庭云等场景的应用。

中兴通讯业务研究院总工 赵培

    以下为文字实录:

    大家下午好!我来自中兴通讯,主要负责我们云计算平台的产品研发,这边关注一块,多媒体内的SQA系统的研发工作。我今天汇报的主要跟大家分享一下我们中兴通讯在云计算平台做的一些工作,主要两块。我们在云存储,演讲的重点会在云存储技术这块。跟大家分享一下对云计算定义的理解。第一句话我不多讲了,大家都讲了很多了。

    我谈一下我个人的理解。我各位云计算从两个层面来看,第一个层面可能是一种商业模式,我怎么把我们的计算,或者存储,像用水用电一样,开放给用户,我觉得这是一种商业模式。还有一块,我们理解,云计算其实也是一种技术,我不管最终云计算作为一种商业模式,会不会得到大家的认可,但是我对云计算的技术,一定会对我们各个业务所应用的,所使用的,这样可以提升我们,给我们的业务和应用带来好处。这是我的一个想法。

    从云计算三种价值服务模式来讲,SAAS、PAAS、LAAS。讲一个我们在平时的开发当中遇到的问题,经常有人会问我,我们做这个PAAS平台,是不是一定要架构在这个PAAS上面?我经常解释,不一定,PAAS平常考虑的是IT、CT的软件的开放,同时给第三方的开发者提供开发、测试、运行的环境。如果这个PAAS架构在这个上面会带来好多好处,我们觉得平台可以不架构在PAAS,PAAS是向第三方运营开发者开放的,可能上面会有多个应用,我如果架构在这个平台上面,会给我们应用的快速部署、扩展带来很多好处。

    刚才其实也讲了,我们从云计算理解来讲,我们认为有两个层面,一个是一个关键技术,还有一块是商业模式。从云计算的核心技术来看,我们把它看成两块,第一块就是服务器的虚拟化技术,其实很简单,大家也都比较清楚了,把一台服务器,把它虚拟成多个虚拟机,同时我在整个系统上面,可以做到这种可货载,可调度,资源可以回收。这样的话可以降低CAPAX和OPAX,快速部署和补充,能不能把多个机器,虚拟成一个大的机器,通常我说服务器虚拟化这块是做不了这个事情的。如果说你的应用是可分解的,拆解的,我们可以用云计算的第二个,分布式并行技术做这样的事情,一个集群做一个大的机器,给应用作为使用。典型的架构类似于谷歌这样一套架构,分布式文件系统,数据库这样一个架构。

    下面讲一下云存储的概念,我们理解,它主要是把网络中大量不同类型的存储设备,通过软件的方式结合起来,整合起来,对外提供这种存储的访问,数据的存储和访问这样一个功能。特征主要是一下几个方面:

  1. 海量的存储。10P以上的空间,这是最基础的。
  2. 多租户、互联网服务。
  3. 按需申请。
  4. 动态扩展。
  5. 多种存储协议。

    云存储大家看到各种各样的系统,包括各项存储系统,网盘、分布式文件系统,存储网关,集群NAS。对象存储是一个标准的云存储系统,可以提供云存储服务的,网盘更像是一种服务,也是云存储,在符合度上稍微差一点。分布式文件系统这一块,我们认为它应该是云存储系统顶层的存储引擎,不对外提供服务的。在原有的传统设备上泛滥,跟云存储的特征相符度低一些。

    下面主要介绍一下我们中兴通讯的云计算平台,我们中兴通讯的云计算平台分为两层。一个是虚拟化,虚拟层,还有上面的那层分布的是处理层,虚拟层里面有服务器虚拟化这样一个平台,在我们的分布式处理层这一块,包含着我们分布式文件系统,数据库,包括分布式缓存,计算调度系统,以及搜索引擎这样的组件。

    我们的平台在不同的应用场景下怎么使用?其实我们的平台各个组建,我们在使用的时候,可以像搭积木一样,根据不同的应用场景,比如我们这边举了一个例子,在弹性的资源调度的情况下,跟虚拟化服务器这块相关的,这个时候我们可以使用服务器和网络设备,底层硬件,把我们平台里面的虚拟化平台拿出来,同时我们再把应用部署上去,其实我们在内部,像我们点心的增值应用,内部的产品,核心网的产品,都是这样用的。

    包括像海量的非结构化数据的存储,我们可以从我们的平台里面,拉出我们存储服务器的硬件,包括我们的文件系统,在这个上面,我们可以是,比如我们自己的IPTV产品,我们夺媒体的云存储应用,包括我们的监听,IT文档存储,可以架构在这样一个平台上面。架构化数据,这个就不多讲了,像大家讲的,我们的平台可以抽取你想要的组建,为上层的应用提供服务。

    我们中心通讯整个云计算平台以及产品的总体的架构,大家可以看一下,我们是分为平台和产品两个。在下面的话,包括服务器虚拟化,包括我们的文件系统、缓存、虚拟库,平台上面我们有一些更系统化的一些平台,包括我们的资源运营管理和调度的平台,虚拟弹性系统,我们基于这样一个大的平台,我们可以提供,中兴通讯可以提供相关的一些云产品,包括IDC,包括云盘,对象存储,虚拟桌面,这样的一些产品系统。同时,我们也会对我们原有的一些应用,电信增值应用,STV。鉴于这个平台,做一些业务的云化,同时在我们整个架构这块,终端这部分的内容。

    我们有一个MCMP的终端软件平台,我们把云计算相关的,虚拟桌面这样一些协议组建,放在平台里面,这样可以支撑我们,包括IPTV的机顶盒,云终端的这样的研发。

    下面讲下应用云化的架构,在我们内部也有很多其他项目组的同事问过我,这个应用要云化,到底做什么?把这个应用,往云计算平台上面一拷就可以了?这个可以给大家分享一下。首先,如果你这个应用,本身如果是分布式的这样的应用,你的应用已经做到了这种分布式的话,是可以的。如果你的应用,原来就是一个大型机和小型机上的一个,没有被切割的应用,我们认为,首先要在应用层面实现这样一个分布式,实现分布是一个,可以应用我们云计算平台的,可以弹性扩充,弹性伸缩,这样一些优点。同时,我们希望在应用层面,应用这块,也要有一个调度部署的系统,可以对你的应用,进行一些监控,应用繁忙,或者是空闲的时候,可以对你本身业务处理的数量进行一些调整,这个时候也可以调用底层云计算产品对外的接口,做一些资源的接口,调度和部署,子系统不一定要在系统合作,其实我们在云计算的计算资源管理中心,也是有这个资源,本身里面有一个资源调度和管理的机制。这块仅仅是说我们可以做到虚拟化软件做的事情,我在底层发现你的业务,就会集中去签,关掉一些物理机器,做不到就关掉一些业务数据。所以在业务层面,如果有调度和部署这样的系统,如果我的业务处理已经有增加或者减少的时候,前端的负载均衡设备,也会做策略上的调整,也需要调动系统对他做一个策略的调整。

    中兴通讯在云存储方案上的一些共享。首先讲一下我们的总体架构。整个云存储的平台和产品,这上面是一个硬件,也可以是存储服务器,中间那层是平台层,其实是有三块存储引擎,包括分布式系统和缓存,分布式数据库,在产品业务层,可以提供像集群NAS,对象云存储,网盘,统一存储,数据挖掘等应用。分布式文件系统这样一个架构,大家可以看一下,分布式文件系统的架构,跟谷歌的GFS还是很像的,包括FIR,FIC,分别对应的就是服务器,包括文件的访问服务器和客户端,我们在这个基础上,做了很多的完善和优化的工作。作为一个设备厂家,面对的应用是比较通用的一些应用。我们的用户也是比较多的,用户的需求也比较多。

    在他的搜索这样一个业务里面,去使用他这个GFS,这个系统被简化了很多。从存储系统的关键方向来看,我们也分成了四类,包括读写性能,数据可靠性,存储空间,硬盘。硬盘技术限制了存储系统的性能,99年的时候,7200转,现在到了15000转的水平。硬盘的水平不符合摩尔定律,本身也是限制能力,硬盘本身的价格和容量的角度,它还是一个很大的应用空间,这是一个矛盾。从我们整个我们的云存储的解决方案,有几个方面对性能做一些优化。首先,我们有多副本技术,可以把一个文件,把它拆分以后,分到不同的存储服务器,这个文件被访问的时候,多个数据节点,同时为访问进行服务,这样的话可以释放存储的IO,副本的个数是可以设的,就是说我们用户可以设定副本,是从一个到五个,同时副本的分块也是可以设的,这块我们可以根据应用的需求,让我们从64K到120兆都可以存储。

    解决性能问题,主要是分级存储这样一个方案。基于对热点数据的统计做一些策略,比如我们可以把一些热点的数据,放在SSD的硬盘里面去,可以利用热点统计,比如对于热点,访问热点比较高的数据,提高他的副本数量,同时,我们用SSD做分级存储的话,我们这个策略也是比较灵活的,可以以节点,或者以磁盘为单位,在整个大的集群里面,有专门的SSD的存储节点做存储,有些应用可以在节点上把磁盘分为两类,一类是SSD的一类是其他的。SSD本身它的读写,尤其是读的性能非常高,在读的过程当中,经常会有性能大幅度的下降,尤其是在写数据的频率也比较高,有时候会跌到零,下面这一块,我们抓到一个,从400兆这样一个性能,跌到100兆这样的水平,可以根据运用的场景,我们可以把我们系统的SSD分成两类,一类专门用作写板,一类专门用作读板,自动的附载均衡,我们可以对节点访问性能的统计,有些节点超越我们承受的扶在的零界点,热点的数据,放在相对比较空闲的节点去。这块是指数据,在原数据这块,我们也是可以对目录节点做一些统计,我们可以把相对比较热的原数据,放在比较空闲的原数据服务器上。

    我们怎么存储容量的解决方案?本身应用来讲,把拿来的网站,对文件数量的支持是没有太多的要求的,但是从我们的应用角度来讲,我们其实面对的应用比较多,我们可能会有上十亿的文件的数量的需求,包括我们有上十批这样的存储空间的需求,因此,我们在这个地方做了一些改进,我们是相当于是在整个架构上面,主要实现了两块,一个是我们的系统分域,以及原数据的一个MDS的一个集群,技术特征给大家分享一下:我们可以最大支持64个分域,每个系统是16个节点,在这个域里面,最大可以支持八个元素,支持100G的对象或者是文件存储,可以支持像EC,副本、压缩、消重等存储策略按域进行设置。

    讲到存储的可靠性或者容量的话,存储编码的技术,给大家分享一个数据:英特尔公布这样的一个数据,搭建这样一个云存储的系统,从成本的角度来讲,还是硬盘这一块的成本占比是最高的,如果没有一个比较好的存储的编码,我们的存储系统,在成本,包括在功耗,占地空间上面,都会存在一些问题。常见的比如说我们可以看下,一些数据保护的技术,包括像副本技术,副本技术是尊出空间,两个副本就2,3个副本就是3,RADI用到的很多,尤其是在集群的云存储里面,因为集群里面有很多节点,节点会失效,这种情况下至少会造成短时间的某些数据访问不到,在这一块的话,我们支持EC编码这样一些技术,这个技术大家可以理解,基于硬盘挑战的技术,EC是基于节点这样一个挑战技术,这样的话,我们可以看一下,我们的存储效率,可以达到63%,同时,我们数据可靠性可以到十的负8次方。

    其实在这块,我们到底是用副本还是用EC,这些都是可以分场景来看,我们不能绝对地说EC编码或者副本的方式会更好,比如说对于数据访问延时比较高,比如像这种大数据处理这样一种应用场景,我们认为还是用副本的方式比较好。我们对响应性的要求不高,重要的备份、互联网云存储的服务,这块我们推荐可以用EC,鉴于这两个之间的用户需求,我们可以用副本的编码,系统来讲,这几种方式我们都是可以支持的。

    去重技术。在我们系统当中都是可以支持的,我们主要是用于,比如一个租户,到我们这里来申请空间,它的应用场景主要是用于,对他数据做一些备份了归档,这样情况下我们推荐。作为一个正常的一些数据来讲,可以提升数据的利用率,可以提升50%,如果对于备份和归档,做到百分之八十到九十这样的水平。数据压缩从我们产品的角度来讲,我们可以支持像LZO,ZLIB等多种压缩算法,数据包括应用的类型,可以做一些数据和选择,而且我们这些压缩算法,这些设置,我们可以按照租户,按照存储域,不同程度可以设置。整体是可以做到3比2比1。在研字上面会一点,压缩180M话单数据时间1.2S,压缩比10比1,清华大学合作过,我们一起做过的事情。

    数据可靠性,首先是数据恢复。我们的系统可以基于不同的维护,包括节点,磁盘、数据块等数据恢复,同时我们可以提供基于副本、EC、Raid的恢复机制,可以根据应用场景进行设置,下面的这张图举了一个例子,基于节点这样一个数据恢复,节点和副本这样数据恢复的机制,三个存储节点,这些数据在剩余的几个还有,系统发现以后,我会在这两个节点上,把这个数据重新恢复,恢复他相应的副本部署。

    还有一块,我们是基于CRC的校验进行内容的纠错和容错功能。我们每64K的数据库做一个分布,应用来访问数据的时候,这个过程当中会对数据做校验,如果发现错误,系统可以控制应用,内部我们可以去让这个应用,到有正确数据的节点去获取相应的数据。拍照技术这边不多讲了,基于客户和存储域做这样一个快照的策略设置。

    下面主要讲一下我们整个云存储的这个产品的这样一个扩展能力。因为本身云计算和云存储,重要的特征是可伸缩可拓展,从我们的系统角度来讲,我们是支持本身存储域的数量,以及本身存储与内部空间大小,可以做自动的这样的一个扩展。

    在这样一个集群里面,可以增加一个机器,首先我会到我们的原数据服务区去注册,其他节点的数据附载出来,这样的话我们做到了数据的一个弹性扩展,整个系统的一个容量的弹性扩展。整个我们的云存储产品,块存储,文件存储,对象存储,结构化数据的一个存储,这样一些功能。下面主要介绍一下基于我们整个我们的存储平台,我们可以做的一些云存储的一些解决方案,包括我们的云盘的方案,我们可以看一下,底层的存储层我们有分布式文件系统和高度缓存,在我们的系统里面,我们把大于1兆的文件放在系统当中,小于1兆的放在高速缓存当中,热点的数据放在缓存的集群当中去,对于用户的一些数据,包括用户信息,包括用户的目录结构,放在我们的模式数据库里面。同时我们通过我们的服务集群,对外服务我们的云盘整体的服务。在客户端,包括手机和pad的客户端这样一些。

    基于我们这个存储引擎这块,我们可以做像对象存储这样一个解决方案,大家可以看一下,我们对底层,我们可以用我们的分布式文件系统,在这上面,我们可以做一个基于策略的数据服务,多租户这样一个模型,对这个应用,对外部服务可以有文件服务等等。基于我们的存储,以前我们也可以提供集群NAS的这样一个解决方案。在集群NAS的解决方案有三个核心。第一块是分布系统,作为我们的存储引擎,同时我们自研了一套集群套件,我们可以提供集群NAS的功能,同时我们使用我们自研的负载均衡的套件,提供负载均衡的功能。

    下面讲三个案例,我们实实在在的应用案例。第一块是我们在国内的某个电讯运营商,提供了一个对象存储的应用,总体来讲,有十批的总的容量空间,支持访问和压缩的功能。第二个应用案例,我们应用于国家某一个网络电视公司,用来做视频生产基地这个案例,这个案例存储,应用系统其实是跨地域的,同时,我们在整个网络里面,我们是有三个生产基地,也就是说我们的存储系统,底层的存储系统分成三块,基于我们的存储系统,我们上面的应用,包括像采集收入、片集制作、数据管理、内容的分发这样的应用,整个云存储这样的空间,总体的云存储解决方案,在这个应用里面,整个存储空间是在200P左右。

    这是我们在某个跨国电信运营商的家庭存储的应用案例。这边大概介绍一下,我们公司是IPTV系统全球第二的策略供货商,解决方案是家庭的云存储这样的一个业务,实现家庭业务的多终端的媒体资源,大家可以看一下,在家庭里面,其实我们正常的是我们的机顶盒都是不带硬盘的。机顶盒如果带硬盘,从成本上来讲,从本身硬盘的返修来讲,运营商、设备商都是受不了的,我们搭建了云存储的系统,机顶盒通过接口访问我们的云存储系统,我们可以为这个家庭,家庭使用这样云存储很大这样的空间。同时在整个家庭里面,可以通过内容共享这样一个协议。比如说我们挂载在机顶盒上面云存储的空间,里面存着这样一些,比如说云媒体文件,在手机上做共享!

    谢谢大家!

    本文来源:CSDN

 

    相关文章推荐:云存储技术将走向何方?

分享到:
阅读:1602次
推荐阅读:

版权所有 © 2011-2016 南京云创大数据科技股份有限公司(股票代码:835305), 保留一切权利。(苏ICP备11060547号-1)  
云创大数据-领先的云存储、大数据、云计算产品供应商