产品简介


    PETADATA® 数据立方大数据一体机是南京云创大数据科技股份有限公司自主研发的大数据处理平台,采用英特尔E5家族系列CPU及英特尔服务器组件,具有性价比高、处理性能优越、可靠性高等特性,提供千亿纪录级别的海量数据实时入库、实时检索等功能。

    PETADATA® 数据立方大数据一体机是一种处理海量数据的高效分布式软硬件集合的云处理平台,该平台可以从TB乃至PB级的数据中挖掘出有用的信息,并对这些海量信息进行快捷、高效的处理。平台支持100GBps以上量级的数据流实时索引,秒级响应客户请求,秒级完成数据处理、查询和分析工作。平台可以对入口数据进行实时索引,对数据进行分析、清理、分割,并将其存储在云存储系统上,不仅在入库和检索时具有非常高的性能优势,还可以支持数据深度挖掘和商业智能分析等业务。




系统架构

    cProc云处理平台是搭建在云存储系统上,对业务层直接提供对外开发接口和数据传输接口的分布式数据处理平台。cProc云处理平台是一种处理海量数据的并行编程模型和计算框架,用于对大规模数据集的并行计算。



系统架构图

    云存储层包括公司自主研发的云储存系统cStor和apache开源云储存系统HDFS;而在数据管理层中,包含数据立方、Hbase;数据处理层包含JobKeeper和MapReduce;最后的监控协调层则包括zookeeper和Chukwa来实现对整个系统的实时监控和数据管理。

    cProc云计算平台通过把对数据集的大规模操作分发给网络上的每个节点实现数据处理,每个节点会周期性的把完成的工作和状态的更新报告回来。随着节点的增多,cProc云计算平台的处理能力将成倍数增长。cProc支持100GBps以上量级的数据流实时索引,1s内响应客户请求,秒级完成数据处理、查询和分析工作。



任务监控器(JobKeeper)

    JobKeeper调度平台是建立于虚拟化资源层之上,统一调度,统一配置的管理平台,用于对集群中任务实时的处理调度,实时结果集的反馈,集群的负载均衡,失败调度,集中管理,集中配置的平台。用来保证整个集群的超低人员干预。同时,提供完善的集群伸缩机制为整个服务提供更高的可靠性。


JobKeeper云调度技术架构图


应用层是一组用于管理和结果反馈的显示组件,用于显示任务的处理情况以及集群中机器的活动情况,同时其也是一个上层应用和底层服务的对接平台,是整个系统面向用户和开发人员的基础承载。


业务层是对于应用层的相关功能的业务化,数字化处理,用于将应用层的需求任务进行规则化划分,形成统一的处理化模式。


数据处理层是独立的数据处理程序,是对不同需求数据的统一处理方案,它的运行与监控的工作将由JobKeeper调度平台进行统一的配置管理。


存储层是用来存储数据存储层的处理结果集或者其它中间结果集的单元。


虚拟化资源层是将实体的机器进行虚拟化,形成更大范围的服务集群。


    JobKeeper调度平台是由一组管理节点(Master Node)和一组处理节点(Task Node)组成,管理节点组是一组基于Webserver的RPC(RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息的到达为止。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,客户端调用进程接收答复信息,获得进程结果,然后调用执行继续进行。)服务器,负责对处理节点的系统信息以及任务处理信息进行实时的跟踪和保存,对应的信息镜像存储在基于cStor或者NFS服务的存储系统上,保证每个管理节点中的镜像信息的实时同步。同时架设在管理节点上的ZooKeeper服务(ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集。分布式应用可以使用它来实现诸如:统一命名服务、配置管理、分布式锁服务、集群管理等功能。)用于对整个管理节点组进行统一的配置化管理。处理节点组通过RPC的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。(注:这里的程序,可以是任何语言任何形式的独立程序,但是必须提供执行脚本,和运行参数选项)处理节点组会在一个设定的心跳间隔内主动的和管理节点组联系一次,报告节点存活状态。如果在若干个心跳间隔后管理节点组仍然没有获取到处理节点心跳报告,那么该处理节点将会被踢出处理节点组,同时该节点处理的所有处理任务也会被重新调度。随着集群处理数据量的不断增大,处理节点组提供了简单高效的自动化部署方案,当新机器加入处理集群后,会主动的与管理节点组同步心跳信息,从同一配置服务器ZooKeeper上获取相关配置信息,通过WebServer服务获取任务列表,开始执行数据处理工作。


    JobKeeper调度平台提供了一套基于Web的管理化界面,可以实时的观察各个处理节点的任务运行状态,以及任务列表的分配情况,机器的负载情况等。用户在管理系统界面上可以完成所有的工作,如新任务的添加,任务的手动调度以及集群日志的查看与分析等。


JobKeeper任务分发流程图


    任务处理节点和管理节点之间维护一个心跳时间,实时向管理节点汇报任务处理信息,同时,任务处理节点在每个心跳时间内向管理节点获取该处理的任务列表,并和本机正在处理的任务列表进行比对,完成相关的任务调度工作。若一个处理节点在多个心跳时间范围内仍然没有主动的和管理节点相互联系,那么管理节点将会根据各机器的负载情况,将失去心跳连接的处理节点上的任务进行任务的重新分配和执行。



MapReduce可靠性设计

    本方案通过使用ZooKeeper的选举机制解决MapReduce的单点故障,当JobTracker节点宕机时,能够在一台备用的JobTracker节点上启动JobTracker进程,并使用虚拟IP机制将虚拟IP指向备用JobTracker节点。在JobTracker进程启动后,ZooKeeper将未完成的MapReduce作业提交给备用JobTracker节点重新执行。




数据立方(DataCube)

    我们以B+树的结构建立了字段的索引,每个B+树结构的字段索引相当于一个数据平面,这样一个全局数据表与其多个重要字段的索引就组成了一个类似于立方体的数据组织结构,我们称之为“数据立方(DataCube)”。



数据立方图

    数据立方(DataCube)是一种用于数据分析与索引的技术架构。它是针对大数据(big data)的处理利器,可以对元数据进行任意多关键字实时索引。通过数据立方对元数据进行分析之后,可以大大加快数据的查询和检索效率。

    数据立方是凌驾于数据存储层和数据库系统之上的,通过数据立方解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库、实时查询、查询结果实时传输等优势。




产品特性


使用数据立方大数据一体机解决方案,应用平台能够支撑千亿级纪录管理、PB级数据存储和秒级数据查询能力,大幅提升客户体验。



1、英特尔Xeon E5家族系列



    最新的英特尔® 至强® 处理器E5-1600/2600 产品家族采用全新的架构,将性能提升至一个新的高度,其性能比上一代产品提升多至80%,而且具备更出色的能源效率。最重要的是,这些处理器还提供了许多高级技术,以便帮助企业解决当前日益动态化的计算环境中的存储、网络和安全性挑战。





2、优秀的高温承受能力及能耗管理



    随着云计算的普及和移动数据的爆炸性增长,当今数据中心消耗了全球约1.5% 的电能,年度成本高达260 亿美元。从单个晶体管层面到处理器、服务器平台、数据中心和电网,英特尔提供了一整套技术来应对这一能源挑战。英特尔E-5 家族系列CPU及英特尔服务器组件,在整个平台中起到了提高数据处理的性能、高温运行、降耗等重要作用。






3、高实时性



    应用平台在高效率分布式数据库软件-数据立方的支撑下,可以实时完成数据处理和分析工作,如数据处理、数据查询和统计分析等。数据处理不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。





4、高可靠性



    数据立方大数据一体机具有高可靠性,任意节点宕机,系统不停止服务;任意硬盘、网卡等部件损坏,不影响系统服务。系统能够自动容错,将数据分散在各个节点上,不会出现丢失数据的现象。任务处理过程中,当节点宕机,系统自动切换并保留现有进度,保障任务继续执行下去。





5、可伸缩性



    在不停止服务的情况下,增加处理节点,平台的处理能力自动增加;减少处理节点,平台的处理能力自动缩减。这样,可以做到与资源池的无缝对接,根据计算和存储任务动态地申请或释放资源,最大限度地提高资源利用率。




6、高性价比



    采用X86架构的英特尔E5家族CPU及英特尔服务器组件构建云计算平台,用软件容错替代硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小型机加商用数据库方案节省10倍左右的成本。





7、全业务支持



    采用NoSQL+关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库,可支撑各种类型的业务。在支撑查询、统计、分析业务的同时,还可支撑深度数据挖掘和商业智能分析等业务。




数据立方与Hadoop HBase性能对比


    将数据立方(Datacube)与HBase在相同硬件配置、网络环境下,进行性能对比测试。测试内容为:产品可靠性、单客户端数据入库速率、多客户端数据入库速率、数据查询性能。


    硬件配置


序号
设备名称
数量
CPU
内存
硬盘
说明
1 主控服务器 2 Intel(R) Xeon(R) CPU E5606 @ 2.13GHz 32G 2*3T  
2 处理节点 7 Intel(R) Xeon(R) CPU E5606 @ 2.13GHz 32G 2*3T  

    网络配置


序号
设备名称
设备型号
数量
1 千兆交换机 SD2008T 1
2 千兆连接口 10/100/1000BASE-T口 24

    软件配置


软件名称
软件版本
数量(套)
说明
Datacube 1.0版本 1  
HBase HBase-0.94.7 1  

    HBase测试是采用YCSB benchmark测试的,HBase入库数据量:5000万条、1亿条、5亿条、10亿条、20亿、40亿、80亿、100亿条;HBase数据查询是采用测试代码实现的,本次HBase查询是以行键+列族+列名进行数据查询的。


    数据立方(Datacube)数据入库分别将HBase中的5000万、1亿条、5亿条、10亿条、20亿、40亿、80亿、100亿条数据,以文本格式导入到数据立方hdfs中的。数据立方中的查询条件与HBase中的查询条件相同。


数据立方与HBase数据入库性能对比

点击查看大图


数据立方与HBase数据查询性能对比

点击查看大图


    测试结果表明:


    1、数据入库方面:数据立方与HBase在小数据量时两者的入库性能相差不明显,在100亿数据量入库时,数据立方入库性能是HBase的80倍。


    2、数据查询方面:数据立方与HBase在5000万、1亿条数据量时,二者的查询性能相当,随着数据量的增大,在100亿数据量时,数据立方查询性能是HBase的近90倍。




数据立方与某国际知名云计算数据库性能对比


    在相同的硬件、网络和数据环境下,进行了数据立方(DataCube)与国际某知名分布式数据库产品的性能对比测试。本次测试主要从数据入库、数据查询方面进行对比测试,测试数据为同一份原始数据(160M,每行记录共30个字段)所生成的大数据文件。


    测试硬件环境如下:

序号
设备名称
数量
CPU
内存
硬盘
说明
1 主控服务器 1 IntelE5-2620 2.0G/15M/6C 8G 2*3T  
2 处理节点 15 IntelE5-2620 2.0G/15M/6C 8G 2*3T  
3 客户端 1 IntelE5-2620 2.0G/15M/6C 8G 2*3T  

    网络环境:

序号
设备名称
设备型号
数量
1 千兆交换机 SD2008T 1
2 千兆连接口 10/100/1000BASE-T口 16

    软件环境:

软件名称
软件版本
数量(套)
说明
国际某知名分布式数据库 V4.0 1  
DataCube V1.0 1  


    测试结果:

与某知名云计算数据库入库性能对比

点击查看大图




与某知名云计算数据库查询性能对比

点击查看大图



    从结果可以看出:数据立方大数据一体机是一种处理海量数据高效分布式云处理平台,数据立方大数据一体机可以从TB乃至PB级的数据中挖掘出有用的信息,并对这些海量信息进行快捷、高效的处理。数据立方大数据一体机支持100GBps以上量级的数据流实时索引,1s内响应客户请求,秒级完成数据处理、查询和分析工作。




数据立方大数据一体机管理系统



    DataCube平台提供CMS后台管理系统方便用户的管理、监控和操作。管理系统简洁,易懂,用户不需要专业的技术基础,就能够对整个一体机集群进行监控、分析和维护。



登录

    输入用户名和密码,进入后台管理系统。初始用户名和密码为:admin/admin。


点击查看大图


集群管理

设备监控

    对集群中的每一个机架和设备进行监控,包含硬件工作状态等。


点击查看大图


系统监控

    对集群中的机器负载、CPU、内存、网络进行监控。


点击查看大图


磁盘监控

    对每台机器的硬盘进行监控,包含空间使用率等。


点击查看大图



数据管理

点击查看大图


表结构管理

    对表结构进行管理,提供新增、修改、删除等功能。


点击查看大图


数据入库

    对当前集群的入库速度进行监控,并提供记录入库、文件入库两种方式。


点击查看大图


在线查询

    通过界面选定过滤条件,进行查询得到相应的结果。


点击查看大图


对外接口

    系统提供webservice方式获取数据、数据入库等功能。


点击查看大图



文件管理

    通过文件监控,一目了然的观察到集群中的所有文件,同时可以下载一些源文件进行测试操作,支持文件路径访问、下载、在线查看等操作。


点击查看大图


    集成HDFS自带的文件管理功能,提供HDFS上文件夹与文件的查看,并且可以下载文件。



任务管理

    通过任务监控模块能看到当时集群中工作的任务,观察任务进度以及状态,并能删除任务。


点击查看大图



告警管理

告警配置

    设置告警项目。


点击查看大图


告警信息

    对集群中设备上的告警信息进行展示。


点击查看大图


告警日志

    对告警日志进行回放。