产品简介
PETADATA® 数据立方大数据一体机是南京云创大数据科技股份有限公司自主研发的大数据处理平台,采用英特尔PURLEY CPU平台及英特尔服务器组件,具有性价比高、可靠性高等特性,提供千亿纪录级别的数据实时入库、实时检索等功能。
PETADATA® 数据立方大数据一体机是一种处理数据的高效分布式软硬件集合的云处理平台,该平台可以从TB乃至PB级的数据中挖掘出有用的信息,并对这些信息进行快捷、高效的处理。平台支持100GBps以上量级的数据流实时索引,秒级响应客户请求,秒级完成数据处理、查询和分析工作。平台可以对入口数据进行实时索引,对数据进行分析、清理、分割,并将其存储在云存储系统上,不仅在入库和检索时具有高的性能优势,还可以支持数据深度挖掘和商业智能分析等业务。
系统架构
cProc云处理平台是搭建在云存储系统上,对业务层直接提供对外开发接口和数据传输接口的分布式数据处理平台。cProc云处理平台是一种处理数据的并行编程模型和计算框架,用于对大规模数据集的并行计算。
云存储层包括公司自主研发的云储存系统cStor和apache开源云储存系统HDFS;而在数据管理层中,包含数据立方、Hbase;数据处理层包含JobKeeper和MapReduce;很后的监控协调层则包括zookeeper和Chukwa来实现对整个系统的实时监控和数据管理。
cProc云计算平台通过把对数据集的大规模操作分发给网络上的每个节点实现数据处理,每个节点会周期性的把完成的工作和状态的更新报告回来。随着节点的增多,cProc云计算平台的处理能力将成倍数增长。cProc支持100GBps以上量级的数据流实时索引,1s内响应客户请求,秒级完成数据处理、查询和分析工作。
任务监控器(JobKeeper)
JobKeeper调度平台是建立于虚拟化资源层之上,统一调度,统一配置的管理平台,用于对集群中任务实时的处理调度,实时结果集的反馈,集群的负载均衡,失败调度,集中管理,集中配置的平台。同时,提供完善的集群伸缩机制为整个服务提供很高的可靠性。
应用层是一组用于管理和结果反馈的显示组件,用于显示任务的处理情况以及集群中机器的活动情况,同时其也是一个上层应用和底层服务的对接平台,是整个系统面向用户和开发人员的基础承载。
业务层是对于应用层的相关功能的业务化,数字化处理,用于将应用层的需求任务进行规则化划分,形成统一的处理化模式。
数据处理层是独立的数据处理程序,是对不同需求数据的统一处理方案,它的运行与监控的工作将由JobKeeper调度平台进行统一的配置管理。
存储层是用来存储数据存储层的处理结果集或者其它中间结果集的单元。
虚拟化资源层是将实体的机器进行虚拟化,形成更大范围的服务集群。
JobKeeper调度平台是由一组管理节点(Master Node)和一组处理节点(Task Node)组成,管理节点组是一组基于Webserver的RPC(RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息的到达为止。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,很后,客户端调用进程接收答复信息,获得进程结果,然后调用执行继续进行。)服务器,负责对处理节点的系统信息以及任务处理信息进行实时的跟踪和保存,对应的信息镜像存储在基于cStor或者NFS服务的存储系统上,保障每个管理节点中的镜像信息的实时同步。同时架设在管理节点上的ZooKeeper服务(ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集。分布式应用可以使用它来实现诸如:统一命名服务、配置管理、分布式锁服务、集群管理等功能。)用于对整个管理节点组进行统一的配置化管理。处理节点组通过RPC的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。(注:这里的程序,可以是任何语言任何形式的独立程序,但是必须提供执行脚本,和运行参数选项)处理节点组会在一个设定的心跳间隔内主动的和管理节点组联系一次,报告节点存活状态。如果在若干个心跳间隔后管理节点组仍然没有获取到处理节点心跳报告,那么该处理节点将会被踢出处理节点组,同时该节点处理的所有处理任务也会被重新调度。随着集群处理数据量的不断增大,处理节点组提供了简单高效的自动化部署方案,当新机器加入处理集群后,会主动的与管理节点组同步心跳信息,从同一配置服务器ZooKeeper上获取相关配置信息,通过WebServer服务获取任务列表,开始执行数据处理工作。
JobKeeper调度平台提供了一套基于Web的管理化界面,可以实时的观察各个处理节点的任务运行状态,以及任务列表的分配情况,机器的负载情况等。用户在管理系统界面上可以完成所有的工作,如新任务的添加,任务的手动调度以及集群日志的查看与分析等。
任务处理节点和管理节点之间维护一个心跳时间,实时向管理节点汇报任务处理信息,同时,任务处理节点在每个心跳时间内向管理节点获取该处理的任务列表,并和本机正在处理的任务列表进行比对,完成相关的任务调度工作。若一个处理节点在多个心跳时间范围内仍然没有主动的和管理节点相互联系,那么管理节点将会根据各机器的负载情况,将失去心跳连接的处理节点上的任务进行任务的重新分配和执行。
MapReduce可靠性设计
本方案通过使用ZooKeeper的选举机制解决MapReduce的单点故障,当JobTracker节点宕机时,能够在一台备用的JobTracker节点上启动JobTracker进程,并使用虚拟IP机制将虚拟IP指向备用JobTracker节点。在JobTracker进程启动后,ZooKeeper将未完成的MapReduce作业提交给备用JobTracker节点重新执行。
数据立方(DataCube)
我们以B+树的结构建立了字段的索引,每个B+树结构的字段索引相当于一个数据平面,这样一个全局数据表与其多个重要字段的索引就组成了一个类似于立方体的数据组织结构,我们称之为“数据立方(DataCube)”。
数据立方(DataCube)是一种用于数据分析与索引的技术架构。它是针对大数据(big data)的处理利器,可以对元数据进行任意多关键字实时索引。通过数据立方对元数据进行分析之后,可以大大加快数据的查询和检索效率。
数据立方是凌驾于数据存储层和数据库系统之上的,通过数据立方解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库、实时查询、查询结果实时传输等优势。
产品特性
使用数据立方大数据一体机解决方案,应用平台能够支撑千亿级纪录管理、PB级数据存储和秒级数据查询能力,大幅提升客户体验。
1、搭载英特尔®至强®Scalable处理器家族的PURLEY CPU平台
PURLEY平台通过Skylake提供的微架构,Skylake采用英特尔的14纳米制程技术,内存支持DDR4,六个通道,UPI带宽更足,灵活性更强,此外还支持DMI 3.0、PCI-E 3.0,后者拥有48条通道。通过提供强大的性能以及一系列的功能集,PURLEY在各种应用模式中都具有优势。
2、良好的高温承受能力及能耗管理
随着云计算的普及和移动数据的爆炸性增长,当今数据中心消耗了约1.5% 的电能,年度成本高达260 亿美元。从单个晶体管层面到处理器、服务器平台、数据中心和电网,英特尔提供了一整套技术来应对这一能源挑战。采用英特尔®至强®Scalable处理器家族及英特尔服务器组件,在整个平台中起到了提高数据处理的性能、高温运行、降耗等重要作用。
3、高实时性
应用平台在高效率分布式数据库软件-数据立方的支撑下,可以实时完成数据处理和分析工作,如数据处理、数据查询和统计分析等。数据处理不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成。
4、高可靠性
数据立方大数据一体机具有高可靠性,任意节点宕机,系统不停止服务;任意硬盘、网卡等部件损坏,不影响系统服务。系统能够自动容错,将数据分散在各个节点上,不会出现丢失数据的现象。任务处理过程中,当节点宕机,系统自动切换并保留现有进度,保障任务继续执行下去。
5、可伸缩性
在不停止服务的情况下,增加处理节点,平台的处理能力自动增加;减少处理节点,平台的处理能力自动缩减。这样,可以做到与资源池的无缝对接,根据计算和存储任务动态地申请或释放资源,提高资源利用率。
6、高性价比
采用英特尔®至强®Scalable处理器家族及英特尔服务器组件构建云计算平台,用软件容错替代硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小型机加商用数据库方案节省10倍左右的成本。
7、全业务支持
采用NoSQL+关系数据库混合模式,绝大部分数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库,可支撑各种类型的业务。在支撑查询、统计、分析业务的同时,还可支撑深度数据挖掘和商业智能分析等业务。
数据立方与Hadoop HBase性能对比
将数据立方(Datacube)与HBase在相同硬件配置、网络环境下,进行性能对比测试。测试内容为:产品可靠性、单客户端数据入库速率、多客户端数据入库速率、数据查询性能。
硬件配置
序号
|
设备名称
|
数量
|
CPU
|
内存
|
硬盘
|
说明
|
1 | 主控服务器 | 2 | Intel Xeon Purley平台 | 32G | 2*3T | |
2 | 处理节点 | 7 | Intel Xeon Purley平台 | 32G | 2*3T |
网络配置
序号
|
设备名称
|
设备型号
|
数量
|
1 | 千兆交换机 | SD2008T | 1 |
2 | 千兆连接口 | 10/100/1000BASE-T口 | 24 |
软件配置
软件名称
|
软件版本
|
数量(套)
|
说明
|
Datacube | 1.0版本 | 1 | |
HBase | HBase-0.94.7 | 1 |
HBase测试是采用YCSB benchmark测试的,HBase入库数据量:5000万条、1亿条、5亿条、10亿条、20亿、40亿、80亿、100亿条;HBase数据查询是采用测试代码实现的,本次HBase查询是以行键+列族+列名进行数据查询的。
数据立方(Datacube)数据入库分别将HBase中的5000万、1亿条、5亿条、10亿条、20亿、40亿、80亿、100亿条数据,以文本格式导入到数据立方hdfs中的。数据立方中的查询条件与HBase中的查询条件相同。
测试结果表明:
1、数据入库方面:数据立方与HBase在小数据量时两者的入库性能相差不明显,在100亿数据量入库时,数据立方入库性能是HBase的80倍。
2、数据查询方面:数据立方与HBase在5000万、1亿条数据量时,二者的查询性能相当,随着数据量的增大,在100亿数据量时,数据立方查询性能是HBase的近90倍。
数据立方与某云计算数据库性能对比
在相同的硬件、网络和数据环境下,进行了数据立方(DataCube)与某分布式数据库产品的性能对比测试。本次测试主要从数据入库、数据查询方面进行对比测试,测试数据为同一份原始数据(160M,每行记录共30个字段)所生成的大数据文件。
测试硬件环境如下:
序号
|
设备名称
|
数量
|
CPU
|
内存
|
硬盘
|
说明
|
1 | 主控服务器 | 1 | Intel Xeon Purley 平台 | 8G | 2*3T | |
2 | 处理节点 | 15 | Intel Xeon Purley 平台 | 8G | 2*3T | |
3 | 客户端 | 1 | Intel Xeon Purley 平台 | 8G | 2*3T |
网络环境:
序号
|
设备名称
|
设备型号
|
数量
|
1 | 千兆交换机 | SD2008T | 1 |
2 | 千兆连接口 | 10/100/1000BASE-T口 | 16 |
软件环境:
软件名称
|
软件版本
|
数量(套)
|
说明
|
某分布式数据库 | V4.0 | 1 | |
DataCube | V1.0 | 1 |
测试结果:
从结果可以看出:数据立方大数据一体机是一种处理数据高效分布式云处理平台,数据立方大数据一体机可以从TB乃至PB级的数据中挖掘出有用的信息,并对这些信息进行快捷、高效的处理。数据立方大数据一体机支持100GBps以上量级的数据流实时索引,1s内响应客户请求,秒级完成数据处理、查询和分析工作。
数据立方大数据一体机管理系统
DataCube平台提供CMS后台管理系统方便用户的管理、监控和操作。管理系统简洁,易懂,用户不需要专业的技术基础,就能够对整个一体机集群进行监控、分析和维护。
登录
输入用户名和密码,进入后台管理系统。初始用户名和密码为:admin/admin。
集群管理
设备监控
对集群中的每一个机架和设备进行监控,包含硬件工作状态等。
系统监控
对集群中的机器负载、CPU、内存、网络进行监控。
磁盘监控
对每台机器的硬盘进行监控,包含空间使用率等。
表结构管理
对表结构进行管理,提供新增、修改、删除等功能。
数据入库
对当前集群的入库速度进行监控,并提供记录入库、文件入库两种方式。
在线查询
通过界面选定过滤条件,进行查询得到相应的结果。
对外接口
系统提供webservice方式获取数据、数据入库等功能。
文件管理
通过文件监控,一目了然的观察到集群中的所有文件,同时可以下载一些源文件进行测试操作,支持文件路径访问、下载、在线查看等操作。
集成HDFS自带的文件管理功能,提供HDFS上文件夹与文件的查看,并且可以下载文件。
任务管理
通过任务监控模块能看到当时集群中工作的任务,观察任务进度以及状态,并能删除任务。
告警管理
告警配置
设置告警项目。
告警信息
对集群中设备上的告警信息进行展示。
告警日志
对告警日志进行回放。
故障管理
对集群中出现的故障进行管理。
市场应用
应用范围 | 应用描述 | 成功案例 | 典型用户 |
安防工程(平安城市、智慧城市) | 数据存储、实时视频流处理、视频内容识别 | 智能交通云平台 | 交管局、安防行业 |
移动网络优化 | 数据存储、结构化数据实时索引、实时处理、提供api接口、webservice接口,与应用层对接 | 广东移动信令共享云平台、江苏移动信令共享云平台、辽宁移动信令共享云平台 | 中国移动、中国联通、中国电信、中国铁通。注:移动已经成功应用,目前正在与联通、电信、铁通对接应用层 |
媒体、娱乐行业 | 数据存储、数据处理 | 天华传媒云转码 | 深圳天华传媒视频点播行业 |
系统集成、统一云平台 | 数据集中式存储、提供多种应用的并发访问、减少信息孤岛 | 智能交通云平台 | 交管局、环保局、公安局、网警 |
视频应用软件开发 | 视频内容集中式存储以及管理 | 南京视频监控云平台 | 交管局 |
医疗行业 | 数据存储、实时处理 | ... | ... |
... | ... | ... | ... |
数据立方大数据一体机软件规格说明
|
|
项目
|
内容
|
可管理的数据总量
|
|
实时索引的数据流量
|
|
任意关键字段实时创建索引
|
|
可移植性
|
|
查询效率
|
|
支持简单SQL组合查询
|
|
负载均衡性
|
|
支持并发查询
|
|
数据准确性
|
|
稳定性
|
|
可靠性
|
|
扩展性
|
|
分布式计算能力
|
|
支持对外接口
|
|
监控功能
|
|
数据立方大数据一体机硬件规格说明
|
|||
数量 | 项目 | 制造商 | 型号 |
1 | Intel®服务器主板 S2600GL/GZ | Intel | S2600GL/GZ |
1 | Intel®服务器机箱 | Intel | R2000GL/GZ / R1000GL/GZ 家族 |
2 (每个节点) | 英特尔®至强®Scalable处理器 | Intel | 四核 英特尔®至强®Scalable处理器家族 |
2-8 (每个节点) | 4 GB 内存条 | 任何支持 | 请参考测试内存列表< http://www.intel.com/p/en_US/support/highlights/server/sb-s2600gz > |
1 (每个节点) | SATA 磁盘驱动器, 250 GB 或更大容量, 或者 Intel®SSD | 任何支持 | 请参考测试硬件列表 < http://www.intel.com/p/en_US/support/highlights/server/sb-s2600gz >。 |
1 | 用于内部节点通信的低延迟千兆以太网交换机 | 任何 1GbE 交换机解决方案 | |
根据需要 | 千兆以太网线缆 | 任何支持 | CAT5E |
根据需要 | InfiniBand* 线缆 | 任何支持 | |
1 (选择一个产品) | ConnectX IB* – Dual-Port InfiniBand* Adapter Card | Mellanox* | MHGH28-XTC, MHGH29-XTC, MHJH29-XTC, MHRH29-XTC, MHQH29-XTC Fw Version: 2.6.000 |
Infinihost IB* – InfiniBand* Adapter Card | MHET2X-1TC (Tall Bracket) MHET2X-2TC (Tall Bracket) MHET2X-1SC (Short Bracket) MHET2X-2SC (Short Bracket) | ||
可选 I/O 模块 | InfiniBand* 交换机 | Qlogic* | 在http://www.esaa-members.com, 上的 Intel® 服务器主板 S2600JF, 下载 QLogic* HCP Recipe |
KVM 方案 (可选) | Mellanox* | 在 http://www.esaa-members.com, 上的Intel® 服务器主板 S2600JF, 下载 Mellanox* HCP Recipe | |
Any KVM Solution | |||
以太网模块:双端口 Intel® 82599EB 10GbE I/O 模块 | Intel | AXX10GBNIAIOM | |
双端口 Intel® X540-BT2 10GbE I/O 模块 | AXX10GBTWLIOM | ||
四端口 Intel® I350-AE4 GbE I/O 模块 | Intel | AXX4P1GBPWLIOM | |
InfiniBand*模块 | Intel | ||
基于 Mellanox* CX3 MT27504A1-FCCR-FV 芯片,带QSFP连接器的单端口FDR 56GT/S speed Intel® I/O 扩展InfiniBand* 模块 | Intel | AXX1FDRIBIOM | |
基于 Mellanox* CX3 MT27508A1-FCCR-FV 芯片,带QSFP连接器的双端口FDR 56GT/S (per port capable) speed Intel® I/O Expansion InfiniBand* 模块 | Intel | AXX2FDRIBIOM |
服务项目 | 专业支持服务 |
自助网站服务 | 提供24*7的网站自助服务,可查询云创知识库以及各类技术文档(例:可在公司的官网站上传一些小云的资料供客户下载学习) |
邮件支持服务 | 24*7接受服务申请,云创服务团队将在24小时内给予回复 (用户可通过邮件的形式将遇到的问题或建议传递给云创,云创技术支持人员会在规定的时间内给予响应或答复。) |
电话支持 | 为客户提供24*7的技术支持服务(用户可通过云创提供的服务电话联系到专业的技术支持人员,快速轻松的得到技术人员的帮助和指导。) |
电话回访检测服务 | 定期回访客户,配合客户对数据立方大数据一体机做常规检测,提前发现问题并给出专业的建议 |
产品升级 | 享受所购买数据立方大数据一体机软件系统一年内小版本免费升级 |
指定技术专家服务 | 指定技术服务专家,负责协调所有客户问题。(收费服务) |
现场技术支持 | 提供现场服务,根据客户需求,云创工程师赶赴现场(现场服务可包括实施服务、产品问题或环境兼容性问题的上门技术支持. |
业务紧急支持 | 提供业务紧急支持,根据客户需求,技术专家在一个工作日内赶赴客户现场。 (收费服务) |
联系方式 总机:400-8855-360
市场部
区域/行业 |
销售人员 |
分 机 |
手机号 |
邮 箱 |
腾讯QQ |
政企事业部负责人 |
左 赛 |
8033 |
18017566211 |
zuosai@cstor.cn |
教育事业部负责人 |
王 军 |
8035 |
13851877991 |
wangjun2@cstor.cn |
云创智学负责人 |
张 伟 |
8028 |
15805157345 |
zhangwei@cstor.cn |