背景

  随着云计算和大数据的兴起和发展,云计算已经成为处理大数据很重要的一个组成部分,伴随着数据量的几何增长,传统的数据挖掘平台系统架构模式已经远远不能适应现代数据挖掘的建设要求。DataSense就是建立在数据立方基础上针对海量的数据的集中计算与挖掘,建立一套具有高可靠、可在线弹性伸缩,提供数据内在关系和价值的数据挖掘计算平台。为业务决策提供便捷、快速和高效的平台支撑。



产品介绍

  DataSense是南京云创大数据科技股份有限公司自主研发的分布式数据挖掘平台。具有高处理性能和高可靠性,可不间断接受任务。

  系统实现了大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供用户选用,共计包含了27个数据挖掘算法。



系统基本组成


DataSense分布式数据挖掘平台总体架构


  DataSense数据挖掘系统分为前台管理平台以及后台数据挖掘平台两部分组成。其总体架构如下图:

总体架构图


  其中采用了数据立方作为对系统海量数据的底层存储平台,提供了高效的ETL工具,能够对海量数据进行高效快速的清洗。前端WEB部分方便用户管理和使用系统,对于数据挖掘的结果提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于用户对数据和模型的观察和理解。


DataSense数据挖掘核心模块系统架构如下图所示:


DataSense系统架构图


DataSense系统架构图

分布式数据挖掘引擎
管理本机上同时运行的多个计算任务,协调资源分配。
分布式挖掘运行时
单独的数据挖掘程序,负责对切分好的很小单元任务进行处理。
DataSense分布式数据挖掘管理引擎
提供对数据挖掘应用的API,同时负责对整个数据挖掘任务的调度管理。
分布式数据挖掘算法库
提供对数据挖掘常用的基本挖掘算法,同时用户可以自己任意添加新的挖掘算法。

分布式数据挖掘可靠性设计


  DataSense采用了JobKeeper作为整个系统的可靠性调度平台。调度平台提供了一套基于Web的管理化界面,可以实时的观察各个处理节点的任务运行状态,以及任务列表的分配情况,机器的负载情况等。用户在管理系统界面上可以完成所有的工作,如新任务的添加,任务的手动调度以及集群日志的查看与分析等。


JobKeeper任务分发流程图


JobKeeper任务分发流程图

  分布式机器任务处理节点和管理节点之间维护一个心跳时间,实时向管理节点汇报任务处理信息,同时,任务处理节点在每个心跳时间内向管理节点获取该处理的任务列表,并和 本机正在处理的任务列表进行比对,完成相关的任务调度工作。若一个处理节点在多个心跳时间范围内仍然没有主动的和管理节点相互联系,那么管理节点将会根据 各机器的负载情况,将失去心跳连接的处理节点上的任务进行任务的重新分配和执行。



产品优势和特点

  大数据挖掘平台是一套软件与硬件相结合的系统,其中专有技术和软件是高附加值部分,可以广泛应用于需要海量数据挖掘的应用场合(如广电、电信、互联网、银行等领域)。该系统相比传统数据挖掘系统有如下技术优势:


高度可靠


  大数据挖掘系统采用云架构,底层数据被分块存储在不同的存储节点上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。

  云存储的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的7×24小时不间断服务。

  数据挖掘采用了先进任务调度框架JobKeeper,当出现故障节点后,JobKeeper会自动转移处理任务,保证数据挖掘过程的完整性和正确性。


优异性能


  数据挖掘采用分布式并行计算技术,将海量数据的计算处理转化为各个存储节点上并行读写和计算,这样减少了网络的带宽使用,提高了数据的处理速度。同时随着处理节点数目的增多,整个系统的计算性能将呈线性增长。

  同时,JobKeeper采用负载均衡技术,自动均衡各服务器负载,使得各处理节点的性能调节到很高,实现资源优化配置。


海量存储


  数据挖掘平台所依赖的数据存储层数据立方容量仅受限于卷管理服务器内存,可支撑的容量接近无限,经推算,理论容量为1024×1024×1024 PB (1G个PB容量)。这样为超大规模的数据挖掘提供了数据支撑。


在线伸缩


  大数据挖掘系统扩容非常方便,支持不停止服务的情况下,动态加入新的处理节点,无需任何操作,即实现扩容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不影响挖掘业务,运行在此节点上的计算将会重新运行到其他节点上。


通用易用


  大数据挖掘系统提供专用的API接口,供开发人员调用。


智能管理


  提供基于WEB的管理控制平台,所有的管理工作均由大数据挖掘管理模块自动完成,使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台,可以对数据立方中的数据源进行挖掘业务,同时提供挖掘结果的可视化查询界面,可以方面的查看挖掘结果,为业务决策做支持。此外,用户还可以通过监控界面可以清楚地了解到每一个处理节点的负载、存储和运行情况。


快速高效


  大数据挖掘平台算法库采用了分布式并行算法能够在较短的时间内完整各种算法,同时随着机器的增加系统性能线性增长。



平台界面介绍


DataSense平台主页


DataSense平台主页

  DataSense分布式数据挖掘平台提供对集群机器的负载监控,磁盘监控等基本管理功能。用户可以快速方便的监控整个集群的运行状态。


数据导入

  负责对数据的导入,支持数据库,文件系统两种数据抽取方式。将数据抽取保存到数据立方。


点击查看大图


元数据信息管理

  对数据本身结构信息管理,提供新建、删除、修改表等操作。


点击查看大图

点击查看大图


数据管理

  可以查询不同表的数据信息,可以导出原始数据文件。


点击查看大图


任务管理

  由于算法的输入规模的不同,部分数据挖掘业务可能运行时间过长,系统提供了挖掘任务的查看、管理功能。


点击查看大图


用户管理

  大数据挖掘平台提供了多用户使用,系统管理员可以通过用户信息管理功能实现对系统多用户的管理。


点击查看大图


系统配置

  提供系统平台自身的参数信息管理。


点击查看大图


可视化查询介绍

  系统提供了对于已有数据的可视化查询,用户可以自定义查询逻辑,系统会在后台自动提交查询任务。目前查询支持了标准SQL 60%的查询功能。


点击查看大图


分类算法介绍

  分类算法目前提供了对于数据集的学习、分类的功能。同时用户还可以保存数据训练模型以便决策者或者第三方系统能够在线获取模型,并基于模型进行企业经营行为的决策或计算。分类结束后系统会通过可视化的方式展示系统训练分类后的结果,如下图所示:


点击查看大图

点击查看大图


聚类算法介绍

  聚类分是对未知事物的分类,系统提供了对结构化数据的聚类,用户可以选择不同纬度的聚类。


点击查看大图


  上图为聚类设计页面,用户可以选择数据源,聚类属性,聚类本身的相关属性等信息。


点击查看大图


  聚类完成后,系统通过可视化的查询,目前提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于用户对数据和模型的观察和理解。



市场应用



应用范围 应用描述
互联网行业 基于用户行为的智能推荐
移动行业 智能化移动业务的准确推荐
电力行业 海量运营数据的预测,设备负载预测
... ...



更多下载

联系方式    总机:400-8855-360

销售人员
分 机
手机号
邮 箱
腾讯QQ
王玮
8054
15077865340
点击这里给我发消息
于明洋
8006
18502549997
点击这里给我发消息
叶飞
8050
15651627356
点击这里给我发消息
骆梦阳
8052
13952028557
点击这里给我发消息
陈跃飞
8041
13951803427
点击这里给我发消息
杨  剑
8030
18751869256
点击这里给我发消息
何家乐
8031
18616794962
点击这里给我发消息
刘立宏
8034
13815414773
点击这里给我发消息
刘连鹏
8018
18021395113
点击这里给我发消息
左  赛
8033
18017566211
点击这里给我发消息
王  军
8035
13851877991
点击这里给我发消息
张绪文心
8027
18602548008
点击这里给我发消息
吴亚洲
(新疆分公司 总经理)
8022
15051819138
点击这里给我发消息
刘宏
(河南办事处 主任)
 
13333831976
点击这里给我发消息
韦远雄
(广西办事处)
 
18577997606
点击这里给我发消息
周俊
(湖北办事处)
 
13995587166
点击这里给我发消息
汤添智
(贵州办事处)
13602805009
点击这里给我发消息


全国代理商

区域/行业 代理商 电 话 联系人 手机号 邮 箱
西安市教育行业 陕西精测电子仪器有限公司 029-85261352 康耀 13991342692 [email protected]
重庆教育行业 重庆竺韩科技有限公司 曾娟 13628383332 [email protected]
湖北省 中创云城信息科技有限公司 027-88517519 吕辉 13801220173 [email protected]
中国移动 江杰 13720337758 [email protected]
江苏省教育行业 南京迪软软件有限公司 025-68592750 赵琦 18005161178 [email protected]
上海市教育行业
成都核心代理 四川菲普斯科技有限责任公司 028-87607880 陈先生 13808007617 [email protected]
杭州市 浙江掌尊信息科技有限公司   张成成 18267120032 [email protected]
北京市 北京北测教育科技发展有限公司   杨振宏 15811252385 [email protected]
合肥市 安徽康源物联信息科技有限公司   曹先操 18905605095 [email protected]
郑州市 河南哈努曼电子科技有限公司   董仲飞 13810619676 [email protected]
济南市 济南普云信息科技有限公司   孙刚 15253189163 [email protected]
南京市 南京北极星科技有限公司   刘星雨 13815441588 [email protected]
南京市 南京硕坤电子科技有限公司   邵平 13912950086 [email protected]
北京市 北京物语智城科技有限公司   王菁 18612995658 [email protected]
南昌市 南昌达讯科技   谭持续 18170070499 [email protected]
福州市 福州超联信息技术有限公司   陈增超 18695729557 [email protected]
苏州市 苏州扬天信息科技有限公司 0512-65133300 陈育才 15365388158 [email protected]
西安市 西安诺冠信息技术有限公司 029-62593086 付战领 13389214518 [email protected]


诚征全国代理    总机:400-8855-360

负责人
分 机
手机号
邮 箱
腾讯QQ
杨  剑
8030
18751869256
点击这里给我发消息
阅读:11357次


版权所有 © 2011-2017 南京云创大数据科技股份有限公司(股票代码:835305), 保留一切权利。(苏ICP备11060547号-1)  
云创大数据-专业的云存储、大数据、云计算产品供应商