DataSense分布式数据挖掘平台

樊清波 2017-01-04

展开全文

　　背景

　　随着云计算和大数据的兴起和发展，云计算已经成为处理大数据很重要的一个组成部分，伴随着数据量的几何增长，传统的数据挖掘平台系统架构模式已经远远不能适应现代数据挖掘的建设要求。DataSense就是建立在数据立方基础上针对海量的数据的集中计算与挖掘，建立一套具有高可靠、可在线弹性伸缩，提供数据内在关系和价值的数据挖掘计算平台。为业务决策提供便捷、快速和高效的平台支撑。

　　产品介绍

　　DataSense是南京云创存储有限公司自主研发的分布式数据挖掘平台。具有超高的处理性能、而且具有超高的可靠性，可不间断接受任务。

　　系统实现了大多数主流的数据挖掘功能，包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点，对同一个数据挖掘功能，通过多种算法进行实现，例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供用户选用，共计包含了27个数据挖掘算法。

　　系统基本组成

　　DataSense分布式数据挖掘平台总体架构

　　DataSense数据挖掘系统分为前台管理平台以及后台数据挖掘平台两部分组成。其总体架构如下图：

　　其中采用了数据立方作为对系统海量数据的底层存储平台，提供了高效的ETL工具，能够对海量数据进行高效快速的清洗。前端WEB部分方便用户管理和使用系统，对于数据挖掘的结果提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段，利于用户对数据和模型的观察和理解。

　　DataSense数据挖掘核心模块系统架构如下图所示：

　　DataSense系统架构图

　　分布式数据挖掘引擎管理本机上同时运行的多个计算任务，协调资源分配。

　　分布式挖掘运行时独立的数据挖掘程序，负责对切分好的最小单元任务进行处理。

　　DataSense分布式数据挖掘管理引擎提供对数据挖掘应用的API，同时负责对整个数据挖掘任务的调度管理。

　　分布式数据挖掘算法库提供对数据挖掘常用的基本挖掘算法，同时用户可以自己任意添加新的挖掘算法。

　　分布式数据挖掘可靠性设计

　　DataSense采用了JobKeeper作为整个系统的可靠性调度平台。调度平台提供了一套基于Web的管理化界面，可以实时的观察各个处理节点的任务运行状态，以及任务列表的分配情况，机器的负载情况等。用户在管理系统界面上可以完成所有的工作，如新任务的添加，任务的手动调度以及集群日志的查看与分析等。

　　JobKeeper任务分发流程图

　　分布式机器任务处理节点和管理节点之间维护一个心跳时间，实时向管理节点汇报任务处理信息，同时，任务处理节点在每个心跳时间内向管理节点获取该处理的任务列表，并和本机正在处理的任务列表进行比对，完成相关的任务调度工作。若一个处理节点在多个心跳时间范围内仍然没有主动的和管理节点相互联系，那么管理节点将会根据各机器的负载情况，将失去心跳连接的处理节点上的任务进行任务的重新分配和执行。

　　产品优势和特点

　　大数据挖掘平台是一套软件与硬件相结合的系统，其中专有技术和软件是高附加值部分，可以广泛应用于需要海量数据挖掘的应用场合(如广电、电信、互联网、银行等领域)。该系统相比传统数据挖掘系统有如下技术优势：

　　高度可靠

　　大数据挖掘系统采用云架构，底层数据被分块存储在不同的存储节点上，数据采用先进的1:1容错机制进行容错，可在任意损坏一个存储服务器节点的情况下实现数据完整可靠，系统对外存储访问服务不间断。

　　云存储的管理节点采用了主备双机镜像热备的高可用机制，在主管理节点出现故障时，备管理节点自动接替主管理节点的工作，成为新的主管理节点，待故障节点修复并重启服务后，它则成为新的备管理节点，保障系统的7×24小时不间断服务。

　　数据挖掘采用了先进任务调度框架JobKeeper,当出现故障节点后,JobKeeper会自动转移处理任务,保证数据挖掘过程的完整性和正确性。

　　优异性能

　　数据挖掘采用分布式并行计算技术，将海量数据的计算处理转化为各个存储节点上并行读写和计算，这样减少了网络的带宽使用，提高了数据的处理速度。同时随着处理节点数目的增多，整个系统的计算性能将呈线性增长。

　　同时，JobKeeper采用负载均衡技术，自动均衡各服务器负载，使得各处理节点的性能调节到最高，实现资源优化配置。

　　海量存储

　　数据挖掘平台所依赖的数据存储层数据立方容量仅受限于卷管理服务器内存，可支撑的容量接近无限，经推算，理论容量为1024×1024×1024 PB (1G个PB容量)。这样为超大规模的数据挖掘提供了数据支撑。

　　在线伸缩

　　大数据挖掘系统扩容非常方便，支持不停止服务的情况下，动态加入新的处理节点，无需任何操作，即实现扩容;同时，无需人为干预，也可以摘下任意节点，系统自动缩小规模而不影响挖掘业务，运行在此节点上的计算将会重新运行到其他节点上。

　　通用易用

　　大数据挖掘系统提供专用的API接口，供开发人员调用。

　　智能管理

　　提供基于WEB的管理控制平台，所有的管理工作均由大数据挖掘管理模块自动完成，使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台，可以对数据立方中的数据源进行挖掘业务，同时提供挖掘结果的可视化查询界面，可以方面的查看挖掘结果，为业务决策做支持。此外，用户还可以通过监控界面可以清楚地了解到每一个处理节点的负载、存储和运行情况。

　　快速高效

　　大数据挖掘平台算法库采用了分布式并行算法能够在较短的时间内完整各种算法，同时随着机器的增加系统性能线性增长。

　　平台界面介绍