12月1日下午,由上海大数据联盟、数据猿主办的第20期魔方大数据在上海宝华万豪酒店成功举办。本期魔方大数据以“政务大数据”为主题,邀请了技术方和产业方大咖共聚一堂,共同探讨了政务大数据落地实施的有效路径 作者 | 夏佳斌 官网 | www.datayuan.cn 微信公众号ID | datayuancn 12月1日下午,由上海大数据联盟、数据猿主办的第20期魔方大数据在上海宝华万豪酒店成功举办。本期魔方大数据以“政务大数据”为主题,邀请了技术方和产业方大咖共聚一堂,共同探讨了政务大数据落地实施的有效路径。 以下是数据猿整理“普元信息政务大数据咨询顾问夏佳斌”的发言实录: 今天我想从两方面和大家分享一下政务框架体系,第一方面是从我多年的实践出发介绍下政务框架体系。第二方面是结合实际情况,探索下如何实现政务大数据的落地。 去年9月份有一个客户提出要建内存数据库,深入的交谈后我了解到,他是希望建设一个数据库,即使应用进行了改造升级也不会影响他继续使用原来的数据。除此之外他还提出了另外几点要求,希望对所有数据的访问都有统一的管控,数据优化有统一的入口,保证政府数据的安全性和可靠性,数据不用后物理数据依旧存在等。这个客户是做区县政府数据中心,他的需求其实就是建立一个虚拟数据库,这和政务云、虚拟机非常相似。 既然都要做数据资源,做云资源管理,政务云和它有什么不同?政务资源管理的范畴在哪里,边界在哪里是这个问题的核心。数据资源管不管客户?数据资源管不管服务器?我们把问题缩小了,就是服务器之间数据资源的范畴。 在数据资源体系里面有三个核心,资源定义、运营机制和支撑平台。 先看资源的定义。我们做政务数据体系,首先要对数据资产进行定义,我们将数据资产两部分,一部分是跟技术相关的,如数据库的脚本、存储过程、ETL和报表,这些都是技术数据,存在我们的运算资源上。另一部分是和业务相关的,包括业务的术语,比如人员姓名,姓名定义,中英文姓名的区别等。还有信息的模型,除此之外,还通过技术规范和数据标准去描述我们的资源。 第二,数据运营机制。这里要提两个流程,一是数据资源的生命周期,二是数据流转的生命周期。我们不仅考虑数据怎么规划、设计,还考虑数据怎么流动,这都是我们数据运营机制的主要组成部分。运营机制还有规范,包括管理规范、协作边界。 第三,支撑平台。这张图是我们大数据平台的支撑体系,非常全面,基本包含了大数据需要用到的所有应用平台,这些应用平台都能够实现数据运营当中的一个或几个环节。这一块上面还缺少连接的工具和治理工具。做数据资源的框架体系需要的不是点状的工具,而是打通工具与工具之间的工具。还有治理工具,比如说如何选择分布式存储平台,如何选择关系数据库,这就需要一些额外的工具进行管理。 在我们的数据资源框架体系当中涉及到的是资源的定义,包含数据资产、技术规范和标准,运营机制有协作流程和管理规范,另外还有技术支撑平台。这六块都比较抽象,但在实际建设当中是和我们数据资源、政府信息化建设的路程保持一致的。 回顾以往的发展阶段,第一阶段有很多单体应用,我们做政务信息化的信息系统,至少要有应用系统。做数据的应用,做数据资源开发、做数据库管理系统和自己的存储,关系到的就是数据结构和应用。 进入第三个阶段以后,数据的建设都是互联互通的,网络不存在距离了,我们要考虑运营、数据开发过程、资产、安全等。这就是我们政务数据资源建设当中需要关注的点。 接下来讲一下我们的实践,刚才讲到了治理工具和连接工具。这是某区的政务数据资源云,按照刚才的框架体系一步一步落地,包括生命周期的管理、数据资源和数据服务的交换、挖掘分析引擎,运维包含了运维、监控、日志等,这些都需要管控和运营。 在实践操作中第一步还是做资源的定义。这一部分采用了元数据采集,通过业务元和技术元进行比对,这里面也用到了语义识别,目前还是以数据结构,包括技术元数据的定义做语义识别。把政务所管到的资产做了一个标签,然后进行定义。这个过程形成了资产清单,里面包含了资产的归属权、资产的关联属性、资产的更新情况和授权的情况,这是数据的资产化,就是要做到资产的统一管理。 第二,在资源这一块有统一的资源规划,在数据资源建设当中,政府数据和企业数据有所不同,无论是区县还是到街政,涉及的政务面是一个企业难以达到的,在这种情况下,数据资源的分类、分级、分层就变得特别重要。在数据资源的规划体系当中会把政务资源规划分成四个角度,即基础面、行业面、服务面、物理面,通过资产化的建设会有物理的目录、信息资源的目录、服务的目录,实现在不同的资产清单中可以看到不同的分类体系,每个体系都代表着一个视角。数据资源还在这里面,只是用不同的视角去看的,通过这些视角资产更容易被发现、被共享。 接下来是数据资源的服务化,数据资源的服务化涉及数据的服务访问。我们所有的数据使用都提供自服务的方式以实现服务的发布和服务的运行。在数据资源框架当中,数据的访问层包含实时的同步和非实时的同步,这是通过元数据进行驱动的。比如,数据访问不同的数据资源,相互之间的关联关系需要元数据定义,通过这个定义,这些服务可以通过自动化模式,通过机器生成,当中可以减少一些理解上的误区。 第三,共享有序化。这是政府部门政务信息共享面临的情况。一讲到共享,人们的第一个反应的就是数据标准,接触客户的过程当中,我个人也认为在数据标准、作用及如何使用上面存在不同的说法,但是在数据资源框架体系里面,我个人的理解是,数据的标准是以两种方式进行梳理的,一是数据标准的体系包含更新维护、数据现状。第二,通过元数据自动采集的梳理,这块包含元数据的采集和语义的分析,有技术属性、管理属性、安全属性等,通过元数据的分类和大数据的分值形成信息项的技术标准。这两块在做数据资源标准的时候都是无法替代的。 从数据标准来看,我发现很多客户和合作伙伴会把两件事情放在一起,一个是梳理了自己的资产,盘点了资产后会把自己有多少数据资源分一个类,另一个是梳理完成以后,做一些收敛,通过合并同类项,通过数据的规约和勾连发现相似信息项。有了数据标准以后,运营机制会涉及到整个数据资源开发的运营过程,涉及到开发人员、建模人员,测试、和业务运营。 数据共享最大的弊端就是信息不对称,这是业务需求的出发点,有了资源目录共享以后,要双方进行审批,然后签三方协议,接下来再协调第三方去进行开发,再让另一方确认,这之中至少包含三个层面。因为有信息不对称,实际上解决的是数据资源理解的问题。通过匹配相应的协作流程、技术规范、管理规范和安全管控规范,让大家在同一个平台上进行协作。 我把我们的实践成果给大家介绍一下。第一个是动态的资源目录,这是基于元数据的采集归类,从目录的关联,资源和资源的关联上建立的。通过元数据的采集发生,任何变化,甚至一个接口的改变都会在资源管控的范围内发现变化。第二,共享服务运行架构。这次介绍的还是应用系统建设当中数据层的访问,这之中涉及数据如何进行服务访问,服务如何进行路由,如何放到运行引擎里,如何把数据和应用的管理进行分离。第三,数据资源的建模、开发、管理授权。第四,相应的管控体系。建平台是比较容易的事情,但是建规范却比较难。一方面需要协调众多的部门,另一方面国家层面有非常多的大数据标准、规范,但实际操作的规范需要各级的政府部门去摸索,配合实际情况,这个过程的梳理符合本级政府或者有关部门的需求 通过政务数据资源云就把政务数据资源框架体系做成了实践。在这个过程中也存在一些展望,因为资源的定义、运营机制和标准规范都是持续演进的过程。大胆猜测一下,在未来的政务数据资源框架体系当中,逻辑集中将是一个趋势,数据资源云只是其中的一个阶段,而不是终点。 谢谢大家! |
|