数字文化建设的有关问题分析 作者:祝孔强 摘要: 文化数据资源因其种类庞杂、数量众多、涉及面广而长期无法形成统一的数宇化模式。但在文化遗产保护、公共数宇文化服务 等不同领域均有各具特色的数字化建设成果。2001年,财政部和国家文物局联合启动了 “文物调查及数据库管理系统建设”项目,首 次开启以数字化手段调查完善我国文物业的国情资料,2011年,财政部和文化部又提出公共数字文化建设概念,并重点实施了文化共 享工程、数字图书馆推广工程和公共电子阅览室建设计划三大公共数字文化惠民工程。文化资源数字化是一项长期、基础性工作,需 要从其基本规律入手,采取科学、灵活、有效的方法,逐步实现聚沙成塔、集胲成裘。 谈到文化资源数字化,离不开数字文化,更要先从文化说起。文化的概念有多种说法,仅《辞海》中对文化的定义就有三种: 一是从广义来说,指人类社会历史实践过程中所创造的物质财富和精神财富的总和。从狭义来说,指社会的意识形态,以及与之相适应的制度和组织机构; 二是泛指一般知识,包括语文知识在内。例如“学文化”就指的是学习文字和求取一般知识。又如对个人而言的“文化水平”,也是指一个人的语文和知识程度; 三是指中国古代封建王朝所施的文治和教化的总称。如南齐王融《曲水诗序》:“设神理以景俗,敷文化以柔远。” [1]文化是民族生存和发展的重要力量,是强大的精神支撑。 当今世界,文化更是融人政治、经济等各领域,作为软实力的体现,其地位和作用更是无可替代。 数字化则是近年出现的新概念,百度定义说:数字化就是将许多复杂多变的信息转变为可以度量的数字、数据,再以这些数字、数据建立起适当的数字化模型,把它们转变为一系列二进制代码,引入计算机 内部,进行统一处理,这就是数字化的基本过程①。 简单理解,数字化工作是对现实世界信息的一个描述。采用数字化手段可以产生一个现实世界的镜像, 当然也可以产生一个不同于现实世界的新环境。作为一种技术手段,数字化不能完全无缝的复制、记录下现实世界的所有信息,但却为建立起一个对应于现实世界的物质模型和表述其蕴含信息提供了技术上的可能。 作为文化与数字的结合体,数字文化是信息社会特有的文化概念,是文化与科技融合的新形态,是文 化表现形式的新阶段,是促进文化繁荣发展的新手段。数字文化的兴起不仅仅促进了文化产生、传导、 表现形式的多元化和高效率,更将促进文化内容的极大丰富和文化产品的不断创新,在有效缓解人民日益增长的文化生活需要和不平衡不充分的发展之间的矛盾中必将发挥重要作用。[2] 相较于传统文化而言,融入现代信息技术手段的数字文化具有较多新特点,比如开放性、共享性、虚拟性、创新性、平等性,还有更多的趋同化、草根性等等特点,如此不胜枚举。但从其本质而言,建议我们不妨从两个方面予以关注:
“文化的数字形态”是指利用现代信息技术对文 化和文化信息的数字化呈现,通俗理解为“文化的数字”。1946年世界上第一台电子数字计算机——ENINC的诞生,标志着人类从此拉开了信息化时代的序幕,数字化开始成为人类新的技术手段。后来,随着存储器的出现,人类发现计算机不仅仅用于科学计算,还可以用于管理。当我们把文化的信息存储于计算机系统并进行管理时,“文化的数字”就出现了。 文化的数字形态包含多重含义,它不仅仅是文化信息的数字化呈现,更是文化实体表现的新形态,也是对文化内涵抽象表达的新模式。文化资源数字化工作是获取文化数字形态的重要途径。 “数字的文化表征”是指数字化的文化环境和数字文化所蕴涵与表达的文化信息,通俗理解为“数字的文化”。数字的文化表征既包括了数字文化的信息,也包括数字化环境自身的文化特征。计算机出现的同时也标志着数字的文化环境应运而生。 众所周知,截至目前已经出现了以个人计算机普及应用为标志的第一次信息化浪潮,以互联网大规模应用为标志的第二次信息化浪潮,以物联网、云计算、大数据、人工智能等广泛应用为标志的第三次信息化浪潮也正在风起云涌。这些变化无一不体现出数字文化环境的变迁与发展,也促进了数字文化信息表达手段的极大丰富与提高。 数字化是产生现代信息资源的新手段,通过数字化方式获取的信息资源也叫数据资源。文化数据资源同其他数据资源一样,具有可复制、可再生、可关联、可共享等基本特征。 图:中国丝绸博物馆藏品数字化互动装置 @文博圈 随着现代信息网络技术,尤其是云计算、大数据、物联网、移动互联等新理念、 新技术的普及与应用,数据资源越来越海量化、越来越复杂化。文化数据资源与其他类型的数据资源一样,也变得更加海量与复杂。 由于文化的范畴更广阔、内容更丰富,不可否认,相较于其他领域而言, 文化数据资源的海量性和复杂度有过之而无不及。 除此之外,文化数据还有两个有别于其他数据资源的独有特性,即价值“永续”和范围“无界”。 文化具有传承性和发展性。博古而通今,温故而知新。没有传承,就没有发展。既有传承,必需保留;若要创新,必先知旧。因此,与其他门类的数据 资源相比而言,文化数据资源的价值是永远存在的。 当我们记录下一件文物的质地、度量等本体属性时, 就相当于留下了一份真实的档案。文物存在时,为了保护,有必要利用这一数据提供应用服务;万一文物不在时,也只有这一数据可资利用了。 从对文化的基础定义和理解上可以看出,文化内涵博大精深,辐及万事万物,普盖古今中外,既涉及璀璨辉煌的古代文明,也包容丰富多彩的现实世界, 更通达遥远无尽的未来创造。凡有人类活动的痕迹, 必能留下文化的烙印。因此,据文化数字化而形成的文化数据也必然拥有无界的范围。更何况现代数字化技术更在其自身数字空间的基础上不断创新生产着新的文化。 既然明确了文化数据范围的无界特征,要对其分类确非易事。但这项工作又是必须要做的。在文化领域,国家管理部门根据业务管理工作需要,已有不同类别的划分。 比如,党的十九大报告中指出“中国特色社会主义文化,源自于中华民族五千多年文明历史 所孕育的中华优秀传统文化,熔铸于党领导人民在革命、建设、改革中创造的革命文化和社会主义先进文化,植根于中国特色社会主义伟大实践。”[4] 根据原文化部和国家文物局的管理工作需要划分,现代的有书法、美术、戏曲、音乐、舞蹈等等,传统的文化遗产又分为文物和非物质文化遗产,文物又可细分为可移动文物和不可移动文物等等。现在我们不妨换个角度,尝试从信息技术和应用服务的角度对文化 数据作一切分。据此,可将描述文化内涵与外延的数据资源划分为三类,分别是基础数据、业务数据和管理数据。 文化基础数据即是按照特定标准对文化资源的数字化描述,是文化资源提供服务的核心。常见的对文物本体的描述、采集非遗的影音资料、书法美术作品的影像等等都属于这一范畴。 文化业务数据是文化生产部门在业务工作中产生的统计、分析等业务型数据,目的是为了满足文化业务运行的需要。常见的调研报告、文化评论都属于此 类数据资源。 文化管理数据是实现文化管理的机构、人员、财务等管理型数据,目的是为了保证文化行业管理的需要。常见的年鉴统计资料、财务统计报表等均属此类数据。 文化基础数据、业务数据、管理数据三者之间既有关联聚合,也有重叠交叉,并非严格割裂的。很多专项数据资源往往包括其中两者,甚至三者都有。 比如我们常说的政务信息资源既包括基础数据,也有业务数据,更有管理数据。之所以作此种划分,无非是希望能够从技术角度作一切分,以便于文化数据资源的统筹规划、标准制定、存储管理和应用服务而已。 数据釆集工作也是永远在路上的。文化数据采集工作是文化建设领域的一项基础工作,也是一项长期的艰巨任务。文化数据采集与资金、技术、人才、体 制机制等多项因素有关,既不能一蹴而就,也不能一劳永逸,往往需要设置专门的机构,设立专项的资金用于此项工作的长期开展,通过多种途径实现文化遗产数字资源的釆集和完善。文化数据采集工作应遵循 “方法多样、规模适度、内容真实、方式够用、服务 应用”的基本原则。 “等闲识得东风面,万紫千红总是春”。数据采集的方式方法多种多样,丰富多彩,切勿执着单一而局促受限,只要能够实现目标,在合理合规的情况下,不妨能用尽用。以下列出几种常用的数据釆集途径,以供参考。 1. 依托重点工作,采集基础数据。数据采集工作耗资大、历时长,需要调配的资源众多,专项的普查、调查工作是获取文化基础数据的最佳机会。国家文物局已经开展的“文物调查及数据库管理系统建设”项目、第三次全国文物调查、长城资源调查、国有可移动文物普查等,文化部开展的数字图书馆推广工程、文化信息资源共享工程、非物质文化遗产调 查、全国美术馆藏品普查等专项工作都在一定程度上 采集了大量的文化基础数据资源。由于专项工作在覆盖面、投入量、管理力度等方面均有较大优势,所釆集的基础数据也相对全面,权威,真实。 2. 结合行政管理,积累管理数据。通过推进电子政务和政务信息系统整合共享,建设并运行统一的行政审批管理平台,持续积累各类政务信息资源数据, 加强业务档案和资料数据管理,是获取管理数据的有效途径。相比于重点专项工作来说,通过行政管理采 集的数据较为散乱、无序,但其优势是权威、可持续,只要持之以恒的累积、整理,往往能够形成专题系列,达到意想不到的效果。 3. 围绕课题项目,丰富业务数据。课题研究也是行业常态性的工作之一。围绕文化领域的专项课题研究是获取文化业务数据的重要来源之一。这种数据采集的内容不仅仅包括课题本身的研究成果,更要关注与其相关的调研、分析等背景性数据资料。一项优秀的课题研究成果往往能带动一个体系的数据采集标准、方法、管理与应用服务的发展建设。 图:敦煌研究院官网|孙志军 4. 整理资料档案,实现文本数字化。系统整理已有的各类业务档案、学术专著、专题出版物、录音影像等资料,持续开展数字化采集工作,是建立专题资料数据库的重要手段之一。尤其很多早期开展的专项工作,因为没有数字化的资料留存,只能通过文字录 入、图片扫描等数字化手段加以整理。这种资料档案整理工作往往带有较强的针对性和抢救保护性质,是耗时、费力、枯燥的事情。但其意义重大,应用普遍,往往是不得不用的办法。 5. 搭建共享平台,探索交换模式。通过多种有效机制和技术手段,搭建文化资源共享交换平台,通过资源整合、数据共享方式,扩展数据资源的来源渠道,促进基层文化单位在数据共享与交流的过程中不断完善数据资源建设的形式,充实基础数据内容,更在此基础上形成国家层面的数据体系。数据交流才能共生,资源共享方显价值。探索数据共享交换模式是促进数据釆集工作实现良性循环的有效途径。 6. 加强国际交流,扩充数据来源。广义的说,文化是人类共有的财富。通过加强国际文化的信息交流与合作,在保证安全稳妥的前提下,探索文化数据资源的相互交流合作模式,也是丰富文化资源类型和数据覆盖范围的有效途径之一。文化因包容共生而繁荣,文明因交流互鉴而发展。良好的国际交流氛围, 畅通的资源共享渠道,必将为实现世界文化数据资源的繁荣发展创造有利条件。 7. 创新釆集模式,探索资源采集的社会化途径。 曾有广告说,大数据时代,随着指尖每敲动一下键盘就将产生出新的数据信息。这话有些夸张,但很形象。随着移动互联网的应用普及,也同时开启了自媒体时代。类似于微信、微博等平台上也拥有众多有深度、有价值的文化数据资源。通过主题活动征集、社交平台收集、网络爬虫搜索等方式方法,都可以获取 到数量众多且又拥有不可估量价值的文化数据资源。 “量力而行,先谋而后动”。注重规模适度是数字化釆集工作的必修课,切忌眼大肚子小,贪多嚼不烂。 在国家层面的数据釆集过程中,应注重宏观数据的获取,重点放在数据广度的扩展上,适当选取有代表性、有重要价值的文化遗产实施深度采集。基层文化单位则应根据自身的人力、财力和实际应用情况等,可以在保证重点项目的前提下,适当把重心放在微观数据的采集上,以保证本单位的日常运行管理和研究应用为目的。 保证原始数据的原真性是数字化采集工作的基本原则之一。数据真实性的意义无庸多言,虚假数据的危害性非常大。很难想象一条不真实的数据能够在管 理与应用中发挥出积极、正面的作用。但如何保证数据的真实性却非常复杂,排除出现虚假数据的主观因素外,也不仅仅是工作理念的正确认识问题,还包括有技术性和方法性问题。 首先,要保证采集对象的真实性。例如在采集文化遗产的原始数据时,不可片面的依照已有档案的资料数据记载。已有档案可以作为一个历史记录,但随着时间推移,文化遗产本身也可能会发生一些变化, 比如文物会存在残损、缺失等情况。 此外,也不能完 全保证已有档案记载的绝对真实性。因此,即使受时 间、人力等条件所限,不得不利用已有档案资料的数 字化成果,也要在后期进行必要的复核。但对文物影 像的拍摄一定要选取原物,切忌翻拍杂志、图录等出版物,否则就失去了此项数字化工作的物证意义。 其次,要保证采集方法的科学性。“工欲善其事,必先利其器。”先进、成熟、可靠的数据采集工 具对数字化采集工作具有重要意义。在经济许可范围内要尽量选取高质量的设备,提高数据精度、减少出错率。当然一些小的技巧也能产生很好的效果,比如 照片拍摄过程中,在不易确定高度的器物边放一把尺子,在不好分辨色彩的书画、雕塑等作品后放一幅参考性的背景色谱等,这些都是不错的选择。 第三,要重视质量管理的严谨性。获取高质量数据的最关键之处不在技术而在于管理。大规模的数据采集过程中,难免会因大量的重复性劳动造成人员疲劳、工作松懈等情况。即使在日常的业务工作中也可能会因为疏忽而造成数据信息出错。如何保证数据质量,需要规划合理的工作流程、制定科学的工作管理机制,减少采集工作的复杂度,加大数据审核的频度和工作力度,把数据质量管理的关口前移。 数字化采集工作往往受当时的工艺水平、经济实力、人才能力等条件所限,是不可能达到尽善尽美的。因此,建议摈弃一些投资大、收益少,费工时、 意义小的采集方式。怎样才能保证采集数据资源达到够用标准,首先一条是必须要有业务人员的参与。一定要坚持业务主导原则:数据采集工作不仅仅属于信息化的工作范畴,更是业务工作的重点。排除必须的技术要素外,数据采集的标准实质上就是业务需求的 标准。 图 16素材网 数据采集的目的毫无疑问是为了应用。但在实际工作中,我们经常忽视这一点,往往变成了为了釆集而釆集。如果失去了数据采集的方向,就无从谈起釆集方法的科学性。 概括地说,数据应用需求有三个层 面:宏观管理、科学研究和公众服务。根据不同应用层面,其数据采集的规模、方法等都有所不同。
根据不同层面的应用需求,釆集整理不同类别的数据至为重要。只有量体裁衣,方能事半功倍。 数据管理是文化资源数字化工作的核心内容之一,是数据资源应用的基础,其内容包括数据存储、 整理、传输、交换、共享等诸多环节。数据传输依托于有形或无形的网络体系,数据交换与共享在技术层面的关键要素是遵循统一的标准,其核心难点在于机制、 体制问题。以下我们重点谈一下数据存储和资源整理。 存储的最终目的是为了使用。因此,数据存储工 作的重点是保证数据的安全和应用的便捷性。针对文化数据资源实际,有以下几点关于数据存储的建议可供参考。 图:腾讯云 1. 集中与分布相结合。随着信息技术的迅猛发展,网络带宽不断扩充,数据存储与传输的瓶颈问题会越来越小。因此,数据集中与分布存储都有可能, 可以根据实际情况灵活选择。 建议在国家与省级行政管理层面可以集中存储文化管理数据和必须的业务数据,以及基层单位的数据资源目录;基层文化单位则可以分布存储详细的、丰富的全部数据。以此形成统分结合的动态数据存储体系,既便于统一管理,也便 于各自维护。 2. 小成本,多副本。文化的数据量庞大,就目前现状而言不可采用完全统一的存储模式,应该灵活选择。针对更新实时性不高的数据(比如文物、艺术品的本体描述信息,在一定时间内基本上不会发生大的变化),在数据存储介质的选择上建议以适用为原则,注重多材质、多套件、经济型的选择。比如,采取磁盘阵列、磁带、光盘等多种组合方式,保留多个存储副本,以保证数据安全。 3. 应用与保存分开。无须多言,估计很多部门都 不会把自己的核心数据直接拿出来提供应用服务。这 种管理方式不能简单的定义为保守主义,保护核心数 据的安全应是第一位的,没有错误可言。只是在具体操作时,可以通过一些技术处理,达到既保证数据安全,又能广泛提供应用的目的。 首先是将核心存储数据与应用数据分开,“应用”数据由核心数据中提取加工而来,与“原始”数据要做到物理上的分隔;其次,可以分散提供应用内容,做到小规模、多层面, 既保证应用效率,也避免整体安全隐患,当然这种“分散”绝不是“散乱”,在机制、架构上应是统一的,否则就加大了管理的难度。 4.重视备份。数据备份的重要性毋庸置疑,但如 何做到科学、合理的备份却并不容易。如果对所有文 化数据都采用系统应用级备份,多多少少是有些浪费 资源的,不妨根据实际情况多采用常态、多点的冷备 方式。在条件不具备的情况下,甚至不必要一定将存 储介质存放在环境要求较高的机房环境,只要采用多 点模式,能够保护备份介质的不丢失、不损坏,就能 满足数据备份的基本要求了。但数据备份点的选择却 非常重要,一定要选择安全的场所,条件允许的情况 下,既要考虑同城备份,也要考虑异地容灾。 文化数据整理是对文化数据进行的审核、校正、 梳理、加工,建立各类专题数据库,为不同需求的应 用服务做好准备的过程。数据整理既有对原始“数 据”的使其“规范”化操作过程,也包括把原始“数据”转化为“资源”、“信息”、“知识”和“产 品”的过程[5]。但数据整理不是一项孤立的工作,与文化数据资源建设的诸多环节都有着广泛联系。 1. 整理以应用为目的。数据整理工作一定是以数 据应用为目的的,否则就只能是盲目的“调整”,而 且调整以后还要调整。只有充分考虑并科学的分析应 用需求,才能合理规划、有效部署数据整理的方式 方法。 2. 整理从采集开始。严格意义上说,数据整理工 作在数据采集时就需要同步开展了,具体表现为数据 质量的监督管理和实时审核,实现数据质量管理的关 口前移。如果采集的原始数据就已经非常规范、科 学、有效了,后期的数据整理重点就可以放在组合归 类、挖掘分析等层面’势必就减少了工作的复杂度。 3. 整理不是改变。数据整理的目的是使已有的数 据更规范、更科学、更易用,但一定要注意方式、方 法,随意改变数据的性质' 内容是一大禁忌。在数据 整理过程中,可以有类似于合并同类项、釆用标准用 词替代习惯用语等操作手段,但不可随意扩大数据内 容范围、更不可无中生有。为了保证数据的原真性, 在做数据整理工作前,一定要对原始“数据”做好妥 善的备份,以备整理过程中若发生错误时可以随时查 看原始档案,及时修正错误。 前文提过,数据应用有三个层面:宏观管理、科学研究、公众服务,分别对应于管理人员、研究人员和社会公众,各自服务于政府、行业和社会。 管理人员的数据应用重点在于数据的统计、分析、查询等, 数据内容一般在内部网络体系中运行,其目的是为业务管理和行政决策提供科学的参考依据,同时,也为相关部门协同管理提供数据支持;研究人员的数据应用大部分在单机或者内部网络体系,少量在外网运行,对数据的深度要求较高,要求提供数据查询和信息定制服务;社会公众的数据应用主要在于数据的查 询和产品的使用,需要数据有足够的知识性和趣味性。 也可以适应教育、科研、娱乐等需要,为影视、 动漫、游戏生产提供基础数据资料,促进相关文化产业的发展。因此,针对不同的数据应用对象需要通过不同的途径,提供不同的数据类型。 文化数据资源应用的方式多种多样,包括内部查询、网站发布、研究报告、资料出版、产品制作等。 按数据应用的内容划分,有简单数据应用(如数据查询)和复杂数据应用(如数据挖掘分析);按数据应用的渠道划分,有在线数据应用(如网上发布)和离线数据应用(如光盘发行);按数据应用的商业模式划分,有免费数据应用和收费数据应用。 数据应用的总体原则应是多种类型结合,多条渠道结合。具体采用什么样的数据应用方式,与数据应用的对象和数据提供的内容有关,应该灵活处理、区别对待。 数字文化建设是一项复杂、庞大的工程,涉及面广、工作量大,在实施文化资源普查、文化遗产保护、文化艺术创作、公共文化服务、文化市场管理、 文化产业发展、对外文化交流等各项工作中都发挥着重要作用。 以上仅是结合文化数字化领域的工作实践,对数字文化及其文化数据采集、管理和应用环节的一些肤浅认识,内容不够全面,也不成体系,且难免存在偏颇与错误之处,在此提出来与大家共同分享、讨论,以期为数字文化建设工作的科学发展略尽微薄之力。 作者简介:祝孔强,男,文化部信息中心总工程师,主要研究方向:网络安全和信息化规划管理、电子政务和数据资源建设。 |
|