分享

文本挖掘与信息融合技术在检索系统中的应用

 铃儿响叮当 2006-06-02
高 琦(沈阳市第四人民医院图书馆)
[分类号]G250.76

数字化图书馆是信息技术的高科技项目,它不仅有力地带动和促进相关产业的发展,而且因其具有丰富的信息资源,可以为实现科教兴国战略提供源泉和动力。数字化图书馆对信息资源的广泛收集、管理和强大的传播功能,又使信息资源得到充分而有效的利用,从而促进知识创新工程建设和科学技术的发展。未来的数字化图书馆与传统图书馆相比,具有馆藏文献信息数字化、文献信息传递网络化、文献信息服务方式电子化等特点。图书馆数字化包括传统信息的数字化和数字化信息的查询检索系统。数字化图书馆的查询检索系统是数字化图书馆和读者之间的接口,只有通过利用网络简便、快捷地查询检索系统,把读者带到他想要去的地方,并能帮他获取有用信息,才能充分发挥数字化信息资源的优势,才能更好地为读者服务。

1 数字化图书馆信息检索系统分析

  传统文献信息进行数字化之后,得到的数字化信息大多是非结构化数据,不能直接转化成字段信息,很难用传统的关系型数据软件来管理这些数据信息。即使对于那些能被传统的关系型数据库管理系统有效处理的结构化信息而言,也存在着数据信息标引加工速度慢、标引不一致和不完全等诸多缺陷,不能满足信息快速增长的需要。

  以文本数据为主要处理对象的全文检索系统在一定程度上较好地解决了上述问题,弥补了关系型数据库管理系统的不足。全文检索系统提供了全新的、强大的检索功能,可以直接根据文献的内容进行检索。同时,对于信息资源的综合利用,给予多角度、多层面的支持。全文检索技术是未来数字化图书馆检索系统的主要技术基础。现在的全文查询检索系统按查询方式可分为以下两类:

1.1 主题目录查询。这种检索方式和传统的人工检索系统类似。首先将信息按不同的学科、专业进行分类,一般在大类目下再细分成若干小类目,类目之间按照等级大小排列。用户通过主题目录的指引,逐级、逐层浏览,找到自己所需要的有用信息。按照主题目录进行查询的主要优点是信息通过筛选和系统组织,检索质量较高,层次性、条理性强,检索结果接近用户需求。其缺点是对于原始信息进行加工处理的速度远远跟不上信息的增长速度,检索到的有用信息的数量有限。

1.2 关键词、主题词查询。使用这种检索方式时,首先由用户提出检索要求,再由查询软件负责代替用户在信息库中进行检索,并将检索到的结果及时反馈给用户。在检索过程中,系统软件还可以利用特殊的算法,计算、评估检索到的信息与用户所需信息的相关性,并且根据相关性的大小将信息排序,将相关性最大、与用户需求最贴切的信息排在输出信息的前列。

  很多全文检索软件是将人工编制的主题目录和计算机软件的关键词检索结合起来,充分发挥两者优势来处理数据。这些全文检索系统虽然在很大程度上解决了大量非结构化数据的查询检索问题,但也存在一些问题,需要进一步提高,以满足使用者的需要。良好的检索系统应具备以下优点:检索结果准确、全面;能够利用自然语言进行检索;检索界面要简洁明了,易学易用;检索结果经过适当加工,做到格式清晰,内容有条理性;支持多媒体;检索速度快。同上述优点相比,现在的全文检索系统主要存在以下几个问题:①检索结果往往是大量的未经过精细加工的信息,其中冗余太多;②不能对检索到的信息进行合适的组织与分类;③要求用户将查找的信息以关键字的形式较准确地描述出来,作为查询条件提交给系统,查询的结果往往导致相关信息丢失。

  由于目前的检索系统由于还存在上述欠缺,即使使用全文检索系统,当读者查询数字化图书馆馆藏信息时,也常常碰碰到花费了大量的时间,却不能找到所需要的信息的情况。因此,如何去粗取精、由表及里,迅速准确地提供用户所需信息,成为下一代查询检索系统着重考虑的问题。

  近年来,悄然兴起的文本挖掘技术和信息融合技术被应用到全文检索系统中。由于中文信息处理的特殊性,有关这一方面的研究、开发进展不大,但这些新技术将使下一代查询检索系统更具智能化,更符合我们的需要。

2 文本挖掘技术

  文本挖掘是一种智能化的工具。它能够使人们免于陷入信息的汪洋之中,从大量冗余的信息中迅速发现对自己有用的信息,同时,还在一定程度上揭示信息与信息之间的关联,产生出用户以前未曾意识到的有用信息。而传统的信息检索软件所查询的信息可能仅仅从字面上符合查询要求,并不是人们真正需要的信息。文本挖掘技术能够根据用户的真正需要,把与之相关联、有价值以及用户以前未曾注意的有用信息,都检索出来。文本挖掘技术是建立在对原始信息的分类和聚类基础上的新技术。

2.1 信息分类与信息聚类。所谓信息分类就是采用某种方法把一些特征上类似的信息归纳、合并在一起,把一个信息集合分为若干个子集,每个子集的信息有类似特征。分类是人们主观创造的产物,是对信息属性有序聚类的一种认识。对于信息属性认识的越全面,就越有可能揭示信息较为本质的东西。所谓信息聚类,从应用角度讲,源于客观世界中的原始信息不容易分类,聚类可以将不同分类的数据集合,根据用户的需要快速聚集起来,动态地产生新的分类。这一特性使之成为数据导航技术中的重要功能之一,常用于粗放型冗余信息过滤。

2.2 文本挖掘技术的应用。①基于内容检索:由于仅用几个关键词难以充分描述具有丰富内涵的信息,而且关键词的选取也有很大的主观性,故文本挖掘技术采用区别于传统检索手段的基于内容的检索技术。尽管目前基于内容的检索技术还很初级,只能利用一些相对简单的特征来进行检索,但随着研究的深入,必将可以从文本信息抽取一些更为详细的、经过特殊加工的特征信息,大大提高检索的全面性和准确性。②信息智能代理:主要为在分布式信息网络环境下的信息的查询服务。信息智能代理使用户可以不知道所要检索信息的具体形式,存储于何处、何种介质中,只要用户提出查找要求,文本挖掘技术会自动地把各种信息源中各种形式的相关信息检索出来,供用户使用,使用户可以立即获得较为满意的检索结果。③信息过滤:根据用户需要,通过对多个不同信息集之间的比较,进行信息过滤,产生适量的、合乎用户需求的信息。④文本信息文摘:用包括题目和具有代表性的关键词(字),进行抽取、计算和表达,自动选择重要的句子,产生文本信息摘要。⑤信息表现:信息挖掘技术关心的是信息的方方面面,力求从多角度表现信息的本质和特征。文本挖掘技术能动态地、实时在线地表现信息的相关属性,使用户及时发现信息,及时更新信息和及时地发现信息的演变方向。

  从以上可以看出,传统的信息检索系统,通常是用户从信息库中找他想要的信息,而信息挖掘技术则是由软件查看信息库中到底存在哪些符合用户需求的信息。

3 信息融合技术

  信息融合技术是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。信息融合技术始于70年代初,80 年代以后得到迅速发展。信息融合技术是采集并集成各种信息源中的多格式信息,生成比原始信息更为简洁、更少冗余、更为有用的综合信息。

  信息融合技术是研究如何加工、综合来自于众多信息源的信息并能使不同形式的信息相互补充,使其信息量得到最大限度的发挥。

  信息融合技术应用于检索系统,通过对信息的取舍和集合划分,可以合理地组织查询结果,减少不必要的信息冗余,又能使各种来源的信息连接为一个有机的整体,使用户获得完整、准确、及时有效而且简洁、明了的信息;可以避免数据富有、信息贫乏情况的出现,从而大大加快数字化图书馆的建设进程,缩短与世界先进技术水平的差距,使数字化图书馆能更好地为读者服务。

参考文献:

1 丁有骏著编.走向二十一世纪的图书馆.北京:北京图书馆出版社,1998

2 汪冰著编.电子图书馆理论与实践研究.北京:北京图书馆出版社,1999

3 钟琳.知识管理的软件.图书与情报,2002(8)

  高 琦 男,1965年生人。1998年毕业于北京大学(专升本)信息管理专业。馆员,现工作于沈阳市第四人民医院图书馆。邮编:100031。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多