浅谈垂直搜索引擎技术
在搜索引擎成为web2.0发展的一道风景线的今天,为信息查找提供更有时效性、针对性、准确性的垂直搜索引擎越来越受到网络用户的青睐。本论文以垂直搜索为主题,介绍搜索引擎的发展及其现状,对比通用搜索引擎和垂直搜索引擎的优缺点,论述了垂直搜索引擎技术及其发展潜力。?
Internet的发展,给人类社会带来了翻天覆地的变化,将人类文明推向一个新的高度的同时,也给人类提供了无限的商机。它的到来,使信息技术成为当今世界各国发展的主题。Internet的普及,网民的数量的猛增,web资源的指数般增加,激励着人们探索新的突破。以服务大众出名的通用搜索引擎为我们指引了方向。它们为无数的网民提供了从无底的web中寻找资源,然而,随着Internet的发展,通用搜索引擎有时很难在庞大的信息库中搜索到准确的信息。它的缺陷,给垂直搜索引擎提供发展的空间,以及无限的潜力。垂直搜索的出现,便是对通用搜索引擎的补充,未来的时间里,它将与通用搜索引擎相辅相成,服务人类的同时,共享新的金矿。
一、什么是搜索引擎
所谓搜索引擎,是指在Internet下,网站根据用户输入的查询条件(关键字),自动从web资源里提取出与用户输入条件相关的信息的一类网站。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而达到信息导航的目的[2]。
随着Google(谷歌)、baidu(百度)等搜索引擎在Internet上的经营的成功,越来越多的IT企业开始进军搜索市场,经过IT精英们的不断开拓新领域,创造新价值。搜索引擎从广义上可以将其划分为通用搜索引擎和垂直搜索引擎。
二、通用搜索引擎与垂直搜索引擎的对比
随着网络的发展,它一方面让我们更容易的获取到信息,另一方面,信息的爆炸发展,也彻头彻尾地将我们陷入了无边无际的信息海洋之中。在如此海量的信息页面之前,我们想要找到自己需要的信息简直就是“大海捞针”。搜索引擎的横空出世让我们有了探索信息海洋的指南针。
1、通用搜索引擎的最大优点是,实现全文搜索,检索到的信息量大,信息覆盖范围广,同时引擎更新信息速度快。根据辩证的思想,最大优点下,也隐藏着最大的缺点,目前Internet上搜索引擎可索引到的网页数量已超过110亿页[5],由于通用搜索引擎搜索范围的广,导致搜索的匹配度低,命中率低,层次结构不清洗,而且重复连接较多,查询结果信息量大,用户很难在海量的链接结果中找到想要的信息。
2、垂直搜索引擎是针对某一个特定行业的专业搜索引擎,是通用搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
???三、垂直搜索引擎的原理及组成
搜索引擎的主要由搜索器、索引器、检索器组成。基本原理和主要功能组件方面,垂直搜索引擎与通用搜索引擎基本相同。两者主要的区别在于Spider爬行范围和网页信息处理深度两方面。通用搜索引擎Spider爬行的范围是面向几乎所有网页,而垂直搜索只爬行跟主题相关的网页。因此,垂直搜索引擎能够比通用搜索引擎更快速的找到相关主题的信息。
搜索器(Spider):也称网络蜘蛛、网络机器人等,是搜索引擎的灵魂。它根据特定算法负责抓取网页,从抓取到的网页里采集信息,对信息进行分词,分词根据词语的特殊属性选择分词算法,并将信息与其关联的URL保存进服务器数据库。搜索器必须保证及时的发现新网页,定时的重新采集已有网页信息更新保存数据库数据。
索引器(Indexer):根据搜索器,即网络蜘蛛采集后经过分词等处理后产生的关键字(keyword),建立从关键字到网页URL(统一资源定位器)的关系索引倒排文档,即建立索引数据库。检索器的功能是根据用户输入的查询词,在索引数据库中进行查询词与索引数据库的匹配算法,然后将查询结果按相关程度排序并输出到浏览器上。
除了考虑核心的技术外,虚拟主机http://www.gzxinda.net采用高效的算法外,必须在用户体验上下功夫如结构化的显示搜索到的结果。比如,Google所使用的Ajax(异步JavaScript)技术,用户输入查询时能够自动提示,还有Google查询后显示的数据,界面上字体等要比Baidu细致一个档次。这些细节的原因,某种程度关系到搜索引擎在市场的占有额。
???四、垂直搜索引擎的相关技术
???1、页面解析与页面显示排序
网页地址都是用URL(UniformResourceLocator统一资源定位器)来表示,获取网页信息,必须找到URL,读取该URL页面的HTML、特定标签,高级的搜索引擎还能对JavaScript语句进行解析。这是因为许多网站直接用JavaScript构建出来,而且随着Ajax技术的流行,很多信息包含在JavaScript标签里,为了提高采集信息的准确率,提高搜索引擎的竞争力,搜索引擎必须提供JavaScript解析器。
页面排序是针对根据用户关键字,查询到的网页列表,采用何种策略将网页列表显示在用户面前,使用户最想知道的结果显示在最前面页数发生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),则加入收费这一方式,使排序成为搜索引擎的一大盈利模式。
2、数据存储及分布式技术
???尽管垂直搜索引擎保存的网页数量相对通用垂直搜索引擎小很多,但是,作为一个优秀的商业垂直搜索引擎,必须在提高性能的同时减低成本,提升竞争力。可以采用数据压缩的技术对数据进行压缩存储,采用数据库技术,如索引等提高数据读取速度,可以采用分布式技术,通过多台服务器相互合作,以提高数据采集和更新速度。
3、网络蜘蛛的爬行策略
网络蜘蛛(Robot或Spider)的搜索策略是指当网络蜘蛛搜索到一个文档之后,下一步应该转移到哪一个文档的方法问题。目前比较常见的搜索策略有以下几种策略:(1)IP地址搜索策略。(2)深度优先搜索策略。(3)广度优先搜索策略。(4)深度-广度结合搜索策略。
4、中文分词技术
在Web应用中,文本处理的速度往往是性能的关键,快速分词具有很大的现实意义。Web文本分词是Web信息处理的基础,如信息检索、摘要形成、网页过滤等都需要对Web文本进行分词处理。Web文本的正文主要是由英文和中文构成,由于英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中词与词之间是没有空格的,因而必须采用某种技术将其分开。
分词的方法很多,基本上分为两类:第一类是基于字符串的匹配:将汉字串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二类是基于统计的方法:从概率角度出发,单字出现在词汇中联合概率是比较大的,因此当相邻的字越常出现,则越有可能是一个词。基于上述引,对处理的材料进行分析,得到相应的单字出现的概率,然后对相邻的字出现概率进行统计,若远大于单字出现的概率之和,则可能成为一个词。实际应用中,统计分词方法都是与字典结合着来使用的,这样既发挥匹配分词的切分速度快、效率高的特点,对利用了无词典结合上下文识别生词,并能消除歧义等优点。
五、垂直搜索引擎的发展空间
“确解用户之意,切返用户之需”、“用户无法描述道他要找什么,除非让他看到想找的东西”,这是消费者(网络使用者)对搜索引擎提出的更高要求。以尽可能多的收集到与专业相关的信息为主要目标的垂直搜索引擎,比通用垂直搜索引擎在Internet上更加贴切消费者的要求。专业化的集中特定领域的垂直搜索引擎有效地弥补了综合性搜索引擎对专门领域及特定主题信息覆盖率过低的问题。市场需求的多元化,决定着搜索引擎服务的多元化;通用搜索引擎开拓市场上的成功,为垂直搜索引擎的市场战略提供了宝贵的借鉴经验,垂直搜索引擎的特点,决定着它在Internet上占有一席之地,必将成为搜索行业的一大力量。
|
|