分享

国内中文搜索引擎比较研究 CIO俱乐部

 accesine 2005-10-19
国内中文搜索引擎比较研究
 
 
 
 
2005-1-16 19:18:26
 
   
   
 

提要:对因特网上较著名的搜索引擎站点进行了详尽分析,着重比较了中文搜索引擎的功能特点,试图为国内开发搜索引擎站点或从因特网上更好地检索信息提供初步指南。

因特网的发展也许不能用日新月异来

形容,因为它每时每刻都在发生变化。由于因特网上的信息是极其无序的,信息量越大,越难被利用。没有人对因特网上信息的有效性和有序性负责,因此如何获取和利用因特网上的信息就成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。

因特网上的信息呈几何级数增长,快速有效地查询信息是一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。但是如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上找到我们所需要的信息,也是一个需要研究和解决的课题。基于这个目的,本文对目前因特网上较有规模的中文搜索引擎作一个粗浅的比较,以期抛砖引玉,使现有的中文搜索引擎发展得更快更好。

搜索引擎概述

1.概念

本文所称的搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词全文检索、主题词检索、分类检索及其它特殊信息的检索(企业、人名、电话黄页等)。

2.分类

目前因特网上的搜索引擎很明显地可分为两大类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎,当然这两类搜索引擎的功能是互相借鉴和渗透的。

3.检索功能

除分类浏览或自由词检索外等基本功能外,是否提供各种检索功能扩展,如逻辑检索功能(支持AND、OR、NOT),其他逻辑检索功能(NEAR、PHRASE)和各种其它功能(如截词检索)等。

4.结果显示

搜索引擎总是要将检索结果返回给用户,而结果显示的好坏直接影响到搜索引擎的使用效果。因此,结果显示的内容组织,如何排序,是否提供足够的相关信息(内码、文件大小、文件日期等),对用户对检索结果的判断具有很大的影响。

5.页面组织

大多数搜索引擎本身就是WEB站点,其页面组织就如同用户的使用界面一样,组织得好与坏直接影响到用户的使用效果。页面是否能根据用户需求定制也是页面组织的一个重要内容。

6.其他功能

搜索引擎,尤其是国外的搜索引擎,为了招揽用户,在提供搜索服务之外,还提供其他相关服务。如新闻提供、免费EMAIL,自动翻译、网上聊天,常用信息(天气、旅游等)等,以其吸引更多的用户,从而获取更多的广告收益。

国外主要搜索引擎
由于历史与文化、技术、资金方面的原因,目前网络上最优秀的搜索引擎几乎都来自美国。考察这些搜索引擎不仅能让我们知道别人都做到了些什么,更主要的是能够使我们学到先进的技术和思想。同时我们对中文搜索引擎的比较也不可避免地沿用了许多国外搜索引擎的概念与方法。本章节对国外比较著名和有一定代表性的搜索引擎作一简单的介绍,以使大家能够对下一节“中文搜索引擎的比较”有更好的理解。

AltaVista
网址:http://www.altavista.

AltaVista是由DEC公司开发的因特网上一个较早也曾经是最著名的一个搜索引擎,它以巨大的库容量和极快的响应速度为用户提供强有力的网络检索服务。

AltaVista最主要的特点还是因为它继续保留着世界上最大库容量搜索引擎的荣誉,同时它的响应速度恐怕也是最快的。AltaVista支持简单和高级查询,在高级查询中,AltaVista提供了丰富的逻辑查询支持,支持常用的布尔运算符、嵌套、近似搜索等,它还提供日期限定,字段限定(如只查询URL,查询某种语言的页面,查询标题等等)等扩展功能,进一步提高用户的查准率。

AltaVista另一个相当有特色的功能是能够根据用户的检索结果,自动地生成一份关键词表,用户可以籍此选择自己所需或不需要的关键词,以此来提高查询的命中率,使用户不再对一般检索式所返回的大量检索结果感到无所适从。

特别值得一提的是,九八年五月AltaVista推出了它的中文检索服务。

HotBot
网址:http://www.

HotBot也是一个非常优秀的搜索引擎,它获得了美国《个人电脑》杂志及许多媒体的奖项。HotBot最大的特点在于它的界面组织和丰富的检索功能。它除了能够检索WEB页面之外,还提供域名检索、新闻搜索、新闻讨论组等等检索服务。

HotBot在页面上提供了直观的图形化检索菜单功能,用户可以通过简单的下拉菜单创建复杂的布尔查询,或者按日期、地理区域和媒体类型进行限制性搜索。

在结果显示时,HotBot会列出标题、摘要、相应的打分、文件大小、日期和网址,但是其结果显示不能任意进行前后跳转,这对于用户评估大的检索结果集是相当的不方便。

Yahoo
网址:http://www.yahoo.com

与前两个介绍的搜索引擎不同,Yahoo是属于另一类的搜索引擎。前两者是自由词搜索引擎(国外称之为索引搜索引擎Indexing),而Yahoo则属于分类搜索引擎(国外称之为目录服务DirectorService)。

和AltaVista与HotBot不同的是,Yahoo并不是单纯地提供所有网站网页的全文检索服务,而是将其收集到的网站及网页分门别类加以索引和文摘(由人工完成),以一个分层的线性目录来为用户提供按图索骥式的服务。相对于AltaVista与HotBot比较适合于检索较专业的查询来讲,Yahoo则比较适合于一般的查询。Yahoo不仅能在所有的分类类目中进行查询,也能根据需要在一个类目中进行查询,这样就保证了较高的查准率。Yahoo由人工索引的分类数据库也保证了库内数据质量较高,冗余信息较少的优点。如果用户的检索词在Yahoo中查询不到结果,Yahoo还会自动地将查询较交给AltaVista,由后者来为用户作进一步的检索。对于一个初涉因特网的用户来讲,Yahoo精致的分类目录也起到了极好的浏览导游作用。

当然由于Yahoo的分类库是由人工维护的,也不提供全文关键词检索服务,因此对于较为专业偏僻的查询很难提供满意的结果。

Excite
网址:http://www.

Excite虽然是与AltaVista及HotBot相似的搜索引擎,但它最有特色的恐怕就是它的概念搜索了。

Excite首先将你的检索式字词按字义进行自动扩展或加以限定,然后根据处理过的检索式再到库中进行检索,对于一般概念的检索来讲,这种方法很有帮助。并且它很提供了相似检索(MoreLikeThis)的扩展功能,使用户能根据反馈的检索结果来做进一步的查询。

但是Excite的这种技术非常复杂,对于复杂及专业的查询效果也不好,同时由于中文与英文处理的不同,这一想法值得中文搜索引擎借鉴,但却不可能照搬。

Excite较有特色的部分还有在页面上提供财经新闻等,并允许用户定制网页。

国外主要搜索引擎对照表:

中文搜索引擎比较
谈到中文搜索引擎,不能不先提一点中文搜索引擎的特点。由于语言、文化上的差异,中文搜索引擎必然会与国外的搜索引擎有所有同,如果不首先认识到中文搜索引擎的特点,就不能正确地作出比较。

中文搜索引擎的特点
内码:由于历史与政治的原因,目前两岸三地在中文语言的使用上逐渐有了较大的差别,体现在计算机处理上也有很大的不同,其中最重要的区别是采用不同的字符集及内码体系,大陆用的是GB码,而台湾则用的是BIG5码,字符集的大小也不尽相同。作为一个要涵盖网上中文信息的中文搜索引擎就不能不正视这个问题,想办法去解决这个问题,如在搜索引擎内部将其统一在一个内码体系中(如UNICODE)或者是一个大字符集中(如GBK)等。

分词:西文单词的分隔相当清晰,用空格分隔。而中文的字词则不能简单地进行分隔,因此造成传统上就有不同的处理方法。一个是完全单汉字全文检索,即将文章中的每一个汉字都做进索引,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然能够保证有很高的查全率,但却经常返回一些杂乱无章的检索结果。所以说,这是较容易造成答非所问的处理方法。除此以外的方法则是根据一定的原则和方法来对文章进行自动分词,然后按词建库,对用户的检索结果按词汇匹配来进行查询。一般来讲,这种处理方法较容易返回符合用户检索词概念意义的检索结果,但是分词技术的好坏直接影响到查全率。从目前中文搜索引擎实际情况来看,绝大多数的搜索引擎采用分词的处理方法,因为这样除了较准确之外还能提高整个系统的检索响应效率。

中文分词的另一层意义是指的是,对于用户输入的查询语句进行自动分词,然后用分解后的词汇来进行检索,这种做法降低了用户在检索式组织上的工作量,提高了查全率和查准率。由于各搜索引擎在建库时是否分词,以及如何分词,这在检索界面上很难以作出判断,因此下文中关于中文分词的讨论一般是指对于用户的检索式自动进行分词。

分类:除了专门的分类搜索引擎(如Yahoo等)之外,大量的关键词搜索引擎也采用了以分类目录进行导览的方法。这一现象在中文分类搜索引擎中更为普遍。但是由于文化的差异,中文搜索引擎分类类目具有与国外搜索引擎分类类目不同的特点。如何来更好地发挥中文文化的特色,以期来更好地做好网上中文文献的指引,这是一个值得进一步研究的问题。

2.中文搜索引擎评价

以下将按关键词搜索引擎与分类搜索引擎两大类型来介绍一些较有影响的中文搜索引擎。需要指出的是,这样的区分方法仅仅是为了介绍的方便,并不是绝对的区别。目前的搜索引擎,尤其是中文搜索引擎有互相融合的趋势,关键词搜索引擎与分类搜索引擎通常是我中有你,你中有我,国内的关键词搜索引擎大多又建有一个分类库。一般来讲,我们将由网上机器人(Spider或Robot)自动收集网页建库,而检索又以全文检索为主的搜索引擎归入关键词搜索引擎;而将主要由人工维护建库,以分类导游或分类摘要查询为主的搜索引擎归入分类搜索引擎。

本文对搜索引擎的讨论顺序不包含任何评价意义。

2.1关键词检索站点

ChinaByteCSEEK
CSEEK的检索功能非常强劲,除了国外的搜索引擎,它可能是我们评价的中文搜索引擎中检索功能最强的一个,因为它使用的搜索引擎核心是非常成熟的商用软件verity。但正因为其功能强劲且有些复杂,要充分利用到其强劲的检索功能,用户必须详细阅读其帮助页面,这对于普通用户来说有些勉为其难。CSEEK的界面虽然也算清晰明了,但在其页面上缺乏对于其检索功能的简单描述或者是一些辅助选项按钮,不能不说是一个小小的缺憾。

作为一个新兴的中文搜索引擎,CSEEK的发展速度还是相当快。在今年五月上旬,我们初次考察这一搜索引擎时,其库内网页数28万页。而当七月上旬我们再一次考察这一搜索引擎时,其库内网页数已发展为近56万页。

象大多数的关键词搜索引擎一样,CSEEK也有一个分类库供用户查询,但此库显然是疏于管理,缺乏更新,每一个子类最多为30条网页。另外其结果显示中的网页摘要由于是由其搜索引擎按一定算法自动生成,虽然说有时比单纯引用前几行文字要更具有说明意义,但有时也使人莫名其妙。

网易
网易公司以其提供的一系列服务见长,如免费主页、免费EMAIL都在国内具有一定的影响。它的搜索引擎也是颇有特色,它先将用户的检索式在自己的分类库中进行查询,如果没有检索出结果,系统将自动将提问式转向全文数据库进行检索。如果在分类库中检索出结果,用户对检索结果不满意,可以直接按检索结果页面底部的全文检索按钮,继续在全文库中进行检索,这对于一个非专业用户来说是非常实用的一种检索策略。

另外,网易的分类库也是做得相当不错(其分类类目与方法大致上与哇塞相同),这比许多带分类库的关键词搜索引擎要好。网易的功能简单、使用方便,并且提供一定的模糊检索功能,这也是非常能吸引普通用户的功能。网易的界面清晰,反应及库容量也是可以接受的。

天网中英文搜索引擎
天网是由CERNET在北京大学设立的一个较优秀的中文搜索引擎,主要以CERNET的网页信息为主。作为国内自行开发的搜索引擎,具有一定的水准。它象很多国外的优秀搜索引擎一样,系统不仅提供WWW网页的查询,同时也提供对新闻组(Newsgroup)内容的查询。

天网将用户的检索式进行自动分词,然后进行检索,这一点和下面介绍的悠游搜索引擎是一样的。同时天网还提供模糊匹配检索模式,在模糊匹配中,系统不仅检出用户表达式中的关键词,并且将其同义词也一并检出。

天网还支持通过EMAIL的检索,即用户可将检索式通过EMAIL发送检索提问式,而天网搜索引擎通过EMAIL回送检索结果。同时天网还提供对ftp.pku.edu.cn,ftp.lib.pku.edu.cn,ftp.ncic.ac.cn,ftp.igd.edu.cn等FTP服务器的FTP文件检索。

但作为位于北京大学的优秀站点,天网搜索引擎似乎经常受阻于网络交通或机器瓶颈,在正常工作时间内进行检索时,经常出现超时错误,这在一定程度上影响了它的实用性。另外也可能由于面向国际的缘故,天网的缺省主页面是英文页面,这也给国内的用户带来了小小的不便。

OMRON上海热线搜索器
OMRON上海热线搜索器使用的是与ChinaByte的CSEEK同样的搜索引擎内核Verity,因此它的总体特征与CSEEK并无二致。但作为一个主要以上海热线信息为主的实验性站点,也可以说是OMRON公司的广告站点,它的优点不会比CSEEK多,缺点却不会比CSEEK少。

悠游中文搜索
较有影响的一个搜索引擎,充分体现了两岸三地的特色。它原先由美国、北京、重庆、香港四个网站组成,最近又增添了上海网站,同时台湾的网站也已推出。悠游每一个网站充分考虑到两岸三地的特点,所以每一个网站都有GB与BIG5两种页面,并且两个页面的内容还考虑到不同用户的需求而有所不同。同时各地网站主页面还有本地新闻等其他信息。各地网站还推出不同的服务内容等等。除了关键词检索功能而外,悠游也提供了一个简单而排版清晰(类似于Yahoo风格)的分类库。

除了网页搜索以外,悠游搜索引擎还提供了网址(URL)查询功能。

另外悠游搜索引擎很有特色的一点就是它能够将用户的检索式进行自动分词,然后再进行检索。因此用户在输入检索式的时候,可以按照自己的习惯直接输入,但有时用户键入一个长的检索式的话,常会检索出一大堆检索结果。

但是悠游搜索引擎在主页上未提供任何帮助信息,对于用户来说多有不便,用户只有在进入分类检索时才能找到一个帮助链接,但其帮助信息也写得较为简单,参考价值一般,搜索引擎本身也不支持什么逻辑检索的功能。

茉莉之窗
这是我们评价的中文搜索引擎中仅有的一个香港站点。它是由香港中文大学建立的一个中文搜索引擎,收录了中国大陆与台湾两地的WWW网页,其中以台湾的网页居多一些。

但是茉莉之窗的英文界面,以及同样是英文的帮助页面对于广大的中国用户来说就显得不是很方便。另外,除了网址检索功能外,其网页检索功能也显得单一了些。

 

 

盖世搜索引擎
由台湾中正大学的吴升教授领衔开发的一个相当有影响的中文搜索引擎。盖世搜索引擎的英文主页面同时有四个链接,分别链接至它的目录服务,WWW网页的检索,BBS资料库检索与FTP检索,提供的检索服务不可谓不多,这一点和国外的搜索引擎倒是有点相象。

另外作为一个自主开发的引擎,盖世提供的检索功能也颇为方便和强劲,它的模糊匹配功能同样能将用户的检索词自动分词后再行检索。

盖世搜索引擎使用了英文的主页面,它的WWW页面检索与分类库导览页面是中文的。

在笔者撰文的时候,吴升教授又领衔开发了一个新的搜索引擎,声言此搜索引擎并不以中文为目标,而是要以支持多种语言的内核见长,直接与国外的搜索引擎竞争。有兴趣的读者可以去领略一番,其网址为:www.openfind.com.tw。

Seednet搜索引擎
Seednet搜索引擎是台湾搜索引擎中检索功能独树一帜的搜索引擎,几乎支持所有常用的逻辑检索功能外,支持中英文混合检索,支持英文的通配符等等,检索功能相当强劲。另外值得一提的是,它在检索结果显示中采用的直接跳转的技术。目前几乎所有的搜索引擎,包括国外最先进的搜索引擎,都采用在页面显示直接链接各结果显示页面的方法来显示检索结果,由于不可能在一个页面上直接显示几十个甚至上百个链接地址,因此检索结果的显示大多受限于几百条或上千条记录。而Seednet搜索引擎采用下拉式菜单的方式直接显示检索结果页面,用户可以直接跳转至任一个页面的结果显示,这对于用户评价自己的检索结果是相当有帮助的。

AltaVista中文搜索
关于AltaVista英文搜索引擎前文已介绍过了。它在今年五月,紧随Yahoo之后推出了中文搜索,不能不说其是认识到了中文搜索这一市场的重要性。由于AltaVista的实力和技术,所以它的中文搜索在库容量及响应速度令其他中文搜索引擎难以匹敌。但是也由于它的核心不是为非西文语种所准备的,所以它在推出中文搜索的时候也偷工减料不少,最主要的是不支持它的高级检索功能,不能运用其一些强劲的逻辑检索特性。另外它为了方便中文用户的使用,在中文检索的页面上做上一个光秃秃的中文输入条,而其他的提示与帮助又都是英文的,所以实际上也没给中文用户以多少方便。但是,不管它现在在支持中文搜索上还有这样那样的不足,并由于它一流的技术与硬件,我们认为它的推出是对其他中文搜索引擎极大的挑战。

2.2分类搜索引擎

搜狐
搜狐的主页也许就象它的名字,花哨而令人摸不着头脑。它的主页上提供了许多相关信息、广告等等,相对于它相当及时的新闻更新来说,它的库更新间隔就显得稍微慢了一些,同时库容量的限制也使其参考价值不大。

搜狐的分类库组织的更象一个精心组织的导航库,对于一个想在网上浏览的新手来手有一定参考价值。

在搜狐的主页上,我们同样找不到任何对检索有益的帮助信息,所以我们同样无从判断其对逻辑检索功能的支持等等。

搜狐输出结果不分页,如果用户的检索结果很长的话,那就会等来一个很长的页面,也许是搜狐一般不会返回一个很长的结果,所以这个问题也就很少成为问题了。

指南针
指南针的数据库主要以收集中国教育和科研计算机网(CERNET),ChinaNet,中国科技网(CSTNET),中国金桥网(ChinaGBN)等网络上的信息资源为主。

指南针很有特色的地方是它的多样化输入方式和多个分类体系。

指南针支持中文GB输入,中文BIG5码输入,英文翻译输入以及拼音输入,给用户在输入时提供了多样化的选择与方便。

它的分类体系有普通分类和学科分类两种,同时它还保留了它的旧版分类体系。它的学科分类在网上搜索引擎中是少有的,它将自己的分类库分成58个学科类目,供用户从学科角度来按图索骥。大大方便了相当一部分专业用户。

指南针目前第一要做的就是扩大库容,从一个区域性较强的中文搜索引擎转而成为面向整个中文网络信息的中文搜索引擎。

华好网景、四通利方、我是野虎、天涯若比邻
将上述四个搜索引擎放在一起评述,并不是因为它们有什么缘源关系,也不是因为它们有非常相似的特色,仅仅是因为相对于其他搜索引擎来讲对它们的评述较为困难。它们都是中文搜索引擎的后起之秀,水平也比较接近,没有什么突出的优点,也没有什么特别的缺点。也许是受限于人力、资金、技术等各方面的客观原因,它们的库都较小(野虎稍多一些),某种意义上讲它们更象导航站台,检索功能也比较简单,界面设计也比较一般,分类立意也没有什么特别之处。

在国外有许多小的搜索引擎,或是地区性的,或是专题性的,而国内走这条路的并不多,大家都在搞小而全,其实中文搜索引擎也可以走走这一条路,从一点出发然后逐渐走向全面,这也许是比较现实的策略。如果大家还是搞任何东西都是要上一起上的话,最后又囿于各方面条件限制,谁也不是搞的很好,长此以往对守住中文搜索引擎这个阵地并没有什么好处。

蕃薯藤中文搜索引擎、哇塞
中文搜索引擎的发展由于有一个不断积累的过程,所以因为起步较早,技术与资金条件可能也更好一些,台湾地区的中文搜索引擎尤其是分类搜索引擎明显走在国内同行的前面。

蕃薯藤与哇塞的共同特点是界面非常清晰,不象国内的分类搜索引擎那样过于繁复且尽是广告。从界面设计来看,哇塞是笔者认为所有这些经考察的中文搜索引擎中界面做得最干净的一个,清晰利落,颜色配比也颇具匠心,令用户阅读起来相当方便。哇塞另外用清晰的小图标标明“酷”和“新”的站点,也使用户感到既非常实用又体贴备至。

蕃薯藤的检索功能做得更强一些,它的通配符检索功能也使它在检索上比较方便用户。在此要指出的是,中文检索的通配符与西文检索的通配符用户不同。在西文检索中,通配符的作用是能让用户检索出包含一个词不同时态和用法的结果集。而在中文检索中,通配符可以替代任何字符,较类似于相近检索(NEAR),或者说比相近检索功能更丰富一些,因此中文检索中的通配符功能还是相当实用的。

呀虎中文搜索
关于呀虎西文搜索引擎,前文已作了介绍,这里毋庸赘述。与AltaVista搜索引擎不同的是,呀虎中文搜索引擎大体上保留了原来的特色,并且根据中文的特点作了一些改进。比如,呀虎的一大特点是它精致的分类体系,呀虎中文保留了原来的主分类,而在细目上又根据中文的特点作了改动,重新规划分类,由于目前网上中文信息不是很多,因此中文分类比原来英文分类小很多,感觉上呀虎的库容量目前还太小,但仍不失精致实用的特色。

中文呀虎与原英文呀虎的界面基本一致,也保留了原有的许多特色。这多少令众多呀虎的拥趸者感到欣慰。

由于目前网上中文信息的特点,呀虎实际上是为GB与BIG5准备了两套人马,两套服务器。因为实时更新及地区特色上的原因,在GB与BIG5库中经常会有一些小小的差别。另外,呀虎中文搜索引擎的缺省中文域名指向BIG5的服务器(chinese.yahoo.com),而GB码的服务器域名为:gbchinese.yahoo.com

这也许正是因了杨致远先生所说的:“大陆也许是最重要的市场,但就先后次序来说却是最末一个。”

2.3中文搜索引擎对照表

(以下各表中大多数“--”表示N,个别不详)

2.3.1中文搜索引擎对照总表

名字1

URL

库记录数2

主页

内码3

支持多内码4

更新间隔5

主页页面组织6

关键字搜索引擎
ChinaByte

www.

559902

GB

Y

一般

网易

www.yeah.net

大量

GB

--

天网中英文搜索引擎

Pccms.pku.edu.cn:8000

606千网页/96千新闻组文献

GB

Y

一般

OMRON上海热线搜索器

Www.omron.online.

162006

GB

--

一般

悠游中文搜索

www.

>40

GB/BIG5

Y

一般

茉莉之窗

www.jansers.org

572206

EN(GB/BIG5)

Y

一般

盖世搜索引擎

Gais.cs.ccu.edu.tw

大量

BIG5

--

一般

怪兽搜索

www.

一般

BIG5

--

一般

搜神引擎

Www.sosoon.com.tw

一般

BIG5

--

Seednet 搜索引擎

Search.seed.net.tw

一般

BIG5

--

AltaVista中文搜索

Www.altavista.

大量

EN(GB/BIG5)

Y

一般

分类搜索引擎
搜狐

Www.sohoo.com.cn

有限

GB

Y

一般

常青藤

Search.tonghua.com.cn

有限

GB/BIG5

Y

一般

指南针

Compass.net.edu.cn:8010

20万页

GB

--

一般

华好网景

Www.chinaok.com

有限

GB

Y

一般

四通利方

Www.richsurf.com/richsurf/

有限

GB

--

一般

我是野虎

Www.

一般

GB

--

一般

天涯若比邻

Www.

有限

GB

--

一般

蕃薯藤中文搜索引擎

Search.yam.org.tw

一般

BIG5

--

哇塞

Www.

一般

BIG5

--

呀虎中文搜索

Chinese.yahoo.com

大量

GB/BIG5

Y

注1:所注明的搜索引擎的名字有些是其主页上已有的,而对于未有中文名的则采用常用的约定俗成的称呼或带有注释性的名字。

注2:库记录数以其主页上自报家门的为准。而对于未自报家门者,我们也只能主观判定其多与少,因此此处的主观指标仅供参考。关于库记录数读者可参阅下面的测试检索对照表。

注3:主页内码:是指其主页文字以何种内码显示,有两种不同内码主页者将其最常用的放在前面,而对于可以接受其他内码检索式的则以括号来表示。

注4:支持多内码指其库中记录是否包含多个内码(不论其内部处理方式)的网页,即所谓是否包容两岸三地吕文网页的信息内容。

注5:更新间隔:搜索引擎以多快的频率来更新其数据库是显示其服务质量的重要指标。因其也相当难以判断,所以我们在此加上一个主观的经验指标,以供大家参考。凡是在我们的考察过程中能够经常更新的搜索引擎,我们就标识为快,而对一些不大更新的则标识为慢。需要指出的是,目前国内的中文搜索引擎普遍地比国外的搜索引擎更新间隔长得多。

注6:主页页面组织:仅仅指主页组织是否清晰明了,用户使用方便。因为这是一个主观评价的指标,仅具有一般的参考价值,所以我们只用好与一般两档指标,未作细分,仅供大家参考。

2.3.2中文搜索引擎逻辑检索功能对照表

名字

支持布尔检索 其他操作 通配符 操作符 禁用词 中文自动分词 支持二次检索 模糊检索
关键字搜索引擎

ChinaByte

AND/OR/NOT <near>/<phrase> -- */?/‘/"/<THESAURUS> -- -- -- Y(通过词典操作符)

网易

(AND/OR/NOT) -- -- &/|/!/+/- Y -- -- Y

天网中英文搜索引擎

AND/OR -- -- -- -- Y Y Y

OMRON上海热线搜索器

AND/OR/NOT <near>/<phrase> -- */?/‘/"/<THESAURUS> -- -- -- Y(通过词典操作符)

悠游中文搜索

-- -- -- -- Y Y -- --

茉莉之窗

-- -- -- -- Y -- -- --

盖世搜索引擎

(AND/OR/NOT) -- -- &/|/!/+/- Y Y -- Y

怪兽搜索

(AND/OR) -- -- -- -- -- -- --

搜神引擎

-- -- -- -- -- -- -- Y

Seednet 搜索引擎

(AND/OR/NOT) NEAR * &/+/- Y -- Y --

AltaVista中文搜索

(AND/OR/NOT) NEAR * &/+/-/!/|/~ -- -- -- --
分类搜索引擎

搜狐

-- -- -- -- -- -- -- --

常青藤

(AND/OR) -- -- -- -- -- -- --

指南针

(AND/OR/NOT) -- -- +/- Y -- -- --

华好网景

(AND/OR/NOT) -- -- -- -- -- -- --

四通利方

-- -- -- -- -- -- -- --

我是野虎

(AND/OR) -- -- -- -- -- -- --
天涯若比邻 AND/OR -- -- -- -- -- -- --

蕃薯藤中文搜索引擎

(AND/OR) -- * +/- -- -- -- Y

哇塞

(AND/OR) -- -- -- -- -- -- --
呀虎中文搜索 (AND/OR/NOT) -- -- +/-/”” -- Y -- --
注:1.支持布尔检索:指搜索引擎是否支持普通的布尔检索,即是否支持AND/OR/NOT。通常来讲,中文搜索引擎大多不直接支持使用AND/OR/NOT(我们以括号来表示),而使用+,-,|等操作符,请参看操作符一栏。

2.其他操作:指普通逻辑操作符以外的操作,通常是指相近操作NEAR,这个操作符指的是两个检索词处在同一个句子中或相隔不超过n个词(n值可以从10到100不等)。

3.通配符:指的是通用适配符(wildcard),即可以用此符号来替代检索结果匹配中的一个或多个字符,如*适配符可以替代任意多个字符,检索式”中*科*院”可以检出”中国科学院”的检索结果。通配符的另一个作用是可以将同一英文单词的不同时态、用法的词一并检出。

4.操作符:指搜索引擎在支持逻辑检索及其他操作时所使用的操作符号。通常操作符的表示含意如下:+必须包括(AND);-必须排除(NOT);&(AND);|(OR);!(NOT);““表明括号内的检索词将以短语的形式以完全匹配的方法去进行检索。

5.禁用词:为了提高检索效率,提高检索准确率,西文搜索引擎常常将一些介词、冠词等作为禁用词。仅仅用这些词来进行检索搜索引擎将不予作答。中文搜索引擎也有同样的问题,如果没有禁用词将会降低系统的效率的准确性。当然有禁用词在某些情况下也会产生一些负作用。

6.中文自动分词:前文提及中文自动分词指建库和检索式处理两个方面。此次仅指检索式处理方面。如果搜索引擎能对用户键入的没有分隔符的中文检索式能进行自动分词再检索的话,我们即认定其支持中文自动分词。对于系统没有言明其如何处理检索式的情况,本表中不作判断。

7.二次检索:指的是系统能根据用户的要求对上一次检索结果集作进一步的限定检索。

8.模糊检索:即所谓的FUZZYMATCH。模糊检索本身的概念也比较模糊,在本表中一般是指系统提供对用户的检索式进行自动分词(分不同层次,最多可分至单汉字),然后根据分出的词来进行检索,而不是以整个检索式精确匹配的方式进行检索。

2.3.3中文搜索引擎分类功能对照表

名字

是否分类

主分类数

最大分类层次

分类是否参照

分类类名是否可搜索

关键字搜索引擎

ChinaByte

Y

14

2

--

--

网易

Y

,

12

2

--

Y

天网中英文搜索引擎

--

--

--

--

--

OMRON上海热线搜索器

Y

12

2

--

--

悠游中文搜索

Y

14

3

--

--

茉莉之窗

--

--

--

--

--

盖世搜索引擎

Y

16

2

--

--

怪兽搜索

--1

--

--

--

--

搜神引擎

Y

12

2

--

--

Seednet 搜索引擎

--

--

--

--

--

AltaVista中文搜索

--

--

--

--

--

分类搜索引擎

搜狐

Y

18

Y

Y

常青藤

Y

14

3

Y

Y

指南针

Y

16/12/582

3

--

Y

华好网景

Y

15

Y

Y

四通利方

Y

10

2

--

--

我是野虎

Y

14

3

--

--

天涯若比邻

Y

14

2

--

--

蕃薯藤中文搜索引擎

Y

12

--

Y

哇塞

Y

12

3

--

--

呀虎中文搜索

Y

14

Y

Y


注1:怪兽搜索也在主页上放置了一个形似分类的分类导航表,但不能成其为严格意义上的分类,其内容也极少。

注2:指南针有三个分类体系:新的普通分类/旧版分类/学科分类。

注:分类是否参照:指一个分类类目名分在一个上级类目下,而在另一个类目下作参照。如Yahoo下以@作后缀的类目名。

2.3.4中文搜索引擎结果显示对照列表:

名字

最大检索结果限制

摘要

直接显示链接

命中排序

文件日期

文件大小

显示内码标准

关键字搜索引擎
ChinaByte

Y1000

Y

Y

Y

--

--

Y

网易

--

Y

Y

Y

Y

Y

--

天网中英文搜索引擎

--

Y

y

y

Y

y

--

OMRON上海热线搜索器

Y200

y

y

y

--

--

--

悠游中文搜索

Y2000

Y

Y

--

Y

Y

Y

茉莉之窗

Y2000

Y

Y

Y

Y

Y

Y

盖世搜索引擎

--(200)

Y

Y

Y

Y

Y

--

怪兽搜索

--(200)

Y

Y

Y

--

--

--

搜神引擎

--(150)

Y

Y

Y

抓取日期

Y

--

Seednet 搜索引擎

--(直接跳转)

Y

Y

Y

抓取日期

--

--

AltaVista中文搜索

--(200)

Y

Y

Y

Y

Y

Y

分类搜索引擎
搜狐

--

Y

Y

--

--

--

Y

常青藤

--

Y

--

--

--

--

Y(缺省GB)

指南针

--

Y

Y

Y

--

Y

--

华好网景

--

Y

--

--

--

--

Y

四通利方

--

Y

--

--

--

--

--

我是野虎

--

Y

--

--

--

--

--

天涯若比邻

--

Y

--

--

--

--

Y

蕃薯藤中文搜索引擎

--

Y

--

--

--

--

--

哇塞

Y1000

Y

--

--

--

--

--

呀虎中文搜索

--

Y

Y

Y

--

--

--


注:1.最大检索结果限制:有一些搜索引擎为提高效率,避免无用的资源消耗,会给出一个最大检索结果限制。而大多数搜索引擎并没有最大检索结果限制,但是却限制只能回送显示检索结果集中的部分记录(在本栏中以括号表示)。

2.摘要:关键字搜索引擎的摘要一般是自动生成的,如按一定的算法生成或取网页的前几行文字等。而分类搜索引擎的摘要大多是人工题写的注释性文字。

3.命中排序:一般是指结果中带权值或分值显示,或者是说明中言明检索结果按排序列出。非上述情况也不能说明检索结果不是排序输出,但难以判断,所以本表不予注明。

4.显示内码标准:指检索结果显示中是否将原网页所用的内码标准列出。

2.3.5中文搜索引擎测试检索对照表

由于大多数的搜索引擎并不自报家门,我们也难以精确地了解各个搜索引擎的实际库容量大小。为了使大家更好地了解每个搜索引擎的库容量,我们使用了一个根据常用词词频相同的方法来估计各个搜索引擎的库容量。具体来讲,就是选用大家的数据库都会用到的常用词来对每个库进行检索,根据返回的结果就可以大致估计出每个库的库容量概念。当然这种方法相当不准确,但对于估计库容量的多与少是没有问题的。由于时间有限,同时考虑到目前网络上大多数的网页是有关电脑科技或相关资料的,所以我们选用了“电脑”与“科学”两个词来进行检索测试。为便于大家比较,我们将有确切库容量数的搜索引擎也进行了测试,一并列出,以供大家参考。这里要说明的是,由于分类搜索引擎的数据库是由人工维护的,库容量自然要少,并且有很多并不提供全文检索功能,只能在分类类目及摘要库中进行检索,因此返回结果自然就少。因此在关键字搜索引擎与分类搜索引擎这两类之间不能做简单类比。

名字

记录数

“电脑”

“科学”

关键字搜索引擎

ChinaByte

559902

1000(受限)

1000(受限)

网易

--

27191

27846

天网中英文搜索引擎

606千网页/96 newsgroup文献

20000(受限)

20000

(受限)

OMRON上海热线搜索器

162006

200(受限)

200(受限)

悠游中文搜索

>40

2000(受限)

2000(受限)

茉莉之窗

572206

2000(受限)

2000(受限)

盖世搜索引擎

--

36720

18260

怪兽搜索

--

2157

887

搜神引擎

--

4606

1077

Seednet 搜索引擎

--

3661

1509

AltaVista中文搜索

--

122630

65260

分类搜索引擎

搜狐

--

1/292

12/295

常青藤

--

5/833

23/490

指南针

20万页

3604

8999

华好网景

--

无计数

无计数

四通利方

--

68

63

我是野虎

--

2007

81

天涯若比邻

--

73

81

蕃薯藤中文搜索引擎

--

2124

1279

哇塞

--

1000(受限)

1000(受限)

呀虎中文搜索

--

96/1437

59/375

注:表中受限搜索引擎有最大检索结果集限制,因我们选用的常用词返回结果超出其最大值,因此搜索引擎只能返回其允许的最大结果值。

华好网景未提供检索结果计数,本表中只能以无计数列出。

在分类搜索引擎中,搜索结果以如下格式表示:结果类目/结果站点数。

另外,需要提醒大家的是,由于关键词搜索引擎与分类搜索引擎在建库上、内容上有着本质的不同,因此对这两类的检索结果不能进行简单的数量对比,而应在它们的同类型之间进行比较。

四、总体评价与展望

无论在大陆还是在台湾,因特网的发展速度还是相当快的,从中文搜索引擎的层出不穷也可以说明这一点。应该说网络上的中文信息资源今后还会发展得更多,更快,这就给了中文搜索引擎一个很大的发展舞台。但是机遇与挑战是并存的,国外的一些搜索引擎也不会坐视这么大的一个市场而不顾,他们也一定会想尽办法来分一杯羹的。今年五月,Yahoo与AltaVista相继推出中文搜索引擎就是很好的实例。如何来抓住机遇,面对挑战,这是摆在我们面前的重要课题。

从我们评价的中文搜索引擎来看,总体上而言比中文搜索引擎比国外的搜索引擎还有相当大的差距,即使是象AltaVista这样的著名搜索引擎,它在处理其他语种的搜索上也显得有些偷工减料。(当然也许是因为杨致远先生是中国人,所以呀虎中文还比较帖合中国人的使用习惯。)相对而言,由于起步较早等原因,台湾的中文搜索引擎要比大陆的技术上成熟一些,实用效果也更好些。

中文搜索引擎与国外搜索引擎相比,主要差距在以下几个方面:

库容量
作为搜索引擎,必须要有相当多的库容量才具有一定的代表性和实用性。可以说搜索引擎可搜索的库容量大小是搜索引擎的质量标志的第一要素。从我们考察的中文搜索引擎来看,库容量在50万条记录以上即可在本表上列为“大量”级。但如果将之与AltaVista的巨大库容量相比,则差之甚远。所以说即使是目前较成功的中文搜索引擎,在这一点上也许还远未称得上成功。

当然也许是因为网上中文信息还不多,因此中文搜索引擎的库容量还不可能很大,但是从两岸三地因特网的发展情况来看,不上百万网页数据库容量的中文搜索引擎很难说具有一定的代表性。

响应
从搜索引擎的实用性来看,必须保证对用户检索表达式一定的响应速度,在这个基础上才谈得上库容量、使用的方便性等其他因素的影响。比如北大的天网搜索引擎,虽然是技术上做得不错,但因其各方面的因素而使其反应很慢,这样就难言其有很好的实用性。目前中文搜索引擎的库容量都不是很大,本身对机器硬件的要求还不是相当高,产生响应时延的一个很重要的因素是我们的信息基础设施建设做的还很不够。

就国外而言,举例说AltaVista在如此大的库容量情况下,仍能保持这么快的响应速率,令人赞叹。同时这也说明国内中文搜索引擎在硬件及技术方面的路还很长很长。

核心技术
搜索引擎是一个技术含量很高的电脑网络应用系统。它包括网络技术、数据库技术、检索技术、智能技术等等。在这一方面,由于国外的很多先进技术是建立在西文内核的基础上,所以我们还不能单纯引进照搬照抄。作为中文搜索引擎来讲,如何来发挥我们在中文处理上的长处,发展出有我们自己版权的核心技术,使我们在中文搜索引擎的竞争中占有有利地位。

在我们评价的中文搜索引擎中,CSEEK的检索功能很强劲,但它用的是引进的搜索引擎核心。而北大的天网与台湾的盖世搜索引擎在核心技术方面的表现还是相当不错的。

多样化服务
靠提供多样化服务来吸引更多的用户,以此来获取更多的广告收益,这是国外著名搜索引擎的生存之道。而在这一方面,中文搜索引擎也做得远远不够,另外一方面,有些搜索引擎本身库容量及服务不怎么样,主页上的广告倒是一大堆,长此以往,也是不利生自身生存的。

搜索引擎的发展日新月异,尤其中文搜索引擎大多尚处于起步阶段,发展余地很大,发展速度也很快。因此笔者的这篇拙作与大家见面的时候,有些内容因时效的关系可能已不太准确。同时也由于行文仓促,又缺乏必要的手段来对各个搜索引擎作一个幕前幕后深入的调查。因此本文的许多描述评价也许不太准确,值此机会热诚欢迎广大读者批评指正,尤其欢迎广大搜索引擎的网主们与笔者商榷。

建立搜索引擎站点需要很高的技术含量,大量的资金以及人力、物力的投入。本文意在抛砖引玉,促进大家来关心中文搜索引擎,用好中文搜索引擎,为中文搜索引擎的发展贡献一份力量。在此衷心希望国内的中文搜索引擎能发展得越来越快,越来越好。

(来源:上海图书馆)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多