语义网

红花绿叶园 2012-03-24

展开全文

语义网

发布时间： 2011-08-12 |

语义网是一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。它是万维网的延伸，是对未来网络的一个设想，在这样的网络中，信息都被赋予了明确的含义，机器能够自动的处理和集成网上可用的信息，供人们参考和使用。

简单地说，语义网是一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。它好比一个巨型的大脑，智能化程度极高，协调能力非常强大。在语义网上连接的每一部电脑不但能够理解词语和概念，而且还能够理解它们之间的逻辑关系，可以干人所从事的工作。它将使人类从搜索相关网页的繁重劳动中解放出来，把用户变成全能的上帝。语义网中的计算机能利用自己的智能软件，在万维网上的海量资源中找到你所需要的信息，从而将一个个现存的信息孤岛发展成一个巨大的数据库。

1 简介

2 基本特征

3 优点

4 体系结构

5 技术应用

简介

“语义网”是计算机和互联网界在描述下一阶段网络发展时所使用的术语。所谓“语义”就是文本的含义。语义网就是能够根据语义进行判断的网络，也就是一种能理解人类语言，可以使人与电脑之间的交流变得像人与人之间交流一样轻松的智能网络。通过“语义网”，可以构建一个基于网页内数据语义来进行连接的网络，从而使网络能按照用户的要求自动搜寻和检索网页，直至找到所需要的内容。

在语义网中，网络变得聪明了，似乎被置入了某些推理能力。或许将来某个时候，具备人工智能的软件代理人会替你在线处理所有繁杂的商业和个人事务。

语义网是万维网的延伸，不仅可用自然语言表现网络内容，而且这些内容还可以被软件代理人（software agent）所阅读和使用。万维网的创始人蒂姆?伯纳斯?李将网络看做一种数据、信息和知识交换的万有媒介，可以说，语义网完全符合他的这一梦想。

语义网的第二个重要元素是促进生产力。一旦计算机知道您的参数并且它在网上有一个语义描述, 它就能根据规则给你一个精确，私人化的结果。更加困难的是，您个人的爱好是一个从电脑返回的数据的过滤器: 找一个预算在3000元以下的旅行计划，如果这些都实现了，那我们可以宣布语义网时代已经到来了。

基本特征

1、语义网不同于现在WWW，它是现有WWW的扩展与延伸。

2、现有的WWW是面向文档而语义网则面向文档所表示的数据。

3、语义网将更利于计算机“理解与处理”，并将具有一定的判断、推理能力。

4、内容的可获取性，即基于Ontology而构建的语义网网页目前还很少。

5、本体的开发和演化，包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题。

6、内容的可扩展性，即有了语义网的内容以后，如何以可扩展的方式来管理它，包括如何组织、存储和查找等。

7、多语种支持。

8、本体语言的标准化。

优点

语义网最大优点就是对网络信息的“理解和处理”能力。通过加入可以被计算机“理解”的语义，从而使得对文本含义的理解并不再是人的专利，利用计算机同样也可以完成相同的工作。

例如，对于网上书店关于某本书的介绍，我们可以很容易地分辨哪一项表示的是书的题名、哪一项表示的是作者，哪些数字表示的是书的售价，哪些数字表示的是ISBN号等。但对于计算机而言，事情却远非如此简单。因为它不知道在关于此书的介绍中，哪一项是书的题名，哪一项是书的作者，甚至连该项表示的是数字还是字符串都无从知晓。语义网的主要目的之一就是要在隐藏的编码中明确指出每一项的具体含义，从而达到使计算机“理解”的目的。

“理解”只是语义网工作的第一步，更重要的是语义网可以使计算机在“理解”之后，根据已有的数据和规则进行逻辑推理和自动处理的能力。这一般是通过智能代理来完成的。智能代理是一段设计好的程序，它可以帮助人们自动完成某些工作。例如对于一个用于电子商务的购物代理，当我们把购物需求提交给代理程序以后，它会在网上自动搜索符合我们条件的商品，并比较其中的不同，根据我们设定的规则决定目标商店，在验证目标商店的真实性与可靠性之后主动提交订单。

语义网及其具有革命性的智能推理与代理技术，将在很大程度上改变现有互联网的运行模式甚至人们的生活方式。互联网上数以亿计的网页信息蕴藏着无尽的资源，它们将通过语义网释放出巨大的能量。正如提姆?伯纳斯?李所言，“完全可以想象，一旦这种技术被运用于世界上所有的数据表格，它将产生极大的社会效益。”

体系结构

第一层：Unicode和URI。Unicode是一个字符集，这个字符集中所有字符都用两个字节表示，可以表示65536个字符，基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合，并且可以同时进行检索。URI(Uniform Resource Identifier)，即统一资源定位符，用于唯一标识网络上的一个概念或资源。在语义网体系结构中，该层是整个语义网的基础，其中Unicode负责处理资源的编码，URI负责资源的标识。

第二层：XML+NS+xmlschema。 XML是一个精简的SGML，它综合了SGML的丰富功能与HTML的易用性，它允许用户在文档中加入任意的结构，而无需说明这些结构的含意。NS(Name Space)即命名空间，由URI索引确定，目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品，它本身采用XML语法，但比DTD更加灵活，提供更多的数据类型，能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制，使其成为语义网体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构，通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。

第三层：RDF+rdfschema。RDF是一种描述WWW上的信息资源的一种语言，其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势，进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题，使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话，那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇，其目的是提供词汇嵌入的机制或框架，在该框架下多种词汇可以集成在一起实现对Web资源的描述。

第四层：Ontology vocabulary。该层是在RDF(S)基础上定义的概念及其关系的抽象描述，用于描述应用领域的知识，描述各类资源及资源之间的关系，实现对词汇表的扩展。在这一层，用户不仅可以定义概念而且可以定义概念之间丰富的关系。

第五至七层：Logic、Proof、Trust。Logic负责提供公理和推理规则，而Logic一旦建立，便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证，证明其有效性。通过Proof交换以及数字签名，建立一定的信任关系，从而证明语义网输出的可靠性以及其是否符合用户的要求。

技术应用

语义网一开始就肩负着改造现有万维网的重任，它正在逐渐改变和影响我们现有的万维网。RSS、CC以及Powerset这些语义网支撑技术都让我们切实感受到了迎面扑来的语义Web之风，使我们普通用户享受到了语义网技术所带来的便捷，听到了它越来越近的脚步声。

RSS是目前最成功的以语义网支撑技术为基础的应用，是站点用来和其他站点共享内容的一种简易方式。用户只要安装RSS阅读器，它就会自动收集和组织用户定制的新闻，按照用户希望的格式、地点和时间直接传送到用户的计算机上。目前国内外大型门户网站如新浪、搜狐、网易等都支持RSS应用，标记为“XML”或“RSS”的橙色图标就是该网站支持RSS应用的记号。

知识共享(CC)版权识别是语义网技术的另一个现实应用。非营利性组织“知识共享组织”旨在为创造性作品提供灵活的著作权许可协议。2006年3月，中国大陆版CC发布。基于语义网支撑技术RDF的CC搜索引擎，能自动识别和理解作品版权信息，为用户合法使用具有不同级别的知识产权网络作品提供了极大方便，例如在线图片存储网站巴巴变(bababian.com)就已经集成了CC中国大陆版许可协议，“巴巴变”的用户可以选择知识共享中国大陆项目提供的许可协议，授权他人使用自己拥有著作权的图片作品。

刚问世就被称为“Google杀手”的Powerset，则是巴尼?佩尔（BarneyPell）追逐的一个关于自然语言搜索引擎的梦想。38岁的佩尔认为，Google只能通过关键字来搜索，不能分辨“儿童看的书”、“儿童写的书”和“关于儿童的书”之间的区别，而自然语言引擎却能够分析“功能词”，理解哪怕是最小的关键词的意思。他相信Powerset搜索引擎很快就可以推向市场，成为语义网的催化剂。

除了上述语义网技术的成功应用外，目前有希望的语义网应用研究还集中在Web服务、基于代理的分布式计算以及基于语义的数字图书馆等方面。

语义网虽然是一种更加美好的网络，但实现起来却是一项复杂浩大的工程。面对纷繁复杂的问题，人尚且难以决断，更何况计算机呢。况且，决定技术发展方向的是用户体验，而不是理论。要真正实现实用的语义网，还有很多难题亟待解决，有些暂时还看不到解决的希望。语义网的研究开发基本上还停留在实验室阶段，成熟的语义网技术商业应用产品并不多见，各大软件生产商对其应用还处于观望期。但是，随着对语义网体系结构、支撑技术和实现方法的不断突破，基于语义网支撑技术的相关应用会日趋成熟，在不久的将来，计算机一定能看懂并处理网页中的内容，伯纳斯?李所期盼的人们将更方便快捷地使用万维网发布和获取信息的理想，也一定会成为现实。

(科技日报)