哈工大信息检索研究室(HIT-IRLab)共享资源步骤

funson 2007-03-31

展开全文

哈工大信息检索研究室(HIT-IRLab)语言技术平台共享资源和程序步骤

一、语言技术平台相关资源和程序库说明：

全部资源介绍如表1所示：

表 1. 哈工大信息检索研究室对外共享语料库资源

Table 1. Sharing corpora of Information Retrieval Laboratory, Harbin Institute of Technology

语料库名称	规模	说明
汉英双语语料库	10万对齐双语句对	文本文件格式
同义词词林扩展版	77,343条词语	秉承《同义词词林》的编撰风格，同时采用五级编码体系
多文档自动文摘语料库	40个主题	文本文件格式，同一主题下是同一事件的不同报道
汉语依存树库	不带关系5万句，带关系1万句	LTML化，分词、词性、句法部分人工标注，可以图形化查看
问答系统问题集	6264句，已标注问题类型	LTML化，分词、词性、句法、词义、浅层语义等程序处理得到
单文档自动文摘语料库	211篇，分不同体裁	LTML化，文摘句标注，分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到

程序库中包含模块及其依赖关系如图1所示，程序库使用示例如图2所示。

原始文本

断句

词法分析

命名实体识别

依存句法分析

全文词义消歧

单文档文摘

文本分类

指代消解

浅层语义标注

图 1. LTP处理模块间的依赖关系

Figure 1. The dependency relationship between LTP modules

a. LTP Dll库C++语言调用示例

b. ltpconfig.ini配置文件格式说明 c. ltpconfig.ini示例

图 2. LTP DLL库统一接口调用方式

Figure 2. The uniform invoking interface of LTP Dll

基于TinyXML，我们编写了LTML的操作函数库，包含基本的XML操作功能和相关的各个自然语言处理模块的接口，并将LTML结构和各个处理模块连接起来。LTP目前包含的10个模块提供的都是DLL方式。

经过框架实现，现在的LTP程序库的调用比较方便，C++编程人员只需要按照图2中显示的简短的语句即可实现对既有文件的各种自然语言处理。在图2.a中main2是动态链接库唯一的接口函数，三个参数分别是输入文件地址，输出文件地址，配置文件地址。图2.b和图2.c展示了配置文件的格式和每行的含义，其中第二行开始的各行分别表示断句(split)，词法分析(irlas，分词和词性标注)，命名实体识别(ne)，依存句法分析(parser)，全文词义消歧(wsd)，自动文摘(summary)，文本分类(class)，指代消解(cr)，和浅层语义标注(srl)。第一行的”txt”表示把输入文件当成原始文本文件进行处理，”xml”表示对符合LTML标准的已经处理部分信息的xml文件进行后续处理。前者属于常见的处理方式，后者属于对LTP DLL的高级应用。高级应用可以实现人工标注和程序处理的理想结合。

LTP DLL中的9个现有模块之间是有前后依赖关系的，比如命名实体识别之前必须有词法分析的结果。全部的依赖关系如图1所示。对于”txt”的处理方式，配置文件中的9个处理模块之间依赖关系会被自动处理，用户只需要在配置文件中通过0、1设定来选择需要的处理结果。例如，如果配置文件中选取自动文摘而没有选择底层的词法分析，那么接口函数内部也会进行自动的选择先完成词法分析功能。

这种框架将模块的内部开发和外部调用完全分开。感兴趣的同仁也可以根据LTML接口规范，编写出性能更好的技术模块，替换LTP中的相应模块。比如用户可以自己编写一个符合我们命名实体标注规范和接口方式的命名实体识别DLL，然后放到对应文件夹中即可实现模块的方便替换，随后的DLL库使用方式和先前完全一样。不论是初入NLP领域的研究者还是经验丰富的研究人员，都能方便的应用这个程序库，快速跨越开发分词等基础技术的阶段，直接进入高层应用技术的研究。

二、语言技术平台资源和程序库共享步骤

特别说明：HIT-IRLab语言技术平台共享资源的完整数据只免费提供给“高校和科研院所”用于科学研究，对于独立个人或者商业公司的申请恕不免费提供。

1、HIT-IRLab将全部资源的10%样本以及相关的规范和说明文档放到主页上；
2、如果您对这些资源有兴趣，可以下载样本、规范和说明文档，决定是否需要该项资源100%的数据；
3、如果确认希望获得全部资源100%的数据，请详细填写《哈工大信息检索研究室(HIT-IRLab)共享资源和程序库协议》，并请您所在课题组的负责人直接将填好后的《协议》作为附件发邮件给刘挺老师(tliu@)，在协议中默认同意下述条款。

(1) 该资源或程序库不用于商业目的；
(2) 不将资源或程序库扩散给第三方；
(3) 在发表论文时声明“使用了哈工大信息检索研究室语言技术平台中的的某资源或者某程序模块”。

4、经确认《协议》符合规格后，HIT-IRLab共享资源联系人将在三个工作日以内把该项共享资源的全部数据通过Email寄给您，您可以免费用于研究；
5、在使用过程中，如果发现了问题，欢迎您直接到HIT-IRLab-BBS IR资源版去讨论，欢迎您批评指正，也欢迎您和我们一起丰富这些资源，加工这些资源；
6、这些资源和程序库一旦有新的版本出来，将免费给各位使用者升级。