哈工大信息检索研究室(HIT-IRLab)语言技术平台共享资源和程序步骤 一、语言技术平台相关资源和程序库说明: 全部资源介绍如表1所示: 表 1. 哈工大信息检索研究室对外共享语料库资源 Table 1. Sharing corpora of Information Retrieval Laboratory, Harbin Institute of Technology
程序库中包含模块及其依赖关系如图1所示,程序库使用示例如图2所示。 原始文本 断句 词法分析 命名实体识别 依存句法分析 全文词义消歧 单文档文摘 文本分类 指代消解 浅层语义标注 图 1. LTP处理模块间的依赖关系 Figure 1. The dependency relationship between LTP modules
图 2. LTP DLL库统一接口调用方式 Figure 2. The uniform invoking interface of LTP Dll 基于TinyXML,我们编写了LTML的操作函数库,包含基本的XML操作功能和相关的各个自然语言处理模块的接口,并将LTML结构和各个处理模块连接起来。LTP目前包含的10个模块提供的都是DLL方式。 经过框架实现,现在的LTP程序库的调用比较方便,C++编程人员只需要按照图2中显示的简短的语句即可实现对既有文件的各种自然语言处理。在图2.a中main2是动态链接库唯一的接口函数,三个参数分别是输入文件地址,输出文件地址,配置文件地址。图2.b和图2.c展示了配置文件的格式和每行的含义,其中第二行开始的各行分别表示断句(split),词法分析(irlas,分词和词性标注),命名实体识别(ne),依存句法分析(parser),全文词义消歧(wsd),自动文摘(summary),文本分类(class),指代消解(cr),和浅层语义标注(srl)。第一行的”txt”表示把输入文件当成原始文本文件进行处理,”xml”表示对符合LTML标准的已经处理部分信息的xml文件进行后续处理。前者属于常见的处理方式,后者属于对LTP DLL的高级应用。高级应用可以实现人工标注和程序处理的理想结合。 LTP DLL中的9个现有模块之间是有前后依赖关系的,比如命名实体识别之前必须有词法分析的结果。全部的依赖关系如图1所示。对于”txt”的处理方式,配置文件中的9个处理模块之间依赖关系会被自动处理,用户只需要在配置文件中通过0、1设定来选择需要的处理结果。例如,如果配置文件中选取自动文摘而没有选择底层的词法分析,那么接口函数内部也会进行自动的选择先完成词法分析功能。 这种框架将模块的内部开发和外部调用完全分开。感兴趣的同仁也可以根据LTML接口规范,编写出性能更好的技术模块,替换LTP中的相应模块。比如用户可以自己编写一个符合我们命名实体标注规范和接口方式的命名实体识别DLL,然后放到对应文件夹中即可实现模块的方便替换,随后的DLL库使用方式和先前完全一样。不论是初入NLP领域的研究者还是经验丰富的研究人员,都能方便的应用这个程序库,快速跨越开发分词等基础技术的阶段,直接进入高层应用技术的研究。 二、语言技术平台资源和程序库共享步骤 特别说明:HIT-IRLab语言技术平台共享资源的完整数据只免费提供给“高校和科研院所”用于科学研究,对于独立个人或者商业公司的申请恕不免费提供。 1、HIT-IRLab将全部资源的10%样本以及相关的规范和说明文档放到主页上; (1) 该资源或程序库不用于商业目的;
三、语料资源和程序库下载说明 2、程序库需要签署协议才能共享,效果请参见语言技术平台的在线演示。 四、讨论区 2、邮件列表 ltp-users, http://ltp./mailman/listinfo/ltp-users 五、升级 1、 2、 |
|