首页 | 研究内容 | 研究项目 | 论文报告 | 语言资源 | 研究工具 | 下载中心 | English version

我们的研究主要定位于中文信息处理的核心技术探索和基础资源开发方面,希望通过长期不懈的努力,逐步建成支撑汉语文本自动分析和内容理解的语言资源和计算处理平台。近十年来,我们在其中的句法分析和词汇语义描述层面进行了深入探索,相关研究工作可以分为以下两个阶段:

第一阶段(1998--2004):句法语义描述资源开发和积累

在句法分析方面,我们提出了汉语“字/ààà段”不同层次的句法信息描述体系,在现有的200万汉字的切分和词性标注平衡语料库基础上,加工完成了不同层次的句法标注语料库。其间提出的分阶段树库构建设想和双标记集的句法树标注体系颇具新意,构建完成的100万词规模的汉语句法树库和200万字规模的语块库,达到了较大的标注规模和信息容量。同时,我们深入探索了不同层次的自动句法分析方法,特别是对“词à基本块à复杂块à小句”层面的部分分析技术进行了深入研究。以此为基础,开发了一个完整的汉语句法知识自动获取工具库,可以从大规模原始文本自动获取句法分析器所需的各种句法规则分布和词汇搭配知识,从而大大提高了其对不同领域、不同类型文本的自适应性。以上几部分内容相互配合与促进,逐步形成了比较完整的汉语句法分析计算平台。

在语义描述方面,我们提出把情境作为人脑中不同认知图式的数学模型和在概念的生成情境中定义概念与描述概念间的关系的做法,并为此提炼了一套有坚实的数学理论支持的描述工具,形成了比较完整的基于情境的词汇语义描述体系。为了把这些想法迅速付诸实践,我们开发了一个语言资源支撑平台。通过现汉、词林和知网中相同义项的交叉联结提供不同的概念描述参考,通过对知网信息的深入挖掘提取不同的概念相关词群,从而可以人机互动地逐步形成完整准确的情境描述,并给出概念的真正描述性定义词典。另一方面,通过“句法结构à语义角色”的自动联结(Link)研究,可以逐步把不同层次的语义解释信息引入目前的大规模句法树库中,从而为情境知识库开发提供更多更丰富的语言应用素材。这些研究初步形成了汉语文本内容计算平台的基本框架

第二阶段(2004-2008):句法语义分析工具和计算资源开发

以句法块分析作为切入点,建立“基本块-->功能块”的分层次句法块描述体系,准确识别句子中的基本信息描述单元和反映事件内容的不同句式结构,充分发挥这些不同层次句法块在句法语义链接分析中的重要桥梁作用,开发有效的汉语事件内容分析器。

融合现有汉语语义描述资源,开发新的词汇语义计算资源,包括:句法语义链接库、句法语义标注库、语义关联度计算模型和词汇语义计算模型等,为事件内容分析提供基础数据支撑。

探索在语义公理指导下的词汇层面的情境网络和文本层面的蕴涵知识库有效融合方法,构建新的事件关联性推理模型,使对文本的事件内容分析处理更往前推进一步。

以上研究内容之间的相关性可以通过下图很好地显示出来:





版权所有©周强 2002-2008