首页 | 研究内容 | 研究项目 | 论文报告 | 语言资源 | 研究工具 | 下载中心  English version

1.  汉语句法分析器

     对经过切分和词性标注处理的汉语句子进行不同层次的句法结构自动分析,对其中的每个分析节点给出“成分标记+关系标记”的双标记描述信息,内容覆盖句子的短语、小句、复句等各个描述层次,最终得到句子的完整句法结构树描述。基本功能描述如下:

输入:经过切分和词性标注处理的汉语句子(采用北大基本词类标记集合);

输出:句子的完整句法结构树描述(双标记体系);

资源:从TCT树库中自动获取的PCFG规则库;从其他语法词典中获取的若干特征词表信息。

下面给出一个具体分析实例:

输入句子:在/p 中华人民共和国/nS 宣告/v 成立/vN 的/u 第/m 二/m 天/qT ,/, 当时/t 担任/v 清华/nO 大学/n 教授/n 、/、 教务长/n 的/u 周老/nP ,/, 就/d 作为/p 科学界/n 的/u 代表/n 参加/v 了/u 中国/nS 人民/n 保卫/v 和平/n 委员会/n 的/u 成立/vN 大会/n ,/, 并/c 当选/v 为/vB 常务/b 理事/n 。/。

输出结果:[zj-XX [fj-ZZ [tp-DZ [vp-ZZ [pp-JB 在/p 中华人民共和国/nS ] [vp-PO 宣告/v 成立/vN ] ] 的/u [tp-DZ [mbar-XX 第/m 二/m ] 天/qT ] ] ,/, [fj-BL [dj-ZW [np-DZ 当时/t [np-DZ [vp-PO [vp-PO 担任/v [np-DZ 清华/nO 大学/n ] ] [np-LH 教授/n 、/、 教务长/n ] ] 的/u 周老/nP ] ] ,/, [vp-PO [vp-ZZ 就/d [vp-ZZ [pp-JB 作为/p [np-DZ 科学界/n 的/u 代表/n ] ] [vp-AD 参加/v 了/u ] ] ] [np-DZ [dj-ZW [np-DZ 中国/nS 人民/n ] [vp-PO 保卫/v [np-DZ 和平/n 委员会/n ] ] ] 的/u [np-DZ 成立/vN 大会/n ] ] ] ] ,/, [vp-PO [vp-XX 并/c [vp-SB 当选/v 为/vB ] ] [np-DZ 常务/b 理事/n ] ] ] ] 。/。 ]

相关研究论文:

  1. 周强,黄昌宁. (1999)"基于局部优先的汉语句法分析方法",《软件学报》,10(1), 1-6 (PDF)
  2. Qiang Zhou, Changning Huang. (1997) "A Chinese syntactic parser based on bracket matching principle", Communication of COLIPS, 7(2), #97008. (PDF)
  3. Qiang Zhou. (1997) "A Statistics-Based Chinese Parser", In Proc. of the Fifth Workshop on Very Large Corpora, 4-15. (PDF)

2.  汉语基本块分析器

       对经过切分和词性标注处理的汉语句子进行基本块边界自动识别,并对其中的基本块给出“成分标记+关系标记”的双标记描述信息,形成线性的"基本块+功能词"的标注序列。下面给出一个具体分析实例:

输入句子:为了/p 寻求/v 民族/n 生存/v 、/、 祖国/n 振兴/v 的/u 道路/n ,/, 他/rN 曾/d 离开/v 学校/n 和/c 家庭/n ,/, 跨/v 高/a 山/n ,/, 越/v 平川/n ,/, 前往/v 广州/nS 、/、 上海/nS 和/c 长江/nS 流域/n 一带/n 考察/v ,/, 进一步/d 了解/v 到/vB 人民/n 的/u 疾苦/n 和/c 社会/n 的/u 黑暗/n ,/, 扩大/v 了/u 他/rN 的/u 眼界/n 和/c 胸襟/n ;/; 当/p 听/v 到/vB 窃国大盗/n 袁世凯/nP 改元称帝/iV 消息/n 时/n ,/, 他/rN 愤慨万千/iV ,/, 毅然/d 投笔从戎/iV ,/, 在/p 家乡/n 招募/v 100/m 多/m 名/qN 有志/vN 青年/n ,/, 竖起/v 义旗/n ,/, 举/v 戈/n 讨/v 袁/nP ,/, 他/rN 带/v 着/u 这/rN 支/qN 义军/n 投/v 到/vB 贵州/nS 熊克诚/nP 护/v 国/n 旅部/n ,/, 曾/d 任/v 连副/n 。/。

输出结果(基于规则分析器,其中关系标记为‘AM’的块为歧义保留区间):为了/p [vp-PO 寻求/v 民族/n ] [vp-SG 生存/v ] 、/、 [vp-ZX 祖国/n 振兴/v ] 的/u [np-SG 道路/n ] ,/, [np-SG 他/rN ] [dp-SG 曾/d ] [vp-SG 离开/v ] [np-SG 学校/n ] 和/c [np-SG 家庭/n ] ,/, [vp-SG 跨/v ] [np-ZX 高/a 山/n ] ,/, [vp-PO 越/v 平川/n ] ,/, [vp-SG 前往/v ] [np-SG 广州/nS ] 、/、 [np-SG 上海/nS ] 和/c [np-AM 长江/nS 流域/n 一带/n 考察/v ] ,/, [dp-SG 进一步/d ] [vp-SB 了解/v 到/vB ] [np-SG 人民/n ] 的/u [np-SG 疾苦/n ] 和/c [np-SG 社会/n ] 的/u [np-SG 黑暗/n ] ,/, [vp-AD 扩大/v 了/u ] [np-SG 他/rN ] 的/u [np-SG 眼界/n ] 和/c [np-SG 胸襟/n ] ;/; 当/p [vp-SB 听/v 到/vB ] [np-ZX 窃国大盗/n 袁世凯/nP ] [vp-SG 改元称帝/iV ] [np-SG 消息/n ] 时/n ,/, [np-SG 他/rN ] [vp-SG 愤慨万千/iV ] ,/, [vp-ZX 毅然/d 投笔从戎/iV ] ,/, 在/p [np-SG 家乡/n ] [vp-SG 招募/v ] [mp-ZX 100/m 多/m 名/qN ] [np-ZX 有志/vN 青年/n ] ,/, [vp-PO 竖起/v 义旗/n ] ,/, [vp-PO 举/v 戈/n ] [vp-PO 讨/v 袁/nP ] ,/, [np-SG 他/rN ] [vp-AD 带/v 着/u ] [mp-ZX 这/rN 支/qN ] [np-SG 义军/n ] [vp-SB 投/v 到/vB ] [np-ZX 贵州/nS 熊克诚/nP ] [vp-SG 护/v ] [np-ZX 国/n 旅部/n ] ,/, [dp-SG 曾/d ] [vp-PO 任/v 连副/n ] 。/。

    目前,我们使用两种不同的处理方法,分别实现了以下两个各具特点的汉语基本块分析器:

  • 基于规则的基本块分析器主要特点如下:

    从大规模标注语料库和词汇关联知识库的交互作用中自动习得融合内部词汇关联和外部语境限制约束知识的分层次、多粒度的基本块规则库。利用其中各条规则的置信度信息,有效地驱动汉语真实文本句子的多词语基本块的自动识别过程,同时完成歧义结构自动排歧。初步的实验结果表明,在约20万词的TCT新闻类训练和测试语料库上,现有分析器可以在95%以上的开放测试语料上达到90%左右的F-measure值,同时又保留了约5%的在现有知识库条件下很难判断的复杂歧义结果供后续分析器选择使用,显示出较好的处理灵活性和有效性。

  • 基于统计的基本块分析器,主要特点如下:

   通过设计关系标记集来描述基本块内部词与词之间的句法依存关系,利用统计建模对句子中的每个词进行序列关系标注,并通过有限自动机规则自动获取句子的完整基本块标注结果。实验结果表明,在与规则分析器使用的同样TCT训练和测试库上,在全部的开放测试语料上达到91%左右的F-measure值,取得了比规则分析器更好的整体分析性能。

相关研究论文:

  1. 周强(2008)汉语基本块规则的自动学习和扩展进化. 清华大学学报,48(1), p88-91.

  2. Qiang Zhou (2008) Automatic rule acquisition for Chinese intra-chunk relations. In Proc. of International Joint Conference of Natural Language Processing (IJCNLP-2008). January 8-12, Hyderabad, India. (PDF)

  3. 周强(2007)基于规则的汉语基本块自动分析器. 第七届中文信息处理国际会议论文集(ICCC-2007). p137-142.(PDF)

3.  汉语功能块分析器

    对经过切分和词性标注处理的汉语句子进行功能块边界自动识别和信息标注,得到功能块标注结果。在具体研究过程中,考虑到功能块描述的不同信息粒度,我们设计了以下两个不同层次的功能块分析器:

  1. 单层次功能块分析器:只分析出小句层面的主、谓、宾、状、补和独立成分块,不处理主语、宾语和状语块中可能的复杂从句结构。利用从TCT中自动提取的20万词的新闻类文本单层次功能块标注库进行训练和测试,达到了85%左右的块层面开放测试F-measure值;

  2. 多层次功能块分析器:通过设计分层次的功能块描述体系,增加了定语和中心语块标记,可以方便地描述句子各个层面的句式结构和功能块组合序列;利用最低层次的功能块序列统计建模构建一个辅助功能块分析器,并通过该分析器的识别结果与单层次功能块分析器识别结果的融合处理,可以发现句子中绝大部分复杂从句描述结果,并组合形成不同层次的功能块描述信息。利用从TCT中自动提取的20万词的新闻类文本单层次功能块标注库进行训练和测试,辅助功能块分析器的识别性能也能达到85%左右,通过两者融合处理,对分层次功能块识别性能可以达到80%左右。

相关研究论文:

  1. 赵颖泽 (2006)  汉语功能块的自动分析研究.  清华大学计算机系硕士学位论文, 2006.12
  2. 陈亿 (2008) 双层次汉语功能块的自动分析.  清华大学计算机系硕士学位论文, 2008.6

   目前,正在探索“ 词/词类 -> 基本块 -> 功能块”的层叠式分析模型,希望通过使用可靠度较高的基本块分析结果,一方面可以在功能块识别模型中引入更多有效特征,不断提升自动分析性能;另一方面,也可以对大部分功能块,融合基本块分析器提供的块成分标记和关系标记,得到信息描述更完整的功能块分析结果。



 


版权所有©周强 2002-2008