对经过切分和词性标注处理的汉语句子进行不同层次的句法结构自动分析,对其中的每个分析节点给出“成分标记+关系标记”的双标记描述信息,内容覆盖句子的短语、小句、复句等各个描述层次,最终得到句子的完整句法结构树描述。基本功能描述如下:
输入:经过切分和词性标注处理的汉语句子(采用北大基本词类标记集合);
输出:句子的完整句法结构树描述(双标记体系);
资源:从TCT树库中自动获取的PCFG规则库;从其他语法词典中获取的若干特征词表信息。
下面给出一个具体分析实例:
输入句子:在/p 中华人民共和国/nS 宣告/v
成立/vN 的/u 第/m 二/m 天/qT ,/, 当时/t 担任/v 清华/nO 大学/n 教授/n 、/、 教务长/n 的/u
周老/nP ,/, 就/d 作为/p 科学界/n 的/u 代表/n 参加/v 了/u 中国/nS 人民/n 保卫/v 和平/n
委员会/n 的/u 成立/vN 大会/n ,/, 并/c 当选/v 为/vB 常务/b 理事/n 。/。
输出结果:[zj-XX [fj-ZZ [tp-DZ
[vp-ZZ [pp-JB 在/p 中华人民共和国/nS ] [vp-PO 宣告/v 成立/vN ] ] 的/u [tp-DZ
[mbar-XX 第/m 二/m ] 天/qT ] ] ,/, [fj-BL [dj-ZW [np-DZ 当时/t [np-DZ [vp-PO
[vp-PO 担任/v [np-DZ 清华/nO 大学/n ] ] [np-LH 教授/n 、/、 教务长/n ] ] 的/u 周老/nP
] ] ,/, [vp-PO [vp-ZZ 就/d [vp-ZZ [pp-JB 作为/p [np-DZ 科学界/n 的/u 代表/n ]
] [vp-AD 参加/v 了/u ] ] ] [np-DZ [dj-ZW [np-DZ 中国/nS 人民/n ] [vp-PO
保卫/v [np-DZ 和平/n 委员会/n ] ] ] 的/u [np-DZ 成立/vN 大会/n ] ] ] ] ,/, [vp-PO
[vp-XX 并/c [vp-SB 当选/v 为/vB ] ] [np-DZ 常务/b 理事/n ] ] ] ] 。/。 ]
相关研究论文:
-
周强,黄昌宁. (1999)"基于局部优先的汉语句法分析方法",《软件学报》,10(1), 1-6 (PDF)
- Qiang Zhou, Changning Huang. (1997) "A Chinese syntactic parser based on bracket matching principle", Communication of COLIPS, 7(2), #97008. (PDF)
-
Qiang Zhou. (1997) "A Statistics-Based Chinese Parser", In Proc. of the Fifth Workshop on Very Large Corpora, 4-15. (PDF)
对经过切分和词性标注处理的汉语句子进行基本块边界自动识别,并对其中的基本块给出“成分标记+关系标记”的双标记描述信息,形成线性的"基本块+功能词"的标注序列。下面给出一个具体分析实例:
输入句子:为了/p 寻求/v 民族/n 生存/v 、/、 祖国/n 振兴/v 的/u 道路/n ,/, 他/rN 曾/d 离开/v
学校/n 和/c 家庭/n ,/, 跨/v 高/a 山/n ,/, 越/v 平川/n ,/, 前往/v 广州/nS 、/、 上海/nS
和/c 长江/nS 流域/n 一带/n 考察/v ,/, 进一步/d 了解/v 到/vB 人民/n 的/u 疾苦/n 和/c 社会/n
的/u 黑暗/n ,/, 扩大/v 了/u 他/rN 的/u 眼界/n 和/c 胸襟/n ;/; 当/p 听/v 到/vB 窃国大盗/n
袁世凯/nP 改元称帝/iV 消息/n 时/n ,/, 他/rN 愤慨万千/iV ,/, 毅然/d 投笔从戎/iV ,/, 在/p
家乡/n 招募/v 100/m 多/m 名/qN 有志/vN 青年/n ,/, 竖起/v 义旗/n ,/, 举/v 戈/n 讨/v 袁/nP
,/, 他/rN 带/v 着/u 这/rN 支/qN 义军/n 投/v 到/vB 贵州/nS 熊克诚/nP 护/v 国/n 旅部/n
,/, 曾/d 任/v 连副/n 。/。
输出结果(基于规则分析器,其中关系标记为‘AM’的块为歧义保留区间):为了/p [vp-PO 寻求/v 民族/n ] [vp-SG
生存/v ] 、/、 [vp-ZX 祖国/n 振兴/v ] 的/u [np-SG 道路/n ] ,/, [np-SG 他/rN ] [dp-SG
曾/d ] [vp-SG 离开/v ] [np-SG 学校/n ] 和/c [np-SG 家庭/n ] ,/, [vp-SG 跨/v ]
[np-ZX 高/a 山/n ] ,/, [vp-PO 越/v 平川/n ] ,/, [vp-SG 前往/v ] [np-SG 广州/nS
] 、/、 [np-SG 上海/nS ] 和/c [np-AM 长江/nS 流域/n
一带/n 考察/v ] ,/, [dp-SG 进一步/d ] [vp-SB 了解/v 到/vB ] [np-SG 人民/n
] 的/u [np-SG 疾苦/n ] 和/c [np-SG 社会/n ] 的/u [np-SG 黑暗/n ] ,/, [vp-AD
扩大/v 了/u ] [np-SG 他/rN ] 的/u [np-SG 眼界/n ] 和/c [np-SG 胸襟/n ] ;/; 当/p
[vp-SB 听/v 到/vB ] [np-ZX 窃国大盗/n 袁世凯/nP ] [vp-SG 改元称帝/iV ] [np-SG
消息/n ] 时/n ,/, [np-SG 他/rN ] [vp-SG 愤慨万千/iV ] ,/, [vp-ZX 毅然/d 投笔从戎/iV
] ,/, 在/p [np-SG 家乡/n ] [vp-SG 招募/v ] [mp-ZX 100/m 多/m 名/qN ] [np-ZX
有志/vN 青年/n ] ,/, [vp-PO 竖起/v 义旗/n ] ,/, [vp-PO 举/v 戈/n ] [vp-PO 讨/v
袁/nP ] ,/, [np-SG 他/rN ] [vp-AD 带/v 着/u ] [mp-ZX 这/rN 支/qN ] [np-SG
义军/n ] [vp-SB 投/v 到/vB ] [np-ZX 贵州/nS 熊克诚/nP ] [vp-SG 护/v ] [np-ZX
国/n 旅部/n ] ,/, [dp-SG 曾/d ] [vp-PO 任/v 连副/n ] 。/。
目前,我们使用两种不同的处理方法,分别实现了以下两个各具特点的汉语基本块分析器:
从大规模标注语料库和词汇关联知识库的交互作用中自动习得融合内部词汇关联和外部语境限制约束知识的分层次、多粒度的基本块规则库。利用其中各条规则的置信度信息,有效地驱动汉语真实文本句子的多词语基本块的自动识别过程,同时完成歧义结构自动排歧。初步的实验结果表明,在约20万词的TCT新闻类训练和测试语料库上,现有分析器可以在95%以上的开放测试语料上达到90%左右的F-measure值,同时又保留了约5%的在现有知识库条件下很难判断的复杂歧义结果供后续分析器选择使用,显示出较好的处理灵活性和有效性。
通过设计关系标记集来描述基本块内部词与词之间的句法依存关系,利用统计建模对句子中的每个词进行序列关系标注,并通过有限自动机规则自动获取句子的完整基本块标注结果。实验结果表明,在与规则分析器使用的同样TCT训练和测试库上,在全部的开放测试语料上达到91%左右的F-measure值,取得了比规则分析器更好的整体分析性能。
相关研究论文:
-
周强(2008)汉语基本块规则的自动学习和扩展进化.
清华大学学报,48(1), p88-91.
-
Qiang Zhou (2008)
Automatic
rule acquisition for Chinese intra-chunk relations.
In Proc. of International Joint Conference of Natural Language
Processing (IJCNLP-2008). January 8-12, Hyderabad, India. (PDF)
-
周强(2007)基于规则的汉语基本块自动分析器.
第七届中文信息处理国际会议论文集(ICCC-2007). p137-142.(PDF)