首页 | 研究内容 | 研究项目 | 论文报告 | 语言资源 | 研究工具 | 下载中心  English version
语言资源:

1.  句法信息标注语料库:人工标注

  • 句法树库TCT (Tsinghua Chinese Treebank)

    内容简介

        在TCT的开发过程中,我们确定了以下基本处理原则:1)选择大规模的包含文学、学术、新闻、应用四大体裁的平衡语料文本作为加工对象,以期尽可能多地覆盖汉语的各种语言现象;2)确定比较自然的书面语文本的断句方法(一般情况下,以句号、问号、感叹号等显性标记作为断句依据。),以期尽可能忠实地反映汉语句子组织信息的本来面目;3)采用完整的层次结构树描述框架,并设计双标记集的描述体系,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,分别描述其外部功能分布和内部组合特点,以期尽可能详细地描述汉语句子的句法组合信息。

        目前加工完成的TCTv1.0的标注规模为100万汉语词, 约5万个汉语句子。其中不同文体语料所占比例(按词项数计算)分别为:文学47.3%、学术26.3%、新闻20.0%和应用6.4%

    标注规范汉语句子的句法树标注规范 (PDF)

    标注实例:两个具体的标注文件:新闻类文学类

    相关论文

    1. 周强 (2004) , 汉语句法树库标注体系,《中文信息学报》,18(4), 1-8  (PDF)
    2. 周强,任海波, 孙茂松 (2002) “分阶段构建汉语树库”, In Proc. of The Second China-Japan Natural Language Processing Joint Research Promotion Conference, p189-197. (PDF)

    基金资助:本资源开发获得国家自然科学基金(项目编号:69903007、60173185)、国家973基础研究基金(项目编号:1998030507)和国家高科技研究开发计划(863计划)(课题编号:2001AA114040)资助。

 

  • 功能语块标注库FCB  (Functional Chunk Bank)

    内容简介

        功能语块标注的目的是显示句子的小句层面上的基本结构骨架。主要处理语块包括主语、述语、宾语、定语、状语和补语等,其他次要语块包括独立成分语块、语气词语块等。定语虽然也是一个句子成分,但它一般只出现在主、宾语等其他语块内部,因此在小句层面的语块切分中不单独予以标注。

        功能语块标注的基本原则是:1) 穷尽性——在完成语块标注的句子中,任何一个词都必须无遗漏地进入某个语块。2)线性——在完成语块标注的句子中,全部语块将形成一个线性序列。也就是说,不论一个语块内部是否包含更深层的结构或子语块,都不再对其内部进行标注。

        另外,在标注过程中,还增加了对句子中的所有并列结构的分析和标注处理,为自动识别不同层次的并列结果打下了基础。

        目前加工完成的FCBv1.0的标注规模为200万汉语字, 经过人工标注和校对,达到了较高的标注质量。其中不同文体语料所占比例分别为:文学44.6%、学术19.6%、新闻29.5%和应用6.3%

    标注规范

    1. 汉语句子的功能语块标注规范 (PDF)

    2. 汉语句子的并列结构标注规范(PDF)

    标注实例:两个具体的标注文件:新闻类文学类

    相关论文

    1. Qiang Zhou, Elliott France Drabek, Fuji Ren (2002) "Annotating the functional chunks in Chinese sentences", In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC2002), Las Palmas de Gran Canaria, Spain. 731-738
    2.   (PDF)
    3. 周强,任海波,詹卫东 (2001). "构建大规模汉语语块库",黄昌宁,张普主编《自然语言理解与机器翻译》,清华大学出版社,102-107
    4.   (PDF)

    基金资助:本资源开发获得国家自然科学基金(项目编号:69903007、60173185)和国家973基础研究基金(项目编号:1998030507)资助。

     

2.  句法信息标注库:自动提取

  • 基本块 标注库BCB  (Base Chunk Bank):V1.0 

    汉语基本块主要描述句子中直接相邻的、以名词、动词、形容词等实词为中心聚合形成具有特定语义内容的词语序列。它们一般由1-3个词语组成,通过不同的外部句法表现和内部词汇关系形成各自特殊的概念内容描述体,成为汉语的字、词进入组块成句过程的基础和出发点。

    在描述体系方面,经历了从只考虑成分标记的基本短语标注体系,到考虑外部成分标记和内部关系标记相融合的多词块描述体系的发展过程,逐步形成了比较完整的基本块内容描述体系。在此基础上,研究开发了有效的基本块信息自动提取工具,可以从汉语句法树库TCT中自动提取所有基本块标注句子。总规模达到了100万汉语词,覆盖文学、新闻、学术和应用4大类体裁文本,可以为不同体裁、不同领域的基本块分析器开发提供训练和测试数据。

 

标注实例:新闻类标注文件 hyl0003, hyl0004

 

相关技术报告和研究论文:

  1. 周强(2007)汉语基本块描述体系. 中文信息学报,21(3)p21-27

  2. 周强 (2002) 汉语基本短语标注规范,清华大学计算机系智能技术与系统国家重点实验室技术资料 (PDF)

  3. 周强(2007)基于规则的汉语基本块自动分析器. 第七届中文信息处理国际会议论文集(ICCC-2007). p137-142.(PDF)

  4. 张昱琪,周强 (2002) "汉语基本短语的自动识别. 中文信息学报,16(6), p1-8

基金资助:本资源开发获得国家自然科学基金(项目编号:60573185、60520130299)资助。

  • 功能块标注库FCB  (Functional Chunk Bank):V1.0 

   功能块描述了句子的基本骨架,是联系句法形式和语义内容的重要桥梁。通过对功能块组成的句式结构中各个体词块与核心谓词块之间的句法语义关系的深入分析,可以形成对句法反映的事件内容的完整理解。在具体应用过程中,又可以选择确定不同的描述层次和信息粒度:

  1. 单层次功能块描述:对每个小句,只描述第一层次的主、谓、宾、状、补等功能块。其优点是描述简单,便于进行分析建模;缺点是忽略了一些复杂的主、宾、状语从句中的更深层次的句式(construction)描述信息,不能为后续的事件语义分析提供完整的块分析信息;

  2. 多层次功能块描述:设计分层次的功能块描述体系,对句子中不同层次的功能块组合句式给出完整描述。其优点是描述细致全面,可以为后续语义分析提供完整的事件块描述信息;缺点是处理复杂,对自动分析算法提出了更高的要求;

  利用TCT中提供的完整句法树描述信息,我们设计了有效的功能块自动提取算法,可以根据不同的应用需求,针对同一个TCT标注句子,分别提取形成单层次或多层次的功能块标注信息,据此可以研究开发不同层次的功能块分析器。

标注实例:

  1. 单层次功能块标注(类似上面的经人工标注形成的功能语块标注结果):新闻类标注文件 hyl0003, hyl0004

  2. 多层次功能块标注:新闻类标注文件 hyl0003, hyl0004

 

相关技术报告和研究论文:

  1. 陈亿, 周强, 宇航 (2008) 自动构建分层次的汉语功能块描述库. 中文信息学报, 22(3), 24-31.

基金资助:本资源开发获得国家自然科学基金(项目编号:60573185、60520130299)和国家高科技研究开发计划(863计划)(课题编号:2007AA01Z173)资助。

3.  词汇语义知识库

  • 句法依存描述库: V1.0

主要描述了汉语中任意两个实义词在真实文本句子中可能形成的各种句法依存关系组合。目前主要定义了以下8种句法依存关系:1)定中关系(DZ)2)状中关系(ZZ)3)述宾关系(PO)4)述补关系(SB)5)主谓关系(ZW)6)并列关系(LH)7)连谓关系(LW)8)介宾关系(JB)。涉及到的词语的词类标记主要有以下几类:1)名词(N)2)动词(V)3)形容词(A)4)副词(D)5)助动词(M)6)介词(P)7)量词(Q)8)其他(O)

主要数据来源是以下几个语言资源库:1)语义关联网(SN)2)汉语句法树库(TCT)3)语义骨架标注语料库(SKT)4)北大语法信息词典(BD)。将以上不同来源的词汇关联对数据进行汇总,我们共得到约96万个句法依存描述对,它们形成了进行句法语义链接处理和相关词汇语义计算的基础数据。

目前正在研究利用文本自动块分析技术,从大规模真实文本中自动获取大量可靠的句法依存对的处理方法,希望能快速扩充这个知识库的信息容量。

描述实例说明文件:(doc)

基金资助:本资源开发获得国家自然科学基金(项目编号:60573185、60520130299)和国家高科技研究开发计划(863计划)(课题编号:2007AA01Z173)资助。

  • 句法语义链接库(Syntax-Semantics Linking Bank, SSL): V1.0

    标注目标是通过在句法依存对上标注目标动词的义项描述和关联词语的语义角色描述,在词汇对层面上建立句法依存关系和事件语义描述的内在联系。在此基础上,可以进一步将从同一个句子中提取出的句法语义链接信息汇总映射到真实文本的TCT标注语义上,从而方便地构建出完整的句法语义标注语料库。

   具体方法是:首先选择某类重点关注的事件情境内容,融合现有语义词典描述资源,开发初步的事件情境描述网络;然后提取这些事件情境覆盖的典型目标动词,从句法依存库中检索得到与目标动词反映的情境描述密切相关的句法依存关系对,包括:定中、述宾、主谓和以介词短语作状语的状中关系等;最后人工标注其中目标动词的事件义项和关联词语的参量锚定和语义角色信息,形成完整的句法语义链接知识库。

   在现阶段,我们选择了汉语中表示拥有关系和存在状态及其变化转移的典型动词,使用以上方法构建了一个句法语义链接库Ver1.0。在目标动词义项描述方面,选择了以下几个语义描述资源:1)情境知识库;2)知网;3)同义词词林;4)现代汉语词典;5)现代汉语通用字典;6)清华语义知识库,通过人工标注建立了同一目标动词义项在不同知识库中描述信息的内在联系。目前的基本数据规模如下:目标动词总数约2000个,标注的词汇关联对数目为82000多对。有关具体内容可参阅后面的标注规范说明。

相关技术报告和研究论文:

  1. 周强(2007) 汉语句法语义链接知识库的信息标注规范(ver2.2), 清华大学计算机系智能技术与系统国家重点实验室技术资料 (PDF)

  2. 周强(2007) 汉语句法语义链接知识库开发. 第八届汉语词汇语义学研讨会(CLSW-2007). 香港. 2007.5.(PDF)

基金资助:本资源开发获得国家自然科学基金(项目编号:60573185)和国家高科技研究开发计划(863计划)(课题编号:2007AA01Z173)资助。

  • 句法语义标注库(Syntactically and Semantically Annotated Corpus, SSAC): V1.0

    标注目标是选择真实文本中反映某个特定事件情境内容的目标动词,确定其在句子中反映的不同语义词典的相应义项描述内容,获得相应的事件描述框架,并进一步确定句子中该目标动词控制的其他事件描述体的句法和语义标注信息,形成对真实文本中反映的该事件内容的完整描述。

   具体方法是:以句法树库TCT和句法语义链接库SSL数据为基础,针对某个特定事件描述的目标动词,从TCT标注句子中获取该目标动词控制的基本句式(小句或复杂名词短语),从SSL中获取这个句式结构中的若干词汇关联对和相关句法语义信息标注,在句法依存信息基础上对两者进行自动匹配,最终融合形成完整的句法语义信息标注句子。

   在现阶段,通过将上面构建的句法语义链接库SSL v1.0与汉语句法树库TCT v1.0的相关内容进行自动匹配融合,我们得到了一个句法语义标注库SSAC Ver1.0。目前的数据规模为约25000个标注句子,覆盖约1800个存在或拥有类描述动词。具体标注实例可参阅所附的实例说明文件。

描述实例说明文件:(doc)

基金资助:本资源开发获得国家自然科学基金(项目编号:60573185)和国家高科技研究开发计划(863计划)(课题编号:2007AA01Z173)资助。

4.  词汇语义计算资源(开发中...)

  • 词汇语义关联度计算模型

   融合现有语义资源,包括知网、词林和清华知识库中提供的不同层次的语义关系描述和句法依存描述库中提供的丰富词汇句法依存关系,自动构建词汇语义关系计算网络;利用基于随机行走的图计算模型,获取从图中每个节点出发的可能路径的概率分布向量,自动计算形成不同词语之间的语义相关度数值。该计算模型可以为基于文本内容的句法结构分析、词语义项排歧和语义角色标注等研究提供基础数据支撑。

  • 词汇语义本体计算模型

   以句法语义链接库作为基础数据,整合来自不同语义词典的目标动词事件意义描述和来自标注语料库的关联词语句法语义分布信息,自动构建新的事件内容描述词汇语义本体(LSO),利用不同语义词典的义项描述相似度和不同关联词语分布向量相似度计算值,计算不同事件LSO之间的意义相关性,组合形成不同层次的事件LSO关联模型,为进一步进行事件关联性推理提供知识支撑。

 

 


版权所有©周强 2002-2008