本文定量考察汉语常见篇章衔接标记在书面话语中的连贯用法。首先根据修辞结构理论(Rhetorical Structure Theory,RST),设立了汉语修辞关系集以及关系优选协议,按标注流程开发出汉语财经评论修辞结构树库。接着为各类衔接标记在该篇章语料库中的分布和用法设立多个特征变量,展开形式、句法、语义和语用标注。随后利用树库和标注语料,对特定衔接标记展开深入的个案分析,探讨其篇章分布与语用连贯作用之间的相关性。最后尝试利用衔接标记及其所在篇章单元的形式特征,通过机器学习方法来自动判定所在篇章单元间的修辞连贯关系,测试结果较令人满意。本文最后也讨论了对人工标注质量的理解,以及数据挖掘技术在语言学研究中的应用前景。
展开