第一章 导论
第一节 本书论题的阐释
一、选题的依据
人类进入信息化时代,语言愈益成为一种重要的信息资源和载体。有关语言信息处理的研究已成为人工智能领域和自然语言机器理解的热点议题。为了顺应时代发展和科技进步的需求,著名语言学家邢福义(2004)在学界率先倡导了“汉语复句信息工程” 的学术理念并启动相关研究。
汉语复句(compound sentence,CS)句法语义关系判定,是从中文信息处理的角度提出的论题,它是复句本体研究和应用研究的有机结合,亦是对“汉语复句信息工程”理念的一次探索性尝试。进行汉语复句句法语义关系判定研究,是中文信息处理领域“句处理”面临的攻坚任务,也是推进复句信息工程的重要内容之一,同时还有利于深化对汉语复句联结机制的认识,对汉语研究、对外汉语教学及词典编撰亦有借鉴价值。
二、术语的界定
复句,可以从不同的角度进行分类。从分句间逻辑语义关系的角度,可以分为因果、并列、转折三大类 ;从结构层次的角度,可以分为单重复句和多重复句;从分句间的间隔情况的角度,可以分为有间复句和紧缩复句;从句末语气的类型的角度,可以分为陈述型复句和非陈述型复句;从有无关系标记的角度,则可以分为有标复句和无标复句 。
本论题中“复句”主要意指“有标复句”。有标复句,是从关系标记的角度对汉语复句作出的一个子类划分。关于有标复句,可从以下三个方面进行认识。
首先,有标复句必须是复句。邢福义的《汉语复句研究》(2001年)对复句的界定主要包括三个方面。其一,凡是复句,都包含两个或两个以上的分句,其构成表现为:分句+分句(+分句)。其二,任何一个复句,在口头上都具有“句”的特征。复句具有一个统一全句的语调,句末有一个终止性停顿。书面上,为了表明终止性停顿 ,复句也跟单句一样,句末往往用句号。有时,还由于表明语气的需要,句末用问号或感叹号。其三,复句的构成单位,从构成基础看,是小句;从构成结果看,是分句。判定一个句子是不是有标复句,首先要判定它是不是复句,而要判断它是否为复句,关键是看它是否同时满足上述三条标准。例如:
[1]a. 一个人若 排名在对手之后,便觉得是一种耻辱。
b. 一个人若排名在对手之后,便觉得是一种耻辱;一个人若败在对方手下,便朝夕想报仇雪耻。(古龙《多情剑客无情剑》)
例[1]a符合以上三条标准,因此它是复句;例[1]b的画线部分尽管跟例[1]a很相似,但它不符合第二条标准,缺乏一个句末终止性停顿,即语段形式“一个人若排名在对手之后,便觉得是一种耻辱”在书面上是分号停顿而不是句号停顿,因此不是复句,只是构成复句的一部分(即一个层次结构)。
其次,有标复句必须有分句中出现关系标记,用来标示本复句中分句间的逻辑语义关系。有时,即使复句中出现了关系标记,但如果不是用来标明所在复句分句间的逻辑语义关系,那么这个复句也不能算是有标复句。例如:
[2]a. ①美国经济尚未彻底复苏,②并且还面临一些大公司的假账丑闻的困扰,③因而无暇顾及拉美。(《人民日报》2002-08-02)
b. ①美国经济尚未彻底复苏,②面临一些大公司的假账丑闻的困扰,③无暇顾及拉美。
[3]a. ①并且由于中方绝大多数情况下资金实力不足,②又有沉重的老企业人员、债务负担,③扩大生产规模力不从心。(《人民日报》2001-02-05)
b. ①并且中方绝大多数情况下资金实力不足,②有沉重的老企业人员、债务负担,③扩大生产规模力不从心。
上面两组例句,例[2]a中分别出现关系词语“并且”“因而”,“并且”标示分句②和分句①之间是递进关系,“因而”标示分句③与分句①、分句②之间是因果关系,故例[2]a是有标复句。例[2]b中每个分句都没有关系词语,因而它不是有标复句。
例[3]a中分别出现关系词语“由于”“又”,“又”标示分句②和分句①之间是并列关系,“由于”标示分句①和分句②、分句③之间是因果关系,故例[3]a是有标复句。例[3]b中只有分句①的句首出现了关系词语“并且”,但此处“并且”用作篇章关系标记,不能标示所在复句分句间的语义关系,故例[3]b也是无标复句 。
概括以上几点,我们认为,有标复句是指分句中出现关系标记并且关系标记是标明分句间语义关系的复句。
*后,根据关系标记与分句数目的多少,有标复句还可以进一步划分为充盈态有标复句和非充盈态有标复句。
所谓充盈态,是指在一定分句数目的复句里,各分句中关系标记隐现形式能够显式地标示复句各层次的语义关系,具有这样关系标记隐现形式的复句就是充盈态有标复句。例如:
[4]①蔡崇用自己做饵钓朱猛那条大鱼的做法虽然冒险,②可是只要朱猛还活着,③他这一辈子就休想有一天好日子过。(古龙《英雄无泪》)
[5]①如果要把被你笑死的那些人都运来给你看,②就算用五百辆八个轮子的大板车去运,③*少也得运三天三夜。(古龙《七星龙王》)
[6]①荆无命自然不愿让你看破他剑法出手的部位,②所以只要他们一想到这一点,③就必定会立刻回来。(古龙《多情剑客无情剑》)
[7]①这声音虽然比马蹄声轻得多,②但却是李寻欢正在期待着的声音,③所以这声音无论多么轻微,④他也绝不会错过。(古龙《多情剑客无情剑》)
例[4]~例[7]是充盈态有标复句。例[4]中有四个关系标记:虽然、可是、只要、就。“虽然-可是”“只要-就”分别构成搭配关系,“只要-就”标示分句②和分句③形成一个层次,具有条件关系;“虽然-可是”标示句首分句①与分句②、分句③形成高一层次,具有让转关系。例[5]有三个关系标记:如果、就算、也。“就算-也”构成搭配关系,标示所在的分句②和分句③形成一个层次,具有让转关系;然后再与句首分句①形成高一层次,“如果”标示它们之间具有假设关系。例[6]中有三个关系标记:所以、只要、就。“只要-就”构成搭配关系,标示分句②和分句③形成一个层次,具有条件关系;“所以”标示句首分句①与分句②、分句③结合为高一层次,具有因果关系。例[7]中有六个关系标记—虽然、但、却、所以、无论、也,并且分句②中“但却”形成同类连用,分句③“所以-无论”形成异类连用。它们的层次结构是:分句③异类连用中的后标记“无论”与分句④中的“也”构成搭配,标示分句③和分句④形成*低层次,具有让转关系;而分句③异类连用中的前标记“所以”标示分句③、分句④与分句②形成高一层次,具有因果关系;*后分句①中“虽然”与分句②中“但却”构成搭配,标示分句①和后面的分句间形成*高层次,具有让转关系 。
所谓非充盈态,指在一定分句数目的复句里,各分句中关系标记隐现形式不足以显式地标示复句各层次的语义关系,必须借助分句间的语义关联度 来进行,具有这样关系标记隐现形式的复句就是非充盈态有标复句。
请看下面一组关于复句格式“虽然 ,但是 , ”的例子。
[8]①那王怜花虽非君子,②但也绝非朱姑娘所说的那般人物,③这其中必有什么误会。(古龙《武林外史》)
[9]①这时她虽仍不时要打寒颤,②但四脚俱已注满真力,③全身上下俱在严密的戒备状况之中。(古龙《武林外史》)
[10]①我虽然和她在一个帐篷里,②但那罪却真不好受,③她好像恨不得一口咬断我的脖子似的。(古龙《武林外史》)
它们的层次关系分析,如图1-1所示。
图1-1 例[8]~例[10]层次关系分析
图1-1表明,虽然有标复句具有相同隐现形式的关系标记,但是其层次关系可以截然不同,可见复句格式“虽然 ,但是 , ”是一种潜在歧义格式 ,其复句实例的层次关系不能单纯依靠关系标记来确定,需要结合具体的句义来分析和理解。也就是说,出现在例[8]~例[10]中的关系标记还不能显式地标明分句间的层次结构和语义关系,因而它们是非充盈态有标复句。
至此,从关系标记有无的角度,可以将复句分为有标、无标两大类;再根据关系标记对有标复句层次关系标示能力的大小,又可将有标复句进一步划分为充盈态有标复句、非充盈态有标复句两类 ,如图1-2所示。
图1-2 基于关系标记的复句分类
本书将有标复句进一步划分为充盈态有标复句和非充盈态有标复句,是二分法在“复句”下位概念分类中的一种新尝试。这种分类有助于将外延广大、纷繁芜杂而又丰富多样的复句现象进行细致而深刻的分析,也有助于我们搞清楚到底哪些有标复句能够让计算机准确识别和理解,这类复句在关系标记与复句句法层构间有什么特点(规则),以及如何利用这些语言学的特点规则来判定复句的句法语义关系。因而,关于复句关系标记充盈态、非充盈态的思路,本书将贯穿于三句式、四句式复句句法语义研究之中。后文相关章节将详细论述。
第二节 本书的研究背景
中文信息处理领域在实现了字、词处理后,迫切需要解决“句处理”的问题。因为计算机真正要实现自然语言的处理与理解,必须解决“句处理”这一关键性难题。根据陆俭明的观点,所谓句处理,就是怎样让计算机处理、理解自然语言中一个句子的意义,怎样让计算机生成一个符合自然语言规则的句子 。为实现“句处理”的目标,需要计算机和语言学领域专家、学者的联合攻关,这愈来愈成为学界共识。
事实上,中文信息处理领域的有关研究一直对单句的自动句法分析关注较多,而对复句的句法分析则关注得很不够,有关复句的信息处理研究目前还很薄弱。但是,汉语复句是连接小句与篇章的中间桥梁,其数量在语言表达和使用上远比单句多,因而汉语复句理应成为“句处理”战略目标实施的重要试验战场。从这个角度来说,以复句的应用研究为突破口,开展复句信息工程是满足这一要求的重要途径,而复句层次关系的自动识别作为复句信息工程的重要内容之一,也是实施“句处理”战略目标的题中之义。
从机器理解的角度研究汉语复句层次关系的识别,既需要语言学领域复句研究成果的支撑,也需要关注复句应用研究在计算语言学领域的发展态势。
一、语言学界的研究
汉语复句作为重要的语法实体单位,历来就受到语言研究者的青睐。20世纪80年代以来,现代汉语复句研究成果丰硕,特别是出现了复句研究的代表性专著:王维贤的《现代汉语复句新解》(1994年)和邢福义的《汉语复句研究》(2001年)。近半个世纪来复句研究成果可概括为如下四方面。
(一)单句与复句的划界问题
吕叔湘在《汉语语法分析问题》中指出:“单句复句的划分是讲汉语语法叫人挠头的问题之一。” 研究复句层次关系,首先涉及的一个问题就是单复句的划界问题。学界对于单复句的区分众说纷纭,评判的标准也不一:如王力的《中国现代语法》(1943年)和吕叔湘的《中国文法要略》(1956年)以语音停顿为标准;黎锦熙、刘世儒的《汉语语法教材》(1957年)以逻辑意义为标准;高名凯的《汉语语法论》(1948年)和黄伯荣、廖序东的《现代汉语》(2017年)以结构为标准。孙良明则呼吁取消单复句的划分,他认为汉语单复句的划分是因袭西方语言学而来的,印欧语中动词存在定式、不定式的区别,短语和句子、子句的结构不同、功能各异,它们的区别很明显:有子句、分句的是复句,反之是单句。汉语无词形变化,动词没有定式与不定式之分,因此也就没有短语、分句、子句的区别,这样也就没有单复句之分了;并且他还指出学界已有的成分划分法、高一层次法、复合命题法、共同成分有无法、谓读多少法、硬性规定法、主谓复杂说、界限不清无害说等单复句划分标注都不能区分清楚汉语单句、复句之间的差别 。邢福义对单复句之间的纠结现象进行了计量研究,通过对中学语文课本中的八篇文章进行统计后指出纠结现象“超过典型单句和典型复句的平均数”,纠结
展开