咨询热线
0898-08980898
网站首页
关于我们
公司动态
产品展示
解决方案
工程案例
产品优势
售后服务
人才招聘
客户留言
联系我们
咨询热线
0898-08980898
地址:海南省海口市
传真:0000-0123-5678

产品展示

当前位置: 首页 > 产品展示

陆前 刘海涛 人类真实语言为什么不会无限中心递归 

发布时间:2026-02-12 02:01:10

  递归在人们探索人类语言本质的过程中一直备受关注。语言学中的递归研究源于语法研究。尽管对于递归的概念还存在争议, 但多数学者认为递归结构是指句子中属于同一句法范畴的成分因嵌套而产生的一种形式结构(Chomsky和Miller 1963;Karlsson 2007;Martins和Fitch 2014), 例如“[那条[赶走了[咬了[浇花的]大爷的]猫的]狗不见了。]”包含二层中心递归, 而“[[[[小明的]叔叔的]邻居的]房子盖起来了。]”“[This is the cat [that chased the rat [that ate the malt [that lay in the house.]]]]”则含有三层左或右递归。相对于左右递归, 中心递归更难理解, 但对语言研究具有特殊意义: 它可以检验语法的类型归属, 是区分上下文无关语法和有限状态语法的依据。生成语法认为句子中句法规则的复用构成了一种递归过程, 这似乎进一步表明人脑中应存在特定的“语言计算系统”(Hauser等 2002)。此外, 一部分动物实验研究还指出递归为人类所特有(Marcus 2006), 以至于一些学者认为狭义的语言官能(faculty of language)仅包含递归计算机制(Hauser等 2002)。然而, 在人类真实语言中, 多层递归现象非常罕见。根据Karlsson(2007)和丁彧藻、 陈保亚(2022, 2023)的调查研究, 多种语言的中心递归一般不超过三层, 即使其他类型的递归也存在层数上限。既然递归是语言的本质属性, 人类语言为什么不会无限递归?更进一步讲, 人类真实语言中为什么几乎不存在三层以上的中心递归结构?

  当前对“语言不会无限中心递归”的解释是, 记忆机制限制了递归的层数(Miller和Chomsky 1963;Frazier 1985;Gibson 1998)。这一说法认为, 中心递归结构的理解难度与记忆之间可能存在联系, 连续中心递归的出现将导致记忆负荷过高, 即句子结构复杂度如果不断增加, 最终将超过人类能理解的限度。陆丙甫(1983)还指出核心转移而非内包的扩展才可无限递归, 同样认为记忆限制了多层中心递归。但是, 这些假说却无法进一步解释为什么中心递归层数存在特定的统计上限。换言之, 三层的中心递归是否代表了语言理解难度的极限?此外, 递归研究还要面对的另一大难题是语料问题。研究者通常以人造句或少量真实句子来分析递归结构的形式特点或理解难度(Chomsky 1963;Karlsson 2007; 丁彧藻、 陈保亚 2023), 还有学者考察不同词类带来的语义干扰对多层中心递归结构的影响(Hudson 1996)。但是, 建立在少数句子上的研究难以发掘句长与中心递归结构之间的关系, 特别是无法回答随句长增加, 不同层数的递归行为究竟是如何影响句子复杂度的。

  鉴于以上分析, 我们认为要更令人信服地解释“语言为什么不能无限中心递归”的关键在于找到计量句法结构认知难度的方法, 并以此来分析不同句长和层数的递归结构。句法结构认知难度在一定程度上反映了语言理解难度, 也可称为句法复杂度。长久以来, 语言理解难度的研究主要着眼于语言单位的长度或频率信息(方昱、 刘海涛 2021), 大多没能根据句法理论建立合适的量化句法复杂度的指标, 即使早期出现了一些基于短语结构语法的方法, 也仅能用来解释部分结构的复杂度。例如Yngve(1960)的深度假说、 Miller和Chomsky(1963:480)的终极节点与非终极节点比例测量法, 二者缺点在于计算方法不具有普适性, 很难说明多层中心递归结构的复杂度高于一般的句子结构。不过, 深度假说启发研究者进一步从认知角度探讨句法复杂度问题。目前, 关于句法复杂度的认知量化指标主要分为两类: 基于有限工作记忆限制的指标与基于经验预测的指标(方昱、 刘海涛 2021)。从依存语法理论发展出来的依存距离(Dependency Distance, DD)属于前者, 它能够反映人类的工作记忆在处理两个词之间的句法联结时的认知负荷(Liu 2008), 并已被广泛用来解决一些棘手的语言问题, 如分析语体差异(刘海涛 2022), 探讨语法系统的经济性(Liu 2008;Futrell等 2015; 刘海涛 2022)等。本文将用依存距离计算中心递归结构的句法复杂度。

  至于语言中多层中心递归出现频数少、 语料难收集这一问题, 依存语法的形式化方法可以为我们提供解决思路。已有研究利用形式化理论, 探究了依存结构投影性、 依存关系交叉和组块化等句法结构现象对语言系统的影响(刘海涛 2022:103-123)。这些研究表明, 在依存句法树或句法图的抽象模型上构建依存关系联结, 能够揭示出真实语言的句法结构特征, 并有助于发现句子的层次结构和线性语序等方面的规律。

  综上, 本研究将在界定与递归相关的概念基础上, 基于依存语法概括出中心递归结构的句法结构模式, 并推导出可供计算机模拟的形式模型。这一模型具有两个用途: 一是用来统计依存树库中中心递归结构的出现频率, 以验证中心递归在真实语言中实际的存在状况; 二是用来生成不同句长、 不同中心递归层数的依存结构, 以考察递归行为对句子复杂度的影响。最后, 我们将从计算认知角度讨论“真实语言为什么不会无限中心递归”的问题。

  当前语言研究领域对“递归”的界定存在一定争议。这不仅是因为关于递归的原始数学定义较为晦涩, 还和Hauser等(2002)发表在《科学》(Science)杂志上的论文对“递归”这一概念的定义模糊不清有关, 甚至有学者认为该文三位作者中Hauser和Fitch对“递归”的认识完全不同于另一位合作者Chomsky(Lobina 2014)。Chomsky是最早将“递归”概念引入到语言学中的学者(Tomalin 2006), 他对句法递归过程的论述非常接近“递归”的原始内涵, 只是所阐述的对象发生了变化而已。回溯Gödel(1965[1931]:14-15)的最初定义可以发现, “递归”是作为一种定义函数的方法而存在的, 递归定义(或归纳定义)能够揭示一个函数是否是由一些极简单的函数派生而来, 从而凭此判断它的可计算性(Soare 1996); 而Chomsky用“递归”来隐喻能够生成一种语言中所有句子的系统背后的机制, 该系统由产生式(句法规则)构成, 操作的对象是语法单位, 其突出特征是能够用简单有限的规则推导出近乎无限的句子(Chomsky和Miller 1963:284)。也就是说, Chomsky认为递归能够驱使句法对象在一定的初始条件和归纳条件下产生无限的实例, 同时能保持这些实例的可计算性或可推导性。可见, Chomsky引入递归的用意是为了构建生成语法的理论基础。此外, Post关于产生式系统以及一般递归函数生成递归可枚举集的思想, 也启发了Chomsky生成语法中的一些概念(Tomalin 2006:61, 64, 169-170)。Chomsky借用了数理逻辑中的“递归”概念来定义句法递归过程, 他在文章中的观点也证明了这一点(Chomsky和Miller 1963:290-291)。我们还可以从Chomsky后期提出的最简方案中找到更多的证据(Chomsky 1995)。他提出的“合并”(merge)操作是一种可以递归构建句法对象的方法, 并且采用了归纳(递归)定义来描述“合并”。可以认为Chomsky的部分用意是想把以往令人困惑的关于递归机制的抽象假设变成现实中可操作的具体方法。这就说明Chomsky一直持有类似于数理逻辑中“递归”的概念。因此, 语言具有的“有限手段的无限运用”性质就能用递归加以阐释, 而递归也成为生成语法的理论出发点。需要注意的是, 从形式上看, 合并构建句子层级结构的方式与用依存关系建立句法结构的方式是相同的, 因此Ninio(2014)认为在这一点上最简方案与依存语法没有区别。

  然而随着时间的推移, “递归”这一概念的语义却发生了变化, 这导致了语言学研究中对“递归”理解的混乱状况。现有的“递归”概念大致可分为三类: 第一类是描述某种行为过程, 或对一类过程的定义; 第二类是对某种形式结构的描述; 第三类则是混淆了前面的两类情况, 也就是将递归结构和递归过程都认为是“递归”的性质。上述第一类“递归”概念源自于逻辑学中的原始定义; 第二类概念在计算机科学领域中较为常见, 也就是将“递归”一词用于指称某类数据结构, 用来描述一个对象或类, 该对象或类由相同数据结构的更小或更简单的实例组成(Rodgers和Black 2004); 第三类概念是将行为和结果混为一谈, 并且认为递归过程和递归结构之间具有因果关系, 例如Martins和Fitch(2014)的观点就是如此。实际上, 由Tomalin(2006)和Lobina(2014)等人的研究可知, 递归的本质是“自指”(self-reference), 而递归过程和递归结构之间未必存在因果关系。换言之, 一个递归过程不一定产生在形式上嵌套的递归结构, 例如在程序设计中函数的递归调用可以得到非递归结构; 而递归结构也不一定是经由递归过程生成的, 例如分形几何图形的确可以用递归算法绘制, 但是研究表明所有的递归算法都可以转化为非递归算法(Liu和Stoller 1999)。

  综上, 我们认为, 已有的“递归”研究多探究递归结构, 其结论并不能说明递归结构背后真实存在一个递归过程; 而生成语法的语言生成模型借鉴了Gödel和Post等数理逻辑学家的思想, 使递归生成机制成为其理论假设的基础。Chomsky(1975[1955])曾经引入“递归规则”的概念, 但该术语进一步加重了递归概念的混乱。实际上, 在早期生成语法框架下, 所谓的递归规则是一种特殊的产生式规则(Lobina 2014), 虽能导出递归结构, 但并不等同于递归机制。到最简方案时期, 合并操作按递归方法来定义, 合并也可以看作是递归机制的表征。本文严格区分递归过程和递归结构, 认为人脑中的递归机制仍然仅是一种假设, 即使存在, 递归过程与递归结构之间是否存在对应关系仍有待验证, 但是真实语言中多层中心递归结构数量极少的原因, 则需要进一步探究。

  语言学领域在定义递归时, 一般会用“嵌套”(embedding或nesting)来描述由特定的产生式规则生成的多个结构之间所存在的包含关系。在生成语法中, “嵌套”是指一个句子或短语包含在另一个句子或短语中的过程或组构方式, 是一种有别于并列关系的句法主从关系(克里斯特尔 2000)。在多数情况下,Chomsky和Miller(1963)将嵌套与中心递归(或称自嵌套)相关联, 来强调该结构的独特性, 用以与“左递归”和“右递归”相区别。本文研究的是三类递归中最有争议的中心递归或自嵌套。

  此外, 还要注意中心嵌套(center-embedding或center-nesting)和自嵌套的概念也存在差异。中心嵌套是指结构之间具有包含关系, 而自嵌套属于中心嵌套, 并且是由类型完全相同的结构发生的嵌套(Chomsky和Miller 1963:286, 290)。例如, 两个关系从句、 两个if从句、 两个名词性短语的嵌入是自嵌套(Karlsson 2007)。Hudson(1996)认为一些学者所谓的中心嵌套实际应该是自嵌套, 例如多个宾语从句的嵌套, 他还指出有学者(克里斯特尔 2000)也将不同类型从句的嵌套视作自嵌套, 即认为中心嵌套和自嵌套是同义的。其实, 当转换观察视角, 原本不是自嵌套的结构也可能转变为同一类型结构的自嵌套, 例如关系从句嵌入到名词性从句并不属于自嵌套, 但是在从句范畴, 不同类型从句的嵌入就属于自嵌套。

  总而言之, 不仅递归概念存在混淆, 而且中心递归(自嵌套)概念也具有一定的主观性, 可能会随范畴界定的改变而发生变化。如果不做上述概念的梳理, 那么将很难把握递归结构与递归过程之间的关系, 也就不能理解Chomsky所说的“递归计算机制”与句法层次结构之间的关系。本研究从多个从句嵌套形成的自嵌套(中心递归)结构出发, 所提出的方法也适用于分析不同类型从句或结构形成的与中心递归相似的嵌套结构。

  本研究借助依存距离这一指标计算中心递归结构的认知难度。本节将介绍本研究使用的依存分析框架, 然后以此分析中心递归结构的依存联结特点, 进而提出相关的模拟和检索方法。同时, 我们还将简要介绍统计中心递归比例所用到的语料库情况。

  本研究对中心递归的依存分析建立在依存语法理论之上。学者们已提炼出该语法体系应该遵循的一些基本原则(Hudson 1984;Μelcˇuk1988 ; 刘海涛 2009), 并由此规定了依存句法树和依存关系应具有的属性(刘海涛 2022:3-8)。上述成果可用于形式化描写句子的依存结构。

  在依存语法中, 句子由词之间的依存句法关系联结而成, 它对应的句法结构树应具有四个性质, 即单支配词、 单根、 连通性和投影性(Hudson 1984;Μelcˇuk1988 ; 刘海涛 2009)。树中的依存关系需遵循以下要求: 1)依存关系是词与词之间的二元关系; 2)依存关系是一种非对称关系, 两个词一个为支配词, 另一个为从属词; 3)依存关系的类型能够被显性地标示出来。根据上述规定, 句子“[The rat [the cat [the dog chased] bit] ran away.]”去除标点后的依存分析结果如图1所示。

  在图1依存树中, 节点为词, 树的根是root所指的词ran, 词间依存联结用带箭头的弧线表示, 而弧线上方标注了依存关系类型, 例如, nsubj(ran, rat)表示ran支配rat的依存关系类型是名词性主语, acl〯relcl(rat, bit)是指以bit为中心的内嵌结构是rat的关系从句修饰语。本研究的依存关系类型使用了通用依存关系(Universal Dependencies)标注方案, 详细规范参见de Marneffe等(2021)的文章。图1的句子下方为每个词对应的词类标记, 最下面的一行数值是词在句子中的位置序号。

  根据上述关于依存语法和依存关系的阐释, 我们希望构建一个一般性的、 用以描述多层中心递归结构的依存树模型。根据Chomsky和其他学者对递归结构的形式分析(Chomsky和Miller 1963;Hudson 1996;Karlsson 2007), 可以发现, 图1中典型的中心递归结构的每层结构至少包含两个词, 例如the cat bit、 the dog chased、 the rat ran away都含两个以上的词, 而嵌套操作将外层结构分隔为两个部分, 例如the dog chased嵌入the cat bit中, 外层the cat bit被分为the cat和bit, 内层的递归结构the dog chased则通过其最上层的根(词)依存于外层的某个词, 即the dog chased的根chased从属于the cat bit中的cat, 此时沟通内外结构的依存关系的方向(cat指向chased的弧线)与外层被分隔开来的依存关系的方向(bit指向cat的弧线)相反, 从而形成多层级的依存结构。

  为了凸显与嵌套相关的依存联结, 我们可以将图1的依存树抽象简化为图2中的形式, 其中节点由具体的词改为所对应的词类。在图2中, 最外层的主句主语N1受内部嵌套结构修饰, 即N1支配第一层嵌套从句中的核心动词V2, 而第一层从句中的主语N2又受到另一内嵌结构修饰, 从而N2支配第二层嵌套从句中的核心动词V3, 也就是支配关系从最外层主句的N1一直传递进嵌套最深的结构中。以上就是理想化的中心递归依存模型, 并且相同句法范畴的多个成分形成的是连续嵌套结构。

  本文提出的中心递归依存模型简化了以下可能会产生长依存关系的三种情况。第一种情况是每层动词支配的成分位于内嵌小句或结构的前面, 例如图2中V2仅支配了N2, 但还有可能支配位于N2前面的其他词; 第二种情况是嵌套结构前面存在关系代词或从句连词; 第三种情况是发生非连续的中心递归, 可以假设图2中每层结构还存在其他的词, N1只与N2V2层的其他词发生依存关系, 那么N1V1就不能与N3V3形成连续嵌套二层的中心递归, 而是形成了两个非连续的中心递归或嵌套, 例如“[The rat [that Mary saw through the telescope [that the cat [the dog chased] bit]] ran away.]”包含了两个非连续的中心递归。总之, 当发生上述三种情况时, 句子将产生更多的长依存关系, 导致理解难度大于简化后的中心递归依存模型。换言之, 如果本文的模型揭示出嵌套三层以上的中心递归句超过了理解极限, 那么上面三种情况下的句子也将难以理解。图2中的依存关系反向联结就可描述相反语序的中心递归句。

  根据上述中心递归结构的依存模型, 可以得到相应的模拟算法, 具体如下: 1)给定嵌套层数后, 生成如图2所示的基础中心递归结构。句长不应小于特定嵌套层数所需要的最短句长。2)根据句长要求, 扩展第一步得到的基础中心递归结构的长度。所用方法是通过不断随机选出待扩展的节点, 再将节点扩为多节点结构。上述节点扩展方式不会改变嵌套结构之间原有的依存方向, 即原有的语序。3)每个被扩展的节点通过相关算法(Liu 2008)生成不允许发生依存关系交叉的依存结构, 使得最后得到的依存树不违反投影性质。

  另外, 依据这一递归依存模型, 还可以得到检索中心递归结构的方法, 主要包括三个步骤: 1)判断依存树中是否存在类似中心递归的依存联结模式, 如图2所示, 或与此图依存方向相反的结构; 2)判断特定的依存关系(结构内依存)是否具有相同的类型, 如图2中的两个依存关系nsubj(V1, N1)和nsubj(V2, N2); 3)在上面两步基础上, 计算中心递归结构的层数。在第二步中, 我们只检验了发生嵌套的依存关系类型是否相同, 并未要求联结嵌套结构的依存关系(结构间依存)属相同类型, 如图2中的acl〯relcl(N1, V2)和acl〯relcl(N2, V3)。同时, 我们也未要求词语对应的词类完全相同, 如N1和N2。因为根据递归结构的定义, 我们只需验证同一句法范畴的成分之间发生中心嵌套即可。实际上, 合并操作也能揭示图2中存在的递归结构。以图2的第一层中心递归为例, 该结构可以表示为如下的推导结果: V1={V1, {N1, {N1, {V2, {N2, V2}}}, V1}}, 其中V1和V2支配的依存关系都是nsubj, 而N1对应的是acl〯relcl。从上述合并结果来看, 结构中发生了相同依存关系(nsubj)的嵌套。

  以上模拟和检索中心递归结构的方法, 不仅适用于由多个从句嵌套而形成的自嵌套(中心递归)结构, 还适用于非从句的语法结构单位的嵌套。

  依存距离指的是一个句子中构成依存关系的支配词与从属词之间的线性距离(Hudson 1995; 刘海涛 2022:8-9), 反映了人类句法加工处理过程中的认知难度。依存距离越大, 句法复杂度越高, 反之亦然。

  根据定义, 图1中rat和ran之间的依存距离为它们的位置差值, 即9-2=7。由于支配词和从属词的位置差值存在正负两种情况, 因此当计算句子中所有依存距离之和时, 需要取绝对值, 以避免正负值抵消。但是, 依存距离之和会受到句长的影响, 因此Liu(2008)提出用平均依存距离(Mean Dependency Distance, MDD)来衡量不同句子的句法复杂度差异, 计算公式为:

  其中,n为句长,ddi为句子中具有依存关系的两个词之间的依存距离。根据(1)中的公式, 图1中句子的MDD=(1+7+6+1+4+3+1+1+1)/9=25/9=2.78。(1)中的公式也可以推广到计算一个文本或一种语言的MDD。

  研究表明, MDD、 句法复杂度与工作记忆三者之间可能存在一定的联系。Liu(2008)认为MDD与工作记忆中保存词语的平均数量呈正相关, 推测人类有限的工作记忆容量会影响句子中未发生依存联结的词的数量。因此, 在句法加工过程中, 处理依存关系的认知负荷要求MDD尽量小于某个值。Liu(2008)接着统计了20种语言的依存树库, 发现所有语言的MDD都在1.798至3.662之间, 均小于Cowan(2001)提出的工作记忆容量为4的这一数值。客观地来看, 如果是有限的工作记忆容量造成了句法处理困难, 那么记忆容量的大小就可作为衡量句子MDD上限的参考值。

  然而实际上, 对于依存距离引发的处理困难, 还有学者认为可能是受记忆衰减和记忆干扰等其他因素的影响(Gibson 1998;Liu等 2017;Lu和Wen 2022)。Liu等(2017)对此进行了详细讨论, 并指出一些语言利用某些手段减轻了长依存距离诱发的记忆衰减, 例如上下文熟悉度、 频率、 配价概率、 位置显著性、 组块化等; 至于记忆干扰的说法, 则可以解释为介入词的干扰, 而语言中的一些现象可能就是为排除或削减记忆干扰所采取的策略, 如德语中常见的格标记, 又如避免介入词与从属词以及支配词过于相似, 等等。简单地说, 为了减少记忆负担, 人类语言中依存距离在总体上趋向最小化, 即使对数量较少的长依存关系, 语言也可以发展出一些语法模式和规则以适应工作记忆的约束。因此, 我们认为依存距离的大小可以衡量记忆负担, 能够反映出句法处理难度, 而句子的MDD则反映了句子的句法复杂度。但是, 究竟是哪种记忆因素真正决定了依存距离的大小, 还需认知科学与语言学等领域的相关研究进一步验证。相比一些心理实验研究成本高昂, 或涉及伦理问题, 或结果难以复制, 近些年兴起的计算认知科学, 大量运用数学、 信息论和计算机等技术和方法, 研究句法加工与人类认知之间的关系, 弥补了实验研究的不足(方昱、 刘海涛 2021)。

  综上, MDD具有易于操作、 可重复测量和以句法理论驱动等特点, 本文将其作为测量句法复杂度的指标, 以揭示中心递归结构迫于记忆压力所能嵌套的层数。至于下文4.2节用来对照分析的MDD阈值, 则综合考虑了两种情况: 第一, 根据有限工作记忆容量与句法难度相关的假设, 以Cowan(2001)的记忆容量4作为句法复杂度上限参考值; 第二, 根据依存距离因记忆约束而倾向最小化的假设, 以及英语句子MDD呈正向偏态分布的趋势(刘海涛 2022:169), 统计语料库中不同句长句子的MDD均值和最大值, 以此作为句法复杂度的典型参考值和上限参考值。

  本研究选取语言数据联盟(Linguistic Data Consortium)的英语依存树库(MWE-Aware English Dependency Corpus)作为分析和对比的树库(Kato等 2017)。未选取更多语言依存树库的原因是, 希望先初步用一种语言验证计算模拟方法的有效性, 以后再考察更多的语言; 再则, 一些语言中递归结构的实际标注方式需要进一步核实。此外, 当前关于递归的研究多用英语句子作为例子, 采用英语依存树便于将本研究的结果更充分地与前人研究进行对比。

  根据上文的模拟方法和树库的句长分布情况, 我们构建了7个嵌套层数分别为一至七的中心递归句集, 该句集具有以下特点: 1)由于模拟方法是根据句长和嵌套层数来生成相应的句子, 因此嵌套一层的中心递归句的最小长度为4, 而且每增加一层嵌套, 最小句长相差为2, 可见, 嵌套层数为一至七的句子所对应的最小句长分别为4、 6、 8、 10、 12、 14和16, 而最大句长都为50; 2)当嵌套层数为七时, 句子长度最小为16, 接近树库中句子的平均长度21.3, 且此时MDD已经相当大(见后文图3), 因此本文以嵌套七层为上限; 3)不同嵌套层数句子的句长分布以树库中句子的句长分布为参考值。

  我们按上文方法查找英语依存树库中包含中心递归的句子, 统计结果显示: 由37015个句子构成的原树库中, 含一层中心递归的句子共有2072个, 所占的比例是5.60%; 中心递归二层的句子仅出现了1次, 所占的比例是0.0027%; 树库中没有嵌套三层及以上的中心递归结构。需要注意的是, 这里的数据包括了不同类型语法单位的中心递归。

  我们提取和分析了树库中含二层中心递归的句子和一个一层中心递归的句子, 并分别用斜体和下划线标记了发生嵌套的词语对, 其中单下划线表示最上层的词语, 双下划线表示嵌套一层的词语, 下划粗线表示嵌套二层的词语。

  这些被检索出来的句子说明, 本文提出的递归依存模型和检索方法能够准确发现中心递归结构。本文只统计中心递归发生的大致频率以及递归在实际中可能达到的层数, 并以此为基础利用计算机模拟算法考察递归层数对句法复杂度的影响, 详细分析中心递归的类型不是本文的重点。不过, 从我们检索出来的中心递归句来看, 在英语中伴随着关系从句的出现而产生中心递归的可能性较大,Karlsson(2007)的统计数据也说明了这点。

  图3中的曲线展现了英语依存树库和七个中心递归句集的MDD与句长之间的关系。图中的“一层”至“七层”表示用模拟方法得到的中心递归的嵌套层数, “英语”即前文提及的英语依存树库。

  从图3我们可以发现以下三点信息: 1)各类句集的MDD随句长增加而逐渐缓慢增加; 2)英语依存树库的MDD在各个句长上都是最小的, 并且都小于4; 3)当嵌套层数为一时, 中心递归句的MDD最为接近真实语言的典型值, 而随着嵌套层数的增多, 从纵向上看MDD逐渐增大, 尤其当嵌套层数达到或超过三时, MDD基本大于4。

  对于英语依存树库中句长为4至50的句子, 它们之中存在的最大MDD如图4所示(图中记为“最大”)。其中, 70.21%的值小于5, 并且绝大多数的值在4与6之间。图4还包含了嵌套二至四层的中心递归句的MDD, 可以发现, 在不同句长情况下, 当嵌套二层时, 中心递归句的MDD基本上都小于树库中最大MDD; 当嵌套三层时, 中心递归句的MDD接近或大于树库中最大MDD; 而当嵌套为四层时, 中心递归句的MDD大都超过了树库中最大MDD, 仅有极少数真实句子的MDD大于嵌套四层的中心递归句。

  由图3和图4中的信息, 以及上文所述的MDD、 句法复杂度与工作记忆三者关系的假设, 可得出以下推论: 在语言使用中, 三层应为连续中心递归结构被理解的上限; 而一层和二层中心递归则完全处于语言理解难度的范围之内。

  以上推论是以英语依存树库中最大MDD为参照, 具有特殊性。因为图3和图4中的数据, 除了最大MDD计算的是各句长下的最大值, 其他都是众多句子MDD的平均值。也就是说, 三层中心递归句的MDD等于或大于最大MDD, 说明有更多的这类句子的理解难度实际是超过了上限的。因此, 中心递归三层已经达到或超过了可以理解的上限。

  如果从有限工作记忆容量与MDD相关的假设出发, 以工作记忆容量4(Cowan 2001)作为考量的标准, 并参考语料库中不同句长句子的典型MDD, 那就可以进一步推论: 人类真实语言可能只允许出现三层以下的中心递归结构。

  然而图4也显示, 英语依存树库中最大MDD大都超过了4。正如3.1.3节所述, 语言中依存距离倾向最小化, 但仍存在着少量的长依存距离,Liu等(2017)认为语言系统能发展出一些语法模式和规则, 从而减弱长依存距离带来的记忆负担。换言之, 尽管这些零星的长依存关系句法处理难度很大, 但是为了在某些特殊情况下有效而精确地传递信息, 系统有必要付出较大的记忆成本来换取其他方面的省力, 如交际效果等, 同时也满足了句式或结构对表达多样性和连贯性的需求, 因此语言系统往往赋予长依存关系一些显著的特征来削减它们带来的记忆负担。基于上述视角, 并根据Chomsky和Miller(1963:293)对中心递归的定义, 可以发现中心递归的多次迭代生成的是易于推导、 规则性强的结构, 有较大可能会形成特定的语法模式来抵消记忆的负担; 但另一方面, 中心递归随着嵌套层数的增加, 内部长依存关系的数量以约两倍的速度增长(见图2), 这一趋势将导致MDD超过工作记忆能够承受的负荷。以上分析也许表明, 能持续产生多个长依存关系的中心递归, 很难固化为一种适应记忆约束的语法模式, 从而无法使自身容纳更多的嵌套层级。

  总之, 中心递归的嵌套层数可能是以3为上限。我们认为要达到嵌套三层, 需要语言提供更多有助于减少记忆负担的功能性标记或线索, 这样才能彰显三层中心递归之间的嵌套依存关系。

  在4.2节中, 我们根据结构理解难度与依存距离之间的关系, 发现中心递归句的最大嵌套层数应该小于3或等于3。这一结果呼应了之前一些学者的研究, 主要表现在以下几个方面。

  第一, 早期生成语法研究把递归过程和递归结构分别纳入语言能力和语言运用的范畴, 依赖语言直觉分析中心递归的复杂度, 认为嵌套在语法层面不受限制, 仅在使用中才涉及不可接受性(Chomsky和Miller 1963)。实际上, 当嵌套层数增多后, 人们很难快速准确地找出不同层级中词之间的依存联结, 这是因为“语言是一个人驱复杂适应系统”(Liu 2018), 其中的句法系统同时还受人类的生理和心理条件的约束, 尤其是记忆机制在句法依存关系构建过程中发挥着关键作用。也就是说, 解释句子结构形成的动因不能撇除人的因素, 否则, 形式上的无限中心递归将成为理论必然, 以至于当面对真实语言的有限递归时只好在理论上另加更多的规定。因此, 人类自身的记忆限制应该成为语言装置的重要组成部分(Lu和Wen 2022), 而不是一种与语法无关的条件。初步对比我们的研究结果可以看出, 一些文献中所提到的嵌套四层以上的中心递归句的句法复杂度超过了人的认知生理限制, 无法用于交际, 只是一种语言游戏。例如,Karlsson(2007)收集到一个中心嵌套五层的德语句子, 然而经过分析, Karlsson认为该句并不自然。

  第二, 随着句法分析技术和认知科学的发展, 一些学者开始借助句法分析和加工模型探究递归层数的可接受性。Kimball(1973)提出自然语言表层结构句法分析的七大原则, 其中第四条原则是“句法分析器不能同时解析两个以上不同句子的成分”(Kimball 1973:33)。根据上述原则, 中心递归句的最大嵌套层数应该是1, 而嵌套二层的句子将是不可接受的。然而, 基于句法加工与记忆之间的联系,Gibson(1998)提出依存局域理论(dependency locality theory)来度量句法复杂度, 认为在某些情况下, 嵌套二层仍然可被理解, 特别是将递归结构中的主语从名词换为第一人称或第二人称代词后, 句法处理难度将会降低。另一位学者Hudson(1996)发现有一类特殊的二层中心递归句, 当此类句子中主句和从句的主语名词在语义上不够清晰时, 就会导致这些名词无法在短时记忆中作为单独的概念被维持住, 因此, 假如记忆中存储了更多的主语名词, 这些词之间将产生相互干扰, 从而带来理解困难。Hudson的研究已涉及语义层面, 他揭示了语义因素(或许可解释为记忆干扰)也可影响中心递归的理解难度。从以上研究中我们不难发现, 中心递归结构中词的意义相近会给句子理解带来一定的困难, 但是, 如果抛开语义因素, 二层中心递归在句法上是可以被接受的, 我们的研究也验证了这一点。值得注意的是,Lu和Wen(2022)在短语结构语法视角下, 提出以平均瞬时块数(Mean Momentary Chunk Number, MMCN)来描述句法分析的在线处理状态, 还指出MDD与MMCN反映了工作记忆对语言结构的约束, 都可以作为结构复杂度的计量指标。但是, 当前尚无研究使用大规模语料分析MDD与MMCN的差异性, 以及对比它们对特定结构复杂度的解释力, 这些都是今后研究的重点。

  第三, 从语言理解和生成的角度来看, 认知心理实验揭示了人类中心递归实际可以达到的层数。杨彩梅(2014)通过实验研究3至10岁儿童理解和产出中心递归结构的能力, 发现4岁儿童已有理解和产出一层中心递归结构的能力, 但是7岁时才具备理解二层中心递归结构的能力, 8岁时才具备产出二层中心递归结构的能力。以上研究结果也可用我们的研究数据加以解释, 即因为一层和二层中心递归的句法复杂度基本上在人类可认知理解的范围之内, 因此都能被较早习得, 但是二层中心递归的句法复杂度较大, 并且随句长增大, 其MDD逐渐接近并超过了4(见图3), 因此习得难度将明显高于一层中心递归。不过,杨彩梅(2014)所设计的测试没有进一步考虑句长对中心递归的影响。

  我们的研究还可用来解释Miller和Isard(1964)的研究发现。这两位学者考察了成人记忆零至四层中心递归句的情况, 其研究数据显示: 嵌套为一和二层的中心递归句的测试结果非常接近; 嵌套为三和四层的测试结果也较为接近; 此外, 一些被试具有处理一层和二层递归的相同能力, 但在学习和记忆三四个关系从句嵌套的句子时都遇到了困难。我们的研究结果显示, 当句长为22时(以Miller和Isard研究中所用的句长为参照), 嵌套一和二层的句子的MDD都小于4(见图3)。小于数值4可能并不是一种巧合, 不仅Liu(2008)发现20种语言的MDD都在1.798至3.662的区间内, 而且Lu和Wen(2022)从短语结构角度也发现工作记忆容量可能是句法加工的敏感点, 认为当离散块超过4时, 听话者记忆负担急剧增大, 将迫切需要组合离散块, 从而降低结构理解难度。当然, 以上发现是否只意味着句法难度表面上与工作记忆容量相关, 而实质却是由记忆干扰或记忆衰减等因素造成的, 还需进一步验证。根据以上分析, 我们认为中心递归一二层的句子的复杂度还在人类可认知理解的范围之内, 即它们的MDD在2与5之间, 因此被试能够较为准确地回忆起相关的句子。然而, 当测试记忆中心递归三和四层的句子时, 从图4可以发现它们的MDD已处在4和6之间, 且与树库中句长为22的句子的最大MDD相近, 由此可推测被试是很难记忆这些嵌套三和四层的中心递归句。

  第四, 通过多语言语料库和文本, 调查统计递归结构在真实语言中的现状与嵌套层数。Karlsson(2007)统计了七种欧洲语言的语料和前人文献中的例句, 发现书面语中心嵌套的最大深度为3, 其中一层、 二层和三层中心嵌套关系从句的发生率分别为9.29%、 0.02%和0.0000435%。在文章中他还罗列了13个包含三层中心嵌套的句子, 都源自历代西方写作学和语文学著作, 它们大多数结构非常复杂, 其句法复杂度超过了用依存局域理论衡量句子可接受性的限度。Karlsson(2007)还统计了Brown语料库和LOB语料库, 未发现嵌套三层及以上的句子, 因此他认为现代英语中几乎不存在三层嵌套的中心递归句。丁彧藻、 陈保亚(2022, 2023)分别统计了英语学术著作、 汉语小说与学术著作中的关系从句, 发现当代学术英语中不存在二层中心嵌套的类型, 而汉语中连续嵌套和连续中心嵌套的最大层数都是二。根据他们的分析, 汉语中自嵌套关系从句的发生率明显高于标准欧洲语言。

  我们在3.2节中统计了包含37015个句子的英语依存树库, 发现含中心递归一层和二层的句子分别占总句数的5.60%和0.0027%, 不存在三层及以上的中心递归。上述数据与Karlsson(2007)的统计结果存在差异, 特别是嵌套二层的占比相差约7.4倍。这主要是因为Karlsson统计的是中心嵌套关系从句, 并不要求嵌套结构之间的依存关系具有相同的类型, 而且也不要求嵌套结构之间为连续依存, 这就导致了他得到的数值大于本研究的统计结果。丁彧藻、 陈保亚(2022, 2023)的研究与之类似。最值得注意的是, 我们的研究同样也未发现三层嵌套的中心递归。这一结果表明, 中心递归三层的结构很可能是由于受认知难度的制约, 难以被用在真实语言中。丁彧藻、 陈保亚(2023)认为, 当递归超过一层后, 不管是否为中心递归, 其使用效率开始胜过计算效率, 这影响了递归生成; 同时, 多重递归受“句尾重心”原则的制约。实际上, 所谓“句尾重心”原则主要针对支配词居前的语言, 像日语、 波斯语和朝鲜语等一些支配词居后的语言中则是动词前成分形成“先长后短”的排列模式。上述两种对立现象都可以用依存距离来解释, 即不同类型语言中动词前成分“先长后短”排列或动词后成分“先短后长”排列都使得依存距离较短(Liu等 2017)。因此, 出现“句尾重心”现象是为了减少句法复杂度。从本研究中我们可以看到, 当长度大于30时(见图4), 二层中心递归结构的MDD已经大于4, 表明即便是递归二层, 也会对句法复杂度产生巨大影响。这还可以从我们统计发现的唯一的二层中心递归的句子得到印证。该句的内嵌递归结构都位于双引号内, 因为特殊标记的使用减少了认知处理的负荷, 从而降低了句子理解难度。这可能就是该句之所以能中心递归二层的原因。特别是图4还显示, 树库中存在MDD非常大的句子, 但其中却并不包含多层中心递归句。这从另一个角度说明, “中心递归”的概念可能只是生成语法的理论衍生物。因为, 虽然一些词汇或语法手段(例如高频词或特定的句法结构模式)能降低句子的理解难度(Liu等 2017), 从而使一些复杂度较高的句子出现在真实语言中, 但是, 中心递归却未能借助于某些语法形式或手段产生更多层级的嵌套, 部分学者所说的生成递归结构的特殊神经基础(Hauser等 2002), 也没有在需要发挥作用时出力。

  以上研究表明, 依存距离反映了句法结构的认知难度, 而人类有限的工作记忆制约了中心递归的层数, 因此人类真实语言不会无限中心递归。本研究结果还反映出, 仅从形式上探讨中心递归并不足以解释此类语言现象, 尽管递归结构可以由形式语法表达和推导, 但是如果不考虑人类生理和心理对句法的约束, 我们就无法真正揭示语言中递归嵌套的规律。

  “语言为什么不会无限中心递归”这一问题自从被提出以来, 一直困扰着学界。本文根据中心递归结构的生成规律提出一种计算模拟方法, 并利用反映句法认知难度的依存距离计量指标, 揭示了中心递归句的最大嵌套层数可能应小于3, 或等于3。前者是以人类工作记忆容量为尺度, 而后者是以依存树库中最大MDD为限度。本文通过统计英语依存树库发现, 含嵌套一层和二层中心递归的句子占总句数的5.60%和0.0027%, 不存在三层及以上嵌套的中心递归结构, 这进一步验证了在真实语言中认知机制对句法结构的约束作用。本文还发现相较于三层以上中心递归结构, 树库中有些句子的MDD更大。这些MDD极大的句子利用了哪些有效手段克服认知难度的限制, 其结构特点值得深入研究。研究表明, 依存距离与工作记忆之间存在复杂的关系, 尤其是尚不清楚工作记忆以何种方式参与句法依存关系的构建, 并最终影响了语言。回答这个问题需要语言学和认知、 计算科学等多学科的协同努力。

微信二维码
地址:海南省海口市
24小时咨询热线:
0898-08980898