10 月份做了啥,以及「依存句法」超赞哦

写完了最后一门课的最后一个作业,只剩下写论文一件事了。

6 月份已经有一批同学答辩、毕业,9 月份又有一批同学答辩、毕业。我大概是 12 月初答辩咯。

年初的时候原本设想,6 月份毕业的话,接下来就可以花些时间做一些有用的小工具咯。然而并没有。

就好像先花钱才能赚钱一样,写论文也要先读论文才行。我这个人,读的论文也不算多,而且往往也不在点儿上,所以到下笔写的时候才发现自己脑子里糊里糊涂。

读了一点 1988 年 Igor Melčuk 的书「依存句法」(Dependency Syntax),回想起来应该早点读才对。这本书真是太牛了。这本书基本上是 Melčuk 到美国后发现「乔姆斯基派系」独霸句法理论的山头,写出来辱骂「从上到下层层肢解」的句法理论的。

把句子拆分成短语、再拆分成词的乔姆斯基思路,对于结构严丝合缝的句子才好用。但是在课本以外,哪儿有那么多严丝合缝的句子呢。而且越来越觉得乔姆斯基的思路受到了两个因素的禁锢:(一)美国人只懂英语,以为别的语言也能齐齐整整地塞到同样的盒子里;(二)思路很电脑化,而当时的电脑计算能力低下。

比如所谓的 Chomsky Normal Form,把句子逐级向下分析的过程中,都要不断的分成两支 —— 这极有可能是因为想象力受到了二叉树这种数据结构的限制。(当然纯属我瞎猜。另一个猜想是 Penn Treebank 之所以用圆括号标记句子结构,是因为当时的语言学家们爱用的编程语言是 LISP,而 LISP 里就一大堆括号。)

反倒是「依存句法」的思路简单很多,句子由词组成,我们只需要研究词与词之间的关系就好咯。这样就可以用简洁而优雅的结构,来灵活地反映各种句子的复杂结构了。

这可能就是最近比较重大的领悟了。

「依存句法」这种理论基本上是欧洲人在玩。乔姆斯基在美国搞各种转换生成语法,搞得叠床架屋。与此同时以布拉格一帮语言学家为首的一帮人,一直在琢磨依存句法。

依存句法在电脑界火起来是最近十几年的事。应该是从斯坦福开始,中间也有 Google 的支持。背后应该是互联网企业发现自己需要处理和检索各种语言的信息,发觉词与词依存关系的思路比较灵巧,用自上而下的架构就麻烦许多。

之前美国人写的句法教材里根本不提「依存」,大概是因为确实不知道。我记得小时候学语言学的时候,胡壮麟写的课本里也没有。

汉语搞依存句法的人也少。新加坡(忘了哪个大学)、香港城市大学好像有人在做。新疆大学做过维语依存句法的语料库(不是很大)。还有就是浙江大学的刘海涛教授咯。

网上很多人写了 blog 讲依存句法。但是很多人用的分类方法都还是至少五年前「斯坦福依存」(Stanford Dependency) 的玩法,最新的、我校牵头的 Universal Dependencies 明明都已经出来那么久了,很让人灼急啊。

Leave a comment

Your email address will not be published. Required fields are marked *