第五节 特征和文体的相互信息

前文我们介绍了很多可以用来描述作家写作风格的特征,如句子长度、词的长度、功能词的使用习惯等等。这些写作特征是语言学家和文体研究学者根据自己长期对作家写作特点和这些因素之间的关系的考察而得到的一种经验积累,是一种文体的经验特征。人们对这种经验特征进行统计分析可以有效地判别出不同作家的文章,但是这种经验特征有一个明显的缺陷,就是带有鲜明的主观色彩。这种主观色彩反映在不同的人对这种经验特征的选择存在着研究者自己的个性,没有客观的衡量标准。而且人们无法从理论上证明这些特征就一定能够反映作家的写作特点。另外,这种经验特征的选择受到个人因素的限制,在选择范围上会有一定的局限性。即同样一种类型的特征除了这个学者罗列出来的部分以外,还有可能存在其他的一些情况。比如陈大康在研究《红楼梦》作者问题时提出了47种文言虚字的使用情况可以描述作者的文体,除了这47种文言虚字以外是否还存在和作家文体相关的虚字,这47个文言虚字在表现作家文体特征方面所发挥的作用是否一样,哪些和作家文体的关系更加紧密,哪些和作家文体的关系不太紧密,这些问题用传统的、经验的方法是不容易给出答案的。

基于以上情况,统计学家试图用统计的手段来发现与作家写作风格特征相关的因素。这些方法手段中使用比较广泛的有相互信息。其实相互信息的方法主要应用在基于内容的文本归类上,并且取得了非常好的效果。但是基于内容的文本归类和作家文体的归类虽然可以使用同样的数学模型但是其思路是相反的。基于内容的文本归类需要挖掘与文章内容相关的因素,根据这些因素将内容相同或者相近的文章归类到一起,而基于文体的作家归类需要挖掘与文章内容无关、只与作家写作特征相关的因素,然后根据这些因素的统计特征区分不同作家的作品。尽管相互信息在基于内容的文章归类和面向作家分析的文体归类上都得到了广泛的应用,但是由于国内计量文体学研究比较薄弱,所以在文体分析上使用相互信息进行作家写作风格分析研究的成果还不是很多。

2.5.1 相互信息的定义

相互信息是信息论里面的一个概念,用它可以考察衡量两个随机变量之间关系的紧密程度。对于随机变量x和随机变量y,其相互信息的定义如下:

我们从按照内容进行文档归类的角度,可以对相互信息的性质做出很好的解释。假设我们有一批文章需要按照不同的领域对其进行归类,比如这些领域有:汽车、IT、军事、医学等。通过对这些领域的文章特点研究我们发现,某一特定领域的文章中,和该领域相关而和其他领域无关的专业词汇使用会非常频繁,其他领域的专业词汇则不会出现。我们假设X为一个医学方面的专业词汇,Y表示医学类文章。P(X,Y)代表在我们考察的若干文章中,医学专业词汇X出现了的医学类(Y)文章所占的比例,P(X)代表词X出现的文章(包括医学类和非医学类)在我们考察的所有文章中所占的比例,P(Y)为医学类文章Y在我们所考察文章中占的比例。我们知道如果词X和医学没有太大关系,那么,词X可能不只是在医学类文章中出现,在其他领域的文章中也会出现。根据概率知识,这时词X在医学类文章中出现的概率,与其在其他领域的文章中所出现的概率差不多,词X和医学领域没有关系,即相互独立,那么下面的式子成立:

这种情况下,公式2.13变成:

也就是当词X和医学领域的文章没有关系时,x和y的相互信息为0。这是符合我们的主观经验的。

当词X和医学领域关系密切,即其他内容的文章中X很少使用,而在医学领域的文章中经常出现,这时P(x,y)>p(x)p(y),由公式2.13可知这时MI(x,y)>0。由于非医学文章中X很少使用,而医学类文章中却经常使用,这表明词X与医学有非常密切的关系,可以认为它是医学内容的一个表现。反之,如果一般情况下X使用比较多,而医学类文章中的使用情况并没有超出通常情况,即P(x,y)接近p(x)P(y),那么MI(x,y)接近0,由此可见,X是任何文章中都可以出现的词汇,和文章的内容关系不大。

根据以上分析我们可以得出结论,当相互信息MI(x,y)的值为零时,词X的使用情况和文章内容是相互独立的、无关的,不能够反映文章内容;当相互信息MI(x,y)的绝对值越大时,词X的使用情况和文章内容的关系越紧密。我们可以根据词汇和文章内容的这种相互信息MI值的大小来提取按内容进行文章分类的依据。由此可见相互信息为我们获取基于内容文章分类的特征提供了科学方法和武器。

根据以上论述,相互信息似乎和面向文体分析的不同作家文章的归类没有太大关系。因为作家的写作风格不可能反映在专业词汇上面。同一个作家可能写出领域和内容都不相同的文章,由于内容不同,这些文章中和内容有关的词汇可能各不相同,也就是与文章内容相互信息值很大的词汇即便是出自同一人之手的不同文章也是各不相同的,我们不能够因为MI值很大的词汇各不相同就否定这些文章是同一个人写的。由此可见与文章内容MI值很大的词汇是文章内容的反映而不是作家写作风格的反映。那么,什么样的词汇才是作家写作风格的反映呢?MI值在作家写作风格的分析上是否有用呢?

2.5.2 相互信息在作家写作风格抽取上的应用

根据上面的分析,我们知道与文章内容MI值大的词汇和文章的内容有密切关系。而同一个作家可以写出多部内容不同的作品,每一部作品中与文章内容MI值大的词汇是各不相同的。但是,同一个作家的多部作品,尽管其内容不同,但是其反映在这些作品中的写作风格应该是相同的。不同的内容可以在与文章内容相互信息(MI值)大的词汇上面体现出来,而相同的写作风格又体现在什么上面呢?

我们通常认为,文章中存在两类因素,一种是和内容有关的因素,这主要表现在词汇上面,如特定领域的专业词汇,这些词汇具有特定含义,文章内容可以说是由这些词汇的词义组合起来的。文章中的另一种因素就是作家的写作风格因素,这种因素和内容无关。一般地讲,无论作品的数量有多少、内容多么不一样,只要是同一作家的作品,其写作风格总是一致的。这种风格应该主要反映在与文章内容无关的词汇以及与文章内容无关的其他因素上面。这些因素如何挖掘出来是进行计量文体学研究的关键课题。

这里我们探讨一下与文章内容无关的词汇与作家作品之间的相互信息(MI值)有没有特点。如果能够找到特点,那么以相互信息(MI值)为依据找出来的这些词汇是不是与内容无关的词汇,能不能够将其作为作家文体风格特征呢?

词汇和作家作品之间相互信息的计算

之所以使用“词汇和作家作品之间的相互信息”,是因为根据上文我们知道,按照公式2.13计算的相互信息可以描述词汇和作品内容之间的关系,但是尚未确定如何用相互信息描述词汇和作家写作风格之间的关系。我们这里假设作家的文体风格可以用相互信息(MI值)作为依据来获得,那么怎样利用相互信息这个工具呢?根据相互信息的知识,我们知道相互信息是描述语言表达和文章之间相互关系紧密程度的。相互信息(MI值)越大就说明这个语言表达和文章内容越紧密,和其他文章内容的关系不大。反过来,相互信息越小,说明这个语言表达和文章内容关系不大。那么,这些和文章相互信息(MI值)很小、和文章内容关系不大的语言表达是否和作家的文体风格相关呢?如果能够证明这一点,那么我们就可以利用相互信息来获取作家或者作品的文体特征了。下面我们来说明这个问题。

现有作家A和其他作家的作品共N篇,单词WORD的出现情况如下:

X11表示作家A的作品中出现单词WORD的篇数

X10表示其他作家的作品中出现单词WORD的篇数

X01表示作家A的作品中没有出现单词WORD的篇数

X00表示其他作家作品中没有出现单词WORD的篇数

根据公式2.13和上表内容我们可以求得:

P(WORD,作家A)=X11/N

P(WORD)=(X11+X10)/N

P(作家A作品)=(X11+X01)/N

那么作家A的写作特点和单词WORD的相互信息MI可以有如下式子计算得到:

作家用字和作家作品之间相互信息分析

根据上述单词和作家写作特点相互信息的计算方法,我们以沈从文散文为例,考察作家用字与作家作品之间相互信息的特点,从而探讨如何以相互信息为依据提取代表作家写作特点的词汇并将其作为判别作家写作风格的特征向量的问题。为了简便起见,这里我们主要计算比词小的单位——汉字和作家作品之间的相互信息。

我们选取了沈从文的《炉边》《凤凰观景山》《往事》《玫瑰与九妹》《生之记录》《我的小学教育》《湘西常德的船》《湘西白河流域几个码头》《湘西辰溪的煤》《湘西常德的船》《湘西泸溪浦市箱子岩》《湘西沅陵的人》《夜渔》《湘西沅水上游几个县份》《在私塾》等15篇散文。按照文章的长短将这15篇散文编成10组,每一组文字加起来长度大体差不多。

另外我们还选取了林语堂、朱自清、老舍、池莉、韩少功、苏童、王蒙、贾平凹、余秋雨等9位作家共250万字的作品作为其他作家作品参与测试。这9位作家的作品的分组方法和沈从文作品的分组方法一样。最后我们将这些作品分成了85组。

在统计10组沈从文的作品和其他9位作家的85组作品用字的情况时,我们使用了《汉日语料库通用分析工具》。首先我们利用该工具的NGRAM抽取统计功能进行了这95组作品中汉字的使用情况调查。NGRAM一般是指文章中相邻的N个汉字组成的汉字串。当N=1时,实际上就是单个汉字,这时的NGRAM频度就是单个汉字的频度。统计的结果是,这10位作家的作品中共使用了4926个不同的汉字。在得到每组作品的汉字使用频度后,我们使用该工具的字词分布功能,统计了每一个汉字在各组中的分布情况。图2.13为其中的一部分。

用《汉日语料库通用分析工具》的分布统计功能我们得到的每一组作品中汉字出现的频度。根据相互信息的计算公式,每一个汉字出现的作品篇数是计算相互信息时所必须要知道的。因此我们必须对上述数据进行进一步调整。为此我们将95组作品中用字的分布情况数据调入EXCEL做进一步调整和分析。这种调整主要是适应相互信息的计算需要,将某一个汉字在某一组中出现的情况用0和1来表示,如果某一个汉字在某一组作品中出现的频度大于0,我们认为这个汉字在这组作品中出现了,其出现情况就设为1;否则设为0。图2.14为用EXCEL调整后的情况。

图2.13 样本中特征汉字的出现情况

图2.14 样本中特征汉字是否出现

下面以汉字“阿”为例,求沈从文的作品和“阿”的相互信息。

实际上,我们可以用EXCEL很方便地统计出每一个汉字的X11、X01、X10、X00。

图2.15 特征汉字和样本的相互信息

根据公式(15),汉字“阿”和沈从文写作特点的相互信息可按如下方法计算:

同样道理我们也可以利用EXCEL计算出所有的4926个汉字和沈从文作品的相互信息。图2.15是其中的一部分。

这里我们根据相互信息的值对汉字进行了排序,表中出现的都是相互信息最高的汉字。从表中可以看出,相互信息较高的这些汉字都是一些生僻的汉字,这些汉字由于具有特定的含义,因此和文章的内容关系比较大。比如“滕”字,沈从文在遗作《凤凰观景山》中提到的一个人姓“滕”,叫滕老四。如果不是提到这个人,沈从文也不会用“滕”字。因此这个汉字是和文章的内容有关的,和沈从文的写作风格没有太大关系。由此我们也可以看出,相互信息值最高的这些汉字是和文章的内容有关的。

我们再考察一下相互信息值等于0的汉字的情况。图2.16是相互信息值为0的部分汉字。

图2.16 和样本相互信息为0的汉字情况

在我们的实验中相互信息值为0的汉字共出现了101个,如下:

其中10位作家的95组作品中均出现的汉字有82个,占所有相互信息为0的汉字总数的81%。具体如下:

由于这些汉字在10位作家的95组作品中均出现,而且这95组作品内容均不相同,因此我们可以认为这82个汉字的使用不依赖于文章内容,它们不是文章内容的主要表达词汇。另一方面,对这些汉字的词性进行归类后发现,这些汉字中绝大多数是助词、连词、代词、介词、副词等功能词汇,这些词汇是任何文章中不可缺少的,其意义比较虚。另外也有一部分动词、形容词甚至名词,但是这些实词的意义也比较虚,也是和文章内容联系不很紧密的。由于这些词汇和文章内容没有太大关系,因此可以排除这些词在文章的使用情况会受到文章内容的影响。那么同一作家的不同作品对这些词的使用是否具有相同特点,而不同作家的作品其使用情况是否不一样,也就是说这些词是否承载着作家的写作风格特征呢?为了说明这个问题,我们选取三位作家沈从文、林语堂、朱自清的作品来进行考察。限于篇幅限制,我们只考察“的、地、得、过、了、着”等六个助词。我们将这六个助词放在坐标系的横轴上,用坐标系纵轴表示使用频率,单位用千分率表示。这样可以描绘出三位作家使用这六个助词的风格曲线图。首先我们将这三位作家使用这六个助词的频率分别统计出来。由于三位作家的作品分别分成了若干组,沈从文为10组,林语堂为10组,朱自清为9组。我们统计出了每一个助词在每一组的使用频率,根据这些频率值计算出了每位作家使用这几个助词的平均频率。具体如下表:

表2.17 三位作家作品样本助词使用情况

根据这些值以及上述横轴的规定我们可以描绘出三位作家使用这六个助词的风格曲线图如下:

图2.17 三位作家助词分布情况

根据上面三位作家的风格曲线图,我们可以发现三位作家在“的、了、着”等三个助词的使用上有着明显的差别。沈从文“的”字的使用频率最低,朱自清“的”字使用频率最高。数值来看,朱自清使用“的”字的频率比沈从文高将近13个点,与沈从文和朱自清相比林语堂却不怎么喜欢使用“了、着”这两个助词。综合这六个助词的使用情况,可以很明显地看到这三位作家写作风格上的差异。

根据以上分析,相互信息为0、分布较广、词义比较虚的词汇,虽然写作时大家都离不开他们,但是,每个人在使用这些词汇时习惯是不一样的,有的使用得多,有的使用的少。可以说这些词汇使用频率,反映了作家写作风格上的差异。由此我们也可以认为相互信息在提取作家写作风格特征时是能够发挥作用的,只不过和基于内容的文本分类相反,在进行作家风格特征分析时,我们需要提取相互信息为0的语言单位。

本章主要介绍了计量文体学研究中经常使用的一些统计学概念和知识。开展文体计量研究的关键是寻找能够反映文体特征的语言表达形式,这也是文体计量研究中人文学者发挥自己特长的地方。这些文体特征的分析和探寻除了可以使用人文研究传统的方法外,也可以利用本章所介绍的一些统计学知识和工具,如频率、方差、相关系数、相互信息等。当然这些知识和工具随着统计学理论的发展会层出不穷。这里介绍的只是一些最常用的和最基础的。