第三节 文体特征的方差、标准差
任何一个人,在写文章时都不可能等距离地断句。也就是说同一个人的作品的标点符号的间隔距离不可能是很平均的,换句话说,即便是同一个作家,其作品中的句子是不可能一样长的。上述平均值、中位数、众数等指标虽然可以利用一个代表性的数值来衡量某一个人的句子长度,但是都是很粗糙的。我们不能够仅仅因为其句子的平均长度一样就判断某两个作品出自同一人之手。因为句子的平均长度可能出现一样的情况,但是每一位作家的断句情况可能是不一样的。所谓的断句情况,就是每一位作家进行写作时,相隔多长距离点一次标点符号。这种间隔距离即便在同一篇文章中也会出现多种不同情况,而且每种情况出现的次数也是不一样的。从上述鲁迅和瞿秋白的例子中我们可以看出,鲁迅的《拿来主义》中,有时隔1个汉字点一个标点,有时隔3个汉字点一个标点,有时隔20多个汉字点一个标点。瞿秋白的《关于女人》也是这样的。但是,有一点是值得注意的,就是《关于女人》和《拿来主义》中每种情况出现的次数是不一样的。比如,两篇文章中都有标点符号间隔距离为3的情况,但是《关于女人》中只出现了6次,其频率仅为6.38%;而《拿来主义》中却出现了33次,其频率为16.17%。这种标点符号间隔距离及其出现的概率的关系在概率统计上叫作标点符号间隔距离的分布。
从上面我们可以看到,每一个作家的作品其断句均有许多不同的情况。瞿秋白的《关于女人》总共出现了20种断句情况,即20种不同的标点符号间隔距离;鲁迅的《拿来主义》出现了18种。而且这多种情况出现的次数各不相同,这种不同反映了作家断句长度的起伏,因此也反映了作家在断句上所流露出的自己特有的写作风格。有的作家虽然断句情况有起伏,但是起伏不大,也就是说其断句长度相对平均;而有的作家却在断句上会有很大的起伏。方差就是描述这种起伏大小的统计量。
统计学上对方差的解释,更加能够帮助我们理解方差的意义。比如,我们要建设一个国富民强的国家,不但居民平均收入要高,而且贫富差距不能过大。如果富人很富,而穷人很穷,虽然财富的平均值很高,但是贫富差距太大,就算不上真正意义上的国富民强。我们需要的是财富平均值很高,而且每个家庭的收入又不能偏离这个平均值太远,这样才算是达到共同富裕的目标。还比如,我们生产一种产品,要确保产品质量,我们不但要使产品的平均指标达到标准要求,而且还需要每个产品的质量指标不能够偏离平均标准太远,即产品的质量差异不能够太大,这样才能够保证产品质量的稳定。再比如,衡量一个班级某一科成绩整体情况时,我们不但需要考查该科成绩的平均成绩,而且还需要考查学生和学生之间该科成绩的差距,如果平均成绩很高,而且每个学生的成绩之间的差距不大,我们就可以认为这个班整体成绩比较好。衡量贫富差距的大小、产品质量是否稳定、班级整体学习成绩的好坏就可以用方差。
根据上述描述,我们可以知道方差可以衡量一组数据的差异性程度或者是分散程度。实际上,我们可以用所得到的一组数据中每个数据偏离这组数据的平均值距离来衡量数据的这种分散程度。一个大家最容易理解的方法就是用这组数据中所有数据偏离这组数据的平均值的距离的平均值来衡量。假设代表这组数据的随机变量为X,根据平均值的计算方法,这组数据的平均值就是E(X),那么随机变量偏离平均值距离的平均值就是:
E(X-E(X))
我们还以鲁迅的《拿来主义》和瞿秋白的《关于女人》的标点符号间隔距离为例,观测这两篇文章标点符号间隔长度偏离各自平均间隔长度的距离的平均值。根据上文我们知道,《拿来主义》标点符号的平均间隔长度为6.31,《关于女人》标点符号的平均间隔长度为9.38;而且每一种标点符号的间隔长度所出现的频率也均已经统计出。那么,这两篇作品标点符号间隔长度偏离其平均值的距离就可以用以下公式计算:

计算情况如下表:
表2.6 标点符号距离的离差计算

根据公式2.8,上表中(Xi-E(X))Pi一栏所有数据的和就是D(X)。也就是瞿秋白《关于女人》标点符号的间隔长度偏离其平均值的平均距离为0.0001818,而鲁迅《拿来主义》的平均偏离距离为5.0X10-7。这两个数值是一个非常小的数值,如果用这两个数值来衡量这两篇作品的标点符号的间隔长度的分散程度,只能够说明这两部作品断句情况都比较均匀。这个结论显然是不符合事实的,因为从上述关于《拿来主义》和《关于女人》标点符号间隔长度的统计表中我们可以清楚地看到,两个作家的断句情况波动还是比较大的。《关于女人》的标点符号的最长间隔长度为20个字符,与其平均长度9.38的差为10.62个字符;《拿来主义》的最长间隔长度为22,与其平均长度6.31的差为15.69。这两个差值远远大于按上述方法计算出的D(X)的值0.0001818和5.0X10-7。由此可见用公式(8)所计算出的值不能够真实地反映这两篇作品中两个作家断句的波动情况。产生这一情况的原因是,Xi-E(X)虽然可以计算每一个取值偏离平均值的距离的大小,但是也将大于平均值和小于平均值的情况用正负值表达出来了,由于在计算其偏离距离的平均值时,需要计算这些偏离距离的和,而偏离距离有正有负,求和时正负值相互抵消,造成了偏离距离的平均值变得很小。实际上,我们观察数据的波动时,只考虑波动的大小,即偏离距离的大小,偏离距离越大我们则认为数据的波动较大。至于偏离的方向对衡量数据波动程度的大小没有直接作用。《拿来主义》的标点符号的间隔距离的平均值为6.31,最长间隔长度为22,最短间隔长度为1;最长间隔长度偏离平均值的距离为15.69,最短间隔长度偏离平均值的距离为5.31。标点符号间隔长度的波动大小用这些偏离距离就可以一目了然,而没有必要考虑偏离距离的正负问题。基于上述情况,计算一组数据波动程度,就应该用偏离距离的绝对值的和。由于使用绝对值会给计算和理论研究带来麻烦,而任何一个数的平方都是正数,因此,统计学上,用偏离距离的平方和来计算数据波动程度,即公式2.8应改为:

由于公式2.9为随机变量及其平均值的差的平方,所以习惯上称D(X)为方差。
但是在实际运用过程中,由于D(X)是随机变量偏离平均长度的平方,这和随机变量的衡量单位不一致。比如《拿来主义》的标点符号平均间隔长度为6.31个汉字,最长间隔长度为22个汉字,最长间隔长度偏离平均间隔长度的距离15.69个汉字。如果用上述公式2.9计算,则偏离程度变成(15.69汉字)2,其单位变成了汉字2。用汉字2来衡量标点符号间隔距离的差不符合我们的习惯,而我们还是习惯用15.69个汉字来衡量这种偏离距离。因此,通常在实际应用中,我们一般使用D(X)开平方的值,即:

我们将这个值叫作均方差或者标准差。标准差是衡量一组数据是否稳定的重要指标。下表就是《关于女人》和《拿来主义》两篇文章中标点符号间隔长度标准差的具体计算结果。
表2.7 标点符号距离的方差和标准差计算


根据上述结果,《关于女人》的标点符号间隔距离的标准差为4.9597,《拿来主义》标准差为3.62。由此可见,鲁迅的断句长度的波动没有瞿秋白的大。