第二节 文体特征的平均值、中位数、众数

我们进行文体研究时,为了区别、比较几个作家的用词习惯或者句子长度,最直观也是经常被人们自觉或者不自觉地运用的一个数值就是平均值。如果两个作家对某一个词汇的平均使用次数,或者他们的平均句子长度差别很大,我们就可以认为这两位作家在用词和句子长度上是具有各自的特点的。

平均值在统计学上叫数学期望,代表一种现象的平均取值水平。平均值通常用来进行团体之间水平差异的比较。比如我们如果想知道两个班学生学习成绩的好坏,通常会将两个班学生的平均成绩放在一起进行比较。这是最便捷、也是最直接的一种比较方法。平均值在统计学上还有更重要的作用。这在以后还将进行介绍。

平均值的求法通常是将统计到的所有的观察值加在一起,再除以观察值的个数即可。我们以鲁迅先生的《拿来主义》为例,统计鲁迅先生标点符号之间的间隔距离(以汉字为单位,标点符号算作一个汉字),以及每一种距离出现的次数。下表为统计结果:

表2.3《拿来主义》标点间隔距离分布情况

为了叙述方便,我们设《拿来主义》中鲁迅标点符号之间的间隔距离为随机变量X,平均间隔距离为E(X),那么,

E(X)=(1*14+2*4+3*33+4*23+5*30+6*13+7*17+8*21+9*8+10*13+11*13+12*5+13*4+15*1+16*2+17*2+22*1)/(14+4+33+23+30+1 3+17+21+8+13+13+5+4+1+2+2+1)

≈6.3137

或者,所有的间隔距离与其出现的频率的积的和,即,

E(X)=1*0.09+2*0.02+3*0.2+4*0.141+5*0.184+6*0.08+7*0.104+8*0.13+9*0.05+10*0.08+11*0.08+12*0.03+13*0.025+15*0.006+16*0.012+17*0.012+22*0.006≈6.3137.

实际上统计学上的数学期望的定义和上述平均值的第二种求法是一致的。即,如果随机变量X=xi时的概率为pi,则

中位数

平均值常常用来比较两组数据差异,但是有时候两组数据的差异并不能够在平均值上反映出来。平均值常常不能够反映一组数据的真实情况。在统计一个地区的家庭收入时,如果这个地区贫富分化非常大,少数富豪掌握了绝大多数财富,而绝大多数普通家庭收入只占整个地区收入的一小部分,这时有可能整个地区收入的平均值很高,但是整个地区绝大多数人的家庭收入却很低,所以这时就不能够因为家庭收入平均值很高就可以认为这个地区的家庭就很富裕。

在文体风格的描述上也存在类似情况。比如一个作家的断句没有太大的规律性,有时很长,有时很短;而另一个作家在标点符号的使用上却很有规律,标点符号的间隔距离比较平均。假如这两个作家标点符号使用的平均间隔距离恰好相等,由于上述情况的存在,我们是不能因为其平均值相等就认为他们在断句的习惯上是一致的。这一点我们可以用下面学生成绩的例子来进行说明。

比如下面是两个组学生的数学成绩:

第一组 43 56 58 60 68 71 71 98 100 100

第二组 64 65 70 70 72 73 75 75 81 85

根据平均值的计算方法,我们可以计算得到第一组数据的平均值为72.5;第二组数据的平均值为73。从这两组数据的平均值来看,两组学生的成绩差距不大。但是我们仔细观察两组成绩的具体情况时发现,第一组成绩的平均值虽然有72.5,然而里面60分以下的有三名,两极分化比较严重,大部分成绩不如第二组。而第二组虽然没有第一组那样的高分,但是成绩比较均衡,整体上要明显好于第一组。由此可以看出,像这样的情况仅仅依靠平均并不能够准确判断两组数据的差距。为了克服平均值的这种局限性,统计学上常用中位数来解决。所谓中位数(median),就是将数字按照大小顺序进行排列,取其处于中间位置的那个数字作为一组数据的代表值。

中位数的计算方法分两种情况,第一种情况是当一组数据有奇数个时,取其处于中间位置的那个数字。如:6、7、8、9、10这组数据,处于中间位置的数字为第三个8,那么8就是这组数据的中位数。第二种情况是当一组数据有偶数个时,取其中间两个数据的平均值。如上述学生成绩的第一组数据的中位数为(68+71)/2=69.5;而第二组数据的中位数为(73+72)/2=72.5。就这两组数据看,中位数比平均值更能够反映两组数据的实际情况。

统计学上除了常用均值、中位数来作为一组数据的代表值外,还用到众数等概念。

下面介绍利用均值和中位数进行作家文体分析的方法。在我国现代作家中,鲁迅和瞿秋白的写作风格比较接近,有人甚至认为瞿秋白和鲁迅的杂文可以以假乱真(彭蕴辉,1992)。这里以鲁迅的《拿来主义》和瞿秋白的《关于女人》为例,考察鲁迅和瞿秋白标点符号间隔距离的平均值和中位数的差距。

拿来主义

鲁迅

中国一向是所谓“闭关主义”,自己不去,别人也不许来。

自从给枪炮打破了大门之后,又碰了一串钉子,到现在,成了什么都是“送去主义”了。别的且不说罢,单是学艺上的东西,近来就先送一批古董到巴黎去展览,但终“不知后事如何”;还有几位“大师”们捧着几张古画和新画,在欧洲各国一路的挂过去,叫作“发扬国光”。听说不远还要送梅兰芳博士到苏联去,以催进“象征主义”,此后是顺便到欧洲传道。我在这里不想讨论梅博士演艺和象征主义的关系,总之,活人替代了古董,我敢说,也可以算得显出一点进步了。

但我们没有人根据了“礼尚往来”的仪节,说道:拿来!

当然,能够只是送出去,也不算坏事情,一者见得丰富,二者见得大度。尼采就自诩过他是太阳,光热无穷,只是给与,不想取得。然而尼采究竟不是太阳,他发了疯。中国也不是,虽然有人说,掘起地下的煤来,就足够全世界几百年之用,但是,几百年之后呢?几百年之后,我们当然是化为魂灵,或上天堂,或落了地狱,但我们的子孙是在的,所以还应该给他们留下一点礼品。要不然,则当佳节大典之际,他们拿不出东西来,只好磕头贺喜,讨一点残羹冷炙做奖赏。

这种奖赏,不要误解为“抛来”的东西,这是“抛给”的,说得冠冕些,可以称之为“送来”,我在这里不想举出实例。

我在这里也并不想对于“送去”再说什么,否则太不“摩登”了。我只想鼓吹我们再吝啬一点,“送去”之外,还得“拿来”,是为“拿来主义”。

但我们被“送来”的东西吓怕了。先有英国的鸦片,德国的废枪炮,后有法国的香粉,美国的电影,日本的印着“完全国货”的各种小东西。于是连清醒的青年们,也对于洋货发生了恐怖。其实,这正是因为那是“送来”的,而不是“拿来”的缘故。

所以我们要运用脑髓,放出眼光,自己来拿!

譬如罢,我们之中的一个穷青年,因为祖上的阴功(姑且让我这么说说罢),得了一所大宅子,且不问他是骗来的,抢来的,或合法继承的,或是做了女婿换来的。那么,怎么办呢?我想,首先是不管三七二十一,“拿来”!但是,如果反对这宅子的旧主人,怕给他的东西染污了,徘徊不敢走进门,是孱头;勃然大怒,放一把火烧光,算是保存自己的清白,则是昏蛋。不过因为原是羡慕这宅子的旧主人的,而这回接受一切,欣欣然的蹩进卧室,大吸剩下的鸦片,那当然更是废物。“拿来主义”者是全不这样的。

他占有,挑选。看见鱼翅,并不就抛在路上以显其“平民化”,只要有养料,也和朋友们像萝卜白菜一样的吃掉,只不用它来宴大宾;看见鸦片,也不当众摔在毛厕里,以见其彻底革命,只送到药房里去,以供治病之用,却不弄“出售存膏,售完即止”的玄虚。只有烟枪和烟灯,虽然形式和印度,波斯,阿拉伯的烟具都不同,确可以算是一种国粹,倘使背着周游世界,一定会有人看,但我想,除了送一点进博物馆之外,其余的是大可以毁掉的了。

还有一群姨太太,也大以请她们各自走散为是,要不然,“拿来主义”怕未免有些危机。

总之,我们要拿来。我们要或使用,或存放,或毁灭。那么,主人是新主人,宅子也就会成为新宅子。然而首先要这人沉着,勇猛,有辨别,不自私。没有拿来的,人不能自成为新人,没有拿来的,文艺不能自成为新文艺。

六月四日。

关于女人

瞿秋白

国难期间女人似乎也特别受难些。一些正人君子责备女人爱奢侈,不肯光顾国货。就是跳舞,肉感等等,凡是和女性有关的,都成了罪状。仿佛男人都成了苦行和尚,女人都进了修道院,国难就得救了似的。

其实那不是她的罪状,正是她的可怜。这社会制度,把她挤成了各种各式的奴隶,还要把种种罪名加在她头上。西汉末年,女人的眉毛画得歪歪斜斜,也说是败亡的预兆。其实亡汉的何尝是女人!总之,只要看有人出来唉声叹气的不满意女人,我们就知道高等阶级的地位有些不妙了。

奢侈和淫靡只是一种社会崩溃腐化的现象,决不是原因。私有制度的社会本来把女人也当做私产,当做商品。一切国家,一切宗教,都有许多稀奇古怪的规条,把女人当做什么不吉利的动物,威吓她,要她奴隶般的服从;同时又要她做高等阶级的玩具。正像正人君子骂女人奢侈,板着面孔维持风化,而同时正在偷偷地欣赏肉感的大腿文化。

阿拉伯一个古诗人说:“地上的天堂是在圣贤的经典里,在马背上,在女人的胸脯上。”这句话倒是老实的供状。

自然,各种各式的卖淫总有女人的份。然而买卖是双方的。没有买淫的嫖男,那里会有卖淫的娼女。所以问题还在卖淫的社会根源。这根源存在一天,淫靡和奢侈就一天不会消灭。女人的奢侈是怎么回事?男人是私有主,女人自己也不过是男人的所有品。她也许因此而变成了“败家精”。她爱惜家财的心要比较的差些。而现在,卖淫的机会那么多,家庭里的女人直觉地感觉到自己地位的危险。民国初年就听说上海的时髦总是从长三堂子传到姨太太之流,从姨太太之流再传到少奶奶,太太,小姐。这些“人家人”要和娼妓竞争——极大多数是不自觉的,——自然,她们就要竭力的修饰自己的身体,修饰拉得住男子的心的一切。这修饰的代价是很贵的,而且一天天的贵起来,不但是物质的代价,还有精神上的代价。

美国的一个百万富翁说:“我们不怕……我们的老婆就要使我们破产,较工人来没收我们的财产要早得多呢,工人他们是来不及的了。”而中国也许是为着要使工人“来不及”,所以高等华人的男女这样赶紧的浪费着,享用着,畅快着,哪里还管得到国货不国货,风化不风化。然而口头上是必须维持风化,提倡节俭的。

一九三三年四月十一日

首先,我们分别统计《拿来主义》和《关于女人》两篇杂文中标点符号的间隔距离。结果如下表:

表2.4《拿来主义》和《关于女人》中标点距离出现情况

根据以上统计结果,鲁迅《拿来主义》标点符号的平均间隔距离为,

从上述标点符号间隔距离的平均值来看,鲁迅的《拿来主义》和瞿秋白的《关于女人》还是有比较大的差别的。至于这两篇杂文的标点符号间隔距离的平均值是否就能够代表鲁迅和瞿秋白所有作品标点间隔的特点,这两个平均值的差距是否能够说明反映在标点间隔距离上的鲁迅和瞿秋白写作风格的差别,还需要用统计学上的更深的理论和方法进行分析。这些理论和方法将在本书的后面的章节里面进行详细阐述。

下面介绍这两篇杂文标点符号间隔距离的中位数的算法。根据中位数的定义,计算中位数时需要对所有数据按照大小进行排序,然后取中间位置的一个值(总数为奇数时),或者中间位置的两个值的平均值(总数为偶数时)。在我们将每一个数值及其频度都已经统计出来的情况下,再进行所有数据的排序比较复杂,而且是不必要的。由于我们已经得出了每一个间隔长度所出现的频度,并且已经将其按照间隔长度的大小进行了排序,这时的中位数计算方法可以用累计频度为总标点数1/2位置上的标点间隔长度作为标点间隔距离的中位数。上例中,瞿秋白的《关于女人》标点总数为94,其1/2为47,标点间隔长度的累计频度为47位置上的标点间隔长度为9,因此,《关于女人》的标点符号间隔长度的中位数为9;同样道理,鲁迅的《拿来主义》的标点符号间隔长度的中位数为5。具体情况参见下表。

表2.5 两部作品标点距离的累计频度

众数

顾名思义,众数就是在获得的一组数据中出现次数最高的那个数据。在根据上述统计结果,瞿秋白的《关于女人》中的标点符号间隔距离为9的情况出现了11次,是所有的数据中出现次数最多的;而鲁迅的《拿来主义》中间隔距离为3的情况出现次数最多为33次。根据众数我们可以得到一个基本的印象,就是瞿秋白《关于女人》中句子的长度要比鲁迅的《拿来主义》要长,这也是瞿秋白和鲁迅写作风格的体现。