二 文本分析

作为政治活动的记录载体,文本是研究政治问题的重要资料。文本是一个社会群体留下的包含丰富语义特征的记录。[31]在大数据产生之前,文本分析在研究政治问题时也常常被使用,主要包括文本的规范阐释或基于统计学的量化研究。作为大数据的重要类型,文本大数据的计算方法也不断发展,传统文本分析方法也逐渐转向了机器自动计算和解读文本。当然,在大数据文本分析的过程中,多元方法综合运用更有吸引力。

文本大数据是大数据中最为常见的类型。互联网和社交平台等媒介上产生的文字数据呈现几何级增长态势,各种传感器和移动终端的普及化也让每个人都成了文字数据生产者,文本数据规模急速增长。网页、社交平台上产生的文本是文本大数据的重要类型。此外,图片、音频、影像资料也可以通过相应技术途径转换为文本大数据。

计算和分析文本大数据的工具方法也在不断创新。适用于分析文本大数据的软件及其算法不断改进,以实现文本深度挖掘为目标。[32]特别是数据挖掘(data mining)和自然语言处理(nature language process)两大技术体系的不断成熟为有效计算文本大数据提供更加坚实的技术保障。其中,文本挖掘能够通过分析非结构化文本数据来提取新知识,并识别隐藏在数据中的重要模式和相关性。[33]而自然语言处理技术能够初步实现人与计算机之间用自然语言进行沟通,从而使计算机能够更加深刻地“理解”文本大数据,提升文本分析的效度。

文本大数据的分析方法逐渐呈现出自动化和智能化的发展趋势。人工智能、自然语言处理等大数据管理和分析技术所形成的体系化的智能计算方案,使大数据文本计算产生了全新模式。[34]以常用的海杜普(Hadoop)为例,作为一个能够对大量数据进行分布式处理的软件,它能够实现文本系统的分布式框架,其中一个组件是分布式文件系统(distributed file system),有高容错性的特点,用来部署在低廉的硬件上,而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序,在文本分析过程中,海杜普能够自动对文档进行分类,识别每个类别中的重要文档,以及分析重要文档创建新的主题。[35]

将大数据转化为小数据,再运用小数据的分析方法进行分析也是文本大数据分析的一种常用方法。这种策略实际上是将适用于小数据的扎根分析和内容分析等方法运用于分析大数据文本。使用内容分析法来对大数据进行分析是传统分析方法用于大数据分析的典例,能够形成方法上的合力效应。使用内容分析法的基本策略是将大数据通过抽样方法简化为小数据,然后对文本内容进行编码,得出结构化数据,再用统计学方法进行描述和推论,有助于发现更深层次的因果关系。

经过长期发展,国内外政治学学者在利用文本大数据研究政治问题时,相关方法和议题集中于词语分析、主题分析和情感分析三个方面,针对更加具体的问题进行了延展和分化,形成了相对完整的分析模式体系,能够从词语、主题和情感三重向度上深入挖掘文本大数据中隐藏的政治规律,也为政治学的概念、假设和理论发展提供了新的数据和分析工具。

(一)词语分析

词语是文本的基本要素,从词语来切入是文本大数据的基本方法。词频分析和词共现分析是文本大数据运用于政治学研究中的两种技术导向。词频分析的主要目的是计算词语出现的频率,进而明确大数据文本的关键词、主题等,而词共现分析致力于探究两个及以上词语共同出现的次数及强度,挖掘文本的结构与层次。

1.词频分析

词频分析是指计算文本中词语出现的频数的文本分析方法。词频分析的基本假设是认为文本数据中出现词语频率越高,这一词语就越重要,越与文本的主题和倾向高度相关。因此,词频分析成为语言处理过程中重要指标,[36]不仅能够通过计算词频找到频繁出现的关键词或主题词,通过词云等形式进行可视化呈现,也能够基于词频对文本反映的政治现象进行预测。

在大数据时代,词频分析方法得到了更新和发展,能够分析大规模且结构复杂的政治文本数据。词频分析有相对稳定的操作步骤,一般包括数据获取、分词、去除停用词、高频词提取和可视化流程。目前常用软件有三类。第一类是传统的分布式文件处理系统,能够计算文本大数据的词频。例如,海杜普的“Word Count”可以统计单个或者多个文本文件中单词出现的次数,以两个单词间含有空格分隔符作为区分依据,使所有单词被逐一区分开,对单个单词(key)进行统一映射,将每个单词及其出现频率按照(Key,Value)键值对的形式输出,与之类似的还有Spark软件。第二类是能够批量自动搜集文本的软件,这类软件能够自动搜索大数据文本,通过自动计算直接呈现高频词,例如,Python语言编制的“爬虫”能够批量获取和计算网页文本数据,提高词频分析的规模和效率。第三类是部分搜索引擎,例如,谷歌年度搜索排行榜(Google Trends) 就是谷歌搜索引擎在年度关键词搜索数据的基础上,通过计算其中的高频词展示单位年份热门搜索主题,利用高频关键词突出重点议题。上述三类具体方式在大数据政治学研究中有不同程度的运用。

基于文本大数据的词频分析常用于政党和选举等研究领域,根据政党及候选人的纲领、宣言和口号等文本大数据,通过词频分析找到高频词,能够明确政党及其候选人在选举过程中展现出的意识形态倾向。例如,迈克尔·皮尔斯(Michael Pearce)搜集了1900—2010年英国三个主要政党的全部竞选宣言,通过词频计算政党常用词的序列,以此确定政党的政治价值倾向。[37]类似的研究还有宝拉·莱曼(Pola Lehmann)等学者联合创建的世界政党宣言库(Manifesto Corpus),其搜集了全世界主要政党在各种媒介上发布的宣言,通过词频计算,发现单词、术语和概念及其组合在文本中出现的频次,生成术语——文档矩阵,从而最为直观地展现出政党的基本纲领和意识形态特征。[38]基于词频探究政党意识形态属性也被用于探索政党的选举策略。尼古拉斯·默兹(Nicolas Merz)等学者分析了2012年荷兰选举中支持率较高的四个政党在大选过程中发布的所有文字,对数据进行预处理和过滤,自动剥离数字和标点符号,对语料库进行清理,直观地展示出自由民主人民党、基督教民主联盟、右翼民粹主义政党和社会民主工党在宣言中使用较多的关键词语,以此定位各政党的意识形态倾向和竞选策略。[39]

基于文本大数据的词频分析可用于意识形态的比较分析。基于文本大数据的词频计算也被用于政党及其候选人意识形态的比较分析。有学者对2016年美国总统选举期间特朗普和希拉里的所有推文数据进行了词频分析,并制作了相应的词云,进行了可视化展现,清晰显示出特朗普和希拉里在推特这一平台上频繁提到的词语,对二者的意识形态属性和竞选策略进行比较研究(如图1)。[40]

图1 2016年美国总统选举期间特朗普和希拉里推文的词云

在纳入时间要素之后,基于文本大数据的词频分析也能够从关键词的频率变化角度呈现政治现象和问题的宏观演变趋势。乔纳森·布莱特(Jonathan Bright)利用文本记录分析了英国议会中议会争论的演变特点。基于1936—2011年英国下议院发布的由7.4亿个单词所构成的数据库,他利用自动编码技术对法律、国防、环境、卫生、就业、权利、教育、农业、经济等关键词进行了编码,对这些词汇在75年间的出现频率进行了描述,研究发现,这些关键词的出现频率在具有一定稳定性的同时也有一些变化,如争论变得更加激烈,环境议题变得更为突出,而农业等问题则逐渐衰落。[41]2018年和2019年孟加拉国《每日星报》头版文本的词频分析显示,选举、杀戮、板球和罗辛亚相关术语在2018年出现了60多次,这表明板球、政治动荡和罗辛亚等问题在该国政治中的热度,而2019年则以选举、政治、死亡、数字安全法、罗辛亚和板球等为高频词,反映出孟加拉国政治生活中重大议题的变化。[42]

2.词共现分析

两个及以上的词语在一段文本中共同出现,被视为词共现。共同出现的词语通常在语义、情感和关系上有较为紧密的关系,这种关联性源于人类语言包含规则的句法结构和语法模式。[43]因此,在特定的文本段落中,词语共现是识别认知关系的良性指标,特别是当词共现频繁增多的时候。[44]

基于文本大数据的词共现分析就是要按照某一维度的关系来计算出词语之间的相互关联,并根据共同出现的次数来判断共现关系的强度,进而对词语进行聚类,通过矩阵或图表进行可视化,通过这种方式来展现文本大数据所代表的现象、问题和话语的内在结构。在政治学研究中,基于大数据文本的词共现分析常用于探究政治现象之间的相关性,以此来判断不同政治现象和要素是否存在关联。

大数据时代的词共现分析技术更加完善,能够适应大规模的数据,在计算精确度上也有提升。词共现分析包括数据预处理、确定分析对象、构建共现矩阵和共现词分析几个环节。词共现分析常用的技术手段包括各种聚类算法、关联规则、突发词监测、因子分析和贝叶斯分类算法等,用来判断共现词的存在及其关系强度。共现词分析的可视化方式主要包括类团关系图、战略坐标图、聚类谱系图和多维尺度图谱等。

词共现分析也可用于在新兴政治现象与政治概念之间建立初步的相关关系,为进一步的因果分析奠定基础。政治生活纷繁复杂并且千变万化,新的政治问题和政治现象层出不穷,已有的理论成果往往难以对这些新现象和概念及其之间的关系进行有效和充分的解释,而基于文本大数据的词共现分析能够在一定程度上化解这一难题。

目前,国内外学界已经产生了一些代表性的成果。例如,赵雪和马娟娟采用词共现方法对2016年7月28日至2017年6月30日中央人民广播电台中国乡村之声官方微博热点话题及用户舆情进行分析,发现农业经济信息和农民民生问题这两大热点问题高度相关。[45]德拉戈·奥布雷亚(Dragoṣ Obreja)对2012年至2021年发表的关于脸书或推特的政治学的期刊论文进行词共现分析,发现重大和意外的政治事件(如唐纳德·特朗普的总统大选和英国退出欧盟公投)与政治学新概念之间的关系,如“新冠肺炎”与虚假信息等词汇相关联,“俄罗斯”一词与机器人、选举和议程设置等词共同出现,唐纳德·特朗普与移民和难民等词语高度关联。[46]也有学者对欧洲议会上产生的大数据文本数据进行了词共现分析,结果显示“欧洲”和“欧盟”两大高频词高度相关,并且逐渐走向融合,这不仅反映了欧盟组织具有政府间主义和超民族主义的双重特性,也反映了欧洲一体化正在逐渐走向深入,逐渐被视为一个类似国家的实体和政府间机构。[47]

(二)主题分析

主题分析就是根据相互关联的高频词汇来确定文本中的主旨及其结构。基于文本大数据分析,研究者能够从大数据文本中挖掘出表达的主题,并围绕主题对大数据文本进行自动化的排序、聚类、分类以及情感分析等结构化分析。在应用过程中,主题分析通过信息检索来推断文档集合中隐藏的主题,从而提供一种自动的方法来组织、理解和总结大数据文本,并通过将高频词结构化和可视化的方式展示出来。主题分析不仅能够识别大数据文本的主题,还可以对主题发展趋势进行预测。[48]根据大数据政治学的研究动态,基于文本大数据的主题分析主要包括主题类型分析和演化分析两种导向,分别用于探究文本的主题类别和演变趋势。

从技术体系上来看,隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是利用文本大数据实现主题分析中最为流行的计算模型。这一模型最早出现于2003年,能够挖掘出初始文档中的潜在主题,逐渐成为识别主题类型和演化的常用模型。[49]该模型不仅能够从文本大数据中识别隐藏的主题信息,也能进一步将文本数据转换为易于建模的数据,作为三级分层贝叶斯模型,由于参数简单且数量不变,不易产生过度拟合,能够直观地简化问题,是效果较好的分析模型。

1.主题类型分析

识别并区分文本大数据中隐藏的主题,是进行主题分析的基础环节。这意味着不仅要通过机器学习等手段发现文本数据中的潜在“主题”,也要对主题进行建构和分析。在大数据政治学当中,主题类型分析的重要作用就在于从松散的大数据文本数据及其所反映的话语体系中识别出重要的主题,并对这些主题进行类型化和结构化区分。

分类和聚类两大算法体系常用于分析文本大数据的主体类型,这两类算法都是根据相似性和关联性来对文本主题进行划分、组织和整合。在实际运用过程中,两者之间也存在差异。分类需要采用监督学习,即需要人工事先对数据进行标注,对文本进行预处理,而聚类的自动化程度更高,基本采用无监督学习,无须对文本数据进行预处理。面向文本大数据,分类和聚类的主要功能就是挖掘出文本包含的主题,并对其按照相似性和关联性进行整合,识别出文本中的重要主题及其数量。目前,常用的分类算法有逻辑回归和朴素贝叶斯算法,常用的聚类算法主要包括基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及基于模糊的聚类算法等。

基于文本大数据的主题类型分析,能够在政治论辩场景中识别其重大议题,识别其话语结构和基本格局。议会是政治辩论的重要场域,政治生活中的重大议题都能够体现在议会辩论产生的文字资料当中。本·柯兰(Ben Curran)等学者利用潜在狄利克雷分配模型来研究新西兰议会辩论文本,从中识别了21个较为聚集显著的重大议题,[50]包括法律、预算、经济、治安、社会福利、政府、增长、犯罪、环境等。与这一研究相类似,芬恩·穆勒-汉森(Finn Müller-Hansen)等分析了德国议会从1949年成立到2019年关于煤炭政策的辩论文本,利用无监督机器学习识别了其中的主题,结果显示,煤炭被视为德国经济繁荣的推动力和能源安全的保证,能源过渡、淘汰煤炭和扩大可再生能源是当代煤炭政策论辩的核心议题,绿党和左翼政党更关注能源转型和气候保护。[51]

此外,基于文本大数据的主题类型分析也常被用于政党和选举研究。选举过程也是政治论辩的重要场合,围绕重大政治问题往往会产生大量的文本资料,针对选举中的文本大数据进行主题分析能够挖掘选举争论当中较为集中的议题。分析也被运用于选举研究当中,对选举过程中影响显著的重大议题进行结构化拆分和重组。2016年美国总统选举前后,极右翼势力不断抬头,乔纳斯·凯泽(Jonas Kaiser)等学者搜集了9家极右翼媒体发布的21919篇报道,进行了主题识别,结果显示,极右翼媒体的主要议题集中于一般性政治话题(如初选、特朗普)、八卦话题(如共和党/特朗普八卦、八卦)、反对派话题(如克林顿、克林顿基金会、克林顿电子邮件)和特定问题(如堕胎、司法、移民),此外,还有“白人民族主义”这一话题,主要涉及种族身份和美国的身份认同问题。[52]

基于文本大数据的主题类型分析也能够用于识别海量公共政策文本中的主题结构,能够进一步突出公共政策中的基本模块和重要领域。从海量政策文本中建构模型,能够将公共政策的概念和理论运用于规模更大的数据集当中。[53]例如,新冠疫情在印度爆发之初,印度政府颁布了大量的政策予以应对,有学者搜集了政府颁布的计划、政策、方案和倡议等26万个单词数量的文本数据,运用潜在狄利克雷分配模型进行了分析,结果显示,印度政府的措施集中在交通、企业、科技部门、城市和家庭事务领域。[54]

目前,基于文本大数据的主题分析更常用于探究网站、社交媒介和政务平台上的公众讨论,包括帖子、推文、留言和回复等文本资料,这些文本大数据是公共话语和舆论的重要载体,能够探究与政治议题有关的公共舆论的主题类型,挖掘民众的核心关切点,是大数据政治学的新兴研究领域,国内外学界产生了一些代表性的研究成果。

政务平台是数字化时代的政府门户,也是政府和公众沟通的媒介,公众通过留言和评论等形式针对现实政治问题产生文本大数据。公众的留言和讨论文字数据是高度非结构化的,主题识别能够对这些文字资料进行结构识别和类型化整合,为公共政策的制定、评估和反馈提供重要的民意基础。警务平台作为政务平台的特殊类型,需要直面公众的基本诉求。有学者研究了智利警务平台的民众投诉,这些投诉主要聚焦于警察效率和不当行为这两大主题。[55]类似的研究还有通过中国人民网“领导留言板”上的数据来对民众的相应诉求进行主题挖掘,结果显示民众的主要诉求包括社区管理、医疗防疫、学校教育、交通物流和经济措施五大议题。[56]

新闻媒体和社交媒介也是政治沟通的重要平台,产生了极具规模的文本大数据,通过主题类型分析,能够将其中零散的公共话语进行模块化分解,识别出公共舆论的焦点。社交媒介在当代的文化、社会和政治事件中发挥了重要作用,因此,从这些数据流中发现潜在的主题具有重要意义和运用价值。[57]柯·科姆苏克(Koh Keumseok)等人通过分析2020年5月至2021年9月韩国媒体有关新冠疫情的12399篇报道,识别了其中的主题,结果显示,疫苗研发、接种和影响是这一时间民众最为关注的问题。[58]而古正宇(Koo Jeong-Woo)通过分析韩国社交媒介在新冠疫情期间 87487条推文中的主题,发现民众较为关心的是政府应对措施、卫生措施、疫苗和经济问题。[59]魏毅刚(Wei Yigang)分析了2008年至2019年与欧盟排放交易系统相关的推文,结果显示,主题集中于政策、立法、补贴价格和分配方面。[60]此外,还有学者对2018年11月至2019年4月西班牙网络上与种族问题有关的24万条推文进行自动分析,结果显示,西班牙的种族讨论集中于控制非法移民、移民经济援助、非法移民后果以及移民与恐怖主义间关系四大议题。[61]

值得注意的是,社交媒介的运用能够突破主权国家范围限制,针对全球性议题展开广泛讨论,因此,对社交媒介上的文本大数据进行主题类型分析,也运用到了全球治理研究领域,对全球性公共议题产生的话语体系进行主题识别。在新冠疫情期间,针对这一问题产生了世界性的社交文本数据。基于2020年1月1日至5月9日期间的1390万条推文,法蒂·古坎(Fatih Gurcan)等人利用潜在狄利克雷分配模型进行了主题识别,从中挖掘了五个聚集显著的主题,分别是新冠疫情对经济和市场的影响、病例传播和增长、治疗和恢复、对卫生保健部门影响以及政府回应,[62]这些问题是特定时期内全球民众普遍关注的重大问题。此外,气候变化与治理也是一项全球政治问题。有学者在推特上连续追踪和搜集了18个月内的相关文本数据,通过主题类型分析,识别了全球变化话语体系当中的七大主题,即原因、后果、行动必要性、与新冠疫情的关系、与政治的关系、全球变暖是骗局还是现实这一争论。[63]

2.主题演化分析

主题演化分析是在识别主题类型的基础上,加入时间因素,对特定时间跨度内文本数据中的主题变化进行计算,从中探索主题演变的趋势和规律。生命周期理论是主题演化的理论基础。文本大数据中映射的主题在不同的情境和阶段中会经历演化过程,即主题的产生、消亡、分类、合并、扩张与收缩这几个阶段。[64]

隐含狄利克雷分布也是分析主题演化的主要算法。相较于主题类型分析,利用这一算法研究主题演化时更侧重于对不同时间窗口的文本进行挖掘,呈现出主题间可能存在的联系和差异,从而来描述相邻时间窗口下文档主题的相似度和演化关系,最终形成以时间为基本单位的主题演化图,将大数据文本数据中的主题变化情况进行可视化的展现。

目前,基于文本大数据的主题演化分析能够探究公共政策的主题变化,描绘公共政策主题或重点领域的变化及趋势。国内学者通过对1973年至2016年的148份中国中央政府级别的环保政策文件进行计算机辅助内容分析,结果显示,中国的环境治理模式主题从中央集权的监管模式逐渐转变为使用多样化政策工具组合的日益协调模式。[65]类似的研究还有格兰特·菲利普(Grant Philip)等人根据20世纪70年代存储在英国和美国政府以及联合国难民事务高级专员公署的文本分析的全球难民政策在20世纪后期所发生的主题变化。[66]

主题演化分析也被用于探索政治论辩的主题演变。德里克·格林(Derek Greene)等人基于1999年至2014年欧洲议会全体会议上所有英语立法演讲的语料库,通过主题演化分析,发现欧洲议会的政治议程随着时间推移发生了重大变化,如欧盟条约公投和欧元危机等议题逐渐占据显著地位。[67]基于文本大数据的主题演化分析也用于研究党派争论。从2014年到2019年共有4083名在任的美国州议员发表了43558篇与阿片类药物相关的社交媒体帖子,丹尼尔·斯托克斯(Daniel Stokes)等人对其进行主题演化分析后发现,民主党越来越多地要求制药公司承担责任,而共和党越来越多地要求遏制非法毒品交易,党派偏见有所增加,立场差异更加显著,集中在如何更好地解决药物滥用这一问题上。[68]

基于大数据文本的主题演化分析也常用于探索公共舆论的主题变化,对公共舆论的发展态势进行研判和预测。埃米利亚诺·德尔·戈博(Emiliano del Gobbo)等学者追踪了英国脱欧前后推特上的政治争论主题的演变趋势,基于2019年12月31日至2020年2月9日的3300万条相关推文,从中识别出了20个显著的主题,并以英国脱欧的时间节点为单位分析这些主题的变化,结果显示,社交媒介上英国脱欧的话语主题呈现出高度稳定性,英国民众持续关注脱欧导致的贸易、海关、投资、经济、服务等方面的不确定性风险。[69]2021年3月美国亚特兰大发生枪击案之后,以“Stop Asian Hate”为标签的话题广泛传播,克莱尔·塞德(Claire Seungeun)等人研究了这一话题的推文,结果表明,这一标签从发展初期单纯地诉诸保护亚裔社群逐渐转变为了反抗种族主义,停止种族主义这一主题逐渐成了公共舆论的关注热点。[70]

国内外学者也将主题演化分析运用于文献计量领域,探究政治学研究中的议题演进,挖掘新兴热点议题,这种研究方式正在成为大数据政治学时代追踪学术动态的新方法。国内外学者通常从学术文献的标题、摘要和全文自动获取主题以及主题概念分布和变化。以电子政务研究领域为例。该领域的文章数量呈现指数级增长,艾玛德·阿布-沙纳布(Emad Abu-Shanab)分析了相关期刊的12692个关键词来探索电子政务学科的主题演进,结果表明,开放政府、智能城市和分析等主题热度持续上升,电子政务的利用、电子参与、电子民主、行政管理和采购等议题成为新兴热点议题,而对电子政务理论的研究热度正在减退。[71]与之类似的研究在国内学界也有所呈现。李永迪和蔡佳搜集中国知网1999—2016年以电子政务为主题的文本数据进行演化分析,结果显示,政府上网工程主线初期发展速度较快,后期发展逐步减弱;政府信息化主线几乎贯穿于电子政务研究始终;政务信息公开主线与公共服务主线自政府信息化主线开始减弱之后缓慢增长,自大数据主线上升时开始逐步减弱,中间经历了一段发展的高峰期;而大数据主线自2014年前后开始逐步上升,目前处于电子政务研究中最为热门的领域(见图2)。[72]

图2 1999—2016年国内电子政务研究的主题变化

(三)情感分析

基于文本大数据的情感分析(sentiment analysis),也被称为意见挖掘(opinion mining)或倾向性分析,是在对文本进行分析和处理的过程中探索文本中呈现或隐藏着的情绪态度倾向及其强度。文本不仅仅是一种客观记录,也承载着社会主体的主观态度表达。人们常常会在文字资料中表达对政治人物、政治现象和政治事件的看法,其中蕴藏着丰富的情感要素,所以基于文本大数据进行情感分析能够更全面地理解政治态度和情感倾向。从政治学的角度来看,情感是政治态度的基本维度和重要影响因素。谢丽尔·豪尔(Cheryl Hall)强调,作为政治生活的重要组成要素,情感应该被确立为政治理论分析的一个核心范畴,应注重研究不同情感因素对政治运行所产生的后果。[73]因此,基于文本大数据的情感分析,就是要深度挖掘文本的情感、态度,揭示文本中的主观感知和丰富的情感表达。[74]

作为自然语言处理领域的发展重点,基于文本大数据的情感分析就是识别文本中具有主观倾向性的词语。自然语言处理是利用计算机技术来分析、处理自然语言的学科。这种技术体系能将文本数据当中蕴藏的情感态度进行结构化转换,将其转变为计算机可读取和计算的数字。传统的词频和关键词识别方法难以实现这一目标,而自然语言处理技术为有效解决这一难题提供了稳健的方案。[75]2001年,加拿大蒙特利尔大学计算科学系乔舒亚·本吉奥(Yoshua Bengio)、雷让·杜恰姆(Réjean Ducharme)和帕斯卡·文森特(Pascal Vincent)等人率先提出神经语言模型,奠定了使用自然语言处理技术来进行情感分析的基础。[76]2002年,康奈尔大学波庞(Bo Pang)和莉莲·李(Lillian Lee)等人进一步定义了情感分析在自然语言处理中的计算原理与应用场景。[77]情感分析最早运用于商业领域,通过搜集用户评语来判断用户对购买商品的态度,在发展过程中,情感分析的运用范围不断扩展,分析效果也日益提高。

以文本粒度为标准,基于文本大数据的情感分析可以划分为粗粒度和细粒度两个类型。粗粒度情感分析有篇章级(文档级)(Document-Level Sentiment Analysis,DLSA)和句子级情感分析(Sentence-Level Sentiment Analysis,SLSA),而细粒度情感分析则是基于评价对象及其属性的分析,即视角级情感分析(Aspect-Level Sentiment Analysis,ALSA),这意味着在实际应用场景中,人们不光要识别一篇文档或者一个句子中包含的观点,还需要识别观点或情感所表达或评价的对象,以及针对这些对象所具体表达的观点倾向。[78]

具体来说,篇章级情感分析聚焦于整个文档,需要对整个文档进行情感极性分类,一般分为积极或消极两种类型。而句子级情感分析面向文档中的语句,由于语句中包含的情感词汇相对较少,难度也较大。句子级情感分析假设一个句子只表达一个观点,即一种情感。视角级情感分析旨在明确特定方面相关的情感,一般包括三个要素:视角术语(aspect term)、观点词(opinion term)和情感极性(sentiment polarity)。[79]不同文本粒度的情感分析在具体运用中存在差异,粗层次的分析可以确定文档和语句的情感倾向,视角级情感分析则是针对语料中的对象或实体进行更加精细化的情感分类。[80]

在算法层面,基于文本大数据的情感分析主要包括情感词典类、机器学习类和深度学习类三种算法体系(见表2)。基于词典的情感分析主要是通过制定一系列的情感词典和规则,对文本进行段落拆解、句法分析,使用标注好的情感词典或语言规则来判断情感极性、计算情感值,以此作为情感倾向分类依据。分解文章段落、分解段落中的句子、分解句子中的词汇、搜索情感词并标注和计数、搜索情感词前的程度词,根据程度大小,赋予不同权值、搜索情感词前的否定词,赋予反转权值(-1)、计算句子的情感得分、计算段落的情感得分、计算文章的情感得分。基于机器学习的情感分析方法通常将情感计算视为数据分类问题。机器学习在情感计算中的运用主要是判断情感的极性(polarity),将情感分为“正”和“负”这两类,对训练文本进行人工标注,在此基础上进行机器自主学习,大批量地计算大数据文本的情感极性。深度学习方法相较于传统机器学习方法更加复杂,效果也更加优化,能够利用网络结构自动获取文本特征解决分类问题,有效地避免了复杂的人工训练和标注,目前已被广泛应用于细粒度情感分析领域。基于深度学习的情感分析能够减少数据矢量化时的语义丢失并且减少无关数据的影响,具有较高的准确率。

表2 文本大数据情感分析的常用算法

在大数据政治学领域,基于文本大数据进行情感分析已经得到了广泛运用。基于文本大数据的情感分析已经成为政治文本分析中的一个标准工具,从文本数据中提取情感,通过从正面到负面的情感区分,捕捉文本的情感要素。[81]从数据来源上看,随着在线社交媒体平台越来越多地用于用户交互,人们能够利用这些媒介针对政治人物、组织、现象和问题表达自己的观点、情绪和倾向。因此,微博、脸书和推特等社交媒介上的文本构成了大数据文本情感分析的主要来源。由于脸书限制了对第三方开放数据,因此,国外学界更加聚焦于推特上的文本大数据,而国内学界更侧重于新浪微博等大型社交平台上产生的文本数据。此外,纸质文本和新闻报道中以政治议题为对象产生的文本数据也可以进行情感分析。通过对研究动态的梳理和归纳,基于文本大数据的情感分析呈现为情感极性分析和情感预测分析两个方面,分别用于识别文本中的情感态度倾向以及研判情感态度的发展态势。

1.情感极性分析

情感极性分析是按照倾向性对复杂情感的类型简化,也是基于文本大数据进行情感分析的基础环节。普遍认为,人类的情感极为复杂,在一般意义上可以划分为愤怒、厌恶、恐惧、欢乐、悲伤和惊喜这六种类型。而在网络虚拟环境中,情感则进一步呈现为中立、愤怒、悲哀、害怕、厌恶、快乐、讽刺、惊喜这八种类型。[82]随着研究的不断深入,情感的具体类型能够不断地被细化,呈现出更为复杂的具体类型。而按照情感极性的划分准则,人们的情感态度可以被简化为积极—消极、正面—负面、乐观—悲观及赞同—反对等一系列二元范畴,对复杂的情感类型进行了简约化处理。

根据文本大数据来识别情感极性,就是要通过文本计算识别其中的情感倾向,按照上述的对立范畴进行分类,也就是给文本贴上正面或负面情感的标签。[83]为了实现这一目标,情感词典、机器学习和深度学习三类算法在识别情感极性方面广泛运用,在适用性和有效性方面各有侧重。

具体来说,运用情感词典来识别情感极性,需要情感词典提供代表情绪类别的词语来划分文本数据的情感极性。首先输入文本数据,进行数据预处理操作,然后对文本数据进行分词、去停用词操作,最后根据判断情绪类别的规则将文本数据的情感极性输出。[84]目前,有越来越多的情感词典被用于识别文本大数据的情感极性。常用英文情感词典主要有General Inquirer评价词典、SentiWordNet和SentiRuc词典等,中文情感词典主要有BosonNLP情感词典、知网Hownet情感词典和大连理工大学情感词汇本体库等。

运用机器学习算法来研究文本的情感极性是较为新颖的研究方式。主要是选取某种特征项权重计算方法来构建向量空间模型,再采用相应的特征选择方法来确定特征,将这种特征运用机器学习来训练分类模型,包括支持向量机、朴素贝叶斯、N元语言模型算法等,计算效果均良好,但特征值的选择往往会影响结果,特别是政治情感极具多元化,一些机器学习算法在情感极性分类上存在偏差。而深度学习算法避免了人工标注这一程序,可以利用网络结构自动获取文本特征来解决分类问题,基于分层注意力网络模型、基于卷积神经网络的模型和基于递归神经网络的模型在情感极性计算方面更为精确,能够通过调整权值,使测试文本能够根据调整后的权值准确学习,从而得到多个不同的神经网络模型,在情感极性计算的精确度上大幅提升。

情感极性的分析通常运用于意识形态判断上。这一分析能够根据政治人物的演讲或是社交媒体上的发言,探究其情感态度倾向,为分析其意识形态的基本特征提供情感维度的依据。有研究通过情感词典的方式来对比研究希拉里·克林顿和唐纳德·特朗普在2016年总统大选期间的演讲文本,结果发现,特朗普的演讲中表现出的消极情感明显高于希拉里,特朗普比希拉里使用了更多类型和数量的负面情感词汇,这种高度集中的负面情感倾向也展现了他保守主义的政治立场。[85]

情感极性分析能够在搜集社交媒介大数据的基础上分析公众对政党及其候选人的情感态度,以此来评估政党及其候选人的支持度。社交媒介日益成为影响选举的重要机制,政党通过计算用户的偏好,制定符合其口味的广告和竞选策略,以此来提升支持率,这已经在竞选中得到广泛的应用。在这一过程中,情感分析发挥了关键作用。大数据在奥巴马竞选美国总统时就发挥了重要作用。在2016年,剑桥分析公司(Cambridge Analytica)根据用户的评论来识别情感类型,辅助特朗普竞选团队制定了更加精准的政治广告。[86]在学术研究中,情感分析也被运用于评估公众对政党及其候选人的情感态度。随着本土主义情绪的抬头,美国和欧洲主要政党在竞选过程中受到了本土主义情绪的影响。戴维斯·尼古拉斯(Davis Nicholas)等人根据英国、法国、德国、瑞典和美国的数据,研究发现,本土主义情绪和对本土主义政党的支持之间存在着强有力的积极关系,这一点也是2016年美国和西欧秉持本土主义的政党在竞选中获胜的关键因素。[87]此外,有研究发现2014年印度大选中,网民的推文在推文中展现的政治情感与其在选举中投票倾向存在着高度相关性。[88]

情感极性分析能够用于评估意识形态的整体形势。阿帕普·卡图阿(Aparup Khatua)根据2008年4月至2009年6月期间韩国社交网站产生的评论,对韩国民众的整体情感进行了分析,结果显示,进步主义情绪主导了政治话语,执政党收到的负面评论多于反对党。[89]而按照标签的相关性,有学者通过对2011年9月德国柏林州议会选举期间转发次数最多的前30名用户推文进行分析,发现他们倾向于发布包含政党和政客评价的推文,评价也更倾向于负面。[90]修尔·埃兰(Shor Eran)2004年至2009年间200多份美国主要报纸上的文字数据分析发现,支持共和党报纸以更负面的方式报道女性,偏向于自由派的报纸更倾向于以积极的情感来报道女性及女性议题。[91]移民问题一直影响着欧洲的意识形态走向,托拜厄斯·海德里希(Tobias Heidenreich)等人通过分析西班牙、英国、德国、奥地利、瑞典和波兰在社交媒介上的评论文本,发现与更温和的政治人物相比,政治派别中极左和极右政党及其政治人物更频繁和更消极地看待移民问题。[92]

情感极性分析也可以帮助公共部门了解公共政策引发的公众情感和态度。亚当斯·约瑟夫(Adams Joseph)使用推特数据和机器学习方法来分析美国民众同性婚姻合法化的政治情绪,结果发现,相较于其他州,适用联邦最高法院裁决从而产生政策变化的州,公众对同性婚姻合法化的情感反而更为消极。[93]在美国堕胎议题上,也存在着情感和政治倾向的高度相关性。[94]印度在推行新冠肺炎疫苗政策的过程中,引发了民众的强烈关注,西韦·普拉文(Sv Praveen)等人通过对76979条推文的计算,结果发现有将近半数的公民呈现出负面情感。[95]也有学者基于社交媒体的文本数据,开发了新的情感分析系统,利用推文分析了美国公众对移民和边境安全政策情感态度及其积极性。[96]

情感极性分析也被用于研究公共舆论的情感倾向,从总体上评估公众的情绪。新冠疫情之后,美国针对亚裔的种族主义和仇恨犯罪的媒体报道有所增加,有研究发现在疫情之后,美国人对亚裔情感变得更加消极。[97]而根据2008年9月至2014年7月期间包含“气候”一词的推文,科迪·艾米丽(Cody Emily)等人通过情绪测量分析发现,在自然灾害、气候法案和石油开采等话题下情感更倾向于负面,而气候集会、新书发布和绿色创意竞赛话题之下的情感则倾向于正面。[98]2022年至2023年的冬季是自第二次世界大战以来能源供应最艰难的时期之一,根据推特上五种广泛使用欧洲语言和英语的公开讨论,公众负面情绪已经完全超越了正面情绪。[99]此外,在难民议题上,也有学者通过分析与难民有关的土耳其语和英语推文,发现土耳其语推文情绪与英语推文情绪有显著差异,土耳其语推文对叙利亚人和难民的积极情绪略多于中立和消极情绪,而英语推文中对叙利亚人和难民的积极情绪明显较少,负面情绪更为集中。[100]

2.情感预测分析

情感预测分析是基于文本大数据进行情感分析的另一种方法论体系,侧重于挖掘情感的发展趋势。时间是影响情感发展的重要因素,因此,情感预测分析在情感极性识别的基础上,加入了时间因素,探究情感发展态势。这意味着需要判定文本所表达的情感分类,并根据时间序列对情感的变化趋势进行识别,实现情感预测功能。[101]通过情感预测能够跟踪人们围绕重大事件产生的情感走向。[102]因此,情感预测分析成为基于文本大数据进行情感分析的前沿领域。

目前,情感词典和机器学习方法在情感预测过程中运用更为广泛,能够根据历史时间序列的情感倾向值及趋势来预测情感变化。在操作程序上,利用文本大数据的情感预测,需要首先确定数据训练集,将这一数据视为历史数据,输入算法模型进行训练,不断优化计算精确之后,将计算模型应用到测试集进行计算,形成预测结果,加入时间因素,对情感值时间序列进行建模分析。

目前,选举预测是国外学界利用文本大数据进行情感预测的热点研究领域。通常基于社交媒介上的文本大数据来预测公民对某政党和候选人的情感倾向和变化趋势。西方学界普遍将这种情感预测结果作为民意调查的补充,在探索网络意见表达的语意与情感取向的基础上综合不同信息源来推算选民对政党或候选人的支持率。[103]文本大数据加上自然语言处理算法和工具,使精准预测选举结果成为可能。[104]这种优势在实证研究中得到了充分证明。泰米扎伊·法博拉(Temitayo Fagbola)等人基于尼日利亚2018年10月至2018年12月期间的224500条推文来预测2019年的选举结果,结果显示,民众对人民民主党的态度积极性程度低于对全国进步大会的态度积极性,并且这种情感差异在一定时间范围内保持了稳定性,因此预测全进步大会党将会胜选,这一预测与最选举结果高度吻合。[105]

此外,基于文本大数据的情感预测用于研究政治极化问题。综合利用各种文本数据来源,来评估政治意识形态在情感维度上对立程度的变化趋势,这种研究思路十分适用于政治极化这一研究主题。通过横截面分析研究新冠疫情期间西班牙三大主流新闻网站新闻报道中对政府抗击疫情措施态度的两极化趋势,这三家媒体对中央政府处理健康危机的态度差异持续扩大,呈现出明显的两极化态势。[106]在全球气候问题上,情感极化态势也日益显著,对缔约方大会气候峰会相关的推文分析显示,会议期间的情感极化更加明显,右翼势力的参与是其中的重要原因,扩大了情感差异的发展趋势。[107]

基于文本大数据的情感预测也用于追踪政策实施过程中公众的情感变化情况,为政策评估提供支持。学者们通常从用户相关和政策相关的社交媒体信息中提取和整合文本数据,在政策发布和实施等多个阶段预测公众态度。[108]例如,针对新加坡在新冠疫情期间的防控政策,苏克瓦尔·钱德拉(Sukhwal Chandra)等人选取2020年1月至11月期间的脸书公众团体上24万篇帖子,分析结果显示,随着防控措施严格度增强,公众情感态度更倾向于负面,对公众情感态度倾向最为明显的政策集中在病毒感染、戴口罩、工资和工作这几大问题上。[109]也有学者追踪了美国疫苗政策引发的公众情感变化,对2021年2月初和3月下旬社交媒体数据的分析显示,尽管越来越多的美国人接种了疫苗,但对疫苗的消极情绪仍然存在,在美国中部人口较少的州,这种情绪的变化更加明显。[110]此外,也有学者基于美国四个官方公共卫生系统的推特用户所发布的推文进行分析,结果显示,随着疫情管理措施的完善,公众情绪极性由消极转为积极,公众对疫情话题的情绪极性总体上仍然倾向于负面,而对疫情医疗服务等管理措施的情绪强度由正面转为负面的程度最强。[111]

基于文本大数据的情感预测也用于从情感变化角度监测舆情,并通过模型仿真的方式来进行可视化呈现。在此领域,国内的研究成果相对更多。基于情感分析的组合预测模型对于重大突发事件网络舆情热度的预测具有较好的研究效果。[112]有学者通过网络爬虫在新浪微博获取了热点话题微文数据,对舆论情感演变及其影响因素进行了研究,结果显示,公众在社会话题发生后会及时参与讨论,具有较快的情感反应,而随着话题的发展,公众的情感也会发生变化,主要源于三个方面的影响,即公众自我感知的主观情感、大量转发的微文情感以及自我感知和转发微文的综合影响,在这些因素的影响下,在话题发展中可能会出现多个情感极性临界点,而每一次情感极性临界点的出现都可能引起公众的情感变化。[113]