三 数据来源与研究方法

(一)数据来源

本文研究数据来自由上海大学和上海社会科学中心在2014~2015年实施的“特大城市居民生活状况”调查。调查地点主要在北京市、上海市和广州市。该调查采用自适应区群抽样方法(Adaptive Cluster Sampling):后阶段抽样单位由前一阶段的抽样所决定,在总体稀少且聚集分布的情况下,使用这种方法尤其有效(Seber and Salehi,2013;陈传波、白南生、赵延东,2012)。该调查的重点研究对象是中产阶层,我国中产阶层总体不明,且多聚集分布,因此非常适合该方法。在第一阶段,将研究区域根据社区边界分成相互邻接的抽样单位,采用随机方法抽取其中50个社区作为初始单位展开调查,得到每个社区中中产阶层的比例。根据此比例计算得出阈值。在第二阶段,判断每个初始单位是否达到阈值,若达到阈值,则向邻接单位外推,直到所有的邻接单位都达不到阈值,初始单位达不到阈值则不往外推。[3]

(二)研究变量

1.行政区、社区的隔离系数(差异指数和隔绝指数)

通过行政区中各社区的不同类型人口数量计算,在以往研究中,多使用普查数据计算隔离系数,而本文使用的是抽样数据,虽然抽样社区对于城市有代表性,但隔离系数不能代表城市,但各城市间可以进行系数比较,并进行一定程度的相关性分析。

2.新老城区

本文认为新、老城区是城市空间在“时间性”维度的延伸,因此根据城市扩展的时间,将行政区划分为新老城区。其中,北京的老城区主要在二环路以内,包括西城区、东城区;上海的老城区包括黄浦区、徐汇区、长宁区、静安区、闸北区、普陀区、虹口区、杨浦区;广州市的老城区包括荔湾区、越秀区、海珠区和天河区。

3.阶层类型

本文主要将阶层进行二分类,区分为中产阶层与非中产阶层,其中中产阶层主要通过对若干指标(本人/配偶的职业类型、自评家庭等级、自评家庭住房等级、全年家庭总支出、全年家庭总收入)进行因子分析降维后,将因子得分大于0的样本设定为中产阶层,小于0则标记为非中产阶层。

4.各社区的体制内、本地中产阶层比例

本文总结了中产阶层的类型划分,为了研究不同类型的中产阶层居住模式的差异,将社区作为基本研究单位,操作化为各社区的体制内、本地中产阶层比例,借助社区的地理信息即可验证研究假设。

其他研究变量还包括基本人口学信息、社区离市中心的距离和社区离区中心的距离等。

(三)研究方法

1.空间自回归模型

由于本文的研究单位之一是社区,各社区的阶层构成很有可能存在空间依赖性,例如,调查通过自适应区群抽样方法,已经发现中产阶层是存在聚集分布的,因此我们必须检验数据是否存在空间自相关(Spatial Autocorrelation),即位置临近的区域是否具有相似的变量取值。莫兰指数(Global Moran's I)和吉尔里指数(Geary's C)都是常用的计算空间自相关的指标,前者主要是考察整个空间序列的集聚状态,后者则表示某区域的空间集聚情况。

我们利用百度地图将社区名称转换为经纬度,先计算空间权重矩阵,再计算自相关指标,如果指标计算结果拒绝“无空间自相关”的原假设,即认为存在空间自相关,不满足独立同分布的假设,就必须使用空间自回归模型,包括空间滞后模型和空间误差模型。

2.多层次截距模型

在验证居住隔离对于阶层不平等的影响研究中,居住隔离是行政区层面的指标,居住在同一个行政区的个体会受到相同居住隔离的影响,导致回归分析的三个基本条件之一——独立性,无法得到满足。而多层次回归模型就是通过将非独立性的来源纳入方程中以解决该问题。本文假设居住隔离的效应在组内(各行政区)是相同的,因此使用多层次截距模型。