在本节中,我们将介绍本书会用到的一些术语,并明确其相关的含义。有时,初学者的学习困惑部分来自于术语。有些概念可能有多个术语。举一个极端的例子,变量、特征、属性、自变量、预测变量、回归变量、协变量、解释变量、输入因子,这些术语可能表示的是相同的含义!造成这种糟糕局面的原因是研究者来自不同的领域(如统计学、计量经济学、计算机科学、运筹学等),每个领域都有独特的命名方式,因此进行预测分析时也引用了各领域的术语。但是别担心,你很快就会习惯了。

现在我们来看一些基本概念。记住,术语的定义不必过于正式,也不需要逐字记住。在这里,本书会为相关术语构建清晰的定义。数据是预测分析的“原始材料”,因此我们需要先对一些关键性的数据概念加以定义。

数据。获得并存储起来的记录,这些记录在某些上下文中是有意义的。

观测单元。分析对象的实体。很多时候它在背景中很清晰,但有时候很难定义(尤其是与非技术人士沟通时)。假设要对连锁超市的一组商店的“销售数据”进行分析,这项定义模糊的任务可以定义为许多观测单元的组合,观测单元包括商店、收银机、交易、日期等。一旦知道了观测单元是什么(如顾客、房屋、患者、城市、细胞、石头、星星、数据、产品、交易、推文、网站等),你就可以了解它们的属性。

属性。分析单元的特征。如果分析单元是患者,那么属性可以是年龄、身高、体重、体重指数、胆固醇水平等。

数据点、样本、观测和实例。具备所有可用属性的单个观测单元。

数据集。一组数据点,通常以表格形式储存,如关系数据库表或其他电子表格。

在许多问题中,数据集的形式是非结构化的,如视频、音频、推文和博客文章。但是,在预测分析中讨论数据集时,通常指结构化的数据集、一个表格或一组相关的表格。在进行预测分析时,大部分时间可能花在数据集的格式转换上,即从非结构化转到结构化。

此外,从现在开始,讨论数据集就表示对象是单个表格。尽管真实的数据集可能由多个表格组成,但本书把它当作单个表格。典型的表格如图1-1所示。

..\21-0514 改图\1-1.tif

图1-1

在该数据集中,观测单元是“Customer”,它是项目关注的实体对象。每一行表示一个观测或一个数据点,可以看到,每个数据点都有一系列属性(如Customer idAgePreferential status等)。下面我们讨论与这个数据集有关的建模词汇表。首先,从数学的角度看,每一列可以看作一个变量,变量的取值可能有变化,可以从一个数据点改变至另一个数据点。数据集中的变量关键是类型,类型有以下多种可能。

分类变量:取值只考虑有限个可能的变量,如性别、国家、交易类型、年龄组、婚姻状况、电影类型等。这类变量包含如下两个子类。

序数变量:属性有大小排序的变量,如年龄组(21~30岁、31~40岁、41~50岁,51岁及以上)或者衬衣型号(小号、中号、大号)。

基数变量:属性取值顺序无意义的变量。

数值变量:取值可以在某个定义区间内发生变化的变量。这类变量包含如下两个子类。

连续变量:原则上可以取区间内任意值的变量,如人的身高、股票价格、星星的质量以及信用卡余额。

整数变量:只能取整数值的变量,如孩子的个数、年龄(如果用年来度量)、一座房子的房间个数等。

数据集中有一列非常重要:就是我们想预测的那一列。这一列也可以称为目标、因变量、响应结果输出变量,表示预测的质量或数量,通常记作y。本书使用术语目标(Target)对其进行表示。

一旦识别了目标,其他候选列就成了特征、属性、因变量、预测变量、回归变量、解释变量或输入,这些列将用于预测目标。本书将使用术语变量(Variable)和特征(Feature)对其进行表示。

最后,我们给出预测模型(Predictive Model)的定义:它是一种使用特征预测目标的方法。我们也可以将其看作数学函数:输入是一组特征和目标,输出是目标的预测值。从抽象层次来看,预测模型如图1-2所示。

尽管图1-2有一定的局限(某些人甚至可能会认为它是错的),但是足以说明预测模型的一般性概念。我们将在后续章节深入研究预测模型的细节,并构建多个预测模型。

..\tu\1-2.tif

图1-2

至此,我们已经介绍了预测模型的定义和本书会用到的一些重要术语。接下来,我们讨论预测分析过程。