第1章预测分析过程 介绍预测分析的基本概念,说明预测分析过程的不同阶段,并概述本书会用到的软件。

第2章理解问题和准备数据介绍本书会涉及的问题和数据集,并展示建模的基础工作,以及如何收集数据和准备数据集。

第3章理解数据集——探索性数据分析展示借助数据可视化技术和其他数值技术从数据集中获取重要信息的过程。

第4章基于机器学习的数值预测介绍机器学习的主要思想、概念以及一些流行的回归模型。

第5章基于机器学习的分类预测介绍机器学习中一些重要的分类模型。

第6章 面向预测分析的神经网络简介展示神经网络模型的构建过程。神经网络不但功能强大而且精度很高,广受欢迎。

第7章模型评价展示评价预测模型结果所需要的主要指标和方法。

第8章调整模型和提高性能介绍k折交叉验证等重要技术,这些技术可以改进预测模型的性能。

第9章基于Dash的模型实现展示交互式网络应用的构建过程,从用户处获取输入,再用训练好的预测模型生成预测。

要获得最佳学习效果,你需要具备以下基础。

一定的Python编程能力。

基本的统计知识。

你需要先了解Python数据科学栈的知识,但这也不是必备条件。本书将使用Python 3.6和许多的主流分析库。获取这些库的简单方式是直接安装Anaconda,Anaconda是一个开源的Python发行版本。虽然这并不是必需的,但可以简化你的工作。请浏览Anaconda官网以了解这个软件的更多内容。

本书所用的排版约定如下。

CodeInText:表示文本中使用的代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入等内容。例如,“把下载的磁盘映像文件WebStorm-10*.dmg挂载到系统的另一个虚拟磁盘。”

代码块以如下样式显示:

carat_values = np.arange(0.5, 5.5, 0.5)
preds = first_ml_model(carat_values)
pd.DataFrame({"Carat": carat_values, "Predicted price":preds})

对于特殊的代码块,相关的行或者项目会被设置为粗体:

numerator = ((ccd['default']==1) & (ccd['male']==1)).sum()/N
denominator = Prob_B
Prob_A_given_B = numerator/denominator
print("P(A|B) = {:0.4f}".format(Prob_A_given_B))

命令行的输入和输出格式如下:

dim_features.corr()

黑体:表示新术语、重要的词或者屏幕上的词,比如文本中出现的菜单或对话框中的词。例如,“从管理员面板选择系统信息。”

栏目1{} 表示警告或重要注释。

桌面\t.tif{} 表示提示和技巧。