1 统计建模简介

（1）概念
统计建模是指以计算机统计分析软件为工具，利用各种统计分析方法对批量数据建立统计模型和探索处理的过程，用于揭示数据背后的因素，诠释社会经济现象，或对经济和社会发展作出预测或判断。
（2）应用
随着计算机和网络技术的快速普及和广泛发展，我们面对着数据和信息爆炸的挑战，如何迅速有效地将数据提升为信息、知识和智能，是统计工作者面临的重要课题。而统计建模将统计方法、计算机技术完美结合，带动以数据分析为导向的统计思维，发现和挖掘数据背后的规律，为经济社会的发展提供更好更多的统计信息。

2 统计建模过程

过程是：问题->数据->模型->结论
面对需要、收集数据、根据数据建立模型、利用模型做预测或得到其它结论、模型随时根据新的信息进行更新，即：收集、分析、展示、解释数据。
在这里插入图片描述

3 统计模型

3.1 来源

（1）根据数据状况（探索性数据分析）主观确定出一个参数模型类型或者一个算法
（2）其中典型参数模型例子为线性回归模型等，而算法模型例子为决策树，随机森林等
（3）根据已知数据训练/学习出参数模型的参数或者算法模型的程序
在这里插入图片描述

3.2 分类

参数模型
（1）经典统计一假定背景分布下的参数估计及假设检验、线性回归、多元分析等等（现在大部分数理统计课程是以经典统计为主的）。特点：数学味道很浓，模型形式是根据经验及数学的可算性假定的可以写出公式的模型，模型参数由数据来估计。
算法模型
开始于计算机时代
（1）算法建模（机器学习、数据挖掘、人工智能等等，现在均可称为机器学习）。大约是上世纪70年中后期代开始，以神经网络为前导。特点：根据数据训练一个算法模型（模型是一个计算机程序，而不是一个数学公式）。
（2）判断模型的好坏：用一部分不参加建模的数据（测试集）检验另一部分数据（训练集）建立的模型，即客观公正的交叉验证。

4 注意点

4.1 建模首先必须是问题驱动

（1）先有了问题，才会寻找数据（也可能挖掘数据）其次有了数据，才会寻找模型，而不是相反
• 根据模型寻找数据不是科学的
• 一个数据必定有很多模型可以尝试拟合
• 分析之前不应该指定某一个模型
（2）对于一个数据必须尝试尽可能多的模型
（3）挑选相对较好的模型来拟合
• 最客观的比较方法是交叉验证（可以比较任何模型）
• 在无法证实的正态性假定下，用拟合优度检验等比较
必须是问题/数据驱动而不是模型驱动。

4.2 六个避免

（1）避免只用一种方法（未比较其他模型和交叉验证），应该避免没
有根据或比较地任意假定模型形式；
（2）避免使用现成的经济和金融模型，任何一个现成模型必须经受
最新数据的考验，否则必须被替代；
（3）避免只使用汇总数据（均值，百分数，比例）等加工过的数据；
（4）避免任意假定正态分布（或者不提分布，但出现’检验，丆检验和尹
值），分布假定必须要有根据；
（5）避免任意使用大样本结论于小样本情况；
（6）数据必须是未力口工的，结论只能从数据分析的结果给出，避免加入拍脑袋也能得到的结论。

4.3 数据预处理

（1）原始数据往往或多或少地存在各种缺失值以及不合逻辑或不一致等问题。这需要预处理。这些工作很可能非常费时而且极其琐碎，但必须去做，否则后续的分析是不可能的；
（2）填补缺失值有很多方法，最简单的就是删除，或者用同一变量其他值的均值或中位数填补，或者在各个变量之间建立模型（比如回归模型，最近邻方法等大量选择）来填补。
这是必须做的事情！

4.4 寻找适合的模型

（1）有了数据，我们需要的是模型，其目的或者是为了预测，或者是为了理解产生数据的机制。
（2）为了寻找模型，首先要对数据做探索性分析，利用图形、各种统计量、或者稍微复杂的探索方法来查看数据的关联性、线性性、异方差性、多重共线性、聚类特征、平衡特征、分布形状等等。有了对数据的粗略认识之后，就要寻找适合的模型，无论是传统意义上的模型还是以算法为基础的模型。
（3）首先寻找现成的模型，要比较各种模型的计算结果；如果现有模型不能满足需要时，新的数据分析方法就应该产生了。模型选择的过程贯穿于整个数据分析过程。

文章版权归作者所有，未经允许请勿转载。

THE END