云书馆

精彩书摘

第1章回归分析
　　回归分析研宄的主要对象是客观事物变量间的统计关系，即建立在对客观事物大量试验和观测的基础上，寻找隐藏在表面不确定现象中统计规律性的统计方法.本章主要介绍多元线性回归模型及相关性质、不符合基本假设的检验和多重共线性问题的解决方法.
　　1.1回归模型
　　1.1.一般形式及假设
　　如果P个自变量，和因变量Y之间存在如下的相关关系:
　　则称上式为多元回归模型，其中f( )称为回归函数，其中，是自变量的观察值，为随机误差项，满足高斯-马尔可夫（Gauss-Markov)假定
　　(1.1)
　　1.1.2线性模型及参数的*小二乘估计
　　考虑p个自变量，和因变量Y之间满足如下的相关关系:
　　(1.2)
　　则称（1.2)式为多元线性回归模型.称为多元线性回归函数，为待估参数，称为回归系数，为随机误差项.特别地，当p=1时（1.2)式就退化为一元线性回归模型.
　　设来自模型（1.2)的样本为，如果满足如下的条件：
　　(1.3)
　　(1.4)
　　(1.4)
　　(1.5)
　　(1.6)
　　(1.7)
　　(1.8)
　　(1.9)
　　1.1.3*小二乘估计的性质
　　性质1.1
　　证明由（1.4)式知
　　(1.9)
　　性质（1.2)
　　证明
　　性质（1.3)
　　性质（1.4)
　　证明由性质（1.2)得
　　性质1.5
　　证明　按如下方式分解总偏差平方和
　　性质1.6假定随机误差
　　证明
　　性质1.7假定随机误差，则有
　　(1)
　　(2)
　　(3)
　　证明比较复杂，请参考相关文献.
　　1.1.4线性模型的显著性检验
　　自变量和因变量之间是否具有密切的线性关系，需要对线性模型进行显著性检验.需要注意的是，即便，与之间有密切的线性关系，但也不意味着每个变量对都有显著的影响.因此，还必须检验每个变量对影响的显著性，对那些影响不显著的变量应从模型中逐个剔除后，重新建立只包含对有显著影响的自变量的回归方程.
　　1.模型的显著性检验
　　若所有自变量，对因变量的影响不显著，那么模型（1.2)中的系数.则问题转化为检验
　　(1.10)
　　由性质1.5可知，在H0成立条件下，对于确定的，较大是一个小概率事件，故选择拒绝域的形式为，再根据性质I.7知，当H0成立时，有
　　(1.11)
　　所以当H0成立时，对给定的显著水平可求得临界值
　　该检验方法称为F检验法.
　　还可以利用回归平方和在总离差平方和中所占比例大小衡量与，之间的线性相关的密切程度，称
　　(1.12)

展开

目录
前言
第1章　回归分析　1　
1.1　回归模型　1　
1.1.1　一般形式及假设　1　
1.1.2　线性模型及参数的*小二乘估计　1　
1.1.3　*小二乘估计的性质　3　
1.1.4　线性模型的显著性检验　6　
1.1.5　不符合回归模型假设的两种情况　8　
1.2　回归诊断　11　
1.2.1　强影响点　11　
1.2.2　异常点　12　
1.2.3　多重共线性　14　
1.3　有偏估计　15　
1.3.1　Stein估计　15　
1.3.2　岭估计　16　
1.3.3　Liu估计　16　
1.3.4　主成分估计　17　
1.3.5　正回归　18　
1.4　回归分析实例　18　
1.4.1　数据的收集与预处理　18　
1.4.2　建立多元线性回归模型　19　
1.4.3　模型的检验　19　
1.4.4　正回归　23　
第2章　变量选择　25　
2.1　传统变量选择方法　25　
2.1.1　变量选择标准　25　
2.1.2　逐步回归　26　
2.1.3　传统变量选择R函数　27
2.2　现代变量选择方法　27　
2.2.1　绝对约束估计　27　
2.2.2　平滑调整估计　28　
2.2.3　弹性约束估计　29　
2.2.4　相关平滑调整估计　29　
2.2.5　非负约束估计　30　
2.2.6　分组绝对约束估计　31　
2.2.7　变量选择常用R函数　33　
2.3　变量选择实例　36　
2.3.1　传统变量选择法　36　
2.3.2　现代变量选择法　37　
第3章　时间序列　40　
3.1　基本概念　40　
3.1.1　概率分布族及其特征　40　
3.1.2　平稳时间序列　42　
3.1.3　平稳时间序列的一些性质　42　
3.2　平稳时间序列分析　43　
3.2.1　平稳性检验　43　
3.2.2　纯随机性检验　44　
3.2.3　自回归移动平均模型　45　
3.2.4　Green函数与逆函数　45　
3.2.5　ARMA（p，q）模型的建模　46　
3.3　非平稳时间序列的确定性分析　48　
3.3.1　趋势拟合法　49　
3.3.2　平滑法　49　
3.4　非平稳时间序列的随机分析　50　
3.4.1　求和自回归移动平均模型　50　
3.4.2　条件异方差模型　51　
3.5　门限自回归模型　53　
3.6　时间序列分析实例　54　
第4章　非参数统计　58　
4.1　次序统计量及分位数估计　58　
4.1.1　次序统计量　58
4.1.2　分位数估计　59　
4.2　U统计量　61　
4.2.1　单样本U统计量　61　
4.2.2　两样本U统计量　65　
4.3　秩检验　66　
4.3.1　线性秩统计量　67　
4.3.2　符号秩检验　72　
4.3.3　非参数检验　74　
4.4　相关分析　76　
4.4.1　Spearman秩相关检验　76　
4.4.2　Kendall-tau相关检验　78　
4.4.3　多变量Kendall协同系数检验　78　
4.5　非参数回归　79　
4.5.1　核光滑　80　
4.5.2　局部多项式光滑　81　
4.5.3　样条光滑　82　
4.5.4　可加模型与部分线性可加模型　82　
4.6　非参数实例　83　
4.6.1　非参数检验　83　
4.6.2　非参数回归　84　
4.6.3　可加模型和部分线性可加模型　85　
第5章　聚类分析　95　
5.1　相似性度量　95　
5.1.1　样本的相似性度量　95　
5.1.2　类与类间的相似性度量　97　
5.2　系统聚类法　98　
5.3　变量聚类法　99　
5.3.1　变量相似性度量　99　
5.3.2　变量聚类　100　
5.4　动态聚类法　100　
5.5　EM聚类　101　
5.6　主成分聚类法　102　
5.6.1　主成分聚类　102
5.6.2　加权主成分聚类　103　
5.6.3　一种加权主成分距离的聚类分析方法　103　
5.6.4　加权主成分兰氏距离的定义　104　
5.7　聚类分析实例　104　
5.7.1　评价指标　105　
5.7.2　传统聚类分析　105　
5.7.3　主成分聚类分析　107　
第6章　判别分析　111　
6.1　距离判别　111　
6.1.1　两总体情况　111　
6.1.2　多总体情况　113　
6.2　费希尔判别　113　
6.3　贝叶斯判别　114　
6.3.1　误判概率与误判损失　115　
6.3.2　两总体的贝叶斯判别　116　
6.3.3　多总体的贝叶斯判别　118　
6.4　稳健的稀疏判别　119　
6.5　判别分析实例　121　
第7章　逻辑斯谛回归与支持向量机　123　
7.1　逻辑斯谛回归　123　
7.1.1　二分类问题　123　
7.1.2　多分类问题　124　
7.1.3　顺序类别问题　125　
7.2　支持向量机　126　
7.2.1　硬间距SVM模型　126　
7.2.2　软间距SVM模型　129　
7.2.3　非线性SVM模型　129　
7.3　逻辑斯谛回归与支持向量实例　131　
7.3.1　逻辑斯谛回归实例　132　
7.3.2　支持向量实例　133　
第8章　主成分分析　135　
8.1　主成分　135　
8.1.1　基本思想　135
8.1.2　样本主成分　137　
8.1.3　特征值因子的筛选　139　
8.2　稀疏主成分分析　140　
8.3　主成分分析实例　142　
第9章　因子分析　152　
9.1　因子分析模型　152　
9.1.1　因子旋转　153　
9.1.2　因子得分　155　
9.2　稀疏因子分析模型　156　
9.3　因子分析实例　157　
第10章　纵向数据分析　164　
10.1　纵向数据　164　
10.2　纵向数据线性模型　165　
10.3　广义线性模型　169　
10.3.1　广义线性模型的定义　169　
10.3.2　广义线性模型中的参数估计　170　
10.4　边际模型　172　
10.5　纵向数据分析实例　175　
附录A　翻转课堂案例汇编　178　
A.1　案例1：数据可视化的探索　178　
A.1.1　摘要　178　
A.1.2　改进措施　178　
A.1.3　数据来源和采集时间　178　
A.1.4　程序分析结果　178　
A.1.5　结论和展望　180　
A.2　案例2：函数型数据的聚类分析　180　
A.2.1　摘要　180　
A.2.2　改进措施　180　
A.2.3　数据来源和采集时间　180　
A.2.4　程序分析结果　180　
A.2.5　结论和展望　181　
A.3　案例3：基于SCAD惩罚的SFPLR-Logistic模型　181　
A.3.1　摘要　181
A.3.2　改进措施　182　
A.3.3　数据来源和采集时间　182　
A.3.4　程序分析结果　182　
A.3.5　结论和展望　183　
A.4　案例4：基于稀疏主成分的关键词提取　183　
A.4.1　摘要　183　
A.4.2　改进措施　183　
A.4.3　数据来源和采集时间　183　
A.4.4　程序分析结果　183　
A.4.5　结论和展望　185　
A.5　案例5：基于稀疏主成分的强影响点诊断　185　
A.5.1　摘要　185　
A.5.2　改进措施　186　
A.5.3　数据来源和采集时间　186　
A.5.4　程序分析结果　186　
A.5.5　结论和展望　187　
A.6　案例6：高维多重共线性问题　187　
A.6.1　摘要　187　
A.6.2　改进措施　187　
A.6.3　数据来源和采集时间　188　
A.6.4　程序分析结果　188　
A.6.5　结论和展望　189　
附录　BR应用程序　190　
参考文献　191

展开