老铁们,大家好,相信还有很多朋友对于大数据:利用主成分法解决多重共线性问题和的相关问题不太懂,没关系,今天就由我来为大家分享分享大数据:利用主成分法解决多重共线性问题以及的问题,文章篇幅可能偏长,希望可以帮助到大家,下面一起来看看吧!
2. 多重共线性的后果
1. 理论后果
多重共线性的发生是因为变量之间的相关性比较高。
布兰查德认为,在计量经济学中,多重共线性本质上是一个“微米低估”问题,这意味着多重共线性实际上是由于样本量太小造成的。当样本量越小时,多重共线性越严重。
多重共线性的主要理论后果:
(1) 完全共线性下参数估计量不存在;
(2) OLS估计器在近似共线性下无效;
(3)模型的预测功能失效;
(4)参数估计器的经济意义不合理
2. 现实后果
(一)难以准确识别各解释变量对指标最终结论的影响;
(2)置信区间比原来更宽,使得接受假设的概率更大;
(三)统计量不显着;
(4)拟合优度的平方会很大;
(5) OLS估计量及其标准误差对数据的微小变化也非常敏感。
3. 多重共线性产生的原因
模型参数选择不当。当我们建立模型时,变量之间是否存在高度相关性
2.由于所研究的经济变量随着时间的推移往往具有共同的变化趋势,因此它们之间存在共性。例如,当经济景气时,反映经济状况的指标可能会按一定比例增加。
3.滞后变量。滞后变量的引入也会产生多重共线性。例如,本期的消费水平除了受本期收入的影响外,还可能受到上期收入的影响。建立模型时,本期的收入水平可能与本期的收入水平相同。早期收入水平存在共线性。
4. 多重共线性的识别
1.方差扩展因子法(VIF)
一般认为,如果最大VIF超过10,往往表明存在多重共线性。
2. 公差公差规则
如果容差=0.1,通常表明存在多重共线性。
3.条件索引
条件指数(condition index)为10,可以表明存在严重的共线性。
5. 如何处理多重共线性
处理方法有样本量倍数增加、因子消除法、PLS(偏最小二乘法)、岭回归法、主成分法等。
今天我们重点讲一下——主成分法。
当自变量之间存在很强的线性相关性时,使用p 个变量的主成分的性质。如果它们彼此不相关,则可以根据前m个主成分z1、z2和zm建立回归模型。
由原变量的观测数据计算出前一个主成分的得分值,作为主成分的观测值,建立Y与主成分之间的回归模型,得到回归方程。此时p元减少为m元,不仅简化了回归方程的结构,而且消除了变量之间相关性的影响。
6. 实际应用
我们使用以下模型来分析对主营业务利润的影响
Opinci,t=a0+a1*Intani,t+a2*Ppei,t+a3*Opinci,t-1+a4*Levi,t+a5*Asseti,t + xii,t
1.回归分析
2. 结果
对于自变量主成分法,从多重共线性识别方法来看,该模型存在共线性问题,Ppei,t是影响因素。
3、自变量主成分法
由于spss没有独立的主成分分析模块,需要在因子分析中完成,所以需要特别注意。
选择数据窗口下的“分析”-“降维”-“因子分析”。
3.1 结果
从KMO和Bartlett的检验,我们知道p0.001。 KMO测试通过,适合主成分或因子分析。从总方差解释表来看,两个主成分(初始因子)对初始特征值的贡献率达到了86.89%。在提取之前,使用两个主成分进行分析。
分量矩阵和表解释的总方差可以通过将前两个特征向量除以分量矩阵前两列的前两个特征值的平方根来计算,得到前两个主成分表达式:
F1=0.4726Opinci,t-1+0.4854 Instani,t +0.5371Ppei,t+ 0.0534Levi,t+ 0.4995Asseti,t (公式1)
F2=-0.1219Opinci,t-1-0.0510Instani,t -0.0497 Ppei,t+ 0.9837Levi,t+0.1131 Asseti,t (公式2)
其中,Opinci,t-1、Instani,t、Ppei,t、Levi,t、Asseti,t表示为标准化变量(这是因为在进行主成分分析时,使用标准化变量进行分析,分析为基于)的相关矩阵。
由于主成分彼此不相关,因此可以用提取的主成分代替自变量进行回归分析。因此,需要计算主成分得分来替换自变量Opinci,t-1、Instani,t、Ppei,t、Levi,t、Asseti, t。
主成分计算:根据式1和式2中两个主成分的表达式,对各个变量进行标准化,即可计算出每个样本的主成分得分。
但在spss中,通过因子分析提取时,采用的是主成分法。根据初始因子与主成分的关系,未旋转的初始因子等于主成分的平方根除以特征根,因此主成分得分等于因子得分乘以的平方根特征根,可以根据因子得分计算主成分得分。
因子得分之前保存在因子分析选项中(因子得分保存变量),因此计算两个主成分得分:点击“转换”-“计算变量”。
在弹出窗口中单独定义主成分。
F1=第一因子得分*第一特征根的平方根
F2=第二因子得分*第二特征根的平方根
(3)主成分回归过程
做主成分回归,需要使用标准化因变量(因为主成分分析时自变量已经标准化,因变量也需要相应标准化)与主成分进行回归,并对因变量进行标准化奥平奇,t。
点击“分析”-“描述性统计”-“描述”,在弹出的窗口中将Opinci,t转入变量中,选择“将标准化分数保存为变量”,确认Opinci,t标准化完成。
在弹出的窗口中点击“分析”-“回归”-“线性”,将Z主营业务利润(y)转入因变量,F1和F2转入自变量,其他选项同前,然后点击“确定” ” 运行主要组件回归。
相关输出:
从表中可以看出,标准化Opinci,t对两个主成分的线性回归p0.001通过了显着性检验,不存在多重共线性,回归系数合理。
Zscore:(Opinci,t)=0.475F1-0.117F2。将之前的F1 和F2 表达式(方程1 和方程2)带入标准化自变量的标准化Opinci,t 回归方程中:
Zscore:(Opinci,t)=
0.2388Opinci,t-1+0.2365Instani,t +0.2609Ppei,t-0.0897Levi,t+ 0.2240Asseti,t
原创文章,作者:小su,如若转载,请注明出处:https://www.sudun.com/ask/119018.html
用户评论
墨城烟柳
说的对!我的论文也遇到了多重共线性问题,看这篇文章才知道可以用主成分法来解决。回头试试看效果怎么样。
有13位网友表示赞同!
病房
多重共线性确实很头疼,影响模型的准确性也很大。这个方法看起来不错,等我学习完了再来尝试一下。
有16位网友表示赞同!
有你,很幸福
我一直觉得主成分分析是个好工具,没想到可以用来解决多重共线性问题。这篇博客让我开眼界了!
有17位网友表示赞同!
慑人的傲气
我之前也是用其他的方法来处理这个难题的,效果其实并没有太好。看来应该试试主成分法,看看能不能取得更好的结果。
有14位网友表示赞同!
炙年
这篇文章解释的很清楚,通俗易懂,我也终于明白了多重共线性的原因和解决方法了!
有13位网友表示赞同!
搞搞嗎妹妹
我觉得这篇文章比较偏向于理论方面,缺乏具体的案例分析。对于一些没有基础的人来说,可能不太容易理解。
有10位网友表示赞同!
雨后彩虹
学习数据挖掘的时候,的确遇到过这个问题。主成分法确实是解决多重共线性问题的有效方法,现在回头看这段博客,更加清晰了思路!
有13位网友表示赞同!
念旧情i
我觉得这篇文章比较简略,可以再详细解释一下主成分法具体的步骤和应用场景。
有19位网友表示赞同!
陌上蔷薇
大数据分析遇到很多难题,这个文章解决了其中一个。我也想学习了解更多关于大数据处理技巧的知识!
有16位网友表示赞同!
颓废i
我之前就听说过主成分法,但没来得及深入了解。这篇博客让我对它有了更深刻的认识和理解。
有11位网友表示赞同!
安陌醉生
多重共线性问题确实让人头疼,感觉这个方法还是需要实践验证一下才能真正掌握。等我找一些数据来试试看效果怎么样。
有16位网友表示赞同!
心亡则人忘
这篇文章给我提到了一个很有用的方法,之前我处理数据的时候一直都在找解决多重共线性的办法,看来主成分法不错!
有16位网友表示赞同!
非想
这个方法听起来挺不错的,但我比较好奇这种方法的局限性在哪里。能不能在评论区分享一下使用主成分法的注意点?
有18位网友表示赞同!
我怕疼别碰我伤口
大数据分析确实需要掌握很多技巧,我之前一直觉得这方面知识很困难,现在看来只要有好的文章引导,慢慢学习也是可以的!
有5位网友表示赞同!
赋流云
多重共线性问题的确会影响模型的效果。这篇博客介绍的方法很有帮助,等我研究一下后就来实践一下了。
有9位网友表示赞同!
代价是折磨╳
希望能看到更多详细的案例分析,这样对理解主成分法应用更有帮助!而且还能分享一些需要注意的事项,避免踩坑!
有18位网友表示赞同!
隔壁阿不都
文章写的不错,通俗易懂。希望以后能看到更多关于大数据分析和机器学习领域的精彩文章!
有5位网友表示赞同!
纯真ブ已不复存在
现在越来越多人关注大数据领域了,这篇文章提到的解决方法非常有用,期待有更多高质量的博客分享!
有8位网友表示赞同!