2024年4月16日发(作者:)
第
26
卷第
6
期
2009
年
12
月
贵州大学学报
(
自然科学版
)
JournalofGuizhouUniversity
(
NaturalSciences
)
Vol.26No.6
Dec.2009
文章编号
1000-5269
(
2009
)
06-0010-04
面板数据的因子分析
王 培
,
王焱鑫
,
崔 巍
(
贵州大学理学院
,
贵州贵阳
550025
)
3
摘 要
:
主要应用多元数理统计中的因子分析方法
,
对多指标面板数据进行了分析
,
并应用综合
评分法对各地区的工业企业生产效率进行了分类。结果表明
,
应用因子分析的结果与现实基本
相符。
关键词
:
面板数据
;
因子分析
中图分类号
:O212
文献标识码
:A
因子分析是主成分分析的推广和发展
,
也是多
元统计分析中降维的一种方法。因子分析是研究
相关阵或协方差阵的内部依赖关系
,
它将多个变量
综合为少数几个因子
,
以再现原始变量与因子之间
的相关关系。面板数据是同一截面单元数据集
上对不同时间段上的重复观测值
,
是时间序列和截
面数据的混合数据。
面板数据的独特优点
,
使之在理论及应用领域
都得到了长足的发展。然而
,
很少有学者考虑面板
数据在多元统计中的分析。从
BonzeD.C
和
Her
2
mosillaA.Y
开创性的将多元统计的方法引入到面
板数据的分析中来
,
并用概率连接函数和遗传算法
改进了聚类分析的算法
,
此后
,
国外对相关问题的
研究一直停滞不前
;
国内学者朱建平、郑兵云分别
对单指标面板数据及多指标面板数据的聚类分析
[2,3]
进行了一定的研究
,
并做了实证分析。本文将
因子分析与面板数据结合
,
利用实例解释面板数据
的因子分析的结果。
[1]
假定随机向量
X
满足以下模型
:
X
1
-
μ
=a
11
F
1
+a
12
F
2
+
…
+a
1
m
F
m
+
ε
1
X
2
-
μ
=a
21
F
1
+a
22
F
2
+
…
+a
2
m
F
m
+
ε
2
… … … … … … …
X
p
-
μ
=a
p
1
F
1
+a
p
2
F
2
+
…
+a
pm
F
m
+
ε
p
以上模型
(
1
)
称为正交因子模型
,
用矩阵表示
如下
X=
μ
+AF+
ε
(
2
)
(
1
)
其中
F
1
,
…
,F
m
称为
X
的公共因子
;
ε
1
,
…
,
ε
p
称为
X
的特殊因子。公共因子一般对
X
的每一个
[1,4]
分量
X
i
都有作用
,
而
ε
i
只对
X
i
起作用。
1.2
模型的参数主成分估计方法
1
)
由样本数据阵
X
计算样本均值
X
、样本协
_
差阵
S
、样本相关阵
R.
2
)
求相关阵
R
的特征值和标准化特征向量。
记
λ
1
≥
λ
2
≥…≥
λ
p
≥
0
为
R
的特征值
,
其相应
的单位正交特征向量为
l
1
,l
2
,
…
l
p
.
3
)
求因子的载荷矩阵
A
Ⅰ确定公因子的个数
m
(
如
m=
2
)
.
Ⅱ令
a
i
=
λ
i
l
i
(
i=
1
,
2
,
…
m
)
,
则
A=
(
a
1
,
…
,a
m
)
为因子的载荷矩阵。
4
)
估计特殊因子方差
σ
i
和共同度
h
i
,
其中
h
i
m
1
因子分析的基本原理
1.1
正交因子模型
设
X=
(
X
1
,
…
,X
p
)
′是观测的随机向量
,
E
(
X
)
=
μ
,D
(
X
)
=
D
(
F
)
=I
m
.
又设
∑
,
且设
F=
(
F
1
,
…
,F
m
)
′
,
=
0
,
=
^
22
(
m
)
是不可观测的随机向量
,
E
(
F
)
∑
a
j=
1
2
ij
(
i=
1
,
2
,
…
p
)
.
ε
=
(
ε
与
F
互不相关
,
且
1
,
…
,
ε
p
)
′
E
(
ε
)
=
0
,D
(
ε
)
=diag
(
σ
1
,
…
,
σ
p
)
≡
D
22
5
)
对公共因子做解释。
以上是因子分析的基本原理
,
关于因子分析的
收稿日期
:2009-08-25
基金项目
:
贵州省自然科学基金项目
(
700121
)
;
贵州省教育厅基金项目
(
2008043
)
作者简介
:
王 培
(
1987-
)
,
女
,
江苏淮安人
,
硕士研究生
,
研究方向
:
应用数理统计
,Email:peiwang1129@.
3通讯作者
:
王 培
,Email:peiwang1129@.
第
6
期王 培等
:
面板数据的因子分析
·
11
·
其他内容请参阅参考文献
[1][4].
2
面板数据的因子分析
2.1
面板数据的数据结构
多指标面板数据的数据结构相对于单指标面
板数据要复杂的多
,
不同于单指标面板数据的二维
表格而言
,
多指标面板数据除了具有截面维度和时
间维度外
,
还增加了指标维度
,
因此多指标面板数
据实际上是一张三维表格。在平面上的表示如表
[3]
1
。设总体由
N
个体组成
,
每个个体的特征含有
p
项指标
,
时间长度为
T
,
则
X
ij
(
t
)
,i=
1
,
2
,
…
n;j
=
1
,
2
,
…
p;t=
1
,
2
,
…
T
表示第
i
个个体第
j
个指
标在时刻
t
的数值。
表
1
多指标面板数据的数据结构
测量时间与各指标测量值
样本编号
1
1
X
1
…
X
j
…
X
p
X
11
(
1
)
…
X
1
j
(
1
)
…
X
1
p
(
1
)
…
…
…
…
…
…
…
t
X
1
…
X
j
…
X
p
X
11
(
t
)
…
X
1
j
(
t
)
…
X
1
p
(
t
)
…
…
…
…
…
…
…
T
X
1
…
X
j
…
X
p
X
11
(
T
)
…
X
1
j
(
T
)
…
X
1
p
(
T
)
……
i
… … … … …
X
i
1
(
1
)
…
X
ij
(
1
)
…
X
ip
(
1
)
… … … … …
X
n
1
(
1
)
…
X
nj
(
1
)
…
X
np
(
1
)
… … … … …
X
i
1
(
t
)
…
X
ij
(
t
)
…
X
ip
(
t
)
… … … … …
X
n
1
(
t
)
…
X
nj
(
t
)
…
X
np
(
t
)
… … … … …
X
i
1
(
T
)
…
X
ij
(
T
)
…
X
ip
(
T
)
… … … … …
X
n
1
(
T
)
…
X
nj
(
T
)
…
X
np
(
T
)
……
n
面板数据的因子分析相对于多元统计中的总
体及样本的因子分析要复杂很多
,
目前没有现成的
软件可供使用
,
本文试图寻求一种途径将多指标面
板数据的结构转换为现有软件能够处理的数据类
型。这是一种“降维”的思想
,
即当我们多研究问
题的要求不是非常严格时
,
我们可以通过取均值的
方法将多指标面板数据的三维表格降为二维表格。
具体的做法如下
,
对每一个指标在时间维度上取均
值
,
抽象为某一个特定时刻的情形
,
从而消去时间
维度的影响
,
退化成截面数据。显然地
,
这种“降
维”的处理方法主要存在两个缺陷。第一
,
信息损
失
,
均值只能描述平均动态
,
不能反映其他统计特
征
,
如方差等
;
第二
,
这样的方法存在一种潜在的假
设
,
即各个体在每一相同指标在时间维度上的变化
[3]
方向相同
,
否则会出现错误。本文将利用
Eviews
软件对以上分析进行验证。
2.2
实例应用
国有及规模以上的非国有企业在工业经济中
占有绝对比重
,
国家每年都对这类企业进行详细的
调查。本文仍将选取这类企业作为研究对象
;
选取
全员劳动生产率、固定资本占有率、流动资本占有
率三个指标考察国有及规模以上非国有企业的生
产效率。本文使用的数据来自中国统计年鉴
(
2001
年—
2006
年
)
。
通过对
2000
至
2005
年
31
个地区的三个指标
的面板数据观测
,
能够看出这六年来工业全员劳动
生产率不断提高
,
但固定资本及流动资本的占有率
却呈降低趋势。文献
[3]
用聚类分析的方法对各
地区工业生产效率的层次及类型进行了粗略的判
别。本文采用因子分析的方法给出各地区工业生
产效率的综合得分
,
从而指出造成文献
[3]
中分类
结果的根本原因。
1
)
应用
KMO
和球形
Bartlett
检验数据因子分
析适应性。结果如表
2
所示。
由检验结果可以看出
,
应拒绝各变量独立的假
设
,
因子分析的方法值得尝试。
2
)
应用碎石图判断各因子的特征根大小及因
子的重要程度。由图
1
可以很明显的看出结果。
表
2
KMO
和球形
Bartlett
检验结果
相关矩阵
全员劳动生产率
相关 全员劳动生产率
固定资本占有率
流动资本占有率
1.000
-.179
-.202
固定资本
占有率
-.179
1.000
.906
流动资本
占有率
-.202
.906
1.000
.520
49.653
3
.000
KMO
和
Bartlett
的检验
取样足够度的
Kaiser-Meyer-OLkin
度量
Bartlett
的球形度检验 近似卡方
df
Sig
图
1
各因子的碎石图
·
12
·
贵州大学学报
(
自然科学版
)
第
26
卷
3
)
计算因子载荷矩阵及因子空间载荷图
,
如
表
3
及图
2
所示。
表
3
因子载荷矩阵
成份矩阵
a
1
公因子表达式如下
:
F
1
=
0
.
102
x
1
+
0
.
536
x
2
+
0
.
504
x
3
F
2
=
1
.
015
x
1
+
0
.
044
x
2
+
0
.
055
x
3
F
3
=
0
.
054
x
1
-
2
.
302
x
2
+
2
.
321
x
3
成份
2
5
)
结合表
3
、
4
可以看出以上三个因子分别从
3
不同方面反映了我国工业企业生产效率水平。单
独使用某一个指标不能对工业企业的生产效率做
出正确的评价
,
这里我们按各公因子的对应方差贡
献率为权重计算综合评价统计量
:
λ
1
λ
2
F=F
1
+F+
λ
1
+
λ
2
+
λ
3
λ
1
+
λ
2
+
λ
3
2
λ
3
(
3
)
F
λ
1
+
λ
2
+
λ
3
3
6
)
利用公式对我国
31
个地区的工业企业生
全员劳动生产率
-.373.928.006
固定资本占有率
.957.194-.216
流动资本占有率
.962.168.217
提取方法
:
主成分分析法。
(
a
)
已提取了
3
个成份。
旋转成份矩阵
a
1
全员劳动生产率
固定资本占有率
-.096
.974
成份
2
.995
-.087
3
.003
-.209
流动资本占有率
.969.110.223
提取方法
:
主成分分析法。旋转法
:
具有
Kaiser
标准化的正
交旋转法。
a.
旋转在此次迭代后收敛。
产效率进行综合评分排名
,
并按评分结果进行分
类
,
见表
5.
表
5
各地区工业生产效率分类
第一类
地区排名
山东
江苏
广东
浙江
福建
河北
河南
天津
1
2
3
4
5
6
7
8
9
10
第二类
地区排名
安徽
北京
江西
吉林
广西
重庆
辽宁
湖北
黑龙江
海南
四川
11
12
13
14
15
16
17
18
19
20
21
第三类
地区排名
甘肃
内蒙古
云南
新疆
山西
贵州
陕西
宁夏
青海
西藏
22
23
24
25
26
27
28
29
30
31
图
2
因子空间载荷图
上海
湖南
4
)
因子得分及因子表达式
,
如表
4
所示。
表
4
因子得分矩阵
成份得分系数矩阵
1
成份
2
1.015
.044
.056
从分类结果可以看出
,
首先
,
工业企业的生产
效率具有较强的地区差异。经济较发达地区生产
3
.054
-2.302
2.321
全员劳动生产率
固定资本占有率
流动资本占有率
.102
.536
.504
效率一般较高
,
这是因为经济发达地区一般拥有丰
富及高水平的人力物力
,
在第一类中我们可以看出
山东、江苏、、浙江在这方面的优势。其次经济开放
程度对工业生产效率也有一定的正面影响
,
经济开
放程度越高
,
特别是外资的流入
,
一定程度上提高
了经济效益及生产效率。在分类中可以看出广东、
上海、天津等地合理的利用开放带来的优势
,
提高
了生产效率。最后
,
经济欠发达地区也有一些例
外
,
如云南、新疆、贵州等地的工业企业生产效率表
现优于山西、陕西
,
这是因为云南的烟草加工、新疆
的食品加工、贵州的军工企业在我们选取的各指标
上一直表现良好
,
并且在各地的整个企业中所占份
额较大。
提取方法
:
主成分分析法。旋转法
:
具有
Kaiser
标准化的正
交旋转法。构成得分。
成份得分协方差矩阵
成份
1
2
3
1
1.000
.000
.000
2
.000
1.000
.000
3
.000
.000
1.000
提取方法
:
主成分分析法。旋转法
:
具有
Kaiser
标准化的正
交旋转法。构成得分。
利用表
4
中的因子得分系数矩阵可以写出各
第
6
期王 培等
:
面板数据的因子分析
·
13
·
3
结论与展望
从以上的分析我们看出
,
由于我们选取的三个
指标
:
全员劳动生产率、固定资本占有率及流动资
本占有率在因子中的得分不同
,
为我们进行分类提
供了依据。这也是文献
[3]
中分类结果的主要原
因。多指标面板数据的因子分析只是面板数据在
多元统计分析中的一个方面
,
本文就平衡面板数据
的因子分析做了一些基础性的工作
,
相关的内容还
有很多
,
如非平衡面板数据
,
缺省面板数据等研究
内容更加复杂
,
有待进一步的探讨
!
参考文献
:
[1]
高惠璇
.
应用多元统计分析
[M].
北京
:
北京大学出版社
,2006:
291-307.
[2]
朱建平
,
陈民肯
.
面板数据的聚类分析及其应用
[J].
统计研
究
,2007
(
4
)
:11-14.
[3]
郑云兵
.
多指标面板数据的聚类分析及其应用
[J].
数理统计
与管理
,2008,27
(
2
)
:265-270.
[4]RichardAJohnson,dMultivariateStatisti
2
calAnalysis[M].Beijing:ChinaStatisticsPress,2000:477-424.
FactorAnalysisofPanelData
WANGPei,WANGYan
2
xin,CUIWei
(
CollegeoftheScience,GuizhouUniversity,Guiyang550025,China
)
Abstract:Inthispaper,thefactora
theGeneralScoremethodwasuse
2
sultshowsthatfactoranalysiscangetasatisfyingresultinlinewithreality.
Keywords:paneldata;factoranalysis
(
上接第
6
页
)
[7]
刘大瑾
,
周海林
,
袁东锦
.
AXB+CXD=F
的中心对称解及其
[10]SunHe-ming,HiroshiHasegawa,dimen
2
sionalassociativememoryneuralnetworktorecallnearestpattern
fromInput[C]//NonlinearSignalandImageProcessing,Sappo
2
ro,Japan:NonlinearSignalandImageProcessing,2005.
[11]YamadaI,OguraN,Shirakawa,icallyrobusthybrid
steepestdescentmethodfortheconvexlyconstrainedgeneralizedin
2
verseproblems[C]//NashedZ,ScherzerO,eds.
matics,2002,313:269-30.
InverseProb
2
lems,ImageAnalysis,poraryMathe
2
最佳逼近的迭代算法
[J].
扬州大学学报
,2008,11
(
3
)
:9-13.
[8]AlvaroRDePierro,wpropertiesofthe
eaualityconstrainedandweightedleastsquaresproblem[J].Linear
Algebraanditsapplications,2000,320:145-165.
[9]ridsteepestdescentmethodforthevariational
inequalityproblemovertheintersectionoffixedpointsetsofnonex
2
pansivemappings[C]//ButnariuD,CensorY,ReichS,
2
herentlyParallelAlgorithmforFeasibilityandOptimizationandTheir
:Elsevier,2001:473-504.
AlgorithmfortheOptimalApproximation
SolutionoftheMatrixEquation
HUShan
2
shan,SUNHe
2
ming,ZHONGQing
(
CollegeofScience,HohaiUniversity,Nanjing210098,China
)
Abstract:Thispapergivesaniterativealgorithmtoobtainthesymmetricoptimalapproximationsolutionofmatrix
equationAXB+CYD=Ewi
absenceofroundofferrors,foranyinitialmatrixX0
、
Y0,theoptimalapproximationsolutioncanbeobtained
paper,thenumericalexampleverifiesthefeasibilityofthealgorithm.
Keywords:hybridsteepestdescentmethod;optimalapproximation;matrixequation;least
2
normsolution;sym
2
metricsolution


发布评论