2024年6月10日发(作者:)
spss学习系列30.主成份剖析
30. 主成份剖析
一、基来源理
主成份剖析, 是数学上对数据降维的一种方法, 是将多个变量转
变成少量综合变量 (集中了原始变量的大多数信息) 的一种多元统计
方法。其主要目的是将变量减少, 并使其改变成少量几个相互独立的
线性组合形成的新变量(主成份,其方差最大) ,使得原始资料在这
些成份上显示最大的个别差别来。
在所有的线性组合中所选用的 F1 应当是方差最大的,称为第一主
成分。假如第一主成分不足以代表本来所有指标的信息, 再考虑选用
第二个线性组合 F2, 称为第二主成分。为了有效地反应原有信息, F1
已有的信息就不需要再出此刻 F2 中,用数学语言表达就是要求
Cov(F1,F2) =0.
依此类推能够结构出第三、第四、 、第
分。
p 个主成
主成份剖析, 能够用来综合变量之间的关系, 也可用来减少回归
剖析或聚类剖析中的变量数量。
设有
n
个样品(多元观察值),每个样品观察
p
项指标(变量):X
1
, ,
X
p
,获得原始数据资料阵:
此中, X = (
x
,
x
, ,
x
i1i 2i
) ,i = 1,
T
, p.
ni
用数据矩阵 X 的
p
个列向量(即
p
个指标向量) X
1
, , X
p
作线性组
spss学习系列30.主成份剖析
合,获得综合指标向量:
简写成:
F
i
=
a
1
i
X
1
+
a
2
i
X
2
+ +
a
pi
X
p
i
= 1,
,
p
限制系数
a
i
= (
a
1i
,
a
2i
, ,
a
pi
)
T
为单位向量,即
且由以下原则决定:
( 1)
F
i
与
F
j
互不有关,即 COV(
F
i
,
F
j
)=
a
i
T
∑
a
i
=0,此中∑为
X
的协方差矩阵;
( 2)
F
1
是 X
1
,X
2
, ,X
p
的所有知足上述要求的线性组合中方
差最大的,即
F
2
是与
F
1
不有关的
X
1
, ,
X
p
所有线性组合中方差最大的, ,
F
p
是
与
F
1
, ,
F
p-1
都不有关的
X
1
, ,
X
p
所有线性组合中方差最大的。知
足上述要求的综合指标向量
F
1
F
2
F
p
就是主成分,这
p
个主成分从原始指标所供给的信息总量中所提取的信息量挨次递减,
每一个主成分所提取的信息量用方差来胸怀, 主成分方差的贡献就等
于原指标有关系数矩阵相应的特点值
λ
i
,每一个主成分的组合系数
a
i
= (
a
1i
,
a
2i
, ,
a
pi
)
T


发布评论