2024年6月10日发(作者:)

spss学习系列30.主成份剖析

30. 主成份剖析

一、基来源理

主成份剖析, 是数学上对数据降维的一种方法, 是将多个变量转

变成少量综合变量 (集中了原始变量的大多数信息) 的一种多元统计

方法。其主要目的是将变量减少, 并使其改变成少量几个相互独立的

线性组合形成的新变量(主成份,其方差最大) ,使得原始资料在这

些成份上显示最大的个别差别来。

在所有的线性组合中所选用的 F1 应当是方差最大的,称为第一主

成分。假如第一主成分不足以代表本来所有指标的信息, 再考虑选用

第二个线性组合 F2, 称为第二主成分。为了有效地反应原有信息, F1

已有的信息就不需要再出此刻 F2 中,用数学语言表达就是要求

Cov(F1,F2) =0.

依此类推能够结构出第三、第四、 、第

分。

p 个主成

主成份剖析, 能够用来综合变量之间的关系, 也可用来减少回归

剖析或聚类剖析中的变量数量。

设有

n

个样品(多元观察值),每个样品观察

p

项指标(变量):X

1

, ,

X

p

,获得原始数据资料阵:

此中, X = (

x

x

, ,

x

i1i 2i

) ,i = 1,

T

, p.

ni

用数据矩阵 X 的

p

个列向量(即

p

个指标向量) X

1

, , X

p

作线性组

spss学习系列30.主成份剖析

合,获得综合指标向量:

简写成:

F

i

=

a

1

i

X

1

+

a

2

i

X

2

+ +

a

pi

X

p

i

= 1,

,

p

限制系数

a

i

= (

a

1i

a

2i

, ,

a

pi

)

T

为单位向量,即

且由以下原则决定:

( 1)

F

i

F

j

互不有关,即 COV(

F

i

,

F

j

)=

a

i

T

a

i

=0,此中∑为

X

的协方差矩阵;

( 2)

F

1

是 X

1

,X

2

, ,X

p

的所有知足上述要求的线性组合中方

差最大的,即

F

2

是与

F

1

不有关的

X

1

, ,

X

p

所有线性组合中方差最大的, ,

F

p

F

1

, ,

F

p-1

都不有关的

X

1

, ,

X

p

所有线性组合中方差最大的。知

足上述要求的综合指标向量

F

1

F

2

F

p

就是主成分,这

p

个主成分从原始指标所供给的信息总量中所提取的信息量挨次递减,

每一个主成分所提取的信息量用方差来胸怀, 主成分方差的贡献就等

于原指标有关系数矩阵相应的特点值

λ

i

,每一个主成分的组合系数

a

i

= (

a

1i

a

2i

, ,

a

pi

)

T