2024年6月10日发(作者:)

一、主成分分析基本原理

概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析

方法。从数学角度来看,这是一种降维处理技术。

思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析

问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较

多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这

样问题就简单化了。

原理:假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据

矩阵,

x

11

x

21

X

x

n1

x

12

x

1p

x

22

x

2p



x

n2

x

np

记原变量指标为x

1

,x

2

,…,x

p

,设它们降维处理后的综合指标,即新变量

为 z

1

,z

2

,z

3

,… ,z

m

(m≤p),则

系数l

ij

的确定原则:

①z

i

与z

j

(i≠j;i,j=1,2,…,m)相互无关;

②z

1

是x

1

,x

2

,…,x

P

的一切线性组合中方差最大者,z

2

是与z

1

不相关的x

1

,x

2

,…,

x

P

的所有线性组合中方差最大者; z

m

是与z

1

,z

2

,……,z

m-1

都不相关的x

1

x

2

,…x

P

, 的所有线性组合中方差最大者。

新变量指标z

1

,z

2

,…,z

m

分别称为原变量指标x

1

,x

2

,…,x

P

的第1,第2,…,

第m主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量x

j

(j=1,

2 ,…, p)在诸主成分z

i

(i=1,2,…,m)上的荷载 l

ij

( i=1,2,…,m;

j=1,2 ,…,p)。

z

1

l

11

x

1

l

12

x

2

l

1p

x

p

z

2

l

21

x

1

l

22

x

2

l

2p

x

p

............

z

m

l

m1

x

1

l

m2

x

2

l

mp

x

p

从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向

量。

二、主成分分析的计算步骤

1、计算相关系数矩阵

r

11

r

12

r

1p

r

r

r

21222p

R





rr

r

p1p2

pp



r

ij

i

j

=1,2,…,

p

)为原变量

x

i

x

j

的相关系数,

r

ij

=

r

ji

,其计算公

式为

r

ij

n

(x

k1

n

ki

x

i

)(x

kj

x

j

)

2

(x

k1

ki

x

i

)

(x

k1

n

kj

x

j

)

2

2、计算特征值与特征向量

I

R

0

,常用雅可比法(Jacobi)求出特征值,并使其按大解特征方程

1

2



p

0

; 小顺序排列

e

ij

表示向量

e

i

的第

j

个分量。 其中

2

e

i

(i1,2,L,p)

,要求 =1

i

的特征向量

e

i

分别求出对应于特征值 ,即

e

ij

1

j1

p

3、计算主成分贡献率及累计贡献率

贡献率:

i

k1

p

(i1,2,L,p)

k

k1

k1

p

i

k

累计贡献率:

(i1,2,L,p)

k

1

,

2

,L,

m

所对应的第1、第一般取累计贡献率达85%-95%的特征值,

2、…、第

m

m

p

)个主成分。

4、计算主成分载荷

l

ij

p(z

i

,x

j

)

i

e

ij

(i,j1,2,L,p)

5、各主成分得分