2024年5月6日发(作者:)

REG过程(回归过程)

REG过程是一个通用的回归过程,它采用最小二乘方法拟合线性回归模型,还提供多种“最佳”回归

模型的方法,是一个应用最广泛的回归过程。

§1 REG过程简介

一、REG过程的功能

设考察的指标(或称因变量,响应变量)为

Y

1

,,Y

p

,影响这些指标的因素(或称自变量,回归变量)为

X

1

,,X

m

。已知这些变量的

n

次观测数据组成的一个SAS数据集。REG过程可以完成以下几方面的计

算:

(1) 利用具有多项选择的MODEL语句来建立用户需要的线性回归模型;

(2) 提供九种选择“最佳”回归模型的方法;

(3) 允许采用交互方式修改模型及用于拟合这个模型的数据;

(4) 可建立线性约束回归模型;

(5) 检验线性假设和多变量假设;

(6) 生成原始数据和一些统计量的散点图;对散点图还有“着色”,加亮功能;

(7) 产生偏回归杠杆图,并进行共线性诊断,影响诊断;

(8) 可以输出预测值、残差、标准残差、置信区间的上下限和影响统计量等;并把它们存储到一个SAS

数据集里;

(9) 可以使用

Y

1

,,Y

p

X

1

,,X

m

的相关阵和离差阵作为输入数据;

(10) 可以把离差阵(叉积阵)存贮到一个输出SAS数据集里,以便将来使用;

(11) 在6.11版本,REG过程完成岭回归和不完全的主成分分析(IPC);

(12) 在6.11版本,PROC REG语句可使用选项GRAPHICS,它使得你能够要求PLOT语句用高分

辩率图形设备绘图。

二、选择最优回归模型方法

1

Y

X

1

,,X

m

n

次观测数据为

x

t1

,,x

tm

,y

t



t1,2,,n

满足线性回归模型:

y

t

0

1

x

t1



m

x

tm

t

.

利用矩阵符号可简记为

YX

.

因考察的

m

个自变量对

Y

的作用有大有小,且自变量之间一般存在相关性。为了从

Y

X

1

,,X

m

的所有

可能回归模型中选出拟合这组观测数据的最优回归子集,REG过程提供了九种选择回归模型的方法,它们

通过MODEL语句中的选项selection=来规定。下面介绍这些方法及其在选项SELECTION=中用于识别这

些方法的关键词。

1. 全回归模型(NONE)

没有对回归变量进行筛选,建立Y与全部自变量的回归模型。这是很多回归分析使用的方法。当省略

选项SELECTION=时,表示建立全回归模型。

2.向前法或逐步引入法(FORWARD)

向前选择法的初始模型中没有变量。对每个自变量,向前法计算如果这个自变量包含在模型中它对模

型贡献大小的F统计量,并将这些F统计量相应的

p

值与SLENTRY=的值(用户在MODEL语句中规定的

引入时的显著水平。如果没有规定,即缺省时,则用0.50比较.如果所有自变量对应的F统计量的显著概

率(

p

值)都大于这个值(表示所有自变量对因变量的贡献都不显著),向前选择过程结束。否则,就把具有

最大F值的自变量引人模型。然后对未引入模型的自变量再计算它们的的F统计量,重复上述计算步骤,

变量逐个被加到模型中,直到没有变量其F值相应的

p

值大于SLENTRY=的值。使用向前选择法,变量

一旦选人模型,就不会被剔除。

3.向后法或逐步剔除法(BACKWARD)

向后删除法开始对包含所有自变量的模型计算F统计量, 然后从这个模型中逐个删除变量,直到在模

型中的所有变量产生的F统计量在这个MODEL语句里规定的选项SLSTAY=的值(如果缺省,则用0.10)

水平上是显著的。在每一步,删除对模型贡献最小的变量。

4.逐步筛选法(STEPWISE)

逐步法是向前选择法的修正,和向前选择法的区别在于引入模型中的变量有可能被删除。像向前选择

法一样,变量被逐个引入到模型中,而且对引入的变量其F统计量在SLENTRY=的水平上必须是显著的。

引入一个变量之后,逐步法还要检验所有已经包含在模型中的变量,并删除在SLSTAY=的水平上不显著

的一切变量。仅当经过检验并把所有不显著的变量删除后,才考虑是否再引入新变量。当在模型外的所有

2