2024年5月6日发(作者:)
REG过程(回归过程)
REG过程是一个通用的回归过程,它采用最小二乘方法拟合线性回归模型,还提供多种“最佳”回归
模型的方法,是一个应用最广泛的回归过程。
§1 REG过程简介
一、REG过程的功能
设考察的指标(或称因变量,响应变量)为
Y
1
,,Y
p
,影响这些指标的因素(或称自变量,回归变量)为
X
1
,,X
m
。已知这些变量的
n
次观测数据组成的一个SAS数据集。REG过程可以完成以下几方面的计
算:
(1) 利用具有多项选择的MODEL语句来建立用户需要的线性回归模型;
(2) 提供九种选择“最佳”回归模型的方法;
(3) 允许采用交互方式修改模型及用于拟合这个模型的数据;
(4) 可建立线性约束回归模型;
(5) 检验线性假设和多变量假设;
(6) 生成原始数据和一些统计量的散点图;对散点图还有“着色”,加亮功能;
(7) 产生偏回归杠杆图,并进行共线性诊断,影响诊断;
(8) 可以输出预测值、残差、标准残差、置信区间的上下限和影响统计量等;并把它们存储到一个SAS
数据集里;
(9) 可以使用
Y
1
,,Y
p
和
X
1
,,X
m
的相关阵和离差阵作为输入数据;
(10) 可以把离差阵(叉积阵)存贮到一个输出SAS数据集里,以便将来使用;
(11) 在6.11版本,REG过程完成岭回归和不完全的主成分分析(IPC);
(12) 在6.11版本,PROC REG语句可使用选项GRAPHICS,它使得你能够要求PLOT语句用高分
辩率图形设备绘图。
二、选择最优回归模型方法
1
设
Y
和
X
1
,,X
m
的
n
次观测数据为
x
t1
,,x
tm
,y
t
t1,2,,n
满足线性回归模型:
y
t
0
1
x
t1
m
x
tm
t
.
利用矩阵符号可简记为
YX
.
因考察的
m
个自变量对
Y
的作用有大有小,且自变量之间一般存在相关性。为了从
Y
与
X
1
,,X
m
的所有
可能回归模型中选出拟合这组观测数据的最优回归子集,REG过程提供了九种选择回归模型的方法,它们
通过MODEL语句中的选项selection=来规定。下面介绍这些方法及其在选项SELECTION=中用于识别这
些方法的关键词。
1. 全回归模型(NONE)
没有对回归变量进行筛选,建立Y与全部自变量的回归模型。这是很多回归分析使用的方法。当省略
选项SELECTION=时,表示建立全回归模型。
2.向前法或逐步引入法(FORWARD)
向前选择法的初始模型中没有变量。对每个自变量,向前法计算如果这个自变量包含在模型中它对模
型贡献大小的F统计量,并将这些F统计量相应的
p
值与SLENTRY=的值(用户在MODEL语句中规定的
引入时的显著水平。如果没有规定,即缺省时,则用0.50比较.如果所有自变量对应的F统计量的显著概
率(
p
值)都大于这个值(表示所有自变量对因变量的贡献都不显著),向前选择过程结束。否则,就把具有
最大F值的自变量引人模型。然后对未引入模型的自变量再计算它们的的F统计量,重复上述计算步骤,
变量逐个被加到模型中,直到没有变量其F值相应的
p
值大于SLENTRY=的值。使用向前选择法,变量
一旦选人模型,就不会被剔除。
3.向后法或逐步剔除法(BACKWARD)
向后删除法开始对包含所有自变量的模型计算F统计量, 然后从这个模型中逐个删除变量,直到在模
型中的所有变量产生的F统计量在这个MODEL语句里规定的选项SLSTAY=的值(如果缺省,则用0.10)
水平上是显著的。在每一步,删除对模型贡献最小的变量。
4.逐步筛选法(STEPWISE)
逐步法是向前选择法的修正,和向前选择法的区别在于引入模型中的变量有可能被删除。像向前选择
法一样,变量被逐个引入到模型中,而且对引入的变量其F统计量在SLENTRY=的水平上必须是显著的。
引入一个变量之后,逐步法还要检验所有已经包含在模型中的变量,并删除在SLSTAY=的水平上不显著
的一切变量。仅当经过检验并把所有不显著的变量删除后,才考虑是否再引入新变量。当在模型外的所有
2


发布评论