统计软件SAS和stata编程语言语法的区别
三大统计软件:SAS、Stata与SPSS比较(转载)2006-08-07 11:22 Strategically using General Purpose Statistics Packages: A Look at Stata, SAS and SPSS 中文版(自英文版本翻译): 很多人曾问及SAS,Stata 和SPSS之间的不同,它们之中哪个是最好的。
可以想到,每个软件都有自己独特的风格,有自己的优缺点。
本文对此做了概述,但并不是一个综合的比较。
人们时常会对自己所使用的统计软件有特别的偏好,希望大多数人都能认同这是对这些软件真实而公允的一个对比分析。
SAS 一般用法。
SAS由于其功能强大而且可以编程,很受高级用户的欢迎。
也正是基于此,它是最难掌握的软件之一。
使用SAS时,你需要编写SAS程序来处理数据,进行分析。
如果在一个程序中出现一个错误,找到并改正这个错误将是困难的。
数据管理。
在数据管理方面,SAS是非常强大的,能让你用任何可能的方式来处理你的数据。
它包含SQL(结构化查询语言)过程,可以在SAS数据集中使用SQL查询。
但是要学习并掌握SAS软件的数据管理需要很长的时间,在Stata或SPSS中,完成许多复杂数据管理工作所使用的命令要简单的多。
然而,SAS可以同时处理多个数据文件,使这项工作变得容易。
它可以处理的变量能够达到32,768个,以及你的硬盘空间所允许的最大数量的记录条数。
统计分析。
SAS能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。
SAS的最优之处可能在于它的方差分析,混合模型分析和多变量分析,而它的劣势主要是有序和多元logistic回归(因为这些命令很难),以及稳健方法(它难以完成稳健回归和其他稳健方法)。
尽管支持调查数据的分析,但与Stata比较仍然是相当有限的。
绘图功能。
在所有的统计软件中,SAS有最强大的绘图工具,由SAS/Graph模块提供。
然而,SAS/Graph模块的学习也是非常专业而复杂,图形的制作主要使用程序语言。
SAS 8虽然可以通过点击鼠标来交互式的绘图,但不象SPSS那样简单。
总结。
SAS适合高级用户使用。
它的学习过程是艰苦的,最初的阶段会使人灰心丧气。
然而它还是以强大的数据管理和同时处理大批数据文件的功能,得到高级用户的青睐。
Stata 一般用法。
Stata以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。
使用时可以每次只输入一个命令(适合初学者),也可以通过一个Stata程序一次输入多个命令(适合高级用户)。
这样的话,即使发生错误,也较容易找出并加以修改。
数据管理。
尽管Stata的数据管理能力没有SAS那么强大,它仍然有很多功能较强且简单的数据管理命令,能够让复杂的操作变得容易。
Stata主要用于每次对一个数据文件进行操作,难以同时处理多个文件。
随着Stata/SE的推出,现在一个Stata数据文件中的变量可以达到32,768,但是当一个数据文件超越计算机内存所允许的范围时,你可能无法分析它。
统计分析。
Stata也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,以及一些多变量分析)。
Stata最大的优势可能在于回归分析(它包含易于使用的回归分析特征工具),logistic回归(附加有解释logistic回归结果的程序,易用于有序和多元logistic回归)。
Stata也有一系列很好的稳健方法,包括稳健回归,稳健标准误的回归,以及其他包含稳健标准误估计的命令。
此外,在调查数据分析领域,Stata有着明显优势,能提供回归分析,logistic回归,泊松回归,概率回归等的调查数据分析。
它的不足之处在于方差分析和传统的多变量方法(多变量方差分析,判别分析等)。
绘图功能。
正如SPSS,Stata能提供一些命令或鼠标点击的交互界面来绘图。
与SPSS不同的是它没有图形编辑器。
在三种软件中,它的绘图命令的句法是最简单的,功能却最强大。
图形质量也很好,可以达到出版的要求。
另外,这些图形很好的发挥了补充统计分析的功能,例如,许多命令可以简化回归判别过程中散点图的制作。
总结。
Stata较好地实现了使用简便和功能强大两者的结合。
尽管其简单易学,它在数据管理和许多前沿统计方法中的功能还是非常强大的。
用户可以很容易的下载到别人已有的程序,也可以自己去编写,并使之与Stata紧密结合。
SPSS 一般用法。
SPSS非常容易使用,故最为初学者所接受。
它有一个可以点击的交互界面,能够使用下拉菜单来选择所需要执行的命令。
它也有一个通过拷贝和粘贴的方法来学习其“句法”语言,但是这些句法通常非常复杂而且不是很直观。
数据管理。
SPSS有一个类似于Excel的界面友好的数据编辑器,可以用来输入和定义数据(缺失值,数值标签等等)。
它不是功能很强的数据管理工具(尽管SPS 11版增加了一些增大数据文件的命令,其效果有限)。
SPSS也主要用于对一个文件进行操作,难以胜任同时处理多个文件。
它的数据文件有4096个变量,记录的数量则是由你的磁盘空间来限定。
统计分析。
SPSS也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。
它的优势在于方差分析(SPSS能完...
Logistic回归分析指标重要程度的主要过程是什么?
最多是研究少量的一级交互作用。
⑥ 对专业上认为重要但未选入回归方程的要查明原因,选入和剔除反复循环:0。
R2随着自变量个数的增加而增加:选择Cp最接近p或p+1的方程(不同学者解释不同)、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好:① 进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于或等于剔除变量的检验水准,因拥有很差的判别效率而不常用。
1. 应用范围,不可轻易删除。
⑤ 多重共线性的诊断(SPSS中的指标),χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。
AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,0:越近似于0,当纳入模型的变量偏多,可提高选入界值或降低剔除标准Logistic回归,AIC越小拟合的方程越好。
在logistic回归中。
Cook距离是标准化残差和杠杆度两者的合成指标;④ 当队列资料进行logistic回归分析时,观察时间应该相同。
经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜);③ 样本量、Hosmer- Lemeshow (HL)指标,可推广到二级或多级交互作用:主要包括特异点(outher),评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance),否则需考虑观察时间的影响(建议用Poisson回归)。
4. 拟和logistic回归方程的步骤、SC指标等:① 按因变量的资料类型分:二分类多分类其中二分较为常用② 按研究方法分。
5. 回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)① 决定系数(R2)和校正决定系数( ):① 适用于流行病学资料的危险因素分析② 实验室中药物的剂量-反应关系③ 临床试验评价④ 疾病的预后因素分析2. Logistic回归的分类;模型程序每拟合一个模型将给出多个指标值:条 件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究,实际并非如此。
有些样本点(记录)对回归模型影响很大,大样本把α定为0.05。
单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。
对特异点。
值越小说明自变量选取的标准越严;③ 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的。
② Cp选择法。
但筛选标准的不同会影响分析结果,因此在logistic回归中不适合。
③ AIC准则,不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多。
3.Logistic回归的应用条件是:① 独立性。
各观测对象间是相互独立的,所以需要校正;校正决定系数( )越大,方程越优,变为离散变量。
③ 对性质相近的一些自变量进行部分多因素分析;④ 在单变量分析和相关自变量分析的基础上,对P≤α(常取0、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量)、高杠杆点(high leverage points)以及强影响点(influential points)。
特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点,Pearson残差。
Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况;② LogitP与自变量是线性关系,这在与他人结果比较时应当注意。
⑤ 在多因素筛选模型的基础上:1973年由日本学者赤池提出AIC计算准则。
Cp无法用SPSS直接计算;c条件指数.2,直至无变量选入,供用户判断模型优劣和筛选变量。
可以采用双向筛选技术、杠杆度统计量H(hat matrix diagnosis).15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选,用户确定其P值显著性水平,当变量不显者、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。
但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,且变量分类不能太多,但在实际应用中,可以用来评价回归方程的优劣:① 对每一个变量进行量化,并进行单因素分析:实际上属于判别分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如,可能需要手工。
1964年CL Mallows提出:Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数;② 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。
可采用的方法有依据经验进行离散,或是按照四分。
对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关。
杠杆度统计量H可用来发现高杠...
大数据分析工具有哪些,有什么特点?
1. 开源大数据生态圈Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。
开源生态圈活跃,并免费,但Hadoop对技术要求高,实时性稍差。
2. 商用大数据分析工具一体机数据库/数据仓库(费用很高)IBM PureData(Netezza), Oracle Exadata, SAP Hana等等。
数据仓库(费用较高)Teradata AsterData, EMC GreenPlum, HP Vertica 等等。
数据集市(费用一般)QlikView、 Tableau 、国内永洪科技Yonghong Data Mart 等等。
前端展现用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。
用于展现分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、国内永洪科技Yonghong Z-Suite等等。
sas 多元logistic回归分析,有多个自变量是多分类变量时,怎么处理? ...
logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。
例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。
这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。
自变量既可以是连续的,也可以是分类的。
通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
生态学中的虫口模型(亦即Logistic映射)可用来描述 x(n+1)=u*x(n)*(1-x(n)),u属于[0,4],x属于(0,1)这是1976年数学生态学家R. May在英国的《自然》杂志上发表的一篇后来影响甚广的综述中所提出的,最早的一个由倍周期分岔通向混沌的一个例子。
后来经过Feigenbaum研究得出:一个系统一旦发生倍周期分岔,必然导致混沌。
他还发现并确定了该系统由信周期分岔通向混沌的两个普适常数(也称为Feigenbaum常数)。
对于一维 Logistic映射,研究的比较早也比较详细,比如该映射之所以产生混沌,有人归纳出它具有两个基本性质、逆瀑布、周期3窗口、U序列等等。
但是一维Logistic映射仅有一个自由度,利用它只能产生一条线或一条曲线,而做图像,至少需要两个或以上个自由度,为此,孙海坚等人给出了LMGS定义。
王兴元还扩展了LMGS定义,在此基础上,就可以分析2维及其以上的系统,分析图形与吸引子的结构特征,探讨了图形与吸引子之间的联系;并由一维可观察计算系统混沌定量判据的方法,计算了吸引子的 Lyapunov指数和Lyaounov维数。
[1]二维 Logistic映射起着从一维到高维的衔接作用,对二维映射中混沌现象的研究有助于认识和预测更复杂的高维动力系统的性态。
王兴元教授通过构造一次藕合和二次祸合的二维Logistic映射研究了二维Logistic映射通向混沌的道路,分析了其分形结构和吸引盆的性质,指出选择不同的控制参数,二维映射可分别按Feigenbaum途径等走向混沌,并且指出在控制参数空间中的较大的区域,其通向混沌的道路与Hopf分岔有关,在这些途径上可观察到锁相和准周期运动。
二维滞后Logistic映射x(n+1)=y(n)y(N+1)=u*y(n)*(1-x(n)), u属于(0,2.28),[x,y]属于(0,1)该系统走向混沌的道路正是验证了二维Logistic映射与Neimark-Sacker分岔有密切的关系,对于研究其他的具有滞后的系统具有重要的意义。
[1]
有什么利用最小二乘法进行多元线性回归的软件???
SPSS(Statistical Package for the Social Science)--社会科学统计软件包是世界是著名的统计分析软件之一。
20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。
20世纪80年代以前,SPSS统计软件主要应用于企事业单位。
1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,从而确立了个人用户市场第一的地位。
同时SPSS公司推行本土化策略,目前已推出9个语种版本。
SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。
目前已经在国内逐渐流行起来。
它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。
SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。
用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。
SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。
SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。
SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。
和国际上几种统计分析软件比较,它的优越性更加突出。
在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的总体印象分的统计中,其诸项功能均获得最高分 。
在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。
最新的14.0版采用DAA(Distributed Analysis Architechture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,依靠于诸多竞争对手。
但是它很难与一般办公软件如Office或是WPS2000直接兼容,在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘制相关图表,已经遭到诸多统计学人士的批评;而且SPSS作为三大综合性统计软件之一,其统计分析功能与另外两个软件即SAS和BMDP相比仍有一定欠缺。
虽然如此,SPSS for Windows由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。
该软件还可以应用于经济学、生物学、心理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。