2024年3月31日发(作者:)

STATA十八讲:3数据

3数据

数据文件是一个矩形的矩阵,这个矩阵的每一行都代表或对应着一个“观测

单位”(比如是一个人,一个村或一个地区等等),矩阵的每一列都代表或对应着

一个“变量”(比如年龄,身高、体重,月工资收入等等)。因此,数据文件矩阵

中的每一个元素(case)都代表或对应着某一个“观测单位”(如张三、李四,A

厂、B厂)中的某一个“变量”(比如年龄、体重,月收入等等)的变量值或观

察值。

3.1 打开示例数据和网络数据:use

3.1.1 示例数据

示例数据为STATA帮助文件中所用的数据,其后辍名为.dta,如果在STATA

软件当前路径下,直接用use命令即可打开,如果不在当前路径下,则可以使用

sysuse命令打开。

. use auto,clear //打开汽车数据

. cd d:/ //改变路径到d:/

. use auto, clear

file not found //系统提示无法找到文件,因为不在d:/

r(601);

. sysuse auto,clear //无论当前路径是什么,该命令均能打开系统自带文件

示例数据

Auto :美国1978年汽车数据,包括产地、车名、行使里程、重量等变量

Bplong血压数据

Cancer药物实验生存数据

Census1980年美国分州人口普查数据

Citytemp美国城市气温数据

Educ99gdp教育与GDP关系数据

Gnp96 美国1967-2002年的GNP数据

Lifeexp 预期寿命数据

Nlsw88 美国年轻妇女研究数据

Pop2000 美国2000年人口普查数据

Sp500 S&P500历史数据

Uslifeexp美国预期寿命1900-1999

Voter 美国1992年选举民意调查数据

3.1.2 从网络获取数据

上述示例数据可能没有全部下载安装于你的电脑中,因此简单地使用use和

sysuse命令时,可能出现错误,如

. use nlswork, clear

中国人民大学 陈传波

chrisccb@

STATA十八讲:3数据

file not found

此时,如果确定该数据为示例数据,可以直接通过网络获取,其命令为:

. use /data/r9/nlswork //从网站获取数据,或者

. webuse nlswork, clear //与前一命令等价,从STATA官方数据库获取数据

webuse只能从/data这一路径获取数据,如果不是

该网站的数据,webuse失效,只能把网站地址完全写出来。使用该命令时必须

确保网络连接正常.

另一个网络数据较多的地方是波士登大学的数据中心,我们所用的《计量经

济学导论》一书中所使用的全部数据都可以通过该数据中心获得。比如

. use

/ec-p/data/wooldridge/CEOSAL1

即打开教材中例2.3中所使用的CEO数据。

use命令只能打开后辍名为“*.dta”格式的数据,.dta格式以外的数据,STATA

不能直接读取,需要从外部读入,最简单而直接的办法是复制和粘贴,但有时没

有其他软件,比如有SAS格式或SPSS格式的数据,但没有SAS软件和SPSS

软件,此时需要用STATA提供的其他命令或者使用transfer数据格式转化软件。

在讨论其他输入或导入数据的方法之前,我们先来学习一点数据类型的知识。

3.2数据类型

STATA通常把变量划分为三类:分别是数值型,字符型和日期型

3.2.1数值变量:

用0、1、2„9及+、–(正负号)与小数点“(.)”来表示。在输入数据时,

逗号不能被识别,如1,024应该直接写成1024.其他示例

5

-5

5.2

5.2e+3

5.2e-2

后面两个数据为科学计数法的数据,分别表示5200和0.052.其中的e相当

于10,因此5.2e+3的意思是:5.2*10

3

=5200

数值型变量按其精度区分,又有五种类型,分别是:

存贮类型 最小 最大 0-领域 字节

---------------------------------------------------------------------

byte -127 100 +/-1 1

int -32,767 32,740 +/-1 2

long -2,147,483,647 2,147,483,620 +/-1 4

中国人民大学 陈传波

chrisccb@