Professional Documents
Culture Documents
SPSS统计分析基础教程
主 编 张文彤
闫 洁
高等教育出版社
内 容简介
SPSS是 最为 优秀 的统计 软件 之一 ,深 受 各 行业 用户 的 青 睐。 为 满 足 广大 读者 学 习 统计 学入 门 知 识和 统计
软 件入 门操作 的需 求,本书 改变 了以 往 SPSS书 籍对 统计 理论 和软 件 操作 “两 条 主线 、各 自表 述”的 编写 方式 ,将
两 者完 全融合 起来 。全 书共 分 15章,以 SPSS12.
0为 准,针 对 统计 初学 者和 SPSS初 级用 户的 需 求,以 统 计 理论
为 主线 ,详 细介 绍了 在 SPSS中 的界 面操 作、数据 管理、统 计图 表制作 、统计 描 述和 常用 单因 素 统计 分析 方 法 的原
理 与实 际操 作。其 内容 覆盖 了 目前 国内 大部 分 专业 本科 统计 课程 的教 学范 围 ,并结 合 SPSS的强 大 功 能做 了很
好 的扩 展。各 章后 均附 有参 考 文献 和思 考练 习题 ,涉 及 统 计理 论的 章节 还提 供了 本章 小结 。全 书内 容深 入浅
出 ,风 格简 洁明 快,是一 本难 得 的统 计理 论与 SPSS操作 相结 合的 教材 。
品
本 书可 用作各 专业 本科 生 和研 究生 的统 计 学 教 材,也 可作 为 SPSS10~12版 的 通用 入门 教 材 ,可 供各 行业
中 非统 计专 业背景 的人 员以 及 希望 从头 学习 SPSS软 件的人 员使 用。
出
图书在 版编目 (CIP)数据 线
SPSS统计分 析基础 教程 /张文彤 ,闫洁主 编.— 北京: 在
高 等教育 出版社 ,2004.9
I SBN7-04-015855-8 文
Ⅰ.S... Ⅱ.①张...②闫... Ⅲ .统计分 析 -软 件
中
包 ,SPSS-高等学 校 -教 材 Ⅳ .C819
中国版 本图书 馆 CI
P数据核 字(2004)第 087691号
o m
l. c
策 划编辑 耿 芳 责任编 辑 欧 阳舟 市场 策划 韩 飞 封 面设计 于文燕
l
版 式设计 张 岚 责任校 对 朱 惠芳 责任 印制
A
s e
n e
出 版发 行 高等教 育出 版社 购 书热 线 010-64054588
邮 政编 码 100011
h i
社 址 北京市 西城 区德 外 大街 4号 免 费咨 询 800-810-0598
网 址 ht
tp://www.hep.e
du.cn
.C
总 机 010-58581000 ht
tp://www.hep.c
om.cn
w
经 销 新华书 店北 京发 行 所
w
印 刷
w
开 本 787×1092 1/
印 张 24
16 版 次 年 月 第 1版
印 次 年 月 第 次 印刷
字 数 580000 定 价 32.00元
本 书如 有缺 页、倒页 、脱 页等 质 量问 题,请到 所购 图书 销 售部 门联 系调 换。
版 权所有 侵权 必究
物 料号:15855-00
SPSS统 计 分 析 基 础 教 程 参 编 人 员
编 者 (以姓氏笔画为序)
王 莉(天津财经大学)
邝春伟(华东师范大学)
行智国(博塔(中国)有限公司)
邹艳辉(博塔(中国)有限公司)
赵 杨(南京医科大学)
赵新平(复旦大学)
高 峻(复旦大学)
董 伟(博塔(中国)有限公司)
序 言 Ⅰ
序 言
前 言
笔者 前作《SPSS11统 计分析 教程》(基础 篇 )和 《SPSS11统计 分 析教 程 》(高级 篇)自 2002
年 中面世 以来,因 其内容 翔实、风格独 特 ,受 到了 广大 读 者 的热 烈 欢迎,这 从读 者用 E-mai
l请 教
问 题的数 量即可 看出,还 有数位 读者详 细指出 了 书中 的 用字 错 误,可 见 其阅 读 的详 细程 度,在此
笔 者对读 者深表 谢意。 同时,数 所高校 均将其 作为本 科生或 者研究 生教材 ,而基 础篇一书 已通过
教 育部评 审,成为 2003—2004年度教 育部研 究生工 作办 公 室推荐 “研 究生教 学用 书 ”,这无 疑都
是 对前作 质量的 充分肯 定。
但是 ,再优秀 的作品 也有其 生命周 期,随 着时间 的 推移,上 述著作 的不 足 之处 也逐 渐显 现出
来 。对于 基础篇 而言,突 出表现 为以下 两点:
1.由于在 2002年国 内尚无 系统 、完整介 绍 SPSS统计 功能及 其 操作界 面的书 籍,前作 最终将
风 格定位在操作字典上,使读者能够全面了解 SPSS各 方面的 分析功 能及界 面操作 方法,应 当说前
作 很好地完成了这一任务。 但是现在随 着 SPSS中文版的正 式面 市,软件的界 面操作 已不是 主要问
题 ,再来 编写这 种新华字典式的教材已无必要。读者 自然 希望能 够有一 个更 好的教材体系出现。
2.对于统 计软件 教材而 言,其 本 质应 当 是 统计 教 材,软 件 仅仅是 实现 工 具。前 作 顺 应当 时
的 需要,主 要满足 的是已 学习过 统计理 论知识 ,但不 了解如 何使用 统计软 件来实 现的读者 群的需
求 ,因此书 中并未 详细阐 述 统 计 基 础知 识 。对 于 统 计初 学 者而 言,需要 有一 本 统计 教 材 与之 配
合 。但是 在几年 的使用 后,现在 多所高 校均希 望直接 采用基 础篇进 行本科 生的统 计教学 ,而不需
要 和其他 教材配 合使用 。在软 件工具 已经越 来越易 用 的时 候 ,教材的 最终 归 宿应 当是 以统 计知
识 为主线 ,这无疑 是我们 重新投 入编写 工作的 最大动 力。
综上 ,在充分 考虑了 读者们 的意见 后,笔 者毅然 决 定推 翻 原有 的 框 架,完 全从 头编 写基 础教
程 。这本 新的 基础 教程 以 SPSS12.0为 准,定 位 为统计 软件和 统 计学 入 门书籍 。他 针 对统 计初
学 者和 SPSS初级 用户的 需求,以统计 理论为 主线,严 格按照 本科生 统计学 教材方 式编写 ,内容共
分 三大部 分:第一 部分的 任务是 SPSS操作入 门,讲解 了软件 使用和 数据管 理的操 作知识 ;第二部
分 以统计 理论为 主线,详 细阐述 了如何 在 SPSS中 完成 数据 的 统计 描 述 和参 数 估计,以 及如 何使
2
用 统计图 表来进 行数据 的完美 呈 现;第三 部分 则 详 细 介绍 了 t检 验、方 差 分析、秩 和 检 验、χ 检
验 、相关回 归等常 用的基 本统 计 分 析 方法 ,内 容覆 盖了 目 前 国 内大 部分 专业 统 计课 程 的 教学 范
围 ,并结合 SPSS的强大 功能作 了很好 的扩展 。书后 的 附录 根 据初 学 者 的特 点 加以 编制 ,各 章后
均 附有参 考文献 和思考 练习题 ,第三部 分的章 节还专 门提供 了本章 小结,更好地 满足了本 科生教
学 的需要 。另外 ,书中大 部分表 为设计 表格时 自动生 成的。 因此,大部分 表及表 题为英文 。
除作 为教材 外,本书 还适用 于各行 业中非 统计专 业需要 使用统 计方法 的人员 ,以及希 望从头
学 习 SPSS软件的 人员。 我们希 望广大 读者能 一如既 往 地踊 跃 提出自 己使 用 中的 宝贵 意见 和建
议 ,使得本 书再版 的时候 能够更 上一层 楼,更 完美地 满足大 家的学 习和工 作需求 。
张文彤
2004年 7月 于复 旦公共 卫生 学院
目 录 Ⅰ
目 录
第一部分 数据管理与软件入门
第二部分 统计描述与统计图表
4.2.3 其 他集 中趋 势描 述指 标 ……… …… 80 6.
1 SPSS报表概 述 …… … …… …… …… 112
4.3 离 散趋势 的描述 指标 ………… …… 81 6.1.1 SPSS中的 报 表功 能 …… …… …… 112
4.3.1 全 距 …… …… …… … ………… …… 82 6.1.2 报 表的 基本绘 制步 骤 … …… …… 113
4.3.2 方 差和 标准 差 …… … ………… …… 82 6.
2 表格入 门 ………… … …… …… …… 114
4.3.3 百 分位 数、四分 位数 与四 分位 数 6.2.1 表 格的 基本框 架 … …… …… …… 114
间 距 …… …… …… … ………… …… 83 6.2.2 表 头、数据 区与 汇总 项 … …… …… 116
4.3.4 变 异系 数 …… …… … ………… …… 84 6.2.3 单 元格 的数据 类型 …… …… …… 116
4.4 连 续变量 统计描 述实例 ……… …… 85 6.2.4 几 种基 本表格 类型 …… …… …… 117
4.4.1 数 据背 景介 绍 …… … ………… …… 85 6.
3 用 Or
igi
nalTa
ble
s模块 制表 … …… 119
4.4.2 使 用 Expl
orer过程 进行 分析 … …… 85 6.3.1 功 能简 介 ……… … …… …… …… 119
4.4.3 使 用其 他过 程进 行分 析 ……… …… 88 6.3.2 Bas
icTabl
es过程 … …… …… …… 119
4.5 连 续变量 的参数 估计 ………… …… 90 6.3.3 Gener
alTabl
es过 程 …… …… …… 126
4.5.1 正 态分 布 …… …… … ………… …… 90 思考与 练习 …… ………… … …… …… …… 130
4.5.2 参 数的 点估 计 …… … ………… …… 93 参考文 献 … …… ………… … …… …… …… 131
4.5.3 参 数的 区间 估计 … … ………… …… 94
第 章 数 据的报 表呈现 (下) …… …… 132
思考与 练习 … …… …… …… … ………… …… 96
7.
1 用 Cus
tomTabl
e模块自由 制表 … 132
参考文 献 …… …… …… …… … ………… …… 96
7.1.1 操 作主 界面 …… … …… …… …… 132
第 章 分类 变量的 统计描 述与参 数 7.1.2 简 单分 析实例 … … …… …… …… 133
估计 …… …… …… … ………… …… 97 7.1.3 其 他选 项卡功 能 … …… …… …… 138
5.2.2 使 用 Cr
oss
tabs过 程输 出列 联表 … 101 7.3.3 如 何解 决表格 的中 文兼 容问 题 … 151
目 录 Ⅲ
8.1.3 SPSS12的常 规 统计 图 9.
2 散点图 …… ………… … …… …… …… 201
功 能简 介 … …… …… ……… …… 162 9.2.1 简 单散 点图 …… … …… …… …… 201
8.1.4 交 互式 绘图 简介 …… ……… …… 164 9.2.2 散 点图 矩阵与 重叠 散点 图 … …… 202
9.2.3 三 维散 点图 …… … …… …… …… 203
8.2 直 方图与 茎叶图 … …… ……… …… 166
9.2.4 散 点图 的编辑 … … …… …… …… 206
8.2.1 常 规图 中的 直方 图 … ……… …… 166
8.2.2 直 方图 的编 辑 … …… ……… …… 167 9.
3 其他统 计图 ……… … …… …… …… 208
8.2.3 用 交互 图绘 制累 积直 方 图与 直方 9.3.1 P-P图和 Q-Q图 … …… …… …… 208
图 组 … …… …… …… ……… …… 172 9.3.2 ROC曲 线 ……… … …… …… …… 210
第三部分 常用假设检验方法
11.
1 t检验基 础 … …… …… ……… …… 244 13.1 非参数 检验概 述 … …… …… …… 279
11.
2 样本均 数与总 体均数 的比较 … 246 13.1.1 非 参 数检 验的 意义 …… …… …… 279
11.
5 本章小 结 …… …… …… ……… …… 255 13.4 多个独 立样本 的非参 数检验 … 289
思考与 练习 … … …… …… …… ……… …… 256 13.4.1 方 法 原理 ……… … …… …… …… 289
13.4.2 分 析 实例 ……… … …… …… …… 290
参考文 献 …… … …… …… …… ……… …… 256
13.4.3 多 个 样本 的两 两比较 … …… …… 291
第 章 连续变 量的统 计推断 (二)——— 13.5 多个相 关样本 的非参 数检验 … 292
单因素 方差分 析 … ……… …… 257 13.5.1 Fr
iedman检验 … … …… …… …… 292
12.
1 方差分 析入门 … …… ……… …… 257 13.5.2 分 析 实例 ……… … …… …… …… 293
12.1.1 为 什么 要 进行 方差 分析 …… …… 257 13.5.3 Kendal
l协和 系数 检 验与 Cochr
an
12.1.2 方 法原 理 … …… …… ……… …… 258 检 验 … ………… … …… …… …… 294
χ2 检 验 … …… …… ……… …… 302
第 章 相关分 析与回 归分析 …… …… 325
14.
2
1 χ 检验 基础 … …… …… ……… …… 302 15.1 相关分 析简介 … … …… …… …… 325
2
14.1.1 χ 检验 原理 …… …… ……… …… 302 15.1.1 相 关 分析 的指 标体系 … …… …… 325
2
14.1.2 χ 值的 计算 与 意义 … ……… …… 303 15.1.2 一 些 基本 概念 … … …… …… …… 328
14.1.3 χ2 分布 …… …… …… ……… …… 303 15.1.3 SPSS中 的相 应功 能 …… …… …… 328
14.
2 拟合问 题——— 样本率 与已知 15.2 简单相 关分析 … … …… …… …… 329
总体率 的比较 … …… ……… …… 304 15.2.1 方 法 原理 ……… … …… …… …… 329
第一部分
数据管理与软件入门
1.1 SPSS软件 概述 3
第 章 数据分析概述与软件入门
1.
1 SPSS软件概述
1.1.1 软件的 基 本特点
1.功能强 大
(1)囊括了 各种成 熟的统 计方法 与模型 ,为统计 分析用 户提供 了全方 位的统 计学算 法,为各
种 研究提 供了相 应的统 计学方 法。如 方差分 析、回归 分析、多元统 计分析 方法、生 存分析 方法等 ,
方 法体系 覆盖全 面。
(2)提供了 各种数 据准备 与数据 整理技 术。如 利 用值 标 签来 快 捷 地录 入 数据,从 而为 数据
审 核与分 析提供 了便利 条件。 生成新 的变量 ,对连续 性变量 进行离 散性转 换;将 几个小类 别合并
为 一个大 类别等 。利用 SPSS强 大的数 据整理 技术,可使数 据结构 、内容更 易于分 析。
(3)包括自 由灵活 的表格 功 能。特 别是在 SPSS11.5版 本 中新 增 的自 定 义 表格 模 块 (Cus
-
t
om Tabl
e),使得制 表变得 更加简 单和直 接。
(4)提供了 各种常 用的统 计学图 形,如条 图、线 图、饼图 、直方 图、散点 图等多 种图形 ,并且可
4 第 1章 数据 分析概 述与软 件入门
2.兼容性 好
3.易用性 强
1.1.2 SPSS的 Cl
ient/
Serve
r结构
图 1.
1 SPSS软件 的 Cl
ient
/Ser
ver体系
(a) (b)
图 1.2 SPSSCl
ient调 用 SPSSSer
ver的 对话 框设 置
1.1.3 SPSS的 模块式 结构
无论 是 SPSSCl
ient还 是 SPSSSer
ver
,均是 模块 式结构 ,即 它把 自己 的所 有 功能 分 放 在多 个
模 块上。 用户可 以根据 分析中 可能用 到的数 据处理 和 统计 分 析方 法 ,自己 选 择适 当的 模块 进行
购 买,而不 必花更 多的钱 购买所 有模块 。
SPSS12共由 11个模 块 构成 ,它们 分 别 是:SPSSBas
e、SPSSAdva
nced、SPSSCa
teg
ori
es、SPSS
Compl
exSampl
e、SPSSConj
oint
、SPSSExa
ctTes
t、SPSSMaps
、SPSSMi
ssi
ngVal
ueAna
lys
is、SPSSRe
-
gr
ess
ion、SPSSTabl
es和 SPSSTr
ends
。其 中 SPSSBas
e是必 需的,因 为 SPSS软 件 的整 个 框 架、基
本 的数据 获取、数 据准备 等基本 功能都 被集中 在这个 模 块上 ,其他模 块必须 在 SPSSBas
e搭 建的
平 台上才 能工作 。其他 模块的 功能分 别如表 1.1所 示。
SPSS软件 通过其 Li
cens
e来控 制模块 是否安 装。一 个模块 安装上 之 后,在 SPSSf
orWi
ndows
的 菜单中 就会出 现相应 的菜单 项 ,所以 不 同客 户 的 SPSSf
orWi
ndows的 菜单 可能 有所 不 同。如
果 没有购 买 SPSSTr
ends模 块,软件 中就 不会 有这 样 一 个 菜单 :Ana
lyz
e→ Tr
ends
;如 果 没 有购 买
SPSSMa
ps模 块,软 件中就 不会有 菜单:Gr
aph→ Maps
。
6 第 1章 数据 分析概 述与软 件入门
SPSS附加 模块 功 能
SPSSAdvance
d 一般 线性 模型 、混 合线 性模 型 、对数 线 性模 型、生存 分析 等
SPSSCat
ego
ries 对应 分析 、感 知图 、Pro
xsc
al等
SPSSCompl
exSa
mpl
e 多阶 段复 杂抽 样技 术 等
SPSSConj
oint 正交 设计 、联 合分 析等 ,适 用于 市场 研 究
SPSSExac
tTes
t 精确 P值 计算 、随机抽 样 P值计 算等
SPSSMa
ps 在地 图上 展示 数据 等
SPSSMi
ssi
ngVal
ueAnal
ysi
s 缺失 数据 的报 告与 填 补等
SPSSRegr
essi
on Logi
st
ic回归、非 线性 回归、Pr
obi
t回归 等
SPSSTabl
es 交互 式创 建各 种表 格 (如堆 积表 、嵌 套表 、分 层表 等 )
SPSSTr
ends Ar
ima模型 、指数平 滑、自回 归等
1.1.4 SPSS的 安装
1.SPSSServer的 安装
SPSSSe
rve
r支 持的 操 作 平 台有 AI
X UNI
X,HPUNI
X,Li
nux,Wi
ndowsNT等,根 据 不 同的 版
本 ,支持平 台略有 不同。 具体安 装步骤 如下:
(1)将 SPSSSer
ver安 装光 盘插 入计 算 机光 驱后,出 现 如图 1.3(a)所示 的界 面。 选 中 “I
n-
s
tal
lSPSSSer
ver
”即进 入安装 向导。
(2)跟随向 导,接受 Li
cens
e协议 ,并选择 安装目 录,出 现图 1.3(b)图 所示界 面。
(3)键入 SPSS公司 提供的 Li
cens
e,单 击“Updat
e”按 钮,即 出现 该 Li
cense允许安 装 的模块 ,
单 击“Ne
xt”按钮 。
1.1 SPSS软件 概述 7
(4)设定该 应用服 务器 的 I
P地 址 和 应用 端 口,再单 击“Nex
t”按钮,即 开 始 安 装 ,最 后单 击
“Fi
nis
h”按钮 结束安 装。
(a
) (b)
图 1.
3 SPSSSer
ver安 装过 程中 的几 个视图
2.SPSSCl
ient的安装
SPSSCl
ie
nt支持的 操 作平 台 为 Wi
ndo
wsNT4.0,Wi
ndows95、98、2000、XP等。 安 装 要求 约
100MB~120MB硬 盘(视 其版本 和模块 而不同 ),内存要 求为 64MB以上 。具体 安装步 骤如下 :
(1)将 SPSSCl
ie
nt安 装光盘 放入计 算机光 驱后,出现如 图 1.
4(a)所 示的界 面。选 中“I
nst
al
l
SPSS”即进 入安装 向导。
(2)跟随向 导,首先 “接受 Li
cens
e协议”,并 选择安 装 目录 ,在随 后 的界面 中键入名 称、公司
和 SPSS公 司提供 的序列 号。
(3)当要求 输入 Li
cense时 ,如图 1.4(b),键入 SPSS公司 提 供 的 Li
cens
e,单 击 “Updat
e”按
钮 ,即出现 该 Li
cens
e允 许安装 的模块 ,单 击 “Ne
xt”按 钮 ,即开 始 安 装,最 后 单 击 “Fi
nis
h”按钮 结
束 安装。
(a) (b)
图 1.4 SPSSCl
ient安装过 程中 的几 个 视图
8 第 1章 数据 分析概 述与软 件入门
1.
2 SPSS操作入门
在 Wi
ndows开 始菜单 上选择 开始 → 程 序 →SPSSf
orWi
ndows
→ SPSSf
orWi
ndows,就 启动 了
SPSS,如图 1.5所 示。
图 1.5 SPSS的 启动 示意 图
1.2.2 SPSS的 5个窗口
(a
) (b)
图 1.6 数据 编 辑窗 口的 数据 视 图和 变量 视图
(a
) (b)
图 1.7 结果 管理 窗 口和 草稿 结果 窗口
(a
) (b)
图 1.
8 语法 编辑 窗 口和 脚本 编辑 窗 口
1.2.3 SPSS的 4种运行 方式
1.菜单对 话框方 式
首先 打开 SPSS软件 ,然后 选择 菜单 Fi
le→OpenFi
le,如 图 1.9所 示,在 SPSS安 装 目 录下 打
开 数据“Empl
oyeedat
a.s
av”。
图 1.9 SPSS打开数 据示 意图
1.2 SPSS操作 入门 11
然后 ,利用 菜 单 Ana
lyz
e→ Des
cri
pti
veSt
ati
st
ics→Fr
equenci
es,如 图 1.10所 示,选 中 “j
obc
at”,
单 击“OK”按钮。 结果管 理窗口 会出现 如表 1.2所示 结果。
图 1.10 利 用对 话框 方式 进行频 数表 分析
表 1.2 Empl
oymentCate
gor
y
2.程序方 式
3.I
ncl
ude命令 方式
当编 写 Sy
nta
x程序时 ,如果 发现将 要 编 写的 程序 语 句 正 好是 另 一 个 Sy
nta
x文件 的 内 容;或
者 发现所 需的程 序语句 其实是 几个 Synt
ax文件 的总和 时,除了 可 以通 过 “Copy”、“Pas
te”的 方法
来 利用原 有的资 源,生成 一个新 的 Synt
ax文件 外,还有 一种更 简单的 办法,那就是 使用 I
ncl
ude命
令 。例如 ,上面的 程序如 果 把它 保 存 为文 件:C:\
synt
axs
ampl
e.s
ps,则 以后 使 用 时只 需 要 用下 面
的 一句命 令即可 等同于 上面的 整个文 件:
I
ncl
ude C:\
synt
axs
ampl
e.sps.
在 Synt
ax编辑 窗口中 键入上 面所示 的 I
ncl
ude语 句,运行 后的结 果和前 面相同 。
4.SPSSProduct
ionFaci
li
ty方 式
在 Wi
ndows的 程序菜 单中,SPSS菜单 组 除了有 “SPSSf
orWi
ndo
ws”项之 外,还有 一 个“SPSS
Pr
oduct
io
nFac
il
it
y”。这是 SPSS提供的 运行分 析的另 一种 方法 ,实际 上 是对 SPSS作了 一个 简单
的 开发,让 相应的 SPSS程序在 系统后 台运行 ,直至运 行完毕 后才提 示用户 阅读结 束,用户 在这期
间 可同步 进行其 他工作 ,从而提 高了 工 作 效率。 它利 用 的 机制 实 质上 也是 SPSSSynt
ax,但除 此
之 外,它还 可以通 过 SPSS宏而 更改 SPSSSynt
ax中 的文件 名和变 量名或 其他参 数,使得 Synt
ax的
应 用更加 灵活。
例如 现在希 望 使用这 种方式 分析上 面 的问题 ,则需 要 利用 文 件 s
ynt
axs
ampl
e.s
ps来 进行,打
开 SPSSPr
oduct
ionFac
il
it
y,如图 1.11所 示,随 后的步 骤如下 :
图 1.
11 “SPSSPr
oduc
tionFaci
li
ty”的操 作界 面
1.2 SPSS操作 入门 13
(1)单击 Synt
ax框下 方的“Add”按钮,到 C盘根 目录下 打开“sy
nta
xsampl
e.s
ps”。
(2)单击“Edi
t”按 钮,对 该 程 序 进 行 编 辑。 用 @ f
il
e代 替 C:\pr
ogr
amf
il
es\s
pss\Empl
oyee
dat
a.s
av,用@var代替 j
obc
at,保 存后关 闭。
(3)单击右 下角的 “Us
erPr
ompt
s”按钮,添加对 程序的 交互分 析界面 ,如图 1.12所 示。
图 1.12 “Use
rPr
ompt
s”对话 框的 设 定
(4)单击“Br
ows
e”按钮指 定结果 保存路 径,单击 “Expor
tOpt
io
ns”按钮 还 可以 指定 结果 保存
格 式。
这样 便完成 了 一 个 小 工 程 的 设 定。 可 以 单 击 Fi
le→ Sav
e,保 存 该 工 程 为 SPSSJo
bsampl
e.
s
pp。
下面 来运行 该工程 。单击 Run→ Pr
oduc
ti
onJob,即出 现如图 1.13所 示的对 话框。 可以 按默
认 的指定 去运行 该工程 ,直接单 击“OK”按钮 ,则相应 程序会 自动转 入系统 后台运 行,运行 完毕后
会 在 指定路 径下 生 成 结果文 件 SPSSJo
bsampl
e.s
po。 当然 也 可 以重新 指定 文 件和 变量 名来 运行
该 工程,这 样就可 以实现 对任何 数据中 任何变 量的频 数分析 了。
图 1.13 SPSSPr
oduct
ion运行 时弹 出的对 话框
1.2.4 SPSS的 4种结果 输出
作为 功能强 大的统 计分析 工具,为 了能够 使得分 析结果 更为美 观易读 ,更好 地满足用 户的需
14 第 1章 数据 分析概 述与软 件入门
求 ,SPSS一共 提供了 4种格 式的统 计分析 结果:表 格、文 本、标准 图和交 互图。
1.表格格 式
SPSS可以 绘制表 格用于 表述数 据,除 此之外 ,大部分 分析结 果也 都 以专用 表格的 形 式展示 ,
如 图 1.14所 示。 这 些 表 可 能 是 二 维表 ,也 可 能 是 多 维 表。 二维 表、多 维 表都 可 以 作 为 “SPSS
Pi
votTabl
e”对象而 粘贴到 其他应 用 程序 (如 Wor
d、Po
wer
Poi
nt、Exce
l)中,并 且 依然 利 用 SPSS对
这 些表格 进行编 辑。SPSS的 制表功 能非常 强大,能 很好地 满 足 用户 各种情 况 下 的需 求 ,详见 第
6、7两 章。
图 1.
14 SPSS结 果格 式之 一——— 表格 格式
2.文本格 式
图 1.
15 SPSS结 果格 式之 一——— 文本 格式
1.2 SPSS操作 入门 15
而 是与 Of
fi
ce家 族软件 完全兼 容的 r
tf格式 ,这些 文字可 以随意 进行拷 贝粘贴 、格式设 定等操 作。
3.标准图 与交互 图
利用 图形来 展示数 据,也是 在数据 分析中 必不可 少的。 SPSS提供 了 两种类 型的图 形。 一种
是 普通图 ,在 SPSS的手册 中称为 “标准图 ”如 图 1.16所示 ;另 一种 为 “交互图 ”如图 1.17所示 。
标 准图是 在 Gr
aphs菜 单下直 接单 击 图 形生 成 的,而交 互图 是 在 Gr
aphs→ I
nter
act
ive下 单 击图 形
生 成的。 与交互 图相比 ,标准图 生成速 度快,已经可 以 满足 大 部分 统 计 绘图 的 需求,但 可编 辑能
力 要弱于 交互图 ;而交互 图对系 统硬件 环境要 求更高 ,但可 绘制的 图形种 类更多 ,编辑功 能更强 ,
尤 其值得 指出的 是,交互 图可以 生成实 时旋转 的动态 三维图 。所以 标准图 适用于 理解数 据,而交
互 图更适 合在报 告演示 中应用 。对交 互图和 标准图 的详细 介绍参 见本书 第 8、9章。
4.结果的 保存和 导出
如果 只想保 存或导 出部分 结果,只 要先选 中该结 果,然 后在图 1.18的 Expo
rtWha
t框中 选择
“Sel
ect
edObj
ect
s”即 可。
除了 可以保 存结果 之外,还 可以将 结果 直 接通 过 “Copy”、“Pas
te”应 用到 其 他软 件 中。 对于
SPSS表 格、交 互图,还 可以将 它们作 为“Obj
ect
”粘贴到 其 他应 用程序 中 。这 样 做有 一个 好处:粘
贴 后仍可 利用 SPSS提供 的功能 进行编 辑。具 体 操作 是:在“开 始 ”菜单 “运 行”程 序 文 件:obj
ect
-
on.bat
(此文件 在 SPSS安装 目录下 )。随后 在应用 程序中 粘贴图 表时均 使用“选 择性粘贴 —SPSS
Pi
votTabl
e控 件或 SPSSI
nte
rac
tiveGr
aph控件 ”即可。
1.2.5 SPSS的 帮助系 统
SPSS提供 了无处 不在的 “帮助”功 能,可 以随时 随地为 不同层 次的用 户提供 帮助。 其帮 助功
能 主要包 括学习 向导、帮 助 菜 单、对 话框 帮 助 和语 法 手 册 四 大类 。 事 实 上 ,国 内 有 相当 一 部 分
SPSS教 材都是 在翻译 或引用 SPSS完整而 详细的 帮助内 容,那么 绕过这 些翻译 ,直 接来 见识 一下
原 汁原味 的“帮助 ”功能吧 。
1.2 SPSS操作 入门 17
1.学习向 导
图 1.19 统 计教 练的 界面
(2)Tut
ori
al:同样为 初学者 提供,是 关于某 个主题 的一步 步指导 。 以示 例 化、图形 化的 方式
告 诉用户 如何使 用这个 软件。 初学者 可 以 通过 该教 程掌 握 SPSS的 几乎 全 部常 用 操 作 (数据 的
输 入、分析 和绘图 )。Tut
ori
al模块位 于 Hel
p菜 单中 ,选 择 He
lp→ Tut
ori
al即 可 进 入,起 始 界面 为
一 个目录 列表,即 所有教 程内容 的索引 ,用户 可在里 面选择 需要阅 读的主 题,如果 对 SPSS完全不
熟 悉,则可 以从最 上面 的 I
ntr
oduct
ion开 始,它 提 供了 使 用 SPSS的 一 些 最 基 本 的 操 作 教程。 图
1.20为 Tut
ori
al在 演示如 何编辑 表格。
图 1.20 Tut
ori
al在演示 如何 编 辑表 格
18 第 1章 数据 分析概 述与软 件入门
(3)Res
ult
sCoac
h:是 关于结 果的解 释(参见 图 1.21)。 在结果 窗口中 ,只要 对相应的 输出含
义 不太清 楚,即可 选中该 输出,并 右 击鼠 标,右键 菜 单上 会 有 Res
ult
sCo
ach选 项,它 可 以 链接 到
相 应的向 导界面 ,详细地 对该过 程的功 能和结 果加以 讲解。 但需要 注意的 是,对 于少数统 计上比
较 复杂,难 以解释 清楚的 方法,SPSS没有提 供。
图 1.
21 Res
ultCoach在 解 释频 数表
(4)Cas
eSt
udi
es:上 述三个 向导多 少都 有一 些 入门 和救急 的 味 道,对 于希 望 系 统 学习 SPSS
中 统计功 能的用 户而言 ,就可以 使用 Ca
seSt
udi
es这 一 详 细 的案 例 向 导。 用 户选 择 菜 单 项 He
lp
→ Ca
seSt
udi
es即可进 入,如 图 1.22所示,它为 中级 用户提 供了 SPSS各 模块 的 主要 分 析 方法 的
基 本操作 和结果 解释。 其讲解 方式也 是示例 化、图形 化 的。 只 要大家 的英 文 水平 和统 计功 底尚
可 ,实际上 可以通 过 该向 导 掌握 绝 大多 数 的 SPSS基 本 操 作,从 而 避 免了 到 处 寻 找 一本 优 秀 的
SPSS入 门教材 的痛苦 。
图 1.22 Cas
eSt
udy在演 示 Means过程
2.帮助菜 单
图 1.23 SPSS帮 助主 题
3.对话框 帮助
4.语法手 册
1
.3 数据分析概述
1.3.1 数据分 析 方法论介 绍
任何 一个数 据分析 项目,如 果按照 整个分 析过程 的流程 结构来 看,都 可以被 分解为大 致 7个
阶 段:计划 阶段、数据收 集、数据 获取、数据准 备、数据 分析、结果报 告和模 型发布 阶段。下 面就来
对 这 7个 阶段做 一下简 单的探 讨。
(1)计划阶 段。在 分析项 目的初 始阶段 ,需要花 费大量 的时间 来设计 分析计 划,以减 少盲目
分 析,避免 资源浪 费。在 该阶段 ,要对 数据分 析的各 个 行动 步 骤作 好 规 划,主 要任 务是 弄清 楚以
下 几个问 题:
① 确定研 究问题 。从研 究分析 开始,就确立 明确的 分析目 标是非 常 重要的 。 它可 以帮 助用
户 合理地 计划人 员、时间 、资源 分配,并 能指导 用户集 中精力 于研究 性分析 。
② 建立项 目预算 。
③ 确定研 究范围 即确定 研究总 体和个 体。
④ 确定样 本的抽 取方法 。
⑤ 分析评 估所需 样本量 。
⑥ 确定数 据收集 方式。
⑦ 确定与 研究问 题相关 的数据 即确定 应该收 集个体 的哪些 数据。
⑧ 确定研 究问题 的分析 方法和 分析工 具。
(2)数据收 集阶段 。如果 手头已 经有现 成的数 据 ,就可 以 不必 再 进 行数 据 收集。 数据 收集
的 目标、方 式完全 取决于 在 上 一 步 中所 制 定 的计 划 。数 据 收集 方式 有很 多 种,可以 是 电 话式 访
问 ,可以是 面谈式 收集,也可以 是拦截 式访问 。如果 是 从头 进 行数 据 收 集,则 应当 有一 份标 准问
卷 ,问题的 设计不 仅要相 关,还 要能够 从中得 出有意 义的结 论。
(3)数据获 取阶段 。该阶 段的目 的是将 分散的 、原始格 式各不 相同的 数据读 入分析 工具中 ,
1.3 数 据分析 概述 21
软 件为数 据分析 提供了 各种统 计分析 方法和 数据挖 掘方法 。而 SPSS软件 提供的 统计图 、统计报
表 功能和 结果输 出功能 则可以 很好地 支持结 果报 告阶 段 的需 求。总 之,以 上 提到 的各 阶段 均可
以 从 SPSS公司的 产品线 中获得 支持。 而 SPSS软件本 身 则作 为 一个 核 心平 台 ,在 整个 数据 分析
流 程中起 着关键 的作用 。
1.3.3 本书内 容 介绍
本书 将以上 述数据 分析的 7个阶 段为主 线来组 织内容 。在本 书的第 2章详 细介绍了 各种格
式 的数据 如何读 入 SPSS中,即 数据获 取阶段 的内 容;第 3章 介 绍了 数 据 转换 、合并、汇 总等 各种
数 据准备 问题;第 4、5章 介绍了 数据分 析的最 初 阶段 ,即描 述 性 统计 分 析;第 6章 ~第 9章 介绍
了 各种表 格、图形 的制作 ,而表 格、图形 正是分 析报告 阶段的 必需品 ;第 10章 ~第 15章 讲述 数据
分 析的初 级 内 容,即 推 断 性 统 计 分 析 的 部 分 方 法。 更 复 杂 的 统 计 分 析 方 法 将 在 本 套 丛 书 的
《SPSS统 计分析 高级教 程》中讲 解。至 于计划 阶段、数 据收集 阶段、结 果发 布 阶段 等往 往因 为会
涉 及具体 的行业 应用,不 应当是 统计教 程的讲 解内容 ,所以 在基础 教程和 高级教 程中都不 会有太
多 介绍,但 将会在 本丛书 的其他 行业应 用分册 中涉及 ,感兴 趣的读 者可参 考这些 分册中的 相关内
容。
思考与练习
1.试检查 自己的 SPSS软 件共有 几个模 块,其 中包括 了哪些 功能,并 思考平 时 的统 计分 析究
竟 要哪些 模块才 能够满 足需求 。
2.尝试使 用本章 所介绍 的 4种 方 法来使 用 SPSS进行书 中 例题的 分析,并 体会 这 4种 方法
各 自的优 缺点。
参考文献
1 TheBas
ics
:SPSSf
orWi
ndo
ws10.0.SPSSI
nc.Chi
cago,I
ll
inoi
s,1999
2 Pr
ogr
ammi
ngwi
th SPSSSynt
axandMa
cro
s(v
10.0Re
vis
ed).SPSSI
nc.Chi
cago,I
ll
inoi
s,
1999
3 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002
2.1 数 据格式 概述 23
第 章 数据录入与数据获取
数据 是统计 研究的 基础,如 果没有 数据,分析也 就 无 从谈 起。用 于 分析 的 数据 资料 有两种 ,
一 种是原 始资料 ,如调查 问卷中 的数据 需要将 它们录 入进 SPSS软 件,建立 数据文 件;另一 种是已
经 被录入 为其他 数据格 式的资 料,需要 将其内 容直接 读入 SPSS中 。
针对 上述的 两种情 况,这一 章将主 要介绍 两 个问 题,即如 何将 数 据 录入进 SPSS中 以及 如何
将 其他格 式的数 据读进 SPSS中 。对于 第一个 问题,根据问 题类型 的不同 ,将会从 开放题 、单选题
和 多选题 的 录 入方 式为例 进 行 介绍 ;对 于第 二 个问 题 ,则重 点 介绍 如 何 用 SPSS直接 读 取 Exce
l
类 型和文 本格式 的数据 ,以及如 何通过 ODBC接口读 取数据 库文件 。良好 的开始 是成功 的一半 ,
录 入或者 读入数 据是数 据分析 的第一 步工作 ,其重要 性是不 言而喻 的。
2
.1 数据格式概述
2.1.2 变量属 性 介绍
任何 一个变 量显然 都应当 有变量 名与之 对应,但 为了进 一步满 足统计 分析的 需要,除 变量名
外 ,统计软 件中还 往 往 对 每 一 个变 量 定 义许 多 附加 的 变量 属 性 ,如 变 量 类 型 (Type)、变量 宽 度
(Wi
dth)、小 数位(Deci
mal
)等。 在上 一 章 所讲 解 的数 据 管理 窗 口 的变 量 视 图中 ,可 以 看到 SPSS
会 为每一 个变量 指定 10种变量 属性,但这里 将重点 介 绍变 量 类型 和 测 量尺 度 这两 个属 性,对于
其 他的一 些属性 ,比如变 量标签 和缺失 值等,会给出 简单介 绍,至于 像变量 列格式 、变量对 齐方式
这 样的属 性,不用 说,根 据字面 意思,大 家也能 理解其 内涵。
1.变量的 存储类 型
SPSS中,变量有 三种基 本的类 型,分别 是:数 值型、字 符型和 日 期型 。根据 不同的 显 示方式 ,
数 值型又 被细 分为 了 5种 ,所以 SPSS中的 变量类 型 共有 8种。
Type项用于 设 定变 量 类 型,选 择 Type单元 格时 右侧 会 出 现 形
如 的按钮 ,单击 会弹 出变量 类型对 话框,如 图 2.1所示。
在以 上三大 类 变量 类 型 中,数 值 型 是 SPSS中 最 常 用 的 变
量 类型。 数值 型的 数 据是 由 0~9的阿 拉 伯数字 和 其他 特 殊符
图 2.
1 变 量类 型对 话框
号 ,如美元 符 号、逗 号或 圆 点 组 成 的。 如 工 资 、年 龄、成 绩 等 变
量 都可定 义为数 值型数 据。数 值型数 据根据 内容和 显 示方式 的不同 ,又可 分 为标准 数值 型(Nu-
mer
ic)、逗号数 值型(Comma)、圆点数 值型(Dot
)、科 学计数 法型(Sci
ent
if
icNot
ati
on)、美 元数 值型
(Do
llar
)、用 户自定 义型(Cus
tomCur
rency)共 6种不 同的表 示方法 。每种 方法的 用法根据 名称的
字 面含义 也可以 猜得出 来,这里 不再赘 述。
字符 型数据 类型也 是 SPSS较常用 的数据 类型,字 符型 数 据 的默 认 显示 宽 度为 8个 字符位 ,
它 区分大 小写字 母,并且 不能进 行数学 运算。 字 符型 数 据在 SPSS的 数据处 理 过程(如 在计 算生
成 新变量 时)中是 用一对 引号引 起 来的。 需要 注 意 的 是,在 输 入 数 据 时不 应 输 入引 号 ,否 则,双
引 号将会 作为字 符型数 据的一 部分。
日期 型数据 是用来 表示日 期或时 间的。 日期型 数据的 显示格 式 有很多 ,SPSS以菜 单的 方式
列 出日期 型数据 的显示 格式以 供用户 选择。 但事实 上,SPSS中 的日期 型变 量存 储 的是 该时 间与
1582年 10月 14日 零点相 差的秒 数,如 1582年 10月 15日存 储的 就是 60×60×24=86400,大
家 将变量 类型变 换为数 值型就 可以看 到。但 是这里 只能存 储正数 ,即 1582年 10月 14日及 更早
时 间在 SPSS中是 无效的 。日期 型数据 主要在 时间序 列分析 中比较 有用,在较为 简单的分 析问题
中 完全可 以用普 通数值 型数据 来代替 。
2.变量的 测量尺 度
计 方法也 不同。 如果只 以变量 类型来 说明这 个变量 的 属性,就 不能区 分出 这 三 个变量 的值 1和
2彼此 的区别 。为了 区分这 三类数 字,就有 了变量 测量尺 度这个 属性。
在 SPSS中使 用 Mea
sur
e属性对 变量的 测量尺 度进行 定义。 在统计 学中,按 照 对事 物描 述的
精 确程度 ,将所采 用的测 量尺度 从低级 到高级 分为 4个层次 :定类 尺度、定 序尺度 、定距尺 度和定
比 尺度。
(1)定类尺 度(No
minalMe
asur
ement
):定 类尺度 是对事 物的类 别或属 性的一 种测度 ,按照事
物 的某种 属性对 其进行 分类或 分组。 定类变 量的特 点 是其 值 仅代 表 了 事物 的 类别 和属 性,仅能
测 度类别 差异,不 能比较 各类之 间的大 小,所 以各类 之间没 有顺序 或等级 。通常 定类尺度 的变量
又 被称为 无序分 类变量 ,如性别 可取值 为“男”、“女”,就是 一个定 类尺度 的变量 。 对定 类尺 度的
变 量只能 计算频 数和频 率,如在 所有客 户中,男性有 多少人 ,占总人 数的百 分率是 多少。
在 SPSS中,能使用 定类尺 度的数 据可以 是数 值型 ,也可 以 是字 符 型 变量 。使 用定 类变 量对
事 物进行 分类时 ,必须符 合穷尽 和互斥 的原则 。穷 尽 的原 则 就 是指每 个个 体 都必 须能 归为 一个
类 别,互斥 的原则 是指每 个个体 都只能 归为一 个类别 。
(2)定序尺 度(Or
dinalMe
asur
eme
nt):定序 尺度是 对 事物 之间 等级 或 顺序 差别 的一 种测度 ,
可 以比较 优劣或 排序。 定序变 量又被 称为有 序分类 变量,它 比定类 变量的 信息量 多一些 ,不仅含
有 类别的 信息,还 包含了 次序的 信息;但是由 于定序 变 量只 是 测度 类 别 之间 的 顺序,无 法测 出类
别 之间的 准确差 值,即测 量数值 不代表 绝对的 数 量大 小,所 以 其计 量 结 果只 能 排序,不 能进 行算
术 运算。 定序变 量同定 类变量 一样,其 数据可 以是数 值型,也可以 是字符 型变量 。定序变 量除可
以 计算频 率之外 ,还可 以 计 算 累计 频率。 如 足 球喜 欢程 度 这 一变 量 的取 值 有 :1——— 非 常 喜欢 ,
2———喜欢 ,3——— 无所谓 ,4——— 不喜欢 ,5——— 非常不 喜欢,这是一 个定序 尺度的 变量。 对它 就可
以 计算累 计频数 和累计 频率。 如对 “足球 喜欢程 度”,不 仅 可以 计算 喜欢 的 人 数 和比 例 有 多少 ,
还 可以计 算喜欢 及非常 喜欢的 累计人 数和比 例有多 少。
(3)定距尺 度(I
nter
valMeas
urement
):定 距尺 度是 对事 物类 别 或 次 序之 间间 距的 测 度。定
距 变量的 特点是 其不仅 能将事 物区分 为不同 类型并 进 行排 序 ,而且可 准确 指 出类 别之 间的 差距
是 多少;定 距变量 通常以 自然或 物理单 位为计 量 尺度 ,因此 测 量结 果 往 往表 现 为数 值,所以 计量
结 果可以 进行加 减运算 。
(4)定比尺 度(Scal
eMe
asur
ement
):定 比尺 度 是能 够测 算两 个 测度 值之 间 比值 的 一 种计 量
尺 度,它的 测量结 果同定 距变量 一样也 表现为 数值,如 职 工月 收入,企 业 销售 额 等。其 与定 距变
量 的差别 在于有 一固定 的绝对 “零点”,而 定距 变 量则没 有,定距 变量 中 的“0”并不 表示 “没有 ”,
仅 仅是一 个测量 值,而定 比变量 中的“0”就 真正表 示“没有 ”。 比如 温 度,0℃ 只是 一个 普通 的温
度 ,并非没 有温度 ,因此 它只是 定距变 量,而体 重 则是 真 正的 定 比变 量 。定 比 变量 是测 量尺 度的
最 高水平 ,它除了 具有其 他三种 测量尺 度的全 部特点 外,还 具有可 计算两 个测度 值之间比 值的特
点 ,因此它 可进行 加、减 、乘、除 运算,而 定距变 量只可 进行加 减运算 。
SPSS中默 认的变 量测量 尺度就 是定比 尺度。 但 由于 后 两 种测 量 尺度 在 绝 大多 数 统 计分 析
中 没有本 质上的 差别,在 SPSS中就将 其合并 为一类 ,统称为 “Sca
le”测 量。
这三 种尺度 在许多 统计书 籍中会 有更为 通俗的 称呼:无 序分类 变量、有序分 类变量和 连续性
变 量。从 实用的 角度出 发,本书 将同时 采用这 两种命 名体系 。
在这 4种测 量尺度 之间,按 照信息 量的高 低,可 将高层 次测量 尺度的 测量结 果转换为 低层次
26 第 2章 数据 录入与 数据获 取
果 在录入 数据时 数据集 中没有 设定变 量值标 签,其他 人就很 难弄清 楚是 1表示男 还是 2表示男 。
因 此,变量 值标签 对于定 序变量 (如职称 )和 定类 变 量(如民 族、性别 )来说,是 必不 可少 的,它不
但 使定类 和定序 变量的 数据录 入变得 更加方 便,且明 确了数 据的含 义,也 同样增 强了分析 结果的
可 读性。
变量 值标签 对话框 上部的 两个文 本框分 别为变 量 值输 入 框和 变 量 值标 签 输入 框,分别 在其
中 输入“1”和 “男”,此 时下方 的 Add按 钮变黑 ,单 击它 ,该变 量 值标签 就会 被 加入 下方 的标 签框
内 。与此 类似定 义变量 值“2”为“女 ”,最后 单击 OK按 钮,变量 值标签 就 设置完 成。此 时做 任何
分 析,在结 果中都 有相应 的标 签 出 现。 如 果现 在 就 想 看效 果,切换 回 Dat
aVi
ew界面 ,然 后选 择
菜 单 Vi
ew→ Val
ueLabe
ls,就会 看到上 述结果 。
另外 ,SPSS在 12.0版本 以前,对于变 量名有 一个限 制,即要 求 变量 名限 制 在 8个 字 符之内 。
但 令人欣 喜的是 ,从 12.
0版本 开始,此 限制已 经被取 消,变 量名最 多可以 有 64个 字符。 当然,出
于 兼容性 的考虑 ,变量名 的定义 还有一 些限制 ,即不 能以数 字开头 ,中间不 能有空 格,一个 数据文
件 中不能 有相同 的变量 名等。 读者只 要在使 用中尝 试即可 ,不必记 那么多 规则。
4.缺失值
Mi
ssi
ng项 是一个 重要而 且容易 被忽视 的选项 ,它用 于定义 变量缺 失值。 SPSS中缺失 值有用
户 自定义 缺失值 和系统 缺失值 两大 类。 对于 数 值 型变 量 的 数据 ,系 统缺 失值 用 一 个 圆点 “.”表
示 ,而字符 型变量 默认就 是空字 符串。 如果在 问 卷调 查 中,有 些数 据 项 漏填 了 ,则 数据 录入 时只
能 跳过,相 应的数 据单元 格就会 被系统 自动当 作缺失 值来处 理。
另外 一类缺 失值是 用户自 定义缺 失值,这 往往出 现在一 些设计 较严格 的大型 调查中 ,在一些
题 项处会 给出一 个选项 :不知 道 或 拒答。 相应 的 代 码 可能 用 9或 者
99来 表示。 显然,这 里的 99不是 一 个真 实 的 答案 ,仅 仅是 缺 失值 代
码 ,需要告 知 SPSS这个 特 定的标 记数 据 ,以 在进 行 统 计分 析时 区 别
对 待缺失 值和正 常 的分 析 数 据。具 体做 法 为 单击 相 应 变 量 Mi
ssi
ng
框 右侧的 省略号 ,会 弹 出缺 失 值 对 话 框如 图 2.3所 示,利 用 该 对 话
框 ,用户可 以自定 义缺失 值。界 面上有 一列三 个单选 钮,默 认 值为 最 图 2.3 缺 失 值对 话框
2.
2 数据的直接录入
2.2.1 操作界 面 说明
1.序 号:
2.性 别: 1男 2女
3.姓 名:
4.家 庭月收 入:.3000以下 b.3000~4999 c.5000~6999 d.7000~9999
e.10000及以 上
5.出 生年月 日(mm/
dd/
yyy
y):
6.婚 姻状况 :a
.未婚 b.已婚 c.丧 偶 d.离异
7.你 在选择 购物商 场的时 候,关 注以下 哪些因 素:
a.交 通条件 b.促销活 动 c.购 物环境 d.服务质 量 e.其他
8.请 问你购 物的打 折信息 主要来 自以下 哪些渠 道(限选 3项):
a.报 纸 b.杂志 c.电视 d.收 音 机 e.网络 f
.朋友 介 绍 g.手机 短 信
h.其 他,请指 出
9.每 天上网 的小时 数: 小时
在这 份问卷 中,包含 了开放 题、单 选题和 多选题 ,其中第 1、3、5、9是开 放题,题 1、9是数 值型
开 放题,3是字 符型,5是 日期型 ;第 2、
4、6题 是单选 题,第 7、8题 是多选 题。其 中,第 8题有 一些
特 殊,将在 后文中 说明。 下文将 分别就 这三种 类型题 目的录 入方式 加以介 绍。
由前 文可知 ,录入数 据的第 一步是 定义变 量属性 ,随后 才能进 行数据 录入。 虽然在空 白的变
量 列中直 接输入 数据,SPSS会自动 给该 列给 定一 个 变量 名,但是 这样 往 往不 能完全 满 足 用户 的
需 要,所以 还是首 先来定 义需要 使用的 变量吧 。
定义 变量属 性,首先 要定义 变量名 ,变量 名是变 量的唯 一标识 ,前边已 经讨论 过相关 的知识 ,
这 里不再 重复,在 前 4行 的 Na
me列 中直接 输入变 量名———“i
d”、“name”、“bo
rn”、“net
”,大 家同
时 可以看 到 SPSS会在变 量类型 等列自 动填入 默认值 。
在绝 大多数 情况下 ,SPSS给出 的默认 数 据 类型 和 数据 精 度可 以 满 足需 要 ,如果 默 认 值满 足
分 析的需 要,变量 定义到 此就可 以结束 了,否 则就需 要 对不 满 足条 件 的 选项 进 行进 一步 的设置 。
在 本例中 ,变量“i
d”是被 访者的 记录 号 ,它的 测 量 尺度 应 该是 定 类尺 度 ———“No
minal
”。但 值得
指 出的是 ,因为变 量“i
d”只是方 便检查 和核对 问卷,不参与 后边的 数据分 析工作 ,所以,要求 不严
格 的情况 下,此处 的变量 类型可 采用默 认形式 不做修 改。此 外,变 量“name”是 被访者 姓 名,应是
字 符型变 量,这里 应当将 “Type”中的“Numer
ic”改成“St
ri
ng”。 同理,变 量“bo
rn”代 表出 生日期 ,
应 当更改 为日期 型数值 “Dat
e”。在对 变量类 型作修 改 的同 时 可以 看 到,变 量 的其 他属 性也 会自
2.2 数据 的直接 录入 29
图 2.5 变 量定 义
引例 中的开 放题的 定义是 比较简 单的,但 是大多 时候,开放题 的答案 可能是 一个句子 或者一
段 话,此时 要更改 该变量 的 Wi
dth,因为 默认的 8个字 符的宽 度只能 存放 4个汉字 ,要根据 该变量
可 能出现 的最大 字符长 度来确 定 Wi
dth(最 大不超 过 256个字 符)。
现在 切换回 数据视 图,数据 编辑窗 口如图 2.6所 示。可 见前 4列的名 称均为 深色显 示,就是
刚 才定义 的内容 ,表明这 4列已 经被定 义为变 量,其 余各列 的名称 仍为灰 色的“var
”,表 示尚 未使
用 。同样 地,各行 的标号 也为灰 色,表 明现在 还未输 入 过 数据 ,即该 数 据 集内 没 有记 录 。在 变量
定 义完毕 后,就可 以向这 个文件 中录入 数据了 。
图 2.6 定 义好 变量 的数 据 编辑 窗口
2.开放题 的录入
图 2.7 录入数 据 过程 (一)
30 第 2章 数据 录入与 数据获 取
图 2.8 录入数 据 过程 (二)
图 2.
9 数据 录 入完 毕的 窗口
3.单选题 的录入
图 2.10 单选 题的 三种 录入方 式说 明
2.2.3 多选题 的 录入
1.多重二 分法
图 2.12 多 重二 分法 数据 录入 格 式
2.多重分 类法
是 一种正 常情况 。
在进 行多选 题录入 时,只需 要将相 应的变 量设定 好即可 进行操 作,但 是录入 完毕后对 多选题
进 行分析 前,首先 需要定 义多 选 题 集,然 后才 可以 把多 选 题 的 全部 变量 当作 一 道题 目 来 进行 分
析 。在 SPSS中提 供了专 门的菜 单用来 对付多 选题,Tabl
es模 块和 Mul
ti
pleRes
pons
e菜 单都 可以
用 来设定 多选题 变量集 。所不 同的是 ,Mul
ti
pleRes
pons
e菜单 中的 De
fi
neSet
s过 程定义多 选题变
量 集的信 息不能 在 SPSS数据文 件中保 存,关 闭数据 文件后 相应信 息就会 丢失,如 果再次 使用,则
必 须重新 加以定 义;而 Tabl
es模 块可以 保存定 义 的信 息。所 幸 的是这 两个 过 程的 操作 是基 本相
同 的,现在 就以 De
fi
neSe
ts过 程为 例来 看 一下是 如何定 义 多选题 集的。 在 SPSS中 选择 Anal
yze
→ Mul
ti
pleRes
pons
e→ Def
ineSe
ts,打 开定义 多选题 集 的对 话 框,界 面 如图 2.14所 示。 在 该对 话
框 中,需要 注意以 下几点 :
图 2.14 定义 多选 题变量 集
(1)Var
iabl
esi
nSe
t框 :选入 需要加 入同一 个多选 题 变量 集的 变量 列 表,对 于多重 二分 类法
录 入的多 选题,这 些变量 必须为 二 分类 ,并 按照 相同的 方 式 来编 码(如都 用 1代 表选 中)。对 于
34 第 2章 数据 录入与 数据获 取
2.
3 外部数据的获取
数 据标识 数据 类 型
SPSS(* .s
av) SPSS数 据文 件(6.
0版 ~12.
0版)
SPSS/
PC+(* .sy
s) SPSS4.0版数 据文 件
Sys
tat
(*.s
yd) * .syd格 式的 Sys
tat数据 文件
Sys
tat
(*.s
ys) * .sys格 式的 Syst
at数据 文 件
SPSSPo
rtabl
e(* .por
) SPSS便 携格 式的 数据文 件
Excel
(* .x
ls) Excel数据 文 件(5.
0版 ~2000版)
Lot
us(* .w* ) Lo
tus数 据文 件
SYLK(*.s
lk) SYLK数据 文件
dBas
e(*.dbf
) dBa
se系列 数据 文件 (dBas
eⅡ ~Ⅳ )
2.3 外部 数据的 获取 35
续表
数 据标识 数据 类 型
SASLongFi
leName(*.sa
s7bdat
) SAS7~8版 长文 件 名类 型数 据文 件
SASShor
tFi
leNa
me(* .sd7) SAS7~8版 短文 件 名类 型数 据文 件
SASv
6forWi
ndows(*.s
d2) SAS6版 (f
orWi
ndows
)数 据文 件
SASv
6forUNI
X(*.ss
d01) SAS6版 (f
orUNI
X)数 据文 件
SASTr
ans
por
t(* .xpt
) SAS便携 格式 的数 据 文件
Te
xt(* .t
xt) 纯 文本 格 式的 数据 文件
Dat
a(*.dat
) 纯 文本 格 式的 数据 文件
选择 所需的 文件类 型,然后 选中需 要打开 的文件 ,SPSS就会 按照 要 求打开 相应的 数 据文件 ,
并 自动转 换为 SPSS格式 。
下面 以 SPSS自 带 的 文 件 demo.x
ls为 例,来 看 SPSS如何 直 接 读 取 这个 文 件 ,该 文 件 位 于
SPSS目 录下的 Tut
ori
al\
sampl
e_f
il
es子 目录 中。首 先 在 Ex
cel中 打开 demo.xl
s,了解 一 下 这个 文
件 的结构 ,重点需 要了解 这样几 项内容 :第一 ,该 文件 中 包含 几 个数 据 表,具 体 应当 打开 哪个表 ;
第 二,如果 不需要 该 表的 所 有数 据 ,而 只 需 读 入 一 部 分,这时 需 要 了 解要 读 入 的 数 据的 精 确 位
置 ———如 单元格 A2:F5。第三 ,此部分 数据的 第一行 是否是 变量名 。在这 个文件 中,很 明显 可以
看 出,第一 行是变 量名,该文件 只有一 个表,要 读取的 是该表 单中的 全部数 据。
第一 步,在 OpenFi
le对话 框中,选 择路 径 (此 例 中为 SPSS\Tut
ori
al\Sampl
efi
les),选 择文 件
类 型“Ex
cel
(.xl
s)”,文件列 表中 出 现 所有 的 Exce
l文 件,点 击 文件 demo.xl
s。 第 二步 ,弹 出对 话
框 ,如图 2.15所 示 。Wo
rks
heet框 中指 定 哪张 表 ;Ra
nge框 中 指定 读 取 的数 据 具 体位 置 ,用单 元
格 的起(左 上角 单元 格名 称 ,如 A2)止(右 下 角单元 格 名称,如 F5)位置来 表 示,中 间用 冒号 “:”
隔 开;“Readvar
iabl
enamesf
rom t
hef
ir
str
ow o
fdat
a?”意 为 “该 单元 格 范 围 的 第 一 行 是 变 量 名
吗 ?”。指定 完毕,点击“OK”按钮 之后,数据顺 利地读 入了 SPSS。
图 2.15 打 开 Excel数据 文件 对 话框
36 第 2章 数据 录入与 数据获 取
(a
) (b)
(a
) (b)
(a
) (b)
(a
) (b)
图 2.19 向 导 初始 对话 框中 的数据 源列 表和 系统 的 ODBC数 据源 管 理器
图 2.20 MSAcces
s驱动 程序 安装 界面
Synt
ax语句等 功能。 如 果 不 需 要 这 些 设 置,则 可 在 第 2步 时 直 接 单 击 完 成,数 据 就 被 成 功 读
入 了。
图 2.21 数据 库向 导的 第二个 对话 框
由于 SPSS现 在可以 直接打 开许多 常用格 式的数 据文件 ,因此 数据库 查询接 口的用处 不是很
大 。但是 使用 ODBC接 口可以 直接和 绝大多 数流行 的数据 库进行 数据交 换,如 SQLSe
rve
r、DB2、
Or
acl
e等,这是 直接打 开方式 无法做 到 的。 其 次,在 例行 工作 中,比如 每 月都 要读入 相 同 的数 据
库 ,可以将 所使用 的 SQL语 句存储 起来,每 次只 要 调用 SQL语 句即 可 。这 一 方法 也可 用来 解决
一 些需要 对动态 数据库 进行统 计分析 的问题 。数据 仅 仅是 在 需要 分 析 时临 时 读入,从 而可 以保
证 数据始 终是最 新的。
2.
4 数据的保存
2.4.1 存为 SPSS格 式
图 2.22 Sav
eDa
taAs主对话 框
图 2.23 Va
riabl
es子 对话 框
2.4.2 存为其 他 数据格式
思考与练习
参考文献
1 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002
2 SPSS Bas
e12.
0Us
ersGui
de.SPSSI
nc.Chi
cag
o,I
ll
inoi
s,2003
42 第 3章 数据 管理
第 章 数据管理
不言 而喻,一 切统计 分析都 是以数 据为基 础的,在 数据 文 件建 立 好 之后,还需 要对 数据 进行
必 要的加 工处理 。对同 一个数 据往往 要从各 种不同 的 侧面 进 行研 究 ,采取 多 种统 计方 法进 行分
析 ,而不同 的统计 方法对 数据文 件结构 的要求 不尽相 同,这 就需要 对数据 文件的 结构进行 重新调
整 或转换 ,以便适 合于相 应的统 计方法 ,这项 工作称 为数据 管理。 数据管 理直接 关系到数 据分析
的 结果,因 此是统 计分析 工作中 不可缺 少的一 个关键 步骤。
本章 主要介 绍 SPSS提供的 数据管 理方面 的一 些 基本 功能 。在 SPSS中,数据 文件 的管 理功
能 基本上 都集中 在 Dat
a和 Tr
ans
for
m菜单 上,其 中前者 主要实 现 变量 级 别的数 据管理,如计 算新
变 量、变量 取值重 编码等 ,而后 者 的 功能 主 要是 实 现 文件 级 别 的 数 据 管理,如 变 量排 序 、文件 合
并 、拆分等 ,下面 将具体 介绍这 些功能 。
3.
1 变量级别的数据管理
RunPendi
ngTr
ans
for
ms:用于执 行编程 中被挂 起(Pendi
ng)的数据 整理操 作。属于 控制命
令 ,本书对 此不作 讲解。
3.1.1 计算新 变 量
计算 新变量 的功能 就是在 原有 SPSS数据 文件的 基础之 上,根 据用户 的要求 ,使用 SPSS算术
表 达式及 函数,对 所有记 录或满 足 SPSS条件 表达式 的记录 ,计算出 一个新 结果,并将结果 存入一
3.1 变 量级别 的数据 管理 43
个 用户指 定的变 量中。 这个指 定的变 量可以 是一个 新变量 ,也可以 是一个 已经存 在的变 量。
1.常用基 本概念
2.Comput
e过程的 分析实 例
图 3.2 SPSS变 量转 换窗 口
如果 要对全 部学生 计算平 均成绩 ,则直接 在主对 话框中 操作即 可,但 现在仅 希望对符 合一定
条 件的记 录进行 变量转 换,所以 按 I
f钮 ,出现如 图 3.3所 示的窗 口。 点 击 I
ncl
udei
fcas
esat
is
fi
es
condi
ti
on选项,然后通 过手工 输入或 按动 屏 幕 中的按 钮和 函 数 下拉菜 单来 实 现条 件表 达式 的输
入 工作。 在本例 中,单击 “I
ncl
udei
fca
ses
ati
sfi
esco
ndi
ti
on”选 项以后 ,将左 边 的变量 eng
li
sh通过
黑 色的小 箭头,使 之进入 右边的 框中。 然后利 用软键 盘输入 “engl
is
h>=60”,这 意味着 仅对 英语
成 绩在 60分以上 的学生 进行统 计分析 。单击 “Cont
inue”按钮 之后,回 到 Tr
ans
for
m的主窗 口。
图 3.3 I
f按 钮子 对话 框
最后 ,在 Nume
ricExpr
ess
ion框给 出 SPSS算术表 达式和 函数。 可以手 工输入 ,也可 以按 动数
字 键盘中 的按钮 以及函 数下拉 菜单来 完成表 达式、函 数的输 入工作 。
3.1 变 量级别 的数据 管理 45
在本 例中,Numer
icExpr
ess
ion框给 出 了 MEAN(chi
nes
e,mat
h)函 数 表 达 式,单 击 “OK”按 钮
即 可,如图 3.4所 示。
图 3.4 设置 完毕 的 Tra
nsf
orm窗 口
3.1.2 对变量 值 进行分组 合并
数据 分析中 ,将连续 变量转 换为等 级变量 ,或者 将分类 变量不 同的变 量等级 进行合并 是常见
的 工作。 而 Reco
de过程 可 以很 好 地完 成这 一类 任务。 Reco
dei
ntoSameVar
iabl
e是对 原始 变量
的 取值进 行修改 ;而 Reco
dei
ntoDi
ff
ere
ntVa
riabl
e是 根据原 始变量 的取值 生成一 个新变量 来表示
分 组情况 。但为 了保存 原始信 息的完 整性,一 般选后 者。
图 3.5 Recode对 话框
现在 单击“Ol
dandNewVal
ues
”,系统弹 出变量 值定义 对话框 如图 3.6所示 。许多 东西 和前
面 类似,但 要注意 所有的 范围都 是包含 了端点 的,而 前 面设 定 的变 换 会 优于 后 面的 变换 ,所 以为
了 能得到 正确结 果,应当 将相应 界值的 变换设 定放在 最后面 。另外 ,由于 这里要 生成的变 量是字
符 型变量 ,需要选 择相应 的复选 框,否 则将无 法录入 变量值 。
图 3.6 变 量值 定义 对 话框
3.1 变 量级别 的数据 管理 47
Out
putva
riabl
esar
est
ri
ngs
Ol
dVal
ue: Range
:80t
hro
ughhi
ghes
t|NewVa
lue: Va
lue:优 秀:Add
Ol
dVal
ue: Range
:70t
hro
ugh80|
NewVa
lue: Val
ue:良好:Add
Ol
dVal
ue: Range
:60t
hro
ugh70|
NewVa
lue: Val
ue:及格:Add
Ol
dVal
ue: Range
:Lowe
stt
hrough60|Ne
wVal
ue: Va
lue:不及 格:Add
Co
nti
nue
Re
code可以将 连续变 量转化 成数值 型或者 字符型 离散变 量 ,也 可 将数值 型 字符 变 量转 化成
数 值变量 ,只需选 中选项 “Conver
tnumer
icst
ri
ngst
onumber
s”即 可,轻轻 一点,一切尽 在掌握中 。
Re
code过程也 常用于 合 并 某个 分 类变 量 的 几个 水 平为 一 个 水 平,仍 然 举 个 例 子来 说 明 问
题 :将前文 在数据 t
rans
for
m.sa
v中产 生的变 量 gr
ade中 的优 秀 、良好和 及格 三 个等 级合 并为 一个
等 级“PASS”,将 gr
ade的 等级“不 及格”转 化为“NOPASS”。
界面 在前文 已经熟 悉,现在 来看看 如何进 行相应 操作:
Tr
ans
for
m→ Re
cor
d→I
ntoDi
ff
erentVar
iabl
es
Nume
ricva
riabl
e:gr
ade|
Out
putvar
iabl
e:Name:gr
ade
1:Change
Ol
dandNe
wval
ues
:
Out
putvar
iabl
esa
res
tri
ngs
Ol
dVal
ue: va
lue:不 及格 |
NewVal
ue: Val
ue:NOPASS:Add
Ol
dVal
ue: Al
lot
herval
ues|
NewVal
ue: Va
lue:PASS:Add
Co
nti
nue
OK
该程 序运行 之后,就 可 以 看 到 变 量 gr
ade
1将 变 量 gr
ade中 前 三 个 水 平 合 并 为 了 一 个 水 平
“PASS”。
3.1.3 连续变 量 的可视化 分段
Re
code过程提 供了精 确分组 的功能 ,但是 如 果 希望 进 行的 分组 是较 有 规 律 的,比 如 等距 分
组 ,或者等 样本量 分组,使用 Rec
ode过程进 行 操作 就 显得 非 常 麻烦,且 可视化 程度 不高 ,此 时可
以 考虑使 用 Vi
sualBander过程进 行可视 化分段 。Vi
sua
lBander过程 是 SPSS12.
0中新 增的 用于
将 连续变 量进行 分段的 过程,该 过程使 用百分 位数、标准差 范围或 者等间 距方式 将连续变 量划分
48 第 3章 数据 管理
图 3.7 可 视化 分段 对 话框
Tr
ans
for
m→ Vi
sua
lBa
nde
r
Va
riabl
est
oBander
:ma
th
Co
nti
nue
选 中 mat
h:
Banded:Name:mat
hcl
s
Uppe
rEndpoi
nts
:Exc
lude
d(<)
MakeCut
poi
nts:Fi
rstCut
poi
nt:60|
Numbe
rof
:5|
Widt
h:10:Appl
y
MakeLabel
s
OK
(a
) (b)
图 3.8 MakeCut
poi
nts子 对 话框以及 设置 完 毕的 可视 化分 段对话 框
在数 据分析 中,将字 符变量 转换为 数值变 量是非 常实用 的一个 功能。 除了 使 用 Reco
de过程
手 工设定 转换规 则外,在 SPSS中还可 以使用 Aut
omat
icRe
code过 程自 动按 原变 量 值的 大小 或者
字 母排序 生成新 变量,而 变量值 就是原 值的大 小次序 。
例 3.3 在 t
rans
for
m.s
av数据 中,将 字符型 变量 c
it
y转化 为数值 变量 newci
ty。
由于 Aut
oma
ti
cRec
ode过程的 操作界 面非常 简单,这里就 不 再详 述 操作过 程,直接 给出 相应
的 界面和 结果如 图 3.9所示。
Aut
omat
icRe
code的 排序功 能和 Ra
nkCa
ses类似 ,所不同 的是,Aut
omat
icRec
ode可以 用于字
符 型变量 。
50 第 3章 数据 管理
(a
) (b)
图 3.9 Aut
oma
ticRe
code对 话框以及 所生 成 变量 newci
ty的值 标签 定 义
3.1.5 变量的 编 秩
(a
) (b)
图 3.10 RankCas
es对话框
在 RankCas
es对话框 中:
(1)As
sig
nRa
nk1t
o单选 框组:用于选 择将秩 次 1赋 给最小 值或最 大值。
(2) Di
spl
ays
ummar
ytabl
es:用于 确定是 否在结 果窗口 内输出 结果报 表。
3.1 变 量级别 的数据 管理 51
(3)RankTy
pes按 钮:用于 定义秩 次类型 ,默认 为最常 用的 Rank(秩 分数),另有其他 几种选
择 ,单击“Mo
re”按钮 ,还会 有更多 的设置 。由于 除了 秩 分数以 外 的方 法 很少被 用到,这 里不 再详
述 ,有兴趣 的朋友 可参见 用户手 册。
(4)Ti
es按 钮:用 于定义 对相同 值观测 量的处 理方式 ,可以是 取平均 秩次、最小秩 次 、最 大秩
次 或当作 一个记 录处理 ,默认值 为取平 均秩次 。
这里 将变量 mat
h选入 Va
riabl
e框,分 组变量 gende
r选 入 By框 ,单击 “OK”按 钮即可 ,其 他一
些 设置使 用默认 。系统 会建立 一 个新 变 量 Rmat
h(即 原 变 量名 前 加 R表 示 Rank之 意 ),其取 值
为 mat
h分组的 秩次。
在前 面讲解 的操作 全部结 束后,数 据集 t
ransf
orm.s
av中的数 据如图 3.11所 示。
图 3.11 变 换后 的 t
rans
for
m.s
av中的 数 据
3.1.6 Trans
for
m 菜单 中的其他 功 能
3.
2 文件级别的数据管理(一)
Tr
ans
for
m菜单 提供的 数据管 理功能 虽 然很 强 ,但基 本 上仅 限于 变量 级 别,有时 候 需 要对 整
个 数据文 件进行 加工整 理,而不 仅仅是 对变量 进 行操 作。 在 SPSS中 ,
这 部分功 能主要 集中在 Dat
a菜单(参 见图 3.12)下。根 据各自 的功能
特 点,该菜 单中的 所有项 目可分 为以下 几类:
① 简单命 令:包 括 插入 变 量、插 入 记 录 和到 达 某 条记 录,它 们 的
功 能实际 上都可 以使用 鼠标在 数据表 界面上 直接完 成,很 少 会使用 菜
单 来调用 ,本书不 对其进 行讲解 。
② 常用的 简单过 程:包 括排序 、拆分文 件、选择 记录和 加 权 记录 ,
这 几个过 程并不 复杂,但 使用得 极为频 繁,是 大家必 须掌握 的内容 。
③ 变量与 数据文 件 属性 向 导:是 11.5版新 增 的 两个 向 导,用 于
定 义数据 字典,或 者将预 定义 的 数 据字 典 直 接 引入 当前 数 据 文件,对
于 大型或 者连续 性的数 据分析 项目而 言,这是 一个非 常有用 的功能 。
④ 数据重 构向导 :用于 进行数 据 转置,或者对 重 复 测量 数 据进 行
长 型、宽型 记录格 式间的 转换,详述见 后面相 关章节 。 图 3.12 Dat
a菜 单
⑤ 文件合 并过程 :将几 个数据 文件合 并为一 个大的 SPSS数 据文件 ,含横向 合 并和 纵向 合并
两 种情况 ,详述见 后面相 关章节 。
⑥ 正交设 计过程 :实际 上是联 合分析 模块的 一部分 ,用于生 成实施 联合分 析所需 的 设计,由
于 这一分 析方法 是市场 研究中 的专用 工具,对 它的讲 解可参 见本丛 书中的 《SPSS与市 场研究 》一
书 相关内 容。
⑦ 其他过 程:包 括定义 日期变 量 过 程、数 据汇 总 过 程和 查 找重 复 记录 向 导。 前者 用 于时 间
序 列数据 的分析 ,将在时 间序列 一书中 讲解,后两个 过 程将 在 下文 加 以 讲解,其中 查找 重复 记录
向 导为 12.0版新 增功能 。
本节 将首先 讲解非 常重要 的几个 简单过 程,下 一 节将 重 点 讲述文 件级 别 数据 管理 中一 些比
较 复杂的 功能。
3.2.1 记录排 序
数据 编辑窗 口中记 录的前 后次序 是随机 的,由录 入时的 先后顺 序决定 。实际 工作中 ,有时用
户 希望按 某种顺 序来观 察一批 数据,例 如,在 销售报 表中,希 望按销 售额从 低到高 的顺序 ,或者按
销 售时间 从早到 晚的顺 序来浏 览数据 。观察 排序后 的记录 数据,会 方便用 户了解 数据。
SPSS中的 记录排 序就是 将数据 编辑窗 口中的 数据,按照用 户指定 的某 一个 或 多个 变量 值的
升 序或降 序重新 排列,这 里用户 所指定 的变量 称为排 序变量 。当对 所有记 录进行 排序时 ,可按照
排 序变量 取值的 大小次 序对记 录数据 重新整 理后显 示。当 对记录 进行分 组排序 时,在每 个组内 ,
按 照排序 变量取 值的大 小次序 对记录 数据进 行排序 。
3.2 文件 级别的 数据管 理(一) 53
图 3.13 Sor
tCa
ses对 话框
3.2.2 记录拆 分
图 3.
14 Spl
itFi
le过程 主对 话框
3.2.3 记录筛 选
很多 时候用 户不需 要分析 全部的 数据,而 是按要 求分析 其中的 一部分 ,比如 只分析职 位是经
理 的人的 年薪,或 者只对 接受教 育年限 在 12年以上 的人进 行分析 ,这时使 用 Sel
ectCa
ses过 程可
以 大大简 化用户 的工作 。对话 框界面 如图 3.15所示 。
图 3.
15 Sel
ectCas
es过程 主对 话框
3.2 文件 级别的 数据管 理(一) 55
3.2.4 记录加 权
图 3.17 Wei
ghtCase
s过 程主对 话框
56 第 3章 数据 管理
进行 权重 记录 以后,SPSS界 面 右 下 角 会出 现 “We
ightOn”的 字 样,且可 以被 存 储 到 数据 集
中 ,直到用 户取消 加权,否则一 直按加 权对数 据进行 处理。
3.2.5 数据汇 总
图 3.18 Aggr
egat
e过 程的 主对 话 框
3.
3 文件级别的数据管理(二)
在上 一节中 讲解了 最为基 本和常 用的数 据管理 功能,对 于一般 的数据 分析任 务,这些 已经足
够 。但是 在较复 杂的数 据分析 项 目 中,往 往会 在 数 据管 理 中涉 及格 式化 数 据、发现 重 复 录入 记
录 ,拼接多 个数据 集和转 换存储 格式等 复杂功 能,涉 及 的数 据 文件 也 不 止一 个 ,本 节的 任务 就是
为 大家讲 解这些 较为复 杂的文 件级别 数据管 理功能 。
3.3.1 数据字 典 的定义与 应用
1.变量属 性定义 向导
性 设定,则 选择 Da
ta→Def
ineVar
iabl
ePr
oper
ti
es,此时 会弹出 预定义 对话框 ,要求 选择希望 进行设
定 的变量 ,可 以选 择多个 ,SPSS将 会 对选入 的变量 都 进行扫 描。这 里 只选 入 g
ender
,则 进 入向导
的 主界面 如图 3.20所示 。
图 3.20 De
fineVa
riabl
ePr
oper
ti
es对话 框
主界 面的左 侧会列 出所有 被选择 或扫描 的变量 ,选中相 应的变 量名称 ,则右 侧会显示 出相应
的 设定,并 供用户 加以更 改:上 部用于 设定测 量尺度 、存储格 式、变 量 名标签 等,如果 单击 Sugges
t
按 钮,则 系 统会 根 据扫描 到 的数据 给出建 议的测 量 尺度;中部的 Val
ueLa
bel网 格会 列 出该 变量
所 有 取 值 的 频 数、当 前 值 标 签和 缺 失 值 设 定 等,这 里 可 以更 改 标 签 和 缺 失 值 的 设 定 。下 部 的
CopyPr
oper
ti
es按 钮组用 于将另 一个被 扫描变 量的属 性拷贝 到所选 的变量 ,也可 以将所选 变量的
属 性拷贝 到其他 被扫描 变量,这 里由于 只选择 了一个 变量,因此实 际上没 有用到 该按钮组 。右下
方 的 Aut
omat
icLabel
s按钮用 于自动 生成值 标签,实 际上就 是将所 有的变 量值均 赋给值 标签。
如图 3.20所 示,此 时已经 对 ge
nder的属性 进行了 更改,读 者可以 看到 在 这一 个界 面中 就完
成 了对变 量的所 有属性 定义,而 且可以 一次性 定义多 个变量 ,并且 由系统 帮助扫 描出全部 取值范
围 ,这显然 要比在 变量视 图中进 行操作 要容易 得多,可以大 大方便 数据字 典的定 义工作。
Co
pyDa
taPr
oper
ti
es过 程用 于 将 定义 好 的数 据 字 典直接 应用 到 当 前文件 中,在操 作时 不仅
可 以将一 个外部 的数据 文件相 关属性 拷贝到 当前数 据文件 中,还可 以进行 自定义 ,只选择 某些变
量 ,或者某 些属性 进行拷 贝,这 无疑大 大提高 了连续 性项目 对原有 资源的 利用程 度。对于 一些特
殊 的文件 属性,如 多选题 变量集 、普通 变量集 、权重变 量的设 定等,使用该 向导进 行复制会 减少许
多 重复工 作。
例 3.6 将数据 集 t
rans
for
m.s
av中 相关的 变量属 性作为 数据字 典应用 到另一 个数据 集 t
rans
-
f
orm2.s
av中。
各位 读者可 以首先 分别打 开这两 个文件 ,比较一 下它们 之间的 区别,可以发 现对于相 同的变
3.3 文件 级别的 数据管 理(二) 59
量 ,t
ransf
orm.s
av中 均设置 了标签 ,且列宽 、测量 尺度 等 的设 置均 不相 同 。下面 开 始进行 操作,首
先 打开文 件 t
rans
for
m2.s
av,然后选 择 Dat
a→Co
pyDat
aPr
oper
ti
es,系统 会首 先 弹出 向导 的第 一个
对 话框,要 求指定 希望复 制的属 性是来 自于当 前 文件 ,还是 另 一个 外 部 数据 文 件,本例 中指 定为
t
rans
for
m.sa
v所在位 置。单 击“下一 步”按钮 后出现 如图 3.21所 示的对 话框,该 界 面用 于设 定希
望 复制的 属性 种 类 ,有 三 种 选 择,分 别 为 选 择 同 名 同 类 型 同 长 度变 量 的 属 性 进 行 复 制 (Appl
y
pr
oper
ti
esf
rom s
elect
eds
our
cef
il
evar
iabl
est
omat
chi
ngwor
kingf
il
e)、选 择 一个变 量的属 性 进行复
制 (Appl
ypr
oper
ti
esf
romas
ingl
eso
urceva
riabl
etose
lec
tedwo
rki
ngf
il
eva
riabl
e)和 仅复制文 件属性
(Appl
yda
tas
etpr
oper
ti
esonl
y-novar
iabl
ese
lec
ti
on)如多选 题集定 义、权 重 设定等 。 这里 选择 第一
项 ,需注意 性别变 量由于 在两个 文件中 的名称 不同,因此未 出现在 下方的 列表中 。然后选 中源文
件 变量列 表中的 全部变 量,单击 “下一步 ”按钮,随后 的对 话 框(见 图 3.22)会 要求 用户 详细 指定
希 望复制 的变量 属性,共 有 7种 之多,并且可 以选择 是替换 原有属 性,还是 和原属 性进行 合并。
图 3.21 Co
pyDat
aPr
oper
ti
es对话框 1
图 3.22 Co
pyDat
aPr
oper
ti
es对话框 2
3.3.2 查找重 复 记录
在大 型 的数 据 管 理或 者 复杂 的 数 据变 换 工作 中 ,重复 记 录的 发 现 是经 常 需要 完成 的任务 。
I
dent
if
yingDupl
icat
eCa
ses是 SPSS12.0新增 的功能 ,通过简 单的菜 单操作 ,可以 迅速地发 现个别
变 量值重 复,或者 所有数 值完全 重复的 记录。
下面 用数据 c
ompa
ny r
ongy
u.s
av来进 行示 例。 该数 据 是 一份 对 几 个公 司的 统计 表。但 由
于 有的公 司提交 了数次 ,因而在 这个数 据文件 中出现 了 不止 一 次。在 作统 计 工作 时必 须把 这些
重 复数据 删掉。 数据量 少时排 序后逐 个删除 当然是 没有问 题的,但 数据量 较大时 ,这将是 一个非
常 庞大的 工作。 SPSS提供了 这种识 别重复 记录(I
dent
if
yDupl
icat
eCas
es)的 程 序,下面 看一 下如
何 用它来 简 化工 作 。选择 Dat
a→I
dent
if
yDupl
icat
eCa
ses
,弹出 如 图 3.23所示 的对话 框 ,上方 的
De
finemat
chi
ngc
asesby框用 于选入 希望查 找重复 值的变 量 (组),这 里 将企 业 名称、企 业所 在地
3.3 文件 级别的 数据管 理(二) 61
图 3.
23 Ident
if
yDupl
ica
teCase
s对 话框
图 3.24 操 作结 束后的 数据 界面
表 3.1 St
ati
st
ics
表 3.2 Indi
cat
orofeachl
astmat
chi
ngcaseasPr
imary
数据 文件的 重新排 列,是数 据分析 中经常 用到的 一个功 能。数 据录入 的格式 ,未必能 一步到
位 地满足 用户分 析时的 要求,很 多时候 用户 要 根据 分 析 的要求 改变 数 据 的排列 格式,Res
truct
ure
过 程是一 个图形 化界面 的数据 重构向 导,直观 地实现 了这一 功能。
图 3.
25 数 据集 Anxi
ety.s
av和 Anxi
ety2.sav的 内容
解:选择 Da
ta→Res
tr
uct
ure,系统 会弹出 Res
truct
ure向 导的第 一个界 面如图 3.26所 示,从图
中 可以看 出,在向 导中共 提供了 三种数 据重排 功 能,分 别是 长 型与 宽 型 格式 的 互换 和行 列转置 。
根 据要求 ,在这个 例子中 要使用 的是 第 二 种功 能 ,选择 Res
truct
ures
ele
ctedc
asesi
ntova
riabl
es单
选 框,单击 “下一步 ”按钮后 显示向 导的第 二个界 面,见 图 3.
27。
图 3.
26 Res
truct
ure向 导第一 步
图 3.
27 Res
truct
ure向 导第二 步
64 第 3章 数据 管理
图 3.28 Rest
ruct
ure向 导第 三步 图
系统 默认为 “Yes
”,此 时不做 更改可 以继续 单击“下 一 步”按钮 ,也 可以 单击“完 成”按钮,系
统 会自动 判断所 需的内 容。单 击“下一 步”按钮 ,看看下 边 会有 些 什么内 容,从 图 3.29中可 以看
出 ,这一步 是对重 新排列 以后的 数据文 件的结 构进行 设置,给出产 生一条 新记录 的原记录 的数目
以 及选择 是否需 要标识 变量。 即使用 户对这 个界面 的功能 不了解 ,根据向 导的简 短说明 ,也可以
判 断出此 步骤的 意图,这 也是 SPSS友好 的人 机 界 面 的一 个展 示。 在 这一 步 不做 更 改,单 击 “下
一 步”按 钮,最 后一 个 对 话框 用 于 选 择 是 直接 得 到 结果 ,还是 生成 相 应的 SPSS程序 ,默 认为 前
者 。直接 单击“完 成”按钮 ,就可 以 得 到 相应 的转 换后 的数 据 集 ,将该 结 果 与 数 据 Anxi
ety2.s
av
进 行比较 ,可以看 出除变 量名和 标签不 同外,两个文 件 的 内容 实际上 是 一 致的 。另 外,也可 以看
看 系统在 结果窗 口中的 汇总输 出,如表 3.3和 表 3.4所示,这常被 用来检 查是否 操作有 误。
图 3.
29 Res
truct
ure向 导第四 步
3.3 文件 级别的 数据管 理(二) 65
表 3.3 Gene
rat
edVar
iabl
es 表 3.4 Proces
singStat
ist
ics
下面 来看看 如何将 宽型格 式的数 据转换 为长型 格式,有 了前面 的基础 ,这一 部分内容 大家应
当 很容易 理解了 。假设 此处的 任务是 将 Anx
iet
y2.s
av转换为 如 Anxi
et
y.s
av的 长型格 式 ,则 在第
一 个向导 界面上 选择第 一项,单 击“下一 步”按钮 后弹出 界面如 图 3.30(a)所示,询问共有 几组重
复 测量变 量需要 转换,此 处只有 一个,单击“下 一步”按 钮后进 入最重 要的 变量 选择 界 面(参 见图
3.30(b)):Cas
eGr
oupI
dent
if
yica
ti
on框 用于设 定重 复测 量个体 的 i
d标识 变 量 ,此处 设 定 为变 量
Subj
ect
;中部的 Va
riabl
est
obeTr
ans
pos
ed框组 则用于 设定被 转换的 变量组 ,首先 将变量组 名称改
为t
ri
al,随后在 下方的 列表中 将 Tr
ial1~4选 入。如 果有多 组变量 需要转 换,则依 次设定 即可;最
下 方的 Fi
xedVar
iabl
e(s
)框 则用于 选入携 带变量 ,此处 为 Anx
iet
y和 Tens
ion。
66 第 3章 数据 管理
图 3.30 转 换向 导 的第 二、三个 界面
图 3.31 转 换向 导 的第 四、五个 界面
4.数据转 置
下面 看看 Tr
ans
pos
e过程 ,也就 是 数 据重 构 向导 的第 三 个功 能 。Tr
ans
pos
e过程 用 于 对数 据
进 行行列 转置,数 据文件 的转置 就是将 数据编 辑 窗口 中 数据 的 行列 互 换,即 将 记录 转为 变量,将
变 量转为 记录后 ,重新显 示在数 据编辑 窗口中 ,如图 3.32所 示。
图 3.32 转置 前 的数 据集 和转 置后 的 数据 集
68 第 3章 数据 管理
Tr
ans
pos
e过程 的对话 框也非 常简单 (见图 3.33),左侧为 候选 变 量框;右 上 方为 Va
riabl
e(s)
框 ,用于选 入需要 转置的 变量,一般应 选入除 名称变 量外的 所有其 他变量 ,如果有 变量未 选入,则
转 置时会 被自动 丢弃;右 下方为 NameVa
riabl
e框,用 于指 定 原 数据文 件中 记 录转 置后 变量 名的
字 符变量 ,但不是 必需的 ,此时 系统会 将新变 量自动 按 var
001、v
ar002、…的顺 序命名 。
图 3.
33 Tra
nspos
e对 话框
对统 计分析 的初学 者而言 ,可能无 法想像 这个功 能有什 么用处 。实际 上,数 据转置主 要是用
于 编程,进 行矩阵 运算时 的矩阵 转置操 作,对 于只需 要 调用 现 成的 分 析 程序,不需 要自 行编 写算
法 的用户 而言,转 置功能 的确没 有多少 实际用 途。
3.3.4 多个数 据 文件的合 并
进行 统计分 析的第 一步工 作就是 将待分 析的数 据录入 到 SPSS中。在 数据量 较大时 ,经常需
要 把一份 大的数 据分成 几个小 部分,然 后再分 别由不 同的录 入员进 行录入 ,以缩 短数据录 入的时
间 。这样 就会出 现一份 大数据 分别存 储在几 个不同 的 数 据文 件中的 现 象。 因 此,将这 若干 个小
的 数据文 件合并 成一个 大的数 据文件 是进行 数据分 析的前 提。除 此以外 ,如果数 据有多 个来源 ,
则 可能会 使变量 分散在 几个文 件中,需 要按照 某种规 则加以 合并后 才能进 行分析 。
SPSS数据 文件的 合并方 式有两 种:纵 向连接 和横向 合并,它 们分 别 对应了 上述的 两 种情况 。
数 据集的 纵向连 接指的 是几个 数据集 中的数 据纵向 相加,组 成一个 新的数 据集,新数据集 中的记
录 数是原 来几个 数据集 中记录 数的总 和。横 向合并 指 的是 按 照记 录 的 次序,或者 某个 关键 变量
的 数值,将 不同数 据集中 的不同 变量合 并为一 个数据 集,新 数据集 中的变 量数是 所有原数 据集中
不 重名变 量的总 和。
在 SPSS中,进行合 并的文 件必须 都存储 为 SPSS数据格 式。如 果是用 程序方 式,则可 以一次
实 现多个 数据文 件的合 并,但是 ,如果 使用对 话框方 式,则一 次只能 进行两 个 SPSS数据文 件的合
并 ,且其中 一个必 须是已 被打开 的当前 数据文 件。
SPSS数据 文件的 纵向连 接或合 并就是 将数据 编辑窗 口中的 数据与 一个 SPSS数据 文件 中的
数 据进行 首尾对 接,即将 一个 SPSS数 据文件 的内容 追加到 数据编 辑窗口 中当前 数据的后 面。纵
向 合并实 质就是 将两个 数据文 件的变 量列,按 照各个 变量名 的含义 ,一一 对应进 行首尾连 接。
3.3 文件 级别的 数据管 理(二) 69
图 3.34 SPSS数据 文件 纵向 合 并窗 口
在该 窗口中 ,两个待 合并的 数据文 件中共 有的变 量名会 被自动 对应匹 配,并 出现在 Var
iabl
es
i
nNewWor
kingDat
aFi
le框 中。SPSS默 认它们 具有相 同的 数 据含 义 ,自动 成 为合 并后 新数 据文
件 中的变 量。如 果需要 修改默 认设置 ,可以将 它们剔 除到 Unpai
redVar
iabl
es框中。
* *
在 Unpai
redVa
riabl
es框中,变 量名后 面有 或 +号。 表示该 变量名 是当前 数据编辑 窗口中
的 变量,+表示该 变量名 是待合 并文件 中的变 量。可 见,Unpai
redVa
riabl
es框中 的 变量 名不 是待
合 并的两 个文件 所共有 的,是无 法被自 动对应 匹配的 ,SPSS默认 它们 不 具有相 同的数 据 含义,不
自 动成为 合并后 新数据 文件中 的变量 。同样 地,用户 可以修 改这种 默认设 置,可 以手工选 择两个
变 量名,点 击“Pai
r”按 钮强行 配对,表示 它们 具 有相 同的数 据 含 义,并 将 其选 入 Var
iabl
esi
nNe
w
Wo
rki
ngDa
taFi
le框中。 或者先 点击“Rename”按钮 改 名后 再 指 定配 对 。当然 ,也 可以 指定 某变
量 不经任 何对应 匹配,强 行进入 Var
iabl
esi
nNe
wWo
rki
ngDat
aFi
le框中,但这种 方式显然 会造成
缺 失数据 。
如果 希望在 合并后 的数据 文 件 中看 出哪 些 记 录 来自 合 并 前的 哪 个 SPSS数 据文 件 ,可以 选
I
ndi
cat
ecas
esour
ceasva
riabl
e项。于 是,在 合 并后 的 数 据文 件 中将 自 动 出现 名 为 s
our
ce01的 变
量 ,取值为 0或 1。 0表 示该记 录来自 第一个 数据文 件,
1表示 该记录 来自第 二个数 据文件。
图 3.35 SPSS数据 文 件的横向 合并
如果 两个待 合并的 数据文 件中的 记录数 据是横 向顺序 一一对 应的,可 单击“OK”按钮 完成合
并 工作。 否则,两 个 待 合 并 的 数 据 文 件 中 的 共 有变 量 名 出 现 在 Excl
udedVar
iabl
es框 中。点 选
Mat
chc
asesonkeyv
ari
abl
esi
nsor
tedf
il
es项 ,并从 Excl
udedVar
iabl
es框中 选出一 个或多个 变量作
为 关键变 量送到 KeyVa
riabl
es框 中。
关于 合并后 的数据 文件中 的数据 按哪种 方式提 供,SPSS有 三个选 项可供 选择:
Bo
thf
il
espr
ovi
decas
es:是 SPSS默 认的方 式 ,指合 并 后 的数 据由 原来 的 两个 数 据 文件 共
同 提供,即 由原来 两个数 据文 件 中 的 记录 共同 组 成 合并 后 的数 据文 件,当两 个 数据 是 逐 条对 应
参考 文献 71
时 ,用此选 项。
Ex
ter
nalf
il
eiskey
edt
abl
e:指在 当前已 打开数 据基础 之上,合并第 二个数 据文件中 的变量
数 据,即合 并后数 据文件 的记录 仅包括 当前数 据编辑 窗 口中 的 记录。 当外 部 数据 根据 关键 变量
是 无重复 记录,而 当前数 据根据 关键变 量是有 重复记 录时,用此选 项。
Wor
kingDat
aFi
lei
skey
edt
abl
e:指在第 二个数 据文 件 的基 础 之 上,合 并数 据编 辑窗 口中
的 变量数 据,即合 并后数 据文件 的记录 仅包括 第二个 数据文 件中的 记录,当当前 数据根据 关键变
量 是无重 复记录 ,而外部 数据根 据关键 变量是 有重复 记录时 ,用此 选项。
另外 ,如果希 望在合 并后的 数据文 件中看 出 哪些 记 录来 自 合并 前 的哪 个 SPSS数据 文件,可
以选 I
ndi
cat
eca
ses
our
ceasva
riabl
e项。 于是,在 合并 后 的 数据 文 件中 将 自 动出 现 名为 s
our
ce01
的 变量,取 值为 0或 1。0表示 该记录 来自第 一个数 据文件 ,
1表示该 记录来 自第二 个数据文 件。
最后 再次提 醒大家 ,使用关 键变量 进行横 向合 并 前,数 据 文件 必 须 按照 关 键变 量排 序,否则
相 应的合 并操作 将会失 败。
思考与练习
针对 数据 Empl
oye
eda
ta.s
av进行以 下练习 :
1.试根据 变量 bdat
e生成 一个新 变量“年 龄”(提示 :可以使 用函数 :XDATE.YEAR())。
2.试根据 j
obcat分组 计算 s
ala
ry的秩次 。
3.试根据 雇员的 性别变 量对 s
ala
ry的平均 值进行 汇总。
4.在 Empl
oye
edat
a.s
av中生成 新变量 g
rade,当 s
ala
ry小 于 20000时 取值为 d,当 取值 范围
为 等于 20000或 20000~50000时 为 c,等 于 50000或 50000~100000时 为 b,大 于 等 于
100000时为 a。
参考文献
1 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002
2 SPSS Bas
e12Use
rsGui
de.SPSSI
nc.Chi
cago,I
ll
inoi
s,2003
第二部分
统计描述与统计图表
4.1 连续变 量的统 计描述 概述 75
第 章 续变量的统计描述与
参数估计
统计 分析的 目的是 研究总 体特征 。但是 ,由于各 种各样 的原因 ,研究 者能够 得到的往 往只能
是 从总体 中随机 抽取的 一部分 观察对 象,它们 构成了 样本。 只有通 过对样 本的研 究,才能 对总体
的 实际情 况做出 可能的 推断。 因此,在 数据收 集、整 理完毕 后,进行 深入分 析之前 ,首要的 工作就
是 去了解 这个数 据的整 体情况 ,通过数 据来掌 握一定 的行业 背景,随后才 能考虑 作深入的 推断。
用少 量数字 (即描述 指标)概 括大量 原始数 字,对数 据 进行 描 述的 统计 方法 即 为描 述性 统计
分 析。所 谓描述 性统计 分析,是 针对统 计学的 另一大 类——— 推断性 统计分 析而言 的,后者 指从样
本 信息来 回推总 体特征 。在第 二章中 介绍了 变量 按其 测量 类 型可 以 分为:Nomi
nal变 量(即 名义
型 )、Or
dina
l变 量 (即 定 序 型 )和 Sc
ale变 量 (即 定 距型 )。针 对 不 同 测 量类 型 的 变 量 (属 性、字
段 ),有不同 的描述 指标体 系和统 计图 形 与 之对应 。 本章 将讲 述 Sc
ale变 量 ,或 者说 连 续 变量 的
统 计描述 ,而下一 章将讲 述 No
minal变量和 Or
dinal变量 以及多 选题的 统计描 述。
4.
1 连续变量的统计描述概述
4.1.1 统计描 述 中可用的 工具
首先 ,在统计 描述中 最基本 的工具 就是列 表进行 原始数 据的频 数描述 ,特别 是对于分 类数据
而 言,频数 表仍然 是现在 最常用 的描述 工具。 但是,当数据 量较大 时,原始 频数表 显得过 于冗长 ,
如 果希望 深入发 掘数据 中蕴含 的信息 ,则需要 对数据 加以浓 缩汇总 。
(1)各种初 步汇总 描述方 法:最直 接的汇 总描述 方法 就 是 将原始 数据 按 照其 大小 进行 分组
汇 总,计算 各组段 的频数 大小,最终汇 总成相 应的分 组 频数 表 或相 应 的 分组 直 方图,汇 总频 数表
可 以反映 出数据 的大致 趋势。 除分段 汇总以 外,百分 位数也 能够对 数据的 分布特 征进行 刻画,多
个 百分位 数组合 起来,也 能够反 映出数 据的分 布特征 来。 但 是 分组汇 总和 百 分位 数对 信息 的利
用 仍然比 较粗糙 ,均只能 反映比 较基础 的信息 ,如果 希 望对 数 据的 分 布 特征 描 述得 更为 简练,还
需 要更进 一步。
(2)各种统 计描述 指标:这 实际上 是更复 杂的各 种描述 工具的 基础,是针对 数据的某 种特征
76 第 4章 连续 变量的 统计描 述与参 数估计
图 4.1是对 某人群 体重分 布情况 绘制的 直方图 ,这种图 形是描 述连续 性变量 最常用 的工具 ,
它 实际上 就是按 照数据 的大小 将数值 分成若 干个组 段,然后 计算每 个组段 内的频 数,最终 用直条
图 4.1 体重 的直 方 图
的 高低反 映出来 ,它可以 直观地 反应数 据的分 布状况 。通过 对这张 图形的 观察,可以发现 如果要
使 用统计 指标对 该数据 加以描 述,则主 要是表 现以下 几个趋 势:
4.1 连续变 量的统 计描述 概述 77
(1)集中趋 势(Cent
ralTe
ndenc
y):该 人群的 平均体 重 是多 少?这 可能是 人 们希望 了解 的最
基 本的汇 总信息 。人们 常说美 国人比 中国人 高,这并 不是说 美国人 比中国 人都高 ,比如姚 明就要
高 于绝大 多数美 国人,这 种说法 实际上 省略 了“平 均起 来 ”这 个定 语 。或 者 说,它实 际 上 是关 于
数 据的“中 心位置 ”的某种 表述。 在统 计学 中,相应 的用于 描述 集中 趋势,或 者 说数 据 分 布的 中
心 位置的 统计量 就被称 为位置 统计量 (Lo
cat
ionSt
ati
st
ic)。 常用的 位置统 计量有 均数、中 位数等 ,
其 中均数 适用于 正态分 布和对 称分布 资料,中 位数则 适用于 所有分 布类型 的资料 ,详述后 面相关
章 节。
(2)离散趋 势(Di
spe
rsi
onTe
ndency):显 然,仅 仅反映 数 据的 集 中趋势 是远远 不 够的,图 4.1
中 还反映 出体重 在该人 群中的 分 散状 况 ,最轻的 不到 40kg,而最 重的 大 约在 90kg上 下。应 当
有 某种指 标可以 反映数 据波动 范围的 大小,这 被称为 数 据的 离 散趋 势 。比 如 人们 常说 的某 国的
贫 富分化 严重,或 者某国 卫生资 源分配 的公平 性很差 ,偏远 地区还 缺医少 药的时 候,大城 市的 CT
等 大型医 疗设备 却大量 闲置,占 用了大 量资源 。这些 实际上 都是在 讨论数 据的离 散趋势 ,而描述
该 趋势的 统计量 就被称 为尺度 统计量 (Sca
leSt
ati
sti
c)。 常 用的 尺 度统 计量 有标 准 差、方 差、四分
位 数间距 等,其中 标准差 、方差 只适用 于正态 分布资 料,而 四 分 位数间 距则 适 用于 各种 分布 类型
的 资料。
(3)分布特 征(Di
st
ri
but
io
nTendency):除以上 两大基 本趋势 外,随着 对数据 特征了 解的 逐渐
深 入,研究 者常常 会提出 假设,认为该 数据所 在的总 体 应 当是 服从某 种 分 布的 。那 么,针对 每一
种 分布类 型,都可 以由一 系列的 指标来 描述数 据偏离 分布的 程度。 例如对 于正态 分布而 言,偏度
系 数、峰度 系数就 可以用 来反映 当前数 据偏离 正态分 布的 严重 程 度。 当 然,相 对而 言,这些 分布
指 标使用 得较少 。
(4)其他趋 势:统计 描述中 还会用 于许多 其他指 标,如 可同时 反映集 中趋势 和离散趋 势的百
分 位数指 标(Pe
rce
nti
le),描述数 据是呈 单峰还 是双峰 分 布,数 据的 分布 是对 称 的还 是偏 态的,专
门 针对存 在异常 值的数 据进行 描述的 M统 计量(M-Es
ti
mat
ors)、极端 值(Out
li
er)列 表等,详 后。
4.1.3 SPSS中 的相应 功能
(a
) (b)
图 4.
2 Fr
equenci
es过程 和 Desc
ript
ives过程 的 统计 选项 子对 话框
(3)Expl
ore过程 :顾名 思义,该 过程用 于对连 续性资 料分布 状况 不 清楚时 的探索 性 分析,它
可 以计算 许多描 述统计 量,给出 各种统 计图,并进行 简单的 参数估 计。本 章最后 的分析实 例将以
该 过程为 主加以 讲解。
(4)Rat
io过程:功能比 较特殊 ,用于对 两个连 续性变 量计算 相对比 指标,它 可 以计 算出 一系
列 非常专 业的相 对比描 述指标 ,相对而 言使用 面 比较 窄,因 此 本书 将 不 对它 做 过多 介绍 ,对 此感
兴 趣的朋 友请参 见笔者 前作《SPSS11统 计分析 教程》(基 础篇)。
4.
2 集中趋势的描述指标
4.2.1 算术均 数
平均 数用于 反映一 组数值 的平均 水平,包 括算术 均数、几何均 数、调和 均数等 ,但是以 算术均
数 最为常 用,往往 也直接 将算术 均数简 称均数 。
算术 均数(Ar
it
hme
ti
cMean)是 最 常 用 的 描 述 数 据 分 布 的 集 中 趋 势 的 统 计 量 。 总 体 均 数
(Popul
ati
onMea
n)用 希腊字 母 μ表示 ,样本 均数常 用 珔
X表示 。
实际 上,大家 从小学 起就已 经学习 了相关 的知识 ,对一 组数据 X1,…,Xn 而言 ,其均数 的算法
为 各数据 直接相 加,再除 以总例 数 n,即:
4.2 集 中趋势 的描述 指标 79
X1 +X2 +… +Xn 6 Xi
X=
珔 =
n n
显然 ,有各个 变量值 与均数 离差之 和等于 零。即 :
6 (Xi -珔
X)=0
算术 平均数 的这条 数学性 质说明 ,均数的 实质是 把总体 各单位 的差异 全部抽 象化,采 用取长
补 短的方 法把变 量值小 于平均 数的负 离差全 部用大 于平均 数的正 离差抵 消补齐 。
除上 面的性 质外,各 个变量 值与平 均数离 差平方 之和为 最小值 。即:
6 X) < 6
(Xi -珔
2 2
(Xi -a) (a≠ X
珔)
算术 平均数 的这条 数学性 质说明 ,以任意 不为 平 均数 的 数 值为中 心计 算 的离 差平 方和 大于
以 平均数 为中心 的离差 平方和 ,因此,算术平 均数是 误差最 小的总 体代表 值。
2.均数的 意义
3.均数的 适用范 围
4.2.2 中位数
中位 数(Medi
an)是将 总体各 单 位 的 标 志值 按 大 小顺 序 排列,处 于中 间 位 置 的那 个 标 志值 。
它 把全部 标志值 分成两 部分,一 半标志 值比它 小,一 半标志 值比它 大。
1.中位数 的定义
对于 未分组 的原始 资料,首 先必须 将标志 值按大 小排序 。设排 序的结 果为:
X1≤X2 ≤X3≤ …≤Xn
则 中位数 就可以 按下面 的方式 确定:
M=X(n+1) /2 , 当 n为奇 数时
2, 当 n为偶 数时
M=(Xn/2 +Xn/2+1)/
中位 数作为 分布数 列中处 于中等 水平的 代表值 ,能够 将 全 部总体 单位 按 标志 值的 大小 等分
为 两个部 分,所以 中位数 又称为 二分位 数。
对于 按照频 数方式 分组录 入的资 料,其中 位数的 确定方 式相对 复杂一 些,感 兴趣的读 者可以
参 看专业 统计书 籍。
2.中位数 的适用 范围
中位 数是位 置平均 数,因此 它不受 极端值 的影响 ,在具 有个别 极大或 极小标 志值的分 布数列
中 ,中位数 比算术 平均数 更具有 代表性 。例如 上面 员 工 收入的 例子,其 中位数 就是 410元,显然
要 比均数 更能够 代表数 据的集 中趋势 。
中位 数适用 于任意 分布类 型的资 料,不过 ,由于 中 位数 只 考虑 居 中 位置,其他 变量 值比 中位
数 大多少 或小多 少,它是 无法反 映出来 的。所 以,用 中位数 来描述 连续变 量会损 失很多信 息。当
样 本量较 小时,中 位数会 不太稳 定,并 不是一 个好的 选择。 因此,对 于对称 分布的 资料,分 析者往
往 优先考 虑使用 均数,仅 仅是对 均数不 能使用 的情况 下才用 中位数 加以描 述。
中位 数对于 定序变 量、连续 变量都 可以使 用。对 于定序 变量来 说,虽 然有众 数和中位 数两种
统 计量可 供选择 ,但是,由于众 数不考 虑变量 的次序 关 系,用 众 数来描 述定 序 变量 会损 失很 多信
息 。因此 ,对于定 序变量 ,应采 用中位 数来反 映更多 、更准确 的信息 。
4.2.3 其他集 中 趋势描述 指标
1.截尾均 数
由于 均数较 易受极 端值的 影响,因 此可以 考虑将 数据进 行排序 后,按 照一定 比例去掉 最两端
4.3 离 散趋势 的描述 指标 81
的 数据,只 使用中 部的数 据来求 均数。 如果截 尾均数 和原均 数相差 不大,则说明 数据不存 在极端
值 ,或者两 侧极端 值的影 响正好 抵消;反之,则 说明数 据中有 极端值 ,此时 截尾均 数能更好 地反映
数 据的集 中趋势 。
常用 的截尾 均数有 5% 截尾均 数,即 两端各 去掉 5%的 数据。 在 SPSS中 Ex
plo
re过程 可以自
动 计算 5%截 尾均数 。
2.几何均 数
几何均数适 用于 原始数 据分布 不对 称,但经 过对数 转换后 呈对称 分布的 资料。如医学 中的血
清 滴度资料就常用几何均数 描述其分布 的集中 趋势 。样本 几何均数常用 G表示,其计算公式是:
n
G= X1 X2…Xn
利用 对数的 性质,上 述公式 可表达 为:
G =l
g
-1 6 l
gXi
n
可以 发现,几 何均数 实际上 就是对 数转换 后的数 据 l
gX的 算术均 数的反 对数。
在 SPSS中,几何均 数可以 在 Repo
rt子菜单 中的 4个报表 过程中 计算输 出。
3.众数(Mode)
4.调和均 数
调和 均数用 符号 H表 示,现在 已经很 少使用 ,它实 际上是 观察值 X倒数之 均数的 倒 数,常用
于 完成的 工作量 相等而 所用时 间不同 的情况 ,主要用 来求平 均速度 。实际 上,中 学物理中 学习过
的 并联电 路的总 电阻就 是各分 电 路 电阻 的 调和 均 数,各 原 始数 据的 大小 相 差 越 悬殊 ,该 均数 的
“调 和”作用 就越明 显。
在 SPSS中,调和均 数可以 在 Repo
rt子菜单 中的 4个报表 过程中 计算输 出。
4.
3 离散趋势的描述指标
4.3.1 全距
4.3.2 方差和 标 准差
1.方差(Vari
ance)和标 准差(St
andardDevi
ati
on)的定义
2
σ =
6 X)2
(Xi -珔
N
方差 相当于 平均了 每个数 据的离 均差的 平方值 ,从而 克 服 了离均 差平 方 和受 样本 含量 影响
的 缺点。 故方差 可用于 不同含 量样本 数据分 布离散 程 度 的比 较。方 差 越大,数据 分布 离散 程度
越 大。
对于 样本数 据而言 ,方差的 计算公 式有所 不同:
4.3 离 散趋势 的描述 指标 83
S
2
=
6 (Xi -珔
2
X)
n-1
其中 的 n-1被称为 自由度 (Deg
reeo
fFr
eedo
m),它 描述了 当 珔
X选定 时 n个 X中能自 由变动
的 X(变量 值)的个 数,由 于公式 中需要 使用均 数,这 是 一个限 制条件 ,因此 样 本量 为 n的样 本实
际 上只有 n-1个 可以自 由取值 ,最后 一个数 值可以 通过均 数算出 来。自 由度在 统计学中 也是一
个 非常重 要的概 念,后面 还会反 复遇到 。
最后 ,方差在 使用上 还有一 点小小 的不便 ,就是 量纲不 合常理 ,以身高 为例,原始数据 的量纲
为 米,则方 差的量 纲就是 其平方 ,即平 方米,这 显然很 别扭。 为此又 将方差 开平方 ,这就是 所谓的
标 准差,总 体和样 本的标 准差分 别用 σ和 S来表 示 。标准 差度 量了 偏离 平 均 数 的大 小 ,相当 于
平 均偏差 ,可以直 接地、概括地 、平均地 描述数 据变异 的大小 。对于 同性质 的数据 来说,标 准差越
小 ,表明数 据的变 异程度 越小,即数据 越整齐 ,数 据的 分 布范 围 越集 中 ;标准 差 越大,表 明数 据的
变 异程度 越大,即 数据越 参差不 齐,分 布越分 散。
由于 标准差 和方差 的计算 涉及每 一个变 量值,所 以它们 反映的 信息在 离散指 标中是 最全面 、
最 可靠的 变异描 述指标 。方差 还具有 可加性 ,能够参 与进一 步的统 计运算 。不过 ,也正是 由于标
准 差和方 差的计 算涉及 每一个 变量值 ,所以,它们也 会 受到 极 端值 的 影 响,当 数据 中有 较明 显的
极 端值时 不宜使 用。另 外,它们 在计算 中实际 上都使 用了均 数,因 此实际 上只有 均数能反 映集中
趋 势时才 能使用 方差和 标准差 来反映 离散趋 势。因 此,实 际 上 方差和 标准 差 的适 用范 围应 当是
正 态分布 。
百分 位数(Per
cent
il
e)是一种 位置指 标,用 Px 表 示 。一个 百 分位 数 Px 将 一组 观察 值分 为两
部 分,理论 上有 x% 的观察 值比它 小,(100-x)% 的观察 值比它 大。前 面所 学习 过 的中 位数 实际
上 就是一 个特定 的百分 位数,即 P50。
除中 位数外 ,常用的 百分位 数还有 四分位 数,它 实际上 是三个 数值的 总 称,分 别是 P25、P50和
P75分位 数。这 三个分 位数正 好是能 够将 全 部总 体单 位按 标 志值 的大 小等分 为四 部分 的三个 数
值 ,符号分 别记为 Q1 、Q2 和 Q3。 在 许 多 统 计 书籍 中,也将 第 一 个 四 分 位 数 P25 称 为 “下 四 分 位
数 ”;第三个 四分位 数 P75称为“上 四分位 数”,分别 用符号 QL 和 QU 表示。 上、下 四分位数 的差值
被 称为四 分位数 间距:
84 第 4章 连续 变量的 统计描 述与参 数估计
Q・ R=Q3 -Q1
显然 ,P25 和 P75这 两个分 位数间 包括了 中间 50% 的观察 值,因 此四分 位数间 距既排除 了两段
极 端值的 影响,又 能够反 映较多 数据的 离散程 度,是 当 方差、标 准差不 适用 时 较好 的离 散程 度描
述 指标。
同样 的道理 ,还可以 计算十 分位差 、百分 位差等 。它们 的作用 都是排 除少数 极端值对 分布变
异 范围的 异常影 响。分 位的程 度 越 高,分 位差 所 排 除的 极 端值 的比 例就 越 小,保留 的 信 息就 越
多 。分位 的程度 越低,分 位差所 排除的 极端值 的比例 就越 大,保留的 信 息 就越 少。 实际 分析时 ,
需 要根据 具体情 况和要 求选择 使用。
4.3.4 变异系 数
4.
4 连续变量统计描述实例
4.4.1 数据背 景 介绍
4.4.2 使用 Expl
orer过程进 行 分析
1.分析操 作
这里 以 s
tudent
.sav数 据为例 ,对男 性和女 性身高 数据分 别进行 描述,具 体步骤 如下:
Anal
yze→De
scr
ipt
iveSt
ati
st
ics
→ Expl
ore
De
pendentVar
iabl
es框:hei
ght
Fact
orLi
st框 :s
ex
Pl
ots
...:
Des
cri
pti
ve: Hi
st
ogr
am
Co
nti
nue
OK
Ex
plo
re主 对话框 如图 4.3所 示 ,Depende
ntLi
st框 用 于 选入 需要 分 析 的 变量 ,下 方 的 Fact
or
Li
st框 用于选 入分组 变 量,从 而 将 希 望 描 述 的 变 量 按 该因 素 的 取 值 分 组 分 析,本 例 中为 性 别 。
Expl
ore过程中 的 St
ati
st
ics和 Pl
ots子对话 框如图 4.
4所示。
86 第 4章 连续 变量的 统计描 述与参 数估计
图 4.3 对连 续变 量进 行描 述性分 析的 Ex
plor
e过程 主 对话 框
(a) (b)
图 4.4 Expl
ore过 程 的 St
ati
st
ics和 Pl
ots子对 话框
2.基本的 分析结 果
表 4.2 De
scri
pti
ves
4.4.3 使用其 他 过程进行 分析
上面 使用 Ex
plo
re过 程对数 据 进行 了 分 析,下 面来 演 示 一 下另 外两 个过 程 的分 析 结 果。但
是 ,由于另 两个过 程不能 直接对 身高进 行分组 描 述,因 此这 里 仅给 出 不 分性 别 的分 析结 果,希望
4.4 连续 变量统 计描述 实例 89
1.Des
cri
pti
ve过 程的结 果
2.Fr
equenc
ies过程 的结果
Fr
equenci
es过程默 认值给 出原始 频数表 ,如果希 望得到 各种统 计量,则需要 分析者自 行加以
指 定。例 如,在上 述的分 析中,已经得 到了描 述集中 趋势的 均值、中 位数等 ,以及 描述离散 趋势的
方 差、标准 差、极 差等统 计量。 如果还 希望知 道身高 的 具体四 分位 数 及 P5 、P95 百分 位数 是多少 ,
则 可以利 用 Fr
eque
nci
es过程 来得到 。具体 步骤如 下:
Anal
yze→De
scr
ipt
iveSt
ati
st
ics
→ Fr
equenci
es
Va
riabl
es框 :hei
ght
St
ati
st
ics:
Per
cent
il
eVa
lue: Quar
ti
les
Per
cent
il
eVa
lue: Per
cent
il
es:5:Add| Per
cent
il
es:95:Add
Co
nti
nue
OK
表 4.
6 St
ati
st
ics
学 生身高 在 155.
8~180c
m之 间。
4.
5 连续变量的参数估计
通过 统计描 述,研究 者已经 可以对 样本数 据的情 况有详 细的了 解。但 是,研 究的真正 目的是
考 察样本 所代表 的总体 情况如 何,这里 必然会 涉及到 如何将 样本信 息用来 推断总 体特征 的问题 ,
如 总体的 集中趋 势、离散 趋势究 竟如何 ?这种 根据 样 本数 据 对 总体的 客观 规 律性 作出 合理 估计
的 过程被 称为统 计推断 (St
ati
st
icalI
nfer
ence),它又可 以被分 为参数 估计和 假设检 验两大 类,而这
里 涉及到 的用样 本信息 来推断 总体特 征的推 断就被 称为总 体的参 数估计 。本节 将介绍如 何进行
连 续变量 的参数 估计。
4.5.1 正态分 布
1.正态分 布的定 义
2.正态分 布的特 征
3.标准正 态分布
统计 分析中 经常需 要求曲 线下面 积,但这 就需要 为每个 不同的 分布单 独计算 面积分 布规律 。
为 了制一 张可供 不同的 μ、σ共同 使用的 表,可以 考虑引 进以下 变换:
92 第 4章 连续 变量的 统计描 述与参 数估计
X-μ
u=
σ
这样 做相当 于将分 布的位 置参数 移动到 0处,使 曲线沿 y轴对 称,并 且将分 布的尺 度参 数固
2
定 为 1。从而 将原来 的正态 分布 N(μ,σ ),变换成 了均数 为 0、标准 差为 1的正态 分布,该 分布被
称 为标准 正态分 布(St
andar
dNor
malDi
str
ibut
ion),而上述 变换则 被 称为 标准 化 变换。在 国外,标
准 正态分 布被称 为 u分 布或者 z分布 ,因此 变换也 被称为 u变换 或者 z变换。
标准 化变换 和标准 正态分 布的意 义非常 重大,因 为这 样 只 需要知 道标 准 正态 曲线 下面 积的
分 布规律 ,就可以 解决所 有正 态 分 布 的曲 线下 面 积 计算 问 题了,只 需将 其进 行 标准 正 态 变换 即
可。
在 SPSS中的 Desc
ript
ive过 程可以 将原变 量变换 为标准 正态分 布下的 得分,只需要 选中 主对
话 框左下 角的 Savest
anda
rdi
zedval
uesasv
ari
abl
es复选框 即可。
4.偏度和 峰度
上文 直接引 出了正 态分布 ,并指出 许多生 活中的 数据均 服从该 分布。 但是,如果数据 实际上
不 服从该 分布,则 随后基 于正态 分布的 一切 估 计和 检 验都 要被 推翻。 如 何来 确 认这 一 点 呢?对
于 一个具 体的连 续变量 是否近 似于某 种类型 的分 布,通常 是通 过 P-P概率 图 及非 参数 检验 法的
帮 助来鉴 别判定 的。此 处介绍 两个有 关正态 分布的 专用统 计指标 :偏度和 峰度。
(1)偏度(Ske
wne
ss):偏 度是用 来描述 变量取 值分布 形态的 统计量 ,指分布 不对称 的方 向和
程 度。样 本的偏 度系数 记为 α:
n
1
α= 6 (xi -珋
3 3
x) /s
n i=1
式中 s为样 本标准 差。这 是根据 矩法(详 见 4.
5.2节 )测定分 布偏度 的计算 公式。测 定分布
偏 度的其 他方法 还有分 位数 法和 Pear
son规 则等 ,这 里不 做 介绍,读 者可 以 参 考 有关 专 业 书籍 。
偏 度是与 正态分 布相比 较而言 的统计 量。α>0分 布为正 偏或右 偏,即 长 尾巴在 右边,峰 尖偏左 ;
α<0分 布为负 偏或左 偏,即 长尾巴 在左边 ,峰尖偏 右;α=0分 布为对 称。
需要 特别提 醒的是 ,偏态的 方向指 的应当 是长尾 的方 向,而不是 高 峰 的位 置。 和左 、右 偏态
的 称呼相 对应的 术语还 有正、负 偏态,这里的 正负是 指 资料 的 算术 均 数 与众 数 之差 的符 号,对于
右 偏态分 布的资 料,此时 算术均 数大于 众数,称之为 正 偏 态;同 理称 左 偏 态为 负 偏态。 国内 的不
少 统计书 籍对左 、右偏态 的理解 有误,往往正 好弄颠 倒。
(2)峰度(Kur
tos
is):峰度 是用来 描述 变 量取 值 分 布形态 陡缓 程 度 的统计 量,是指 分布 图形
的 尖峭程 度或峰 凸程度 。样本 的峰度 系数记 为 β:
n
1
n 6i=1
β= X)4 /
(Xi -珔 S4 -3
见 到过了 。
4.5.2 参数的 点 估计
在确 定了总 体的分 布类型 后,只需 要确定 总体分 布的几 个关键 参数,就可以 精确的对 其中心
位 置、集中 趋势等 进行描 述。但 是总体 参数一 般 都是 未 知的 ,需要 进 行 参数 估 计,也就 是要 用样
本 统计量 来估计 总体参 数(及其 估计误 差)。显 然,均数 、中位 数 、标准 误等 总体 参 数都 可以 进行
参 数估计 ,但平时 遇到的 主要是 用均数 进行参 数估计 。参数 估计分 为点估 计和区 间估计 ,这里先
来 讨论前 者。
参数 的点估 计就是 选定一 个适当 的样本 统计量 作 为 参数 的估计 量 ,并计 算 出估 计 值。 如选
样 本均数 作为总 体均数 的估计 量,将其 大小作 为总体 均 数的 点 估计 值 。对 于 所选 统计 量是 否适
于 作参数 估计量 ,有无偏 性、一 致性和 有效性 三个评 选标准 。无偏 性是指 虽然估 计量的值 不全等
于 参数,但 应当在 真实值 附近摆 动;一 致性是 指样本 量越大 ,估计值 离真实 值的差 异应当 越小;有
效 性则是 指如果 有两个 统计量 都符合 上述要 求,则应 当 选取 误 差更 小 的 一个 作 为估 计 值。 如前
述 的均数 和中位 数,两者 在反映 正态分 布的集 中 趋势 时,在 无 偏性 和 一 致性 方 面效 果都 较好,但
中 位数的 误差更 大,所以 前面会 有应当 尽量使 用样本 均数来 反映正 态分布 集中趋 势的结 论。
参数 点估计 时可用 的方法 有矩法 和极大 似然估 计法两 种,这里 分别介 绍一下 。
1.矩法
2.极大似 然估计 法
极大 似然估 计法是 另一种 更好的 参数估 计方法 ,其优点 在于估 计量常 能满足 一致性 、有效性
等 要求,且 具有不 变性,不变性 是指当 原始数 据进行 某 种函 数 变换 后 ,相应 估 计量 的同 一函 数变
换 值仍是 新样本 的极大 似然估 计量。
该方 法的原 理是在 已知总 体的分 布,但未 知其参 数值时 ,在待 估参数 的可能 取值范围 内进行
搜 索,使似 然函数 值(在参 数所确 定的总 体中获 得现有 样本 的 概率 )最 大的 那个 数 值即 为极 大似
然 估计值 。
因极 大似然 估计法 已超过 本书读 者需要 了解的 范畴,这 里将不 再深入 讨论,读者只需 要知道
还 有这样 一个点 估计的 方法即 可。
3.稳健估 计值
矩法 和极大 似然法 虽然能 够很好 的满足 点估计 的需要 ,但它们 也有很 明显的 缺陷,就 是估计
值 受异常 值的影 响十分 显著,或 因数据 分布 的 偏 离而 使 估计 值 产生 较 大 变化。 在 20世 纪 50年
94 第 4章 连续 变量的 统计描 述与参 数估计
代 前后,基 于正态 分布理 论的统 计方法 的不稳 定性引 起了统 计 学家的 广 泛关 注。尤 伯(P.J
.Hu-
ber
)于 1964年 创立的 渐进极 小极 大 理 论,以 及汉 甫(F.R.Hampe
l)于 20世 纪 60年 代 末 提出 的
崩 溃点等 概念和 有界影 响方法 最终奠 定了稳 健统计 的理论 基础。
稳健 统计研 究的是 具有稳 定性的 统计方 法。即 当 观测 数 据符 合 假 定模 型 ,甚 至与 假定 模型
有 偏离时 ,性质都 较好或 至少性 质不会 很坏的 统计方 法。 而 稳 健估计 指的 就 是该 统计 量具 有稳
健 性,当数 据存在 异常值 时受影 响 较小 ,而 且对 大部 分 的 分 布而 言 都 很好 (当 然,这 同 时 意味 着
它 不会对 每个分 布都是 最佳的 )。
稳健 估计有 M估 计、R估计等 不同 方 法,前 者 是稳 健 估 计 常用 的方 法。 M 估计 最 早 是由 尤
伯 提出,其 实是“极 大似然 型估计 ”的简称 ,即该 方法的 核心仍 然 是极 大 似然估 计法,但 是在 估计
时 它首先 构 造一个 Ψ 函 数,该 函数能 够 减小异 常值的 影响,而 且对 所 考虑的 分 布集 合 中的 每个
分 布都是 好的估 计量。 随后再 对 Ψ 函数的 集中趋 势进行 参数的 极大 似 然估计 ,因 此相 应的 估计
值 受异常 值的影 响要小 得多。
SPSS的 Expl
ore过 程能 够 直 接输 出 M 估计 的结 果,在 St
ati
st
ic子 对话 框 中 选择 M-Es
ti
mat
or
复 选框,相 应的输 出如表 4.7所 示。
表 4.7 M-Es
ti
mat
ors
4.5.3 参数的 区 间估计
显然 ,仅仅有 参数的 点估计 是不够 的,比 如打靶 ,打了 2枪,平 均 9环 ;打了 100枪,平均 也是
9环,显 然人们 更相信 后者的 确是个 好的枪 手,而 对前者 的水平 却产生 很 大的怀 疑。这 就涉 及到
了 参数的 估计值 究竟有 多大的 误差的 问题。
1.标准误
标准 误就是 用来描 述参 数估 计值 可 能 离 真实 值究 竟有 多 远的 统 计 量。 先 考虑 这 样 一种 情
2
形 :假设现 在已知 一个正 态分布 的总体 N(μ,σ ),从中 进行抽 样 研究,每次 抽样 的 样本 量固 定为
4.5 连 续变量 的参数 估计 95
图 4.6 均数 的抽 样分 布 示意 图
2.区间估 计的计 算
思考与练习
1.请就 s
tudent
.sav数据 ,分析学 生的体 质量分 布情况 ,尝试 分性别 和合并 描述。
2.使用 Des
cri
pti
ve过 程,对 s
tudent
.sav中的身 高和年 龄变 量进 行标 准 正 态 变换 ,对 变换 后
的 变量进 行统计 描述。
参考文献
第 章 类变量的统计描述与
参数估计
在第 4章中 ,已经学 习了连 续变量 的统计 描述,本章将 继续学 习分类 变量的 统计描述 及参数
估 计方法 。
首先 复习一 下分类 变量的 概念。 统计学 上把取 值范围 是有限 个值或 者是一 个数列构 成的变
量 称为离 散变量 ,其中表 示分类 情况的 离散变 量又称 为分类 变量。 根据类 别的有 序性,分 类变量
又 可分为 有序分 类变量 (Or
dinalVar
iabl
e)和 无序分 类 变 量(Nomi
nalVar
iabl
e)两 类。但 是,这 两
类 变量在 统计描 述上几 乎没有 什么差 异,因此 本章将 它们放 在一起 讲解。
5.
1 分类变量的统计描述概述
好 的程度 。
在对 有序分 类变量 进行描 述时,除 给出分 各个类 别的频 数和百 分比外 ,研究 者往往还 对累积
频 数和累 积频率 感兴趣 。累积 频数是 指本类 别及较 低 类别 出 现的 次 数 之和,累计 百分 比则 是指
本 类别及 较低类 别出现 的次数 之和占 总 次 数的 百分 比,即 (本类 别 出现 次数 +较低 类 别 出现 次
数 )/总次数 ×100%。比 如,在一 项 员工 学 历的 调 查 中,希 望了 解每 个员 工 的 文 化程 度 ,分别 为
1———高中 及以下 ,2——— 大 专,3———大 学,4——— 研究 生 及以 上。 此时,调 查 人 员 不 仅希 望 了 解
“高 中及以 下”、“大专 ”、“大学 ”、“研究生 及以 上 ”各类 别员 工 的人 数及 比例 ,还希 望 了 解“大专
及 以下”、“大 学及以 下”的人 数及所 占比例 ,此时 显然就 需要使 用累积 指标了 。
当然 ,出于一 些特殊 的分析 目的,累计频 数和累 积 百分 比 也可 能 被 用于 无 序分 类变 量,如希
望 知道各 少数民 族占总 人数的 比例情 况等。 但需要 注 意的 是 ,统计软 件一 般 都只 按类 别编 码从
小 到大进 行频数 和百分 比的累 计,如果 编码不 符合要 求,则 研究者 只能手 工加以 统计。
2.集中趋 势的描 述
除以 上比较 简单的 频数、比 例外,研究者 还经常 为分类 数据计 算一些 原始频 数的相对 指标用
于 统计描 述,这些 指标被 称为相 对数,这里简 单介绍 一下常 用的三 种相对 数:
(1)比(Ra
ti
o):比指的 是两个 有关指 标之比 A/
B,用 于反映 这 两个 指标 在 数量 /
频 数上 的大
小 关系。 其中 A、B可 以 是性质 相同的 两 个指 标,如两 个地区 相 同时期 内交通 事 故数之 比;也可
以 是性质 不相同 的两个 指标之 比,如某 地区一 周内交 通事故 数与交 通车辆 数之比 。事实 上,比还
可 以被拓 展到连 续变量 的范畴 内,如销 售人员 属于本 月销售 额之比 等。
(2)构成比 (Pr
opo
rti
on):分观 察对象 为 k个部 分(A1,A2,…,Ak ),其 中某 一个 /
多 个 部分 的
例 数占总 例数的 比例称 为构成 比,它描 述某个 事物内 部各构 成部分 所占的 比重,构成比的 计算公
式 为:
某一 组成部 分的样 本数
构成比 =
总样 本数
可见 构成比 的分子 必须是 分母的 一 部 分,所 以其 取 值 为 0~1。 实际 上 ,前 面提 到 的 百分 比
5.1 分类变 量的统 计描述 概述 99
5.1.2 分类变 量 的联合描 述
B1 B2 … Bc 合 计
… … … … …
合 计 n・ 1 n・ 2 … n・ c n
5.1.3 SPSS中 的相应 功能
5.
2 分类变量统计描述实例
5.2.1 使用 Fr
equenci
es过程 输出频数 表
Anal
yze→De
scr
ipt
iveSt
ati
st
ics
→ Fr
equenci
es
Va
riabl
es框 :s
ex、bl
ood_t
OK
相应 的分析 结果如 下:
表 5.
2 St
ati
st
ics
表 5.3 性别
5.2.2 使用 Cr
oss
tabs过程 输出列联 表
OK
(a) (b)
图 5.1 Cr
oss
tabs过程 的 对话 框
表 5.5 Cas
eProc
essi
ngSummar
y
5.
3 多选题的统计描述
多 选 题 是 调 查 问 卷 中极 为 常 见 的 调 查 题 目 类 型 ,在 第 2章 中 已 对 其 录 入 方 式 进 行 了 讲
解 ,由 于 它 所 收 集 的 数 据 也属 于 分 类 数 据 ,因 此 本 章 将 继 续 讲 解 对 于 这 类 多 选 题 如 何 进 行
描 述 分析 。
5.3.1 多选题 的 描述指标 体系
如 何 对 多 选 题 进 行 分 析 呢? 当 然 ,可 以 对 每 一 个 单 独 的 题 项 来 进 行 统 计 描 述 ,但 这 样
做 是 不全 面 的 ,因 为 这 些 变量 实 际 上 回 答 的 是 一 个 大 问 题 ,将 问 题 割 裂 开 来 可 能 会 导 致 不
正 确 的分 析 结 果 ,而 且 无 法计 算 一 些 汇 总指 标 。 在 多 选 题 分 析 中 比 较 特 别 的 描 述 指 标 有 以
下 4个 :
(1)应答人 数:是指 选择了 本选项 的 人数 ,或 者说 就 是 原始 频数,比 如 说在 200人 中有 178
人 选择了 调理饮 食以控 制高血 压。
(2)应答人 数百分 比(Per
centofCas
es):选择 该项的 人占 总 人数的 比例,比 如 200个受 访者
中 共有 178人 选 择 了 调 理 饮 食 以 控 制 高 血 压,则 调 理 饮 食 的 应 答 人 数 百 分 比 为 178/
200=
89.
00%。应答人 数百分 比可以 反映该 选项在 人群中 的受欢 迎程度 。
(3)应 答 人 次 :是 指 选 择 本 选 项 的 人 次 ,一 般 情 况 下 ,应 答 人 次 和 应 答 人 数 是 相 同 的 ,
104 第 5章 分类 变量的 统计描 述与参 数估计
但 是 在有 的 时 候 是 不同 的 。 例 如 ,您 最 近 买 的 几 管 牙 膏 的 品 牌 各 是 什 么 ? 这 种 问 题 ,就 可
能 同 一个 人 回 答 同 一个 答 案 多 次 因为 同 一 个 品 牌 他 买 了 两 管 。 因 此 ,此 类 多 选 题 就 会 有 可
能 出 现选 择 某 答 案 的人 数 不 等 于 选择 某 答 案 的 次 数 的 情 况,因 而 Count与 Respons
e就 有 可
能 不 等。
(4)应答次 数百分 比(Per
centofRe
spons
es):在做 出的所 有选择 中 ,选 择 该项 的次 数占 总次
数 (总反应 数)的比 例,比如 200受 访者对 4种 高血压 控制方 式分别 选择了 178、120、134、160次 ,
则 总的应 答次数 为 178+120+134+160=592人 次,而调 理饮食 的应答 次数百 分比应 为 178/
592
=30.
07% 。应答 次数百 分比可 以用于 不同选 项受欢 迎程度 的比较 。
使用 以上几 种指标 ,就可以 对多选 题进行 比较完 善的描 述了。 和 录入 时 相同 ,SPSS的Ta
bles
模 块和 Mul
ti
pleRe
spons
e菜 单都可 以对多 选 题变 量 集 进行 统 计描 述 ,但前者 生 成的 是 标 准的 结
果 表格,可 以进行 各种复 杂编辑 ,而后 者生成 的是纯 文 本 表格 ,功能 上 也 要简 单 一些。 本章 将以
Bas
e模块中 的 Mul
ti
pleRes
pons
e菜单 为主加 以讲 述,Tabl
es模 块中 的相 应功 能请 参 见 第 6、7两
章。
5.3.2 分析实 例
这里 使 用的 是 一次 市 场 调查 的 具体 数 据 mul
ti
ple
cat
ego
ry.s
av,文件 中 性 别(d1)变 量的 代码
是 1男,2女。 其中的 第 7题 (q7)为多 项选择 题,具体 的题目 是:
对 于 多 选 题 的 录 入 和在 SPSS中 多 选 题 的 定 义 ,在 第 2章 中 已 经 讲 过 了 ,本 题 是 采 用 多
重 分 类法 进 行 录 入 ,考 虑 到最 多 可 能 答 案为 6个 ,所 以 共 有 6个 变 量 (q7_1~q7_6)。 此 时
应 当 将这 6个 变 量 定 义 为 一 个 多 选 题,该 多 选 题 的 名 称 为 q7,标 签 为 “促 使 购 买 保 健品 的 主
要 原 因”。
1.多选题 的频数 列表
Anal
yze→Mul
ti
pleRe
sponse→Fr
equenc
ies
Tabl
e(s)f
or框:促 使购买 保健品 的主要 原因[$q7]
OK
所使 用的 Mul
ti
pleRe
spons
eFr
equenci
es对话框 内容非 常简单 ,如图 5.2所 示,这里 不再 详细
解 释。只 是指出 下方的 Mi
ssi
ngVal
ues复选框 组用于 选择对 缺失值 的处理 方式,两个复选 框分别
对 应了两 种编码 的对应 方式,不 能交错 使用。
相应 的结果 输出如 下:
5.3 多选题 的统计 描述
105
图 5.
2 Mul
ti
pleRes
pons
e:Fr
equenc
ies过 程的对 话框
Gr
oup$q7 促 使购买 保健品 的主要 原因
Pcto
f Pctof
Cat
egor
ylabel Code Count Res
pons
es Ca
ses
广 告宣传 1 14 2.2 3.
1
自 己需要 2 299 47.6 66.
7
家 人需要 3 197 31.4 44.
0
看 望亲友 4 93 14.8 20.
8
朋 友推荐 5 17 2.7 3.
8
其他 6 8 1.3 1.
8
-- --- - --- -- -- ---
Tot
alr
espons
es 628 100.0 140.
2
0mi
ssi
ngc
ases
;448v
ali
dcas
es
上面 的结果 提供的 信息是 :在 448个有效 的 被调 查者中 ,各 种原 因 一 共被 选 择了 628次,其
中 “广告宣 传”被选 择了 14次,“自 己需要 ”被选择 了 299次,“家 人需要 ”被选择 了 197次,“看望
朋 友”被选 择了 93次,“朋 友推荐 ”被选择 了 17次 ,“其他 ”原因被 选择了 8次。
右边 的两个 百分数 是多项 选择题 比较重 要 的输 出 :Pc
tofRespo
nses计 算 的是 选择 次数 占总
选 择次数 的比例 ,比如,这 448位被调 查者一 共进行 了 628次 选择,其 中有 14人 选择 了“广 告宣
传 ”,该选择 次数所 占的比 例为 14/
628=2.2%;Pcto
fCas
es计 算的则 是所 有 被调 查者 中选 择相
应 分析方 法 者占 总 人 数的 比 例 ,例 如,有 14人 选 择了 “广告 宣 传”,他 们 占 总人 数 的 14/
448=
3.1%。在 调查报 告中,研 究人员 经常使 用的是 Pcto
fCa
ses栏中的 百分数 。它所 表 明的 意义 人们
比 较容易 理解,虽 然各个 百分数 的和大 于 100% 。
上面 直接给 出了多 选题的 频数表 ,但有的 时候还 希望能 够对不 同的人 群分别 描述,即 将多选
题 变量集 和其他 分类变 量进行 交叉描 述。如 在本例 中希望 分性别 进行考 察,则操 作如下 :
106 第 5章 分类 变量的 统计描 述与参 数估计
Anal
yze→Mul
ti
pleRe
sponse→Cr
oss
tabs
Ro
w(s
)框 :d1
选中 d1:Def
ineRang
es:
Mi
nimum 框:
1|Max
imum 框:2
Co
nti
nue
Col
umn(s
)框:促 使购买 保健品 的主要 原因[$q7]
OK
(a
) (b)
图 5.3 Mul
ti
pleRes
ponse:Cr
osst
abs过 程的 对话 框
5.
4 分类变量的参数估计
对于 分类变 量而言 ,由于只 能取若 干个离 散的值 ,因此 这里在 讨论参 数估计 时往往关 心的就
是 各类别 在总体 中的比 例是多 少,或者 当从中 进 行一 次 抽样 时 ,抽 得 相 应类 别 的概 率是 多少,且
对 于所有 可能的 类别,其 概率之 和应当 等于 1。
5.4.1 二项分 布 的参数估 计
二项 分布是 分类变 量最为 常见的 分布类 型,下面 将讨论 一下二 项分布 的参数 估计问 题。
1.Be
rnoul
li试验与 Bernoul
li试 验序列
为 贝努利 概型,有 时为了 突出试 验次数 n,也称为 n次贝 努利概 型或 n重贝努 利试验 。
进行 n次独 立重复 的贝努 利试验 ,每次试 验事件 A发生的 概率为 p,若以 ξ表示 n次独 立重
复 的贝努 利试验 中事件 A发生的 次数,那 么容易 求得 ξ的分 布列是
k k n-k
Pn (ξ=k)=Cnpq k=0,
1,2,…,n
其 中:P(A)=p,P(珚
A)=q=1-p
满足 以下三 个条件 的 n次 试验构 成的序 列被称 为是 Ber
noul
li试 验序列 。
(1)每次试 验结果 ,只能是 两个互 斥的结 果之一 (A或 非 A)。
(2)每次试 验的条 件不变 。即每 次试验 中,结果 A发生的 概率不 变,均 为 π。
(3)各次试 验独立 。即一 次试验 出现什 么样的 结果与 前面已 出现的 结果无 关。
2.二项分 布的函 数式
一般 地,在 Ber
noul
li试验序 列的 n次试验 中,事件 A出现的 次数 X具有概 率
n k n-k
P(X=k)=(k)π (1-π) k=0,1,…,n
n k n-k n
由于 (k)π (1-π) 是二项 式[π+(1-π)] 展开 式 中的 各 项,故 称 此 分 布为 二 项 分布 。
显 然,对于 不同的 n,不同的 π有不同 的二项 分布。 因此,n、π是 二项分 布的两 个参数。
推而 广之,若 有一个 随机变 量 X,它的可 能取值 是 0,1,… ,n且 相应的 取值概 率是
n k n-k
P(X=k)=(k)π (1-π)
则 称此随 机变量 X服从以 n、π为参 数的二 项分布 ,记为 X~B(n,π)。 对于该 变量而 言 ,有 均数
2
μX =nπ,方差 σX =nπ(1-π),标 准差 σX = nπ(1-π)。 显然,对 于样本 量 n确 定的情 形,均数
和 标准差 间存在 着明确 的换算 关系,它 们都 只受 π 的影 响 ,这 也是 为什 么前 文 不对 离 散 趋势 加
以 描述的 理论依 据。
n=10,π=0.3 n=30,π=0.
3
图 5.4 不 同参 数的 二项 分 布示 意图
5.4.2 其他分 布 类型简介
1.多项分 布
二项 分布用 于描述 只有两 种可能 结局事 件的概 率分布 规律,对 于有多 种可能 结果的 事件,则
需 要使用 多项分 布(Mul
ti
nomi
alDi
st
ri
but
ion)加以 描 述。 比 如在 掷筛 子的 时 候,每个 面 都 会以 一
定 的概率 向上,假 定这些 概率为 p1 ~p6。显 然这些 概率的 和 为 1,而人 们关心 的 就是在 n次 试验
中 各种结 局分别 出现 k
1 ~k
6 次的 概率,
且 有 k1 +k
2 +k
3 +k4 +k5 +k6 =n。
如果 用 p(m1,…,mk )代表多 项分布 k种结 束在 n次 试 验中 分 别出 现 m1,m2 ,…,mk 次 的概
率 ,而 p1,p2,… ,pk 为一 次试验 时各种 可能结 束出现 的概率 。则应 当有:
n k k
① 本 部 分 内 容 属 拓展 知 识 面 ,难 度 较 高 ,跳 过此 节 ,不 会 影响 以 后 各 章 的 阅 读。
110 第 5章 分类 变量的 统计描 述与参 数估计
n n!
这里 = 为多 项 式系 数 ,整 个多 项分 布 可 以 用符 号 M(n;p1,
m1,m2,… ,mk m1!m2!… mk!
p2 ,…,pk)来表 示。
2.超几何 分布
3.Poi
sson分布
Poi
sso
n分布也 是一种 离散随 机变量 的分布 ,主要用 于描述 在单位 时间(空 间)中某 种事 件的
发 生数。 如放射 性物质 在单位 时间内 的放射 次数;在 单位容 积充分 摇匀的 水中的 细菌数 ;野外单
位 空间中 的某种 昆虫数 等。
满足 以下三 个条件 的随机 变量服 从 Po
iss
on分 布:X的取 值 与观察 单 位的 位置 无关 ,只 与观
察 单位的 大小有 关;在某 个观察 单位上 X的取 值 与前 面 各 观察 单 位上 X的 取值独 立(无 关);在
充 分小的 观察单 位上 X的 取值最 多为 1。
X服 从以 μ为参数 的 Po
iss
on分 布可记 为 X~P(μ)。如果 随 机变 量 X服 从 Poi
sson分布,则
X的取值 范围为 非负整 数,而 每种情 形下相 应取值 概率为 :
k
μ -μ
P(X=k)= e
k!
式中 e为自 然对数 的底 2.7182;μ是 大于 0的常数 ,被称为 Poi
sso
n分布 的参 数 。Po
iss
on分
布 只有一 个参数 μ。 这个参 数既是 Po
iss
on分布 的 总体 均数 ,又 是分 布 的总 体方 差,不 同的 μ对
应 于不同 的 Po
iss
on分 布。
思考与练习
hl
th1~hl
th9,为多 选题)的 分布情 况。
参考文献