You are on page 1of 119

高等学校教材

SPSS统计分析基础教程
主 编 张文彤
闫 洁

高等教育出版社
内 容简介

SPSS是 最为 优秀 的统计 软件 之一 ,深 受 各 行业 用户 的 青 睐。 为 满 足 广大 读者 学 习 统计 学入 门 知 识和 统计
软 件入 门操作 的需 求,本书 改变 了以 往 SPSS书 籍对 统计 理论 和软 件 操作 “两 条 主线 、各 自表 述”的 编写 方式 ,将
两 者完 全融合 起来 。全 书共 分 15章,以 SPSS12.
0为 准,针 对 统计 初学 者和 SPSS初 级用 户的 需 求,以 统 计 理论
为 主线 ,详 细介 绍了 在 SPSS中 的界 面操 作、数据 管理、统 计图 表制作 、统计 描 述和 常用 单因 素 统计 分析 方 法 的原
理 与实 际操 作。其 内容 覆盖 了 目前 国内 大部 分 专业 本科 统计 课程 的教 学范 围 ,并结 合 SPSS的强 大 功 能做 了很
好 的扩 展。各 章后 均附 有参 考 文献 和思 考练 习题 ,涉 及 统 计理 论的 章节 还提 供了 本章 小结 。全 书内 容深 入浅
出 ,风 格简 洁明 快,是一 本难 得 的统 计理 论与 SPSS操作 相结 合的 教材 。

本 书可 用作各 专业 本科 生 和研 究生 的统 计 学 教 材,也 可作 为 SPSS10~12版 的 通用 入门 教 材 ,可 供各 行业
中 非统 计专 业背景 的人 员以 及 希望 从头 学习 SPSS软 件的人 员使 用。

  图书在 版编目 (CIP)数据 线
  SPSS统计分 析基础 教程 /张文彤 ,闫洁主 编.— 北京: 在
高 等教育 出版社 ,2004.9
 I SBN7-04-015855-8 文
  Ⅰ.S... Ⅱ.①张...②闫... Ⅲ .统计分 析 -软 件
   中
包 ,SPSS-高等学 校 -教 材 Ⅳ .C819
  
  中国版 本图书 馆 CI
P数据核 字(2004)第 087691号

o m
l. c
策 划编辑  耿  芳   责任编 辑 欧 阳舟   市场 策划  韩 飞   封 面设计  于文燕


版 式设计  张  岚   责任校 对 朱 惠芳   责任 印制     


s e
n e
出 版发 行  高等教 育出 版社                     购 书热 线  010-64054588

邮 政编 码 100011
h i
社    址  北京市 西城 区德 外 大街 4号 免 费咨 询  800-810-0598
网    址  ht
tp://www.hep.e
du.cn

.C
总    机 010-58581000 ht
tp://www.hep.c
om.cn


经    销  新华书 店北 京发 行 所


印    刷


开    本 787×1092 1/
印    张 24
16 版    次     年  月 第 1版
印    次     年  月 第  次 印刷
字    数 580000 定    价  32.00元

本 书如 有缺 页、倒页 、脱 页等 质 量问 题,请到 所购 图书 销 售部 门联 系调 换。
版 权所有  侵权 必究
物 料号:15855-00
SPSS统 计 分 析 基 础 教 程 参 编 人 员

         主  编  张文彤(复旦大学)


闫 洁(博塔(中国)有限公司)

编  者 (以姓氏笔画为序)
王 莉(天津财经大学)
邝春伟(华东师范大学)
行智国(博塔(中国)有限公司)
邹艳辉(博塔(中国)有限公司)
赵 杨(南京医科大学)
赵新平(复旦大学)
高 峻(复旦大学)
董 伟(博塔(中国)有限公司)
序   言 Ⅰ     

序   言

知识 经济时 代,数据 成为 宝 贵 的 经济 资源。 在 国 外,电信、医 疗、银 行、证 券、保 险 、制 造、商


业 、科研、教育等 行业已 广泛采 用先进 的统计 分析技 术从数 据中提 取有价 值的信 息和知识 。在国
内 ,随着市 场的蓬 勃发展 ,了解 成熟的 统计分 析产品 ,借鉴成 功的统 计分析 行业应 用经验 ,运用科
学 的统计 分析方 法,从数 据中总 结、归 纳有用 的知识 ,并将知 识用于 市场营 销、运 营决策和 信用风
险 管理等 领域,帮 助企、事业单 位降低 消耗、增 加 效益 ,从而 提 高整 体 运 行效 率 ,已 成为 各行 业中
有 远见的 人士普 遍关注 的问题 。
SPSS软件 是全球 专业统 计分析 软件的 领导者 ,一直 致力于 帮助企 事业 单位 提 高科 学运 用统
计 分析方 法的能 力,20世纪 80年 代 就已 经 被 许多 学 者引 入 中 国市 场 。它包 含 了丰 富 的 统计 分
析 算法,而 且在使 用层面 上更 多 地 考 虑了 客户 在 整 个统 计 分析 过程 中的 应 用 感 受,其 简 洁的 界
面 、完善的 数据准 备功能 和杰出 的图表 输出能 力使得 SPSS软 件 在全 球 有超 过 25万家 的机 构用
户 ,并成为 国内的 主流统 计分析 软件。 随着该 产品在 各行业 应用的 深入以 及 SPSS培训和 认证的
广 泛开展 ,目前国 内已涌 现出 一 大 批应 用 SPSS的 专 家。近 两年,国 内统 计 分 析 市场 如 火 如荼 ,
SPSS在 产品技 术上也 不断推 陈 出新 ,继 SPSS英文 版 在 国 内成 功应 用之 后,SPSS公 司 在 今年 首
次 推出了 简体中 文版,该 产品更 加符合 中国人 的使用 习惯,一经推 出便受 到各行 业人士的 喜爱。
为了 让中国 的 SPSS软件爱 好 者 更好 地使 用 软 件,我 们 在 经过 两年 的筹 备 后向 市 场 推出 了
SPSS统 计分析 大型丛 书。该 丛书是 一套全 面了解 、认识 和应用 SPSS最 新统计 分析软 件 、掌 握统
计 分析方 法的专 业书籍 ,以统计 分析在 国内的 应 用现 状 为切 入 点,本 着 学以 致 用的 原则 ,在 介绍
统 计理论 及 SPSS软件功 能模块 的同时 ,更侧 重于 统计 分析 在 各项 工 作 中的 实 际应 用,引导 读者
不 仅掌握 SPSS软 件及技 术原理 ,而且 学会运 用统计 方法解 决工作 和学习 中的实 际问题。
该丛 书由业 内权威 专家主 笔编写 ,资料引 用详 实 可 靠,实 例剖 析 切 中肯 綮 ,不 仅融 合了 行业
专 家在统 计应用 领域多 年的研 究成果 ,而且还 融入了 很 多 SPSS软 件 新、老 行 业用 户的 实际 应用
经 验。丛 书总结 了 SPSS软件在 各行业 的实践 应用状 况,并 综合 SPSS最新 行业应 用方案 ,使各行
业 读者能 通过学 习提 高 SPSS软 件 的 运 用能 力,解决 工 作 中 的 实 际 问 题。 在丛 书 编 写 过 程中 ,
SPSS公 司和博 塔(中国 )有限公 司(SPSS中 国地区 分销商 )的技术 专家还 及时提 供了国 际最 新的
行 业发展 信息和 SPSS最 新产品 和技术 信息,并结合 SPSS的 全球应 用状况 提出了 宝贵意见 。
丛书 将分期 分批出 版相应 的分册 ,其中首 批 面世 的为 通用 教 材《SPSS统 计分 析 基础 教程 》、
《SPSS统 计分析 高级教 程》,均 由复旦 大学张 文彤老 师 主编,全 国多所 高校 的 统计 教师 和统 计专
业 人士参 编。张 文彤老 师长期 以来一 直致力 于积极 推 进统 计 分析 工 具 在国 内 的普 及应 用,他在
2002年编著 的前作 《SPSS11统计分 析教程 》基础篇 和高级 篇因内 容翔实 、风格独 特,受到 了广大
读 者的热 烈欢迎 ,并被多 所高校 列为本 科生或 研 究生 教 材,其 中基 础 篇 一书 已 通过 教育 部评审 ,
成 为 2003—2004年度 教育部 研究生 工作办 公室推 荐 的“研究 生教学 用书”。 他不 仅拥 有丰 富的
教 学经验 ,而且熟 谙统计 分析产 品,本 次全新 编写的 这两册 教材分 别针对 不同读 者群,由 浅入深 、
       Ⅱ 序   言

结 合实际 应用全 面介绍 了 SPSS产品和 应用。 全书实 例引用 突 出,分 析 讲解 透 彻,读者 可由 本书


管 窥全套 丛书“应 用为本 ”的特色 。
显然 ,上述两 本书还 不能完 全覆盖 SPSS的所有 应用领 域,因此 ,本套 书从现 在还有数 本分册
正 在组织 编写中 ,包括全 新的行 业应用 分册。 这 里我 们 热忱 邀 请各 行 各业 的 SPSS资深 用户,以
及 各高校 的统计 教师加 入到本 套丛书 的编写 工作中 来 ,以 共 同 推动我 国各 行 业统 计应 用水 平的
迅 速提高 。
希望 本套丛 书能够 让读者 更清晰 地了解 统计分 析,从而 进一步 促进统 计分析 在国内 的普及 。
为 便于读 者交流 和使用 本套丛 书,这里 特公布 相关网 址如下 :
SPSS最新 版本的 全模块 试用版 下载:www.s
pss
bj.co
m.cn
丛书 相关案 例数据 下载:www.s
pss
bj.c
om.cn、www.MedSt
atSt
ar.com
读者 答疑、经 验交流 :www.s
pss
club.co
m、www.St
atSt
ar.co

博 塔(中国 )有限公 司 SPSS丛书编委 会


序   言 Ⅰ     

前   言
笔者 前作《SPSS11统 计分析 教程》(基础 篇 )和 《SPSS11统计 分 析教 程 》(高级 篇)自 2002
年 中面世 以来,因 其内容 翔实、风格独 特 ,受 到了 广大 读 者 的热 烈 欢迎,这 从读 者用 E-mai
l请 教
问 题的数 量即可 看出,还 有数位 读者详 细指出 了 书中 的 用字 错 误,可 见 其阅 读 的详 细程 度,在此
笔 者对读 者深表 谢意。 同时,数 所高校 均将其 作为本 科生或 者研究 生教材 ,而基 础篇一书 已通过
教 育部评 审,成为 2003—2004年度教 育部研 究生工 作办 公 室推荐 “研 究生教 学用 书 ”,这无 疑都
是 对前作 质量的 充分肯 定。
但是 ,再优秀 的作品 也有其 生命周 期,随 着时间 的 推移,上 述著作 的不 足 之处 也逐 渐显 现出
来 。对于 基础篇 而言,突 出表现 为以下 两点:
1.由于在 2002年国 内尚无 系统 、完整介 绍 SPSS统计 功能及 其 操作界 面的书 籍,前作 最终将
风 格定位在操作字典上,使读者能够全面了解 SPSS各 方面的 分析功 能及界 面操作 方法,应 当说前
作 很好地完成了这一任务。 但是现在随 着 SPSS中文版的正 式面 市,软件的界 面操作 已不是 主要问
题 ,再来 编写这 种新华字典式的教材已无必要。读者 自然 希望能 够有一 个更 好的教材体系出现。
2.对于统 计软件 教材而 言,其 本 质应 当 是 统计 教 材,软 件 仅仅是 实现 工 具。前 作 顺 应当 时
的 需要,主 要满足 的是已 学习过 统计理 论知识 ,但不 了解如 何使用 统计软 件来实 现的读者 群的需
求 ,因此书 中并未 详细阐 述 统 计 基 础知 识 。对 于 统 计初 学 者而 言,需要 有一 本 统计 教 材 与之 配
合 。但是 在几年 的使用 后,现在 多所高 校均希 望直接 采用基 础篇进 行本科 生的统 计教学 ,而不需
要 和其他 教材配 合使用 。在软 件工具 已经越 来越易 用 的时 候 ,教材的 最终 归 宿应 当是 以统 计知
识 为主线 ,这无疑 是我们 重新投 入编写 工作的 最大动 力。
综上 ,在充分 考虑了 读者们 的意见 后,笔 者毅然 决 定推 翻 原有 的 框 架,完 全从 头编 写基 础教
程 。这本 新的 基础 教程 以 SPSS12.0为 准,定 位 为统计 软件和 统 计学 入 门书籍 。他 针 对统 计初
学 者和 SPSS初级 用户的 需求,以统计 理论为 主线,严 格按照 本科生 统计学 教材方 式编写 ,内容共
分 三大部 分:第一 部分的 任务是 SPSS操作入 门,讲解 了软件 使用和 数据管 理的操 作知识 ;第二部
分 以统计 理论为 主线,详 细阐述 了如何 在 SPSS中 完成 数据 的 统计 描 述 和参 数 估计,以 及如 何使

用 统计图 表来进 行数据 的完美 呈 现;第三 部分 则 详 细 介绍 了 t检 验、方 差 分析、秩 和 检 验、χ 检
验 、相关回 归等常 用的基 本统 计 分 析 方法 ,内 容覆 盖了 目 前 国 内大 部分 专业 统 计课 程 的 教学 范
围 ,并结合 SPSS的强大 功能作 了很好 的扩展 。书后 的 附录 根 据初 学 者 的特 点 加以 编制 ,各 章后
均 附有参 考文献 和思考 练习题 ,第三部 分的章 节还专 门提供 了本章 小结,更好地 满足了本 科生教
学 的需要 。另外 ,书中大 部分表 为设计 表格时 自动生 成的。 因此,大部分 表及表 题为英文 。
除作 为教材 外,本书 还适用 于各行 业中非 统计专 业需要 使用统 计方法 的人员 ,以及希 望从头
学 习 SPSS软件的 人员。 我们希 望广大 读者能 一如既 往 地踊 跃 提出自 己使 用 中的 宝贵 意见 和建
议 ,使得本 书再版 的时候 能够更 上一层 楼,更 完美地 满足大 家的学 习和工 作需求 。

张文彤
2004年 7月 于复 旦公共 卫生 学院
目   录 Ⅰ     

目   录

第一部分 数据管理与软件入门

2.3.2 文 本数 据如何 导入 SPSS中 … …… 36


第 章  数据 分析概 述与软 件入门 …… … 3
2.3.3 数 据库 格式数 据如 何导 入
 1.1 SPSS软件概 述 …… …… ……… …… … 3 SPSS中 … ……… …… …… …… …… 37
   1.1.1  软 件的 基本 特点 …… ……… …… … 3   2.
4  数据的 保存 ……… …… …… …… …… 39
1.1.2  SPSS的 Cl
ient
/Ser
ver结 构 … …… … 4
2.4.1 存 为 SPSS格式 …… …… …… …… 40
1.1.3  SPSS的模 块式 结 构 … ……… …… … 5
2.4.2 存 为其 他数据 格式 … …… …… …… 40
1.1.4  SPSS的安 装 …… …… ……… …… … 6
  思考与 练习 … …… ……… …… …… …… …… 41
 1.2 SPSS操作入 门 …… …… ……… …… … 8
  参考文 献 …… …… ……… …… …… …… …… 41
1.2.1  SPSS软件 的启 动 与退 出 …… …… … 8
1.2.2  SPSS的 5个窗 口 …… ……… …… … 8 第 章 数 据管理 ……… …… …… …… …… 42

1.2.3  SPSS的 4种运 行 方式 ………… …… 10   3.


1  变量级 别的数 据管理 …… …… …… 42
1.2.4  SPSS的 4种结 果 输出 ………… …… 13 3.1.1 计 算新 变量 …… …… …… …… …… 42
1.2.5  SPSS的帮 助系 统 … … ………… …… 16 3.1.2 对 变量 值进行 分组 合并 … …… …… 45
 1.3 数 据分析 概述 … …… … ………… …… 20 3.1.3 连 续变 量的可 视化 分段 … …… …… 47
1.3.1  数 据分 析方 法论 介绍 ………… …… 20 3.1.4 将 字符 变量转 换为 数值 变量 … …… 49
1.3.2  SPSS系列 产品 对 数据 分析 流程 3.1.5 变 量的 编秩 …… …… …… …… …… 50
的 支持 … …… …… … ………… …… 21 3.1.6 Tr
ans
for
m菜 单中 的其 他 功能 … …… 51
1.3.3  本 书内 容介 绍 …… … ………… …… 22   3.
2  文件级 别的数 据管理 (一)…… …… 52
  思考与 练习 … …… …… …… … ………… …… 22 3.2.1 记 录排 序 ……… …… …… …… …… 52
  参考文 献 …… …… …… …… … ………… …… 22 3.2.2 记 录拆 分 ……… …… …… …… …… 53
3.2.3 记 录筛 选 ……… …… …… …… …… 54
第 章  数据 录入与 数据获 取 ……… …… 23
3.2.4 记 录加 权 ……… …… …… …… …… 55
 2.1 数 据格式 概述 … …… … ………… …… 23 3.2.5 数 据汇 总 ……… …… …… …… …… 56
2.1.1  统 计软 件中 数据 的录 入 格式 … …… 23
  3.
3  文件级 别的数 据管理 (二)…… …… 57
2.1.2  变 量属 性介 绍 …… … ………… …… 23
3.3.1 数 据字 典的定 义与 应用 … …… …… 57
 2.2 数 据的直 接录入 … … ………… …… 27 3.3.2 查 找重 复记录 … …… …… …… …… 60
2.2.1  操 作界 面说 明 …… … ………… …… 27 3.3.3 数 据文 件的重 新排 列与 转置 … …… 62
2.2.2  开 放题 和简 单单 选题 的 录入 … …… 28 3.3.4 多 个数 据文件 的合 并 …… …… …… 68
2.2.3  多 选题 的录 入 …… … ………… …… 31
  思考与 练习 … …… ……… …… …… …… …… 71
 2.3 外 部数据 的获取 … … ………… …… 34   参考文 献 …… …… ……… …… …… …… …… 71
2.3.1  电 子表 格数 据如 何导 入 SPSS中 … 34
       Ⅱ 目   录

第二部分 统计描述与统计图表

第 章  连续 变量的 统计描 述与   5.


3  多选题 的统计 描述 … …… …… …… 103
5.3.1 多 选题 的描述 指标 体系 …… …… 103
参数 估计 …… …… … ………… …… 75
5.3.2 分 析实 例 ……… … …… …… …… 104
 4.1 连 续变量 的统计 描述概 述 …… …… 75
  5.
4  分类变 量的参 数估计 …… …… …… 107
   4.1.1  统 计描 述中 可用 的工 具 ……… …… 75 5.4.1 二 项分 布的参 数估 计 … …… …… 107
4.1.2  连 续变 量的 统计 描述 指 标体 系 …… 76 5.4.2 其 他分 布类型 简介 …… …… …… 109
4.1.3  SPSS中的 相应 功 能 … ………… …… 77
  思考与 练习 …… ………… … …… …… …… 110
 4.2 集 中趋势 的描述 指标 ………… …… 78   参考文 献 … …… ………… … …… …… …… 111
4.2.1  算 术均 数 …… …… … ………… …… 78
4.2.2  中 位数 … …… …… … ………… …… 80
第 章 数 据的报 表呈现 (上) …… …… 112

4.2.3  其 他集 中趋 势描 述指 标 ……… …… 80   6.
1  SPSS报表概 述 …… … …… …… …… 112
 4.3 离 散趋势 的描述 指标 ………… …… 81 6.1.1 SPSS中的 报 表功 能 …… …… …… 112
4.3.1  全 距 …… …… …… … ………… …… 82 6.1.2 报 表的 基本绘 制步 骤 … …… …… 113
4.3.2  方 差和 标准 差 …… … ………… …… 82   6.
2  表格入 门 ………… … …… …… …… 114
4.3.3  百 分位 数、四分 位数 与四 分位 数 6.2.1 表 格的 基本框 架 … …… …… …… 114
间 距 …… …… …… … ………… …… 83 6.2.2 表 头、数据 区与 汇总 项 … …… …… 116
4.3.4  变 异系 数 …… …… … ………… …… 84 6.2.3 单 元格 的数据 类型 …… …… …… 116
 4.4 连 续变量 统计描 述实例 ……… …… 85 6.2.4 几 种基 本表格 类型 …… …… …… 117
4.4.1  数 据背 景介 绍 …… … ………… …… 85   6.
3  用 Or
igi
nalTa
ble
s模块 制表 … …… 119
4.4.2  使 用 Expl
orer过程 进行 分析 … …… 85 6.3.1 功 能简 介 ……… … …… …… …… 119
4.4.3  使 用其 他过 程进 行分 析 ……… …… 88 6.3.2 Bas
icTabl
es过程 … …… …… …… 119
 4.5 连 续变量 的参数 估计 ………… …… 90 6.3.3 Gener
alTabl
es过 程 …… …… …… 126
4.5.1  正 态分 布 …… …… … ………… …… 90   思考与 练习 …… ………… … …… …… …… 130
4.5.2  参 数的 点估 计 …… … ………… …… 93   参考文 献 … …… ………… … …… …… …… 131
4.5.3  参 数的 区间 估计 … … ………… …… 94
第 章 数 据的报 表呈现 (下) …… …… 132
  思考与 练习 … …… …… …… … ………… …… 96
  7.
1  用 Cus
tomTabl
e模块自由 制表 … 132
  参考文 献 …… …… …… …… … ………… …… 96
7.1.1 操 作主 界面 …… … …… …… …… 132
第 章  分类 变量的 统计描 述与参 数 7.1.2 简 单分 析实例 … … …… …… …… 133
估计 …… …… …… … ………… …… 97 7.1.3 其 他选 项卡功 能 … …… …… …… 138

 5.1 分 类变量 的统计 描述概 述 …… …… 97   7.


2  表格的 编辑 ……… … …… …… …… 140
5.1.1  分 类变 量的 统计 描述 指 标体 系 …… 97 7.2.1 基 本编 辑操作 … … …… …… …… 140

5.1.2  分 类变 量的 联合 描述 ………… …… 99 7.2.2 主 要编 辑菜单 功能 介绍 …… …… 143

5.1.3  SPSS中的 相应 功 能 … ……… …… 100 7.2.3 表 格属 性的详 细设 置 … …… …… 146

 5.2 分 类变量 统计描 述实例 …… …… 100   7.


3  表格高 级应用 技术 … …… …… …… 147
5.2.1  使 用 Fr
equenci
es过程 输出 7.3.1 模 板技 术 ……… … …… …… …… 147
频 数表 …… …… …… ……… …… 100 7.3.2 在 报告 中直接 使用 SPSS表格 …… 150

5.2.2  使 用 Cr
oss
tabs过 程输 出列 联表 … 101 7.3.3 如 何解 决表格 的中 文兼 容问 题 … 151
目   录 Ⅲ     

7.3.4  宏 技术 与 OMS系统 简介 …… …… 152


第 章 数 据的图 形展示 (下) …… …… 195
  思考与 练习 … … …… …… …… ……… …… 154
  9.
1  线图 … …… ………… … …… …… …… 195
  参考文 献 …… … …… …… …… ……… …… 154
9.1.1 简 单线 图 ……… … …… …… …… 195
第 章  数据 的图形 展示(上 ) …… …… 156 9.1.2 多 线图 、垂 线图 与对 数线图 … …… 196

 8.1 统 计图概 述 … …… …… ……… …… 156 9.1.3 线 图的 编辑 …… … …… …… …… 198


9.1.4 交 互式 点图、线 图、条带 图与
   8.1.1  统 计图 的基 本结 构 … ……… …… 156
8.1.2  统 计图 的种 类 … …… ……… …… 158 垂 线图 ………… … …… …… …… 200

8.1.3  SPSS12的常 规 统计 图   9.
2  散点图 …… ………… … …… …… …… 201
功 能简 介 … …… …… ……… …… 162 9.2.1 简 单散 点图 …… … …… …… …… 201
8.1.4  交 互式 绘图 简介 …… ……… …… 164 9.2.2 散 点图 矩阵与 重叠 散点 图 … …… 202
9.2.3 三 维散 点图 …… … …… …… …… 203
 8.2 直 方图与 茎叶图 … …… ……… …… 166
9.2.4 散 点图 的编辑 … … …… …… …… 206
8.2.1  常 规图 中的 直方 图 … ……… …… 166
8.2.2  直 方图 的编 辑 … …… ……… …… 167   9.
3  其他统 计图 ……… … …… …… …… 208
8.2.3  用 交互 图绘 制累 积直 方 图与 直方 9.3.1 P-P图和 Q-Q图 … …… …… …… 208
图 组 … …… …… …… ……… …… 172 9.3.2 ROC曲 线 ……… … …… …… …… 210

8.2.4  茎 叶图 …… …… …… ……… …… 175 9.3.3 面 积图 ………… … …… …… …… 213

 8.3 箱 图 …… … …… …… …… ……… …… 177 9.3.4 Par


eto图 ………… … …… …… …… 213
9.3.5 误 差图 ………… … …… …… …… 214
8.3.1  常 规图 中的 箱图 …… ……… …… 177
8.3.2  箱 图的 编辑 …… …… ……… …… 179 9.3.6 控 制图 ………… … …… …… …… 215
9.3.7 高 低图 ………… … …… …… …… 217
 8.4 饼 图 …… … …… …… …… ……… …… 181
9.3.8 时 间序 列分析 中使 用的 图形 …… 218
8.4.1  常 规图 中的 简单 饼图 ……… …… 181
8.4.2  饼 图的 编辑 …… …… ……… …… 182   9.
4  交互式 统计图 的编辑 …… …… …… 218
8.4.3  用 交互 图绘 制复 式饼 图 和散 点 9.4.1 编 辑界 面概述 … … …… …… …… 218

饼 图 … …… …… …… ……… …… 184 9.4.2 图 形管 理员 …… … …… …… …… 220


9.4.3 变 量的 重新分 配 … …… …… …… 223
 8.5 条 图 …… … …… …… …… ……… …… 187
9.4.4 Ut
il
it
y工 具栏 的 其他 选项 …… …… 223
8.5.1  简 单条 图 … …… …… ……… …… 188
8.5.2  复 式条 图、分段 条图 与百 分条
  9.
5  SPSS绘图中 的注意 事项 …… …… 224
9.5.1 汉 字兼 容性问 题的 解决 …… …… 224
图 的绘 制 … …… …… ……… …… 189
8.5.3  条 图的 编辑 …… …… ……… …… 190 9.5.2 默 认图 形格式 的更 改 … …… …… 224

8.5.4  用 交互 图绘 制带 误差 线 的条 图 … 191 9.5.3 图 形模 板的应 用 … …… …… …… 225

  思考与 练习 … … …… …… …… ……… …… 193   思考与 练习 …… ………… … …… …… …… 227

  参考文 献 …… … …… …… …… ……… …… 194   参考文 献 … …… ………… … …… …… …… 227

第三部分 常用假设检验方法

10.1.3 假 设 检验 的两 类错误 … …… …… 233


第 章  分布类 型的检 验 … ……… …… 231
10.1.4 假 设 检验 中的 其他问 题 …… …… 235
 10.
1  假设检 验的基 本思想 ……… …… 231
  10.2  正态分 布检验 … … …… …… …… 235
   10.1.1 问 题的 提 出 …… …… ……… …… 231 10.2.1 K-S检验 的 原理 … …… …… …… 235
10.1.2 假 设检 验 的基 本思 想 ……… …… 232
       Ⅳ 目   录

10.2.2 分 析实 例 … …… …… ……… …… 236 的 解 释 ………… … …… …… …… 269


 10.
3  二项分 布检验 … …… ……… …… 238 12.2.5 分 析 实例 ……… … …… …… …… 269
10.3.1 二 项分 布 检验 的原 理 ……… …… 238   12.3  各组均 数的精 细比较 … …… …… 271
10.3.2 分 析实 例 … …… …… ……… …… 238 12.3.1 方 法 原理 ……… … …… …… …… 271
 10.
4  游程检 验 …… …… …… ……… …… 239 12.3.2 分 析 实例 ……… … …… …… …… 272

   10.4.1 游 程检 验 的原 理 …… ……… …… 239 12.3.3 事 先 计划 的比 较 … …… …… …… 274


10.4.2 分 析实 例 … …… …… ……… …… 240   12.4  组间均 数变化 的趋势 检验 … …… 275
 10.
5  本章小 结 …… …… …… ……… …… 243   12.5  本章小 结 ………… … …… …… …… 277
  思考与 练习 … … …… …… …… ……… …… 243   思考与 练习 …… ………… … …… …… …… 277
  参考文 献 …… … …… …… …… ……… …… 243   参考文 献 … …… ………… … …… …… …… 278

第 章  连续变 量的统 计推断 (一)——— 第 章  有序分 类变量 的统计 推断———


t检验 …… …… …… ……… …… 244 非参数 检验 … … …… …… …… 279

 11.
1  t检验基 础 … …… …… ……… …… 244   13.1  非参数 检验概 述 … …… …… …… 279
 11.
2  样本均 数与总 体均数 的比较 … 246 13.1.1 非 参 数检 验的 意义 …… …… …… 279

11.2.1 分 析实 例 … …… …… ……… …… 246 13.1.2 非 参 数检 验预 备知识 … …… …… 280


11.2.2 单 样本 t检验 中 的其 他问 题 …… 248   13.2  两个配 对样本 的非参 数检验 … 281
 11.
3  成组设 计两样 本均数 的比较 … 248 13.2.1 方 法 原理 ……… … …… …… …… 281

11.3.1 方 法原 理 … …… …… ……… …… 248 13.2.2 分 析 实例 ……… … …… …… …… 283


11.3.2 分 析实 例 … …… …… ……… …… 249 13.2.3 确 切 概率 的计 算 … …… …… …… 285

11.3.3 适 用条 件 与方 差齐 性检 验 … …… 251   13.3  两个独 立样本 的非参 数检验 … 286


 11.
4  配对设 计样本 均数的 比较 … …… 253 13.3.1 Mann-Whi
tneyU检 验 … …… …… 286

11.4.1 方 法原 理 … …… …… ……… …… 253 13.3.2 分 析 实例 ……… … …… …… …… 287


11.4.2 分 析实 例 … …… …… ……… …… 253 13.3.3 其 他 两样 本非 参数检 验方 法 …… 288

 11.
5  本章小 结 …… …… …… ……… …… 255   13.4  多个独 立样本 的非参 数检验 … 289
  思考与 练习 … … …… …… …… ……… …… 256 13.4.1 方 法 原理 ……… … …… …… …… 289
13.4.2 分 析 实例 ……… … …… …… …… 290
  参考文 献 …… … …… …… …… ……… …… 256
13.4.3 多 个 样本 的两 两比较 … …… …… 291
第 章  连续变 量的统 计推断 (二)———   13.5  多个相 关样本 的非参 数检验 … 292
单因素 方差分 析 … ……… …… 257 13.5.1 Fr
iedman检验 … … …… …… …… 292

 12.
1  方差分 析入门 … …… ……… …… 257 13.5.2 分 析 实例 ……… … …… …… …… 293
12.1.1 为 什么 要 进行 方差 分析 …… …… 257 13.5.3 Kendal
l协和 系数 检 验与 Cochr
an
12.1.2 方 法原 理 … …… …… ……… …… 258 检 验 … ………… … …… …… …… 294

12.1.3 单 因素 方 差分 析的 应用 条件 …… 261   13.6  秩变换 分析方 法 … …… …… …… 296


12.1.4 单 因素 方 差分 析的 SPSS实 现 … 263 13.6.1 原 理 简介 ……… … …… …… …… 296
 12.
2  均数间 的多重 比较 … ……… …… 266 13.6.2 应 用 实例 ……… … …… …… …… 296

12.2.1 直 接校 正 检验 水准 … ……… …… 266   13.7  本章小 结 ………… … …… …… …… 299


12.2.2 专 用的 两 两比 较方 法 ……… …… 267   思考与 练习 …… ………… … …… …… …… 299
12.2.3 两 两比 较 方法 的选 择策 略 … …… 268   参考文 献 … …… ………… … …… …… …… 300
12.2.4 多 重比 较 结果 出现 矛盾 时
目   录 Ⅴ     

第 章  无序分 类变量 的统计 推断———   参考文 献 … …… ………… … …… …… …… 324

χ2 检 验 … …… …… ……… …… 302
第 章  相关分 析与回 归分析 …… …… 325

 14.

1  χ 检验 基础 … …… …… ……… …… 302   15.1  相关分 析简介 … … …… …… …… 325

14.1.1 χ 检验 原理 …… …… ……… …… 302 15.1.1 相 关 分析 的指 标体系 … …… …… 325

14.1.2 χ 值的 计算 与 意义 … ……… …… 303 15.1.2 一 些 基本 概念 … … …… …… …… 328
14.1.3 χ2 分布 …… …… …… ……… …… 303 15.1.3 SPSS中 的相 应功 能 …… …… …… 328

 14.
2  拟合问 题——— 样本率 与已知   15.2  简单相 关分析 … … …… …… …… 329
总体率 的比较 … …… ……… …… 304 15.2.1 方 法 原理 ……… … …… …… …… 329

   14.2.1 分 析实 例 … …… …… ……… …… 304 15.2.2 分 析 实例 ……… … …… …… …… 332

14.2.2 检 验方 法 的 SPSS实现 …… …… 306 15.2.3 秩 相 关系 数 …… … …… …… …… 334


2 15.2.4 Kendal
ls等级 相 关系 数 …… …… 335
14.2.3 单 样本 χ 检 验的 其他 话题 …… 307
 14.
3  相关问 题——— 两(多)个 率或   15.3  偏相关 分析 ……… … …… …… …… 335
15.3.1 方 法 原理 ……… … …… …… …… 335
构成比 的比较 … …… ……… …… 308
15.3.2 分 析 实例 ……… … …… …… …… 336
14.3.1 分 析实 例 … …… …… ……… …… 309
14.3.2 检 验方 法 的 SPSS实现 …… …… 311
  15.4  Di
st
ance
s过程 … … …… …… …… 338

14.3.3 多 样本 χ 检 验的 其他 话题 …… 312 15.4.1 距 离 测量 与相 似性测 量的 指标
体 系 … ………… … …… …… …… 338
 14.
4  两分类 变量间 关联程 度的
15.4.2 分 析 实例 ……… … …… …… …… 340
度量 … … …… …… …… ……… …… 314
  15.5  简单回 归分析 … … …… …… …… 341
14.4.1 相 对危 险 度与 优势 比 ……… …… 314
15.5.1 方 法 原理 ……… … …… …… …… 341
14.4.2 分 析实 例 … …… …… ……… …… 315
2 15.5.2 分 析 实例 ……… … …… …… …… 344
 14.
5  一致性 检验与 配对 χ 检验 …… 317
15.5.3 相 关 与回 归分 析的联 系和
14.5.1 Kappa一 致性 检 验 … ……… …… 317

区 别 … ………… … …… …… …… 346
14.5.2 配 对 χ 检验 … …… ……… …… 318
2   15.6  本章小 结 ………… … …… …… …… 346
 14.
6  分层 χ 检验 …… …… ……… …… 319
  思考与 练习 …… ………… … …… …… …… 346
 14.
7  本章小 结 …… …… …… ……… …… 322
  参考文 献 … …… ………… … …… …… …… 347
  思考与 练习 … … …… …… …… ……… …… 323
附 录 1 SPSS13版新增 功能介 绍 … …… …… ……… …… …… …… … …… ………… … …… …… …… 348

附 录 2 SPSS函数 一览表 …… … …… …… …… ……… …… …… …… … …… ………… … …… …… …… 350


附 录 3 各种 情形下 最常用 统计检 验方法 索引 …… …… …… …… … …… ………… … …… …… …… 359

附 录 4 统计 术语英 汉名词 对照表 … …… …… ……… …… …… …… … …… ………… … …… …… …… 361


SPSS产品 简介 … …… …… …… … …… …… …… ……… …… …… …… … …… ………… … …… …… …… 367
       Ⅳ 目   录

第一部分
数据管理与软件入门
1.1 SPSS软件 概述  3      

第 章 数据分析概述与软件入门

1.
1 SPSS软件概述

SPSS公司 总部位 于 美 国 芝 加 哥,创 立 于 1975年,一 直 以 经 营 统 计 软 件 产 品 开 发为 主 业 。


1994—1998年间,SPSS公 司 得 到 了 很 大 的 发 展 ,陆 续 购 并 了 SYSTAT公 司 、BMDP软 件 公 司 、
Quant
um公司 、I
SL公司 等,并 将各公 司的主 打产品 收纳 SPSS旗下 ,从而使 SPSS公司由原 来的单
一 统计产 品开发 与销售 转向为 企业、教 育科研 及政府 机构提 供全面 信息统 计决策 支持服 务,成为
最 新的“数 据仓库 ”和“数据 挖掘”领 域前沿 的一家 综合统 计软件 公司。
SPSS软件 是 SPSS公司 赖以起 家的产 品,目前 也仍然 是该公 司的主 打产品 之一,目 前的 最新
版 本为 12.0本书 也均以 12.0版 本为 准 进 行讲 解 。SPSS的 英 文 名 称 原 为 St
at
is
ti
calPac
kag
efor
Soc
ialSc
iences
,意 为社会 科学统 计 软件 包 。后 来 随 着 SPSS产 品服 务领 域的 扩 大和 服 务 深度 的
增 加,SPSS公 司已于 2002年 将英文 全称更 改为 St
ati
st
ic
alPr
oducta
ndSe
rvi
ceSol
uti
ons
,意 为统计
产 品与服 务解决 方案。 在近 30年的发 展中,虽然竞 争对手 不断出 现,但 SPSS却 始终以其 鲜明的
特 色鼎立 于统计 学软件 之中,现 在和 SAS(另 一种统 计 分析软 件)被并 称 为当 今 最权威 的两 大统
计 软件。

1.1.1 软件的 基 本特点

SPSS得到 用户广 泛欢迎 的原因 在于 SPSS强大 的统计 分 析 与数 据准备 功 能,方 便 的 图表 展


示 功能,以 及广阔 的兼容 性、界 面的友 好性满 足了广 大 用户 的 需求,深 受广 大 应用 统计 分析 人员
的 喜爱。

1.功能强 大

(1)囊括了 各种成 熟的统 计方法 与模型 ,为统计 分析用 户提供 了全方 位的统 计学算 法,为各
种 研究提 供了相 应的统 计学方 法。如 方差分 析、回归 分析、多元统 计分析 方法、生 存分析 方法等 ,
方 法体系 覆盖全 面。
(2)提供了 各种数 据准备 与数据 整理技 术。如 利 用值 标 签来 快 捷 地录 入 数据,从 而为 数据
审 核与分 析提供 了便利 条件。 生成新 的变量 ,对连续 性变量 进行离 散性转 换;将 几个小类 别合并
为 一个大 类别等 。利用 SPSS强 大的数 据整理 技术,可使数 据结构 、内容更 易于分 析。
(3)包括自 由灵活 的表格 功 能。特 别是在 SPSS11.5版 本 中新 增 的自 定 义 表格 模 块 (Cus


om Tabl
e),使得制 表变得 更加简 单和直 接。
(4)提供了 各种常 用的统 计学图 形,如条 图、线 图、饼图 、直方 图、散点 图等多 种图形 ,并且可
        4 第 1章  数据 分析概 述与软 件入门

将 表格图 形直接 拷贝到 Wo


rd文档 、幻灯 片中,直 接进行 结果的 展现。

2.兼容性 好

(1)在数据 方面,不 仅可在 SPSS中 作数 据 录入 工作 ,还 可将 日常 工 作 中 常用 的 Exc


el表 格
数 据、文本 格式数 据导入 SPSS中进行 分析,不 仅节省 了相当 大的工 作量,并且避 免了因拷 贝粘贴
可 能引起 的错误 。
(2)在结 果方 面,SPSS的 表格、图 形结 果可 直接导 出为 Wor
d、文 本、网 页 、Ex
cel格 式 等,也
可 以将表 格、交互 式图形 作为对 象选择 性粘贴 到 Wor
d、Power
Poi
nt等中,并 在其中 再利用 SPSS对
它 们进行 编辑。

3.易用性 强

SPSS之所 以有广 大的用 户群,不仅因 为 它 是一 种 权威 的 统计 学 工 具,提 供 了强 大 的 统计 功


能 ,也因为 它是一 种非常 简单易 用的软 件。人 机 界面 的 友好 、操作 的 简 单,使 得各 位统 计分 析人
员 对它青 睐不已 。另外 ,SPSS也向 一些 高级 用 户提 供了编 程 功 能,使 分析 工 作 变得 更 加 节省 时
间 和精力 。

1.1.2 SPSS的 Cl
ient/
Serve
r结构

SPSS软件 自 10.0版本 以来,已发展 为 Cl


ient
/Ser
ver的 结构体 系。用 户可以 选择只购 买单机
版 ,也可以 选择购 买服务 器和单 机版。 对于大 数据量 客户,可以利 用 SPSSSer
ver来解 决 速度慢 、
网 络阻塞 等由于 数据量 大而引 起的问 题。
在分 析中使 用 SPSSSe
rve
r的好 处在于 :
(1)更快的 分析速 度。由 于服务 器端往 往与数 据仓库 的物理 距离 更近 ,而 SPSSSe
rve
r也对
计 算进行 了优化 ,加之应 用服务 器的 硬 件配 置也 远高于 单机 端(客 户端 ),因 此 对于 进 行 大数 据
量 分析的 客户,SPSSSer
ver可以 使速度 提高很 多。
(2)缓解网 络阻塞 。由于 数据不 需要全 部传送 到 单机 端 ,所以网 络上 的 数据 传输 量大 大减
少 ,从而缓 解了网 络阻塞 问题。
在使 用时调 用 Se
rve
r的具 体做法 是:在应 用服务 器端安 装 SPSSSe
rve
r,在单 机端安装 相同版
本 的 SPSSCl
ient
(参 见 图 1.1)。 在 单 机 端 打 开 SPSSf
orWi
ndows时 ,选 择 菜 单 Fi
le→ Swi
tch
Ser
ver
,在 如图 1.2(a)所示的 对话框 中指 定要 连接 的 SPSSSer
ver所 在服 务 器 地 址,如 果 是第 一
次 使用,则 单击“Add”按钮,出 现如图 1.2(b)所示 对 话框,输 入服 务 器 名 或 I
P地址 、端 口 号,单
击 “OK”按 钮,在 服务器 列表中 出现相 应的 Se
rve
r地 址 ,然后 输 入用 户 名、密 码 、域名,单 击 “OK”
按 钮,即可 登录到 SPSSSer
ver
。 此时,在 SPSSf
orWi
ndo
ws下方的 状态栏 中,就 会显示 “SPSSPr
o-
ces
soro
n‘服务 器名’:‘'
端 口号’i
sre
ady”,表示 连接已 经建立 。
当然 对于数 据量不 大 的 客 户 ,只 用 SPSSCl
ie
nt就 可 以 了。 现 在 国内 绝 大 多 数 用户 所 说 的
SPSS,实际 上就是 指的单 机版。
1.1 SPSS软件 概述  5      

图 1.
1  SPSS软件 的 Cl
ient
/Ser
ver体系

                      (a)                                             (b)

图 1.2 SPSSCl
ient调 用 SPSSSer
ver的 对话 框设 置

1.1.3 SPSS的 模块式 结构

无论 是 SPSSCl
ient还 是 SPSSSer
ver
,均是 模块 式结构 ,即 它把 自己 的所 有 功能 分 放 在多 个
模 块上。 用户可 以根据 分析中 可能用 到的数 据处理 和 统计 分 析方 法 ,自己 选 择适 当的 模块 进行
购 买,而不 必花更 多的钱 购买所 有模块 。
SPSS12共由 11个模 块 构成 ,它们 分 别 是:SPSSBas
e、SPSSAdva
nced、SPSSCa
teg
ori
es、SPSS
Compl
exSampl
e、SPSSConj
oint
、SPSSExa
ctTes
t、SPSSMaps
、SPSSMi
ssi
ngVal
ueAna
lys
is、SPSSRe

gr
ess
ion、SPSSTabl
es和 SPSSTr
ends
。其 中 SPSSBas
e是必 需的,因 为 SPSS软 件 的整 个 框 架、基
本 的数据 获取、数 据准备 等基本 功能都 被集中 在这个 模 块上 ,其他模 块必须 在 SPSSBas
e搭 建的
平 台上才 能工作 。其他 模块的 功能分 别如表 1.1所 示。
SPSS软件 通过其 Li
cens
e来控 制模块 是否安 装。一 个模块 安装上 之 后,在 SPSSf
orWi
ndows
的 菜单中 就会出 现相应 的菜单 项 ,所以 不 同客 户 的 SPSSf
orWi
ndows的 菜单 可能 有所 不 同。如
果 没有购 买 SPSSTr
ends模 块,软件 中就 不会 有这 样 一 个 菜单 :Ana
lyz
e→ Tr
ends
;如 果 没 有购 买
SPSSMa
ps模 块,软 件中就 不会有 菜单:Gr
aph→ Maps

        6 第 1章  数据 分析概 述与软 件入门

表 1.1  SPSS模 块与功 能对 应表

SPSS附加 模块 功    能

SPSSAdvance
d 一般 线性 模型 、混 合线 性模 型 、对数 线 性模 型、生存 分析 等

SPSSCat
ego
ries 对应 分析 、感 知图 、Pro
xsc
al等

SPSSCompl
exSa
mpl
e 多阶 段复 杂抽 样技 术 等

SPSSConj
oint 正交 设计 、联 合分 析等 ,适 用于 市场 研 究

SPSSExac
tTes
t 精确 P值 计算 、随机抽 样 P值计 算等

SPSSMa
ps 在地 图上 展示 数据 等

SPSSMi
ssi
ngVal
ueAnal
ysi
s 缺失 数据 的报 告与 填 补等

SPSSRegr
essi
on Logi
st
ic回归、非 线性 回归、Pr
obi
t回归 等

SPSSTabl
es 交互 式创 建各 种表 格 (如堆 积表 、嵌 套表 、分 层表 等 )

SPSSTr
ends Ar
ima模型 、指数平 滑、自回 归等

随着 版本的 提升,SPSS的各个 模块在 功能和 性能上 也会有 一 定的改 进。例 如,SPSSBa


se从
11.
5版本开 始,提供 了将结 果直接 导入 Wor
d、Exc
el文 档 的功 能,而在 12版 本 中,变量 名也 不再
有 8字符 的位数 限制。 又比如 SPSSTabl
es在 11.5版 本时发 生了 重 大 变化,提供 了所 见即 所得
的 表格制 作功能 ,详见本 书第 7章。SPSSCompl
exSampl
e模块 则 是 12.0版本 新增 加的 内容,详
见 本丛书 的《SPSS与市 场研究 》中的相 关内容 。
最后 有一点 需要澄 清:国内 许多 SPSS书 籍因对 SPSS的 功能讲 解不全 ,总是 在前言中 声明所
使 用的是 SPSS标 准版。 实际上 SPSS软件,不 存在所 谓的标 准版和 专业版 之分,即使安装 全部的
11个 模块,软 件也仍 然是标 准版。 这些 书 籍 中 所谓 的“标准 版 ”,其 实 质 只 是 SPSSBas
e模块 的
相 应功能 而已。

1.1.4 SPSS的 安装

SPSS的安 装非常 简单,跟随安 装向 导即 可将 SPSS轻松 安装 到自 己 的本 机。下 面 分 别简 要


介 绍一下 SPSSSer
ver和 SPSSCl
ient的 安装过 程。

1.SPSSServer的 安装

SPSSSe
rve
r支 持的 操 作 平 台有 AI
X UNI
X,HPUNI
X,Li
nux,Wi
ndowsNT等,根 据 不 同的 版
本 ,支持平 台略有 不同。 具体安 装步骤 如下:
(1)将 SPSSSer
ver安 装光 盘插 入计 算 机光 驱后,出 现 如图 1.3(a)所示 的界 面。 选 中 “I
n-

tal
lSPSSSer
ver
”即进 入安装 向导。
(2)跟随向 导,接受 Li
cens
e协议 ,并选择 安装目 录,出 现图 1.3(b)图 所示界 面。
(3)键入 SPSS公司 提供的 Li
cens
e,单 击“Updat
e”按 钮,即 出现 该 Li
cense允许安 装 的模块 ,
单 击“Ne
xt”按钮 。
1.1 SPSS软件 概述  7      

(4)设定该 应用服 务器 的 I
P地 址 和 应用 端 口,再单 击“Nex
t”按钮,即 开 始 安 装 ,最 后单 击
“Fi
nis
h”按钮 结束安 装。

                      (a
)                                           (b)

图 1.
3 SPSSSer
ver安 装过 程中 的几 个视图

2.SPSSCl
ient的安装

SPSSCl
ie
nt支持的 操 作平 台 为 Wi
ndo
wsNT4.0,Wi
ndows95、98、2000、XP等。 安 装 要求 约
100MB~120MB硬 盘(视 其版本 和模块 而不同 ),内存要 求为 64MB以上 。具体 安装步 骤如下 :
(1)将 SPSSCl
ie
nt安 装光盘 放入计 算机光 驱后,出现如 图 1.
4(a)所 示的界 面。选 中“I
nst
al

SPSS”即进 入安装 向导。
(2)跟随向 导,首先 “接受 Li
cens
e协议”,并 选择安 装 目录 ,在随 后 的界面 中键入名 称、公司
和 SPSS公 司提供 的序列 号。
(3)当要求 输入 Li
cense时 ,如图 1.4(b),键入 SPSS公司 提 供 的 Li
cens
e,单 击 “Updat
e”按
钮 ,即出现 该 Li
cens
e允 许安装 的模块 ,单 击 “Ne
xt”按 钮 ,即开 始 安 装,最 后 单 击 “Fi
nis
h”按钮 结
束 安装。

                         (a)                                         (b)

图 1.4 SPSSCl
ient安装过 程中 的几 个 视图
        8 第 1章  数据 分析概 述与软 件入门

1.
2 SPSS操作入门

1.2.1 SPSS软 件的启 动与退出

在 Wi
ndows开 始菜单 上选择 开始 → 程 序 →SPSSf
orWi
ndows
→ SPSSf
orWi
ndows,就 启动 了
SPSS,如图 1.5所 示。

图 1.5 SPSS的 启动 示意 图

如果 要关闭 该软件 ,则选择 菜单 Fi


le→ Exi
t,或 者直接 关闭窗 口,即可 退出 SPSS。

1.2.2 SPSS的 5个窗口

SPSS运行 时使用 的窗口 种类最 多共有 5个:数 据 编辑 窗 口、结 果 管理 窗 口、语法 编 辑 窗口 、


脚 本窗口 和草稿 结果窗 口。 其中 数据 编 辑 窗 口和 结果 管理 窗口 是 最 常 用到 的两 个窗 口。实 际
上 ,这 5个 窗口分 别用于 打开 5种格式 的 SPSS文件 :以“s
av”为扩 展名的 是 SPSS的数据 文件;以
“s
ps”为扩 展名的 是 SPSS的语 法文件 ;以“s
po”为 扩展 名的 是 SPSS的 结果 文件 ;以“s
bs”为 扩展
名 的是 SPSS的脚 本文件 ;以“r
tf”为扩展 名的是 SPSS的 草稿结 果文件 。
(1)数据编 辑窗口 (SPSSDa
taEdi
tor
):此 窗口类 似于 Excel窗口 ,SPSS处理 数据的主 要工作
全 在此窗 口进行 。它分 为两个 视图:如 图 1.
6(a)所 示 的数据 视图 用 于 显示具 体的 数据 ,一 行代
表 一个观 测个体 (SPSS中称为 Reco
rd),一列 代表一 个属性 (SPSS中称为 Var
iabl
e);如图 1.6(b)
所 示的变 量视图 则专门 显示有 关变量 的信息 :变量名 称、变 量的类 型、变量 的格式 等,关于 变量信
1.2 SPSS操作 入门  9      

息 中各术 语的详 细解释 ,可参阅 第 2章 。

                    (a
)                                          (b)

图 1.6  数据 编 辑窗 口的 数据 视 图和 变量 视图

(2)结果管 理窗口 (SPSSOut


putVi
ewer):又 称结 果 视图,此 窗口 用 于 存 放 分析 结 果,如 图
1.7(a)所示 。类似 于 Wi
ndows的 资源 管 理 器,整 个 窗 口分 两个 区:左 边为 目 录 区,是 SPSS分 析
结 果的一 个目录 ;右边是 内容区 ,是与 目录一 一对应 的内容 。
(3)草稿结 果窗口 (SPSSDr
aftVi
ewe
r):草稿结 果是结 果的一 种简化 文本格 式。实际 上就是
Wo
rd所 兼容的 r
tf超 文本格 式,因此 可以在 没有安 装 SPSS的 PC机 上使用 文字编 辑软件 打开,窗
口 形式如 图 1.7(b)所 示。

                     (a
)                                           (b)

图 1.7 结果 管理 窗 口和 草稿 结果 窗口

(4)语法编 辑窗口 (SPSSSy


nta
xEdi
tor
):SPSS最大 的 优 势在 于 其 简 单 易 用性,即 菜 单 -对
话 框式的 操作,窗 口形式 如图 1.
8(a)所示。 除此之 外,SPSS还 提 供了 语法 方式 或 程序 方式 进行
分 析。该 方法既 是对菜 单功能 的一个 补充,也 可以使 繁琐的 工作得 到简化 ,尤其 适用于高 级分析
人 员。
(5)脚本窗 口(SPSSSc
riptEdi
tor
):SPSS脚 本是 用 SaxBas
ic语 言写 的 程 序,窗 口 形 式如 图
1.8(b)所示 。脚本 可以像 SPSS宏 一样构 建和运 行 SPSS命令,而 且脚 本可 以在 命 令中 利用 当前
        10 第 1章  数据 分析概 述与软 件入门

数 据文件 的变量 信息,还 可以对 结果进 行编辑 或者构 建 一些 新 的自 定 义 的对 话 框。脚 本可 用于


使 SPSS内 部操作 自动化 ,使结 果格式 自定义 化,实现 SPSS新 功能 以 及将 SPSS与 VB和 VBA兼
容 应用程 序连接 。

                     (a
)                                           (b)
图 1.
8  语法 编辑 窗 口和 脚本 编辑 窗 口

启动 SPSS时 ,即打开 了数 据编 辑窗口 。 其他 窗 口可 以 通 过 Fi


le→ New/
Open→ 相 应 的窗 口
名 称而打 开。

1.2.3 SPSS的 4种运行 方式

SPSS提供 了菜单 -对话 框方式 的操 作 环境,这 是最 简单 和 最常 用的 运行 方法。 此 外,SPSS


还 提供了 程序运 行方法 、I
ncl
ude命 令方法 、Pr
oduct
ionFac
il
it
y方法 。这几 种方法 是菜单 -对 话框
方 式的有 益补充 。下面 就以 SPSS自 带文 件 Empl
oyeeda
ta.s
av中 的 数 据对 变量 “j
obcat
”进行 频
数 分析为 例说明 这 4种 运行方 法。

1.菜单对 话框方 式

首先 打开 SPSS软件 ,然后 选择 菜单 Fi
le→OpenFi
le,如 图 1.9所 示,在 SPSS安 装 目 录下 打
开 数据“Empl
oyeedat
a.s
av”。

图 1.9 SPSS打开数 据示 意图
1.2 SPSS操作 入门  11      

然后 ,利用 菜 单 Ana
lyz
e→ Des
cri
pti
veSt
ati
st
ics→Fr
equenci
es,如 图 1.10所 示,选 中 “j
obc
at”,
单 击“OK”按钮。 结果管 理窗口 会出现 如表 1.2所示 结果。

图 1.10 利 用对 话框 方式 进行频 数表 分析

表 1.2 Empl
oymentCate
gor

这里 使用到 了 SPSS中的对 话框,现在以 图 1.


10所示的 对话框 为例对 其作一 简要介 绍:
(1)列表框 :上面共 有两个 ,左边 列表为 待选变 量 (包含当 前数据 文 件中 的 可分析 变量 或指
定 变量集 )列表,右 边列表 为 分析 变 量 列表 。 为 变 量 移 动 按 钮,用 于将 变 量 在 “待选 ”和 “分
析 ”列表中 移动。
(2)5个 标准按 钮:几乎 在任何 对话框 中均可 见到,OK、Cance
l、Hel
p的含 义非 常明 确,不再
赘 述;Res
et会将 对话框 恢复为 默认状 态;Pas
te则 会将对 话框中 的 选择 自动 转化 为 相应 的程 序语
句 ,详述参 见后面 相关章 节。
(3)其他按 钮和选 项:根据 具体功 能,不 同的对 话 框还 会 出现 一 些 特殊 的 按钮,如 本例 中最
下 方有三 个按钮 ,单击“St
at
ist
ic”按 钮会 弹出 有关 “统 计 量”指定 的子 对话 框,单 击 “Char
ts”按 钮
弹 出有关 “图形”指 定的子 对 话 框,单 击“Fo
rma
t”按 钮 则会 弹 出 有 关 “表 格格 式 ”指 定 的 子对 话
框。

2.程序方 式

上文 中提到 对话框 中有一 个“Pa


ste”按 钮,可 以将相 应的操 作 转化 为所 对应 的 SPSS程序,事
实 上,对话 框可以 被看成 是对后 台 SPSS程序 的打包 调用,如 果将上 文所做 的分析 使用 SPSS程序
方 式来分 析,则应 当在 Sy
ntax编 辑窗口 中键入 以下程 序:
   g
etf
il
e= C:\
pro
gram f
il
es\s
pss\
empl
oyeedat
a.s
av.
   f
requenc
iesva
ria
ble
s=j
obcat/
Order= Anal
ysi
s.
只需 要选择 菜单 Run→Al
l,运行该 程序也 一样会 出现相 同的分 析结果 。
        12 第 1章  数据 分析概 述与软 件入门

对于 数据不 断更新 而 分 析工 作 基 本相 同 的分 析 人 员,将 常 用 的 分 析 过 程 保 存 为 Synt


ax文
件 ,在日后 ,只要 在 Run和 Al
l之间轻 点鼠标 ,即可 轻松完 成繁琐 的工作 。无疑 ,这 是一 个一 劳永
逸 的办法 。

3.I
ncl
ude命令 方式

当编 写 Sy
nta
x程序时 ,如果 发现将 要 编 写的 程序 语 句 正 好是 另 一 个 Sy
nta
x文件 的 内 容;或
者 发现所 需的程 序语句 其实是 几个 Synt
ax文件 的总和 时,除了 可 以通 过 “Copy”、“Pas
te”的 方法
来 利用原 有的资 源,生成 一个新 的 Synt
ax文件 外,还有 一种更 简单的 办法,那就是 使用 I
ncl
ude命
令 。例如 ,上面的 程序如 果 把它 保 存 为文 件:C:\
synt
axs
ampl
e.s
ps,则 以后 使 用 时只 需 要 用下 面
的 一句命 令即可 等同于 上面的 整个文 件:
   I
ncl
ude C:\
synt
axs
ampl
e.sps.
在 Synt
ax编辑 窗口中 键入上 面所示 的 I
ncl
ude语 句,运行 后的结 果和前 面相同 。

4.SPSSProduct
ionFaci
li
ty方 式

在 Wi
ndows的 程序菜 单中,SPSS菜单 组 除了有 “SPSSf
orWi
ndo
ws”项之 外,还有 一 个“SPSS
Pr
oduct
io
nFac
il
it
y”。这是 SPSS提供的 运行分 析的另 一种 方法 ,实际 上 是对 SPSS作了 一个 简单
的 开发,让 相应的 SPSS程序在 系统后 台运行 ,直至运 行完毕 后才提 示用户 阅读结 束,用户 在这期
间 可同步 进行其 他工作 ,从而提 高了 工 作 效率。 它利 用 的 机制 实 质上 也是 SPSSSynt
ax,但除 此
之 外,它还 可以通 过 SPSS宏而 更改 SPSSSynt
ax中 的文件 名和变 量名或 其他参 数,使得 Synt
ax的
应 用更加 灵活。
例如 现在希 望 使用这 种方式 分析上 面 的问题 ,则需 要 利用 文 件 s
ynt
axs
ampl
e.s
ps来 进行,打
开 SPSSPr
oduct
ionFac
il
it
y,如图 1.11所 示,随 后的步 骤如下 :

图 1.
11 “SPSSPr
oduc
tionFaci
li
ty”的操 作界 面
1.2 SPSS操作 入门  13      

(1)单击 Synt
ax框下 方的“Add”按钮,到 C盘根 目录下 打开“sy
nta
xsampl
e.s
ps”。
(2)单击“Edi
t”按 钮,对 该 程 序 进 行 编 辑。 用 @ f
il
e代 替 C:\pr
ogr
amf
il
es\s
pss\Empl
oyee
dat
a.s
av,用@var代替 j
obc
at,保 存后关 闭。
(3)单击右 下角的 “Us
erPr
ompt
s”按钮,添加对 程序的 交互分 析界面 ,如图 1.12所 示。

图 1.12  “Use
rPr
ompt
s”对话 框的 设 定

(4)单击“Br
ows
e”按钮指 定结果 保存路 径,单击 “Expor
tOpt
io
ns”按钮 还 可以 指定 结果 保存
格 式。
这样 便完成 了 一 个 小 工 程 的 设 定。 可 以 单 击 Fi
le→ Sav
e,保 存 该 工 程 为 SPSSJo
bsampl
e.

pp。   
下面 来运行 该工程 。单击 Run→ Pr
oduc
ti
onJob,即出 现如图 1.13所 示的对 话框。 可以 按默
认 的指定 去运行 该工程 ,直接单 击“OK”按钮 ,则相应 程序会 自动转 入系统 后台运 行,运行 完毕后
会 在 指定路 径下 生 成 结果文 件 SPSSJo
bsampl
e.s
po。 当然 也 可 以重新 指定 文 件和 变量 名来 运行
该 工程,这 样就可 以实现 对任何 数据中 任何变 量的频 数分析 了。

图 1.13 SPSSPr
oduct
ion运行 时弹 出的对 话框

1.2.4 SPSS的 4种结果 输出

作为 功能强 大的统 计分析 工具,为 了能够 使得分 析结果 更为美 观易读 ,更好 地满足用 户的需
        14 第 1章  数据 分析概 述与软 件入门

求 ,SPSS一共 提供了 4种格 式的统 计分析 结果:表 格、文 本、标准 图和交 互图。

1.表格格 式

SPSS可以 绘制表 格用于 表述数 据,除 此之外 ,大部分 分析结 果也 都 以专用 表格的 形 式展示 ,
如 图 1.14所 示。 这 些 表 可 能 是 二 维表 ,也 可 能 是 多 维 表。 二维 表、多 维 表都 可 以 作 为 “SPSS
Pi
votTabl
e”对象而 粘贴到 其他应 用 程序 (如 Wor
d、Po
wer
Poi
nt、Exce
l)中,并 且 依然 利 用 SPSS对
这 些表格 进行编 辑。SPSS的 制表功 能非常 强大,能 很好地 满 足 用户 各种情 况 下 的需 求 ,详见 第
6、7两 章。

图 1.
14 SPSS结 果格 式之 一——— 表格 格式

2.文本格 式

对于 一些不 便于用 表格和 图形表 达 的结 果 ,SPSS提供 了 文 本 格 式 的结 果 ,如 图 1.15所示 。


随 着版本 的增加 ,SPSS中的 文本输 出 已经越 来越 少 了,例如 在 12版 本 中,现 在 只有 对 数 线性 模
型 和 Ar
ima模型 进行变 量筛选 时还使 用文本 输出。 实际上 ,这里 的文本 输出并 非简单 的 纯文本 ,

图 1.
15 SPSS结 果格 式之 一——— 文本 格式
1.2 SPSS操作 入门  15      

而 是与 Of
fi
ce家 族软件 完全兼 容的 r
tf格式 ,这些 文字可 以随意 进行拷 贝粘贴 、格式设 定等操 作。

3.标准图 与交互 图

利用 图形来 展示数 据,也是 在数据 分析中 必不可 少的。 SPSS提供 了 两种类 型的图 形。 一种
是 普通图 ,在 SPSS的手册 中称为 “标准图 ”如 图 1.16所示 ;另 一种 为 “交互图 ”如图 1.17所示 。
标 准图是 在 Gr
aphs菜 单下直 接单 击 图 形生 成 的,而交 互图 是 在 Gr
aphs→ I
nter
act
ive下 单 击图 形
生 成的。 与交互 图相比 ,标准图 生成速 度快,已经可 以 满足 大 部分 统 计 绘图 的 需求,但 可编 辑能
力 要弱于 交互图 ;而交互 图对系 统硬件 环境要 求更高 ,但可 绘制的 图形种 类更多 ,编辑功 能更强 ,
尤 其值得 指出的 是,交互 图可以 生成实 时旋转 的动态 三维图 。所以 标准图 适用于 理解数 据,而交
互 图更适 合在报 告演示 中应用 。对交 互图和 标准图 的详细 介绍参 见本书 第 8、9章。

图 1.16  SPSS结果 格式 之 一———标 准图 格 式

图 1.17  SPSS结果 格式 之 一———交 互图 格 式


        16 第 1章  数据 分析概 述与软 件入门

4.结果的 保存和 导出

SPSS的分 析结果 可以保 存为 SPSS自 身的格 式:“.s


po”格式 (从 结果编 辑窗口 的“Fi
le”直接
点 击“Save”即可 ),但除此 之外,还可 以使 用导 出 功 能存 为 另外 几种 常用 的 格 式,具 体 有 以下 几
种 格式可 供选择 :HTML格式 、Wor
d格式 、Exc
el格式和 Text格式 。具体 操作是 :在 结果 窗口 选择
菜 单 Fi
le→Expo
rtOut
put
,出现 如图 1.18所 示的 对 话框。 对 话 框最 上 方的 Ex
por
t下拉 列表 用于
选 择导出 的内容 ;右下角 的 Fi
leTy
pe下拉 列表则 用于选 择导出 格式(Expor
tFor
mat
),为上 述 4种
格 式;中部 的 Fi
le框用于 设定导 出文件 的路径 和 名称 ;而左 下 角 的 Ex
por
tWhat框 组则 用于 选择
希 望导出 的内容 。另外 ,对于标 准图或 交互图 可以保 存为常 见的图 形格式 ,如 bmp、j
pg等常 见格
式 。只需 要在 Ex
por
tOut
put对话 框中选 择 Ex
por
t:Char
tsonl
y,在 Fi
leType中选择 图形格 式即可 。

图 1.18  SPSS结 果 的导出选 项

如果 只想保 存或导 出部分 结果,只 要先选 中该结 果,然 后在图 1.18的 Expo
rtWha
t框中 选择
“Sel
ect
edObj
ect
s”即 可。
除了 可以保 存结果 之外,还 可以将 结果 直 接通 过 “Copy”、“Pas
te”应 用到 其 他软 件 中。 对于
SPSS表 格、交 互图,还 可以将 它们作 为“Obj
ect
”粘贴到 其 他应 用程序 中 。这 样 做有 一个 好处:粘
贴 后仍可 利用 SPSS提供 的功能 进行编 辑。具 体 操作 是:在“开 始 ”菜单 “运 行”程 序 文 件:obj
ect

on.bat
(此文件 在 SPSS安装 目录下 )。随后 在应用 程序中 粘贴图 表时均 使用“选 择性粘贴 —SPSS
Pi
votTabl
e控 件或 SPSSI
nte
rac
tiveGr
aph控件 ”即可。

1.2.5 SPSS的 帮助系 统

SPSS提供 了无处 不在的 “帮助”功 能,可 以随时 随地为 不同层 次的用 户提供 帮助。 其帮 助功
能 主要包 括学习 向导、帮 助 菜 单、对 话框 帮 助 和语 法 手 册 四 大类 。 事 实 上 ,国 内 有 相当 一 部 分
SPSS教 材都是 在翻译 或引用 SPSS完整而 详细的 帮助内 容,那么 绕过这 些翻译 ,直 接来 见识 一下
原 汁原味 的“帮助 ”功能吧 。
1.2 SPSS操作 入门  17      

1.学习向 导

SPSS为初 学者提 供了非 常完整 和 系统 的自学 向 导,它 相 当于 一 个 手把 手 的 教练 ,浅 显易 懂


地 告诉用 户各种 基本的 统计分 析 问题 在 SPSS中 是 如何 实 现的。 SPSS中 的学 习向导 有 几 种,分
述 如下:
(1)St
ati
sti
csCoach:对 于需要 新手紧 急完成 的一 些 常用 统计 分析 操 作,SPSS提供 了统 计教
练 功能,它 可以告 诉用户 为达到 分析目 的应选 择什么 统计方 法,并 一步步 地指导 用户如何 进行统
计 分析。 该模块 实际上 是 一个 编 译 好 的交 互式 网 页 ,使 用起 来 非常 舒 服。St
ati
st
ic
sCoa
ch位 于
Hel
p菜单中 ,选择 Hel
p→St
ati
st
icsCo
ach即 可进入 ,图 1.
19即为 统计教 练的一 个界面 。

图 1.19 统 计教 练的 界面

(2)Tut
ori
al:同样为 初学者 提供,是 关于某 个主题 的一步 步指导 。 以示 例 化、图形 化的 方式
告 诉用户 如何使 用这个 软件。 初学者 可 以 通过 该教 程掌 握 SPSS的 几乎 全 部常 用 操 作 (数据 的
输 入、分析 和绘图 )。Tut
ori
al模块位 于 Hel
p菜 单中 ,选 择 He
lp→ Tut
ori
al即 可 进 入,起 始 界面 为
一 个目录 列表,即 所有教 程内容 的索引 ,用户 可在里 面选择 需要阅 读的主 题,如果 对 SPSS完全不
熟 悉,则可 以从最 上面 的 I
ntr
oduct
ion开 始,它 提 供了 使 用 SPSS的 一 些 最 基 本 的 操 作 教程。 图
1.20为 Tut
ori
al在 演示如 何编辑 表格。

图 1.20  Tut
ori
al在演示 如何 编 辑表 格
        18 第 1章  数据 分析概 述与软 件入门

(3)Res
ult
sCoac
h:是 关于结 果的解 释(参见 图 1.21)。 在结果 窗口中 ,只要 对相应的 输出含
义 不太清 楚,即可 选中该 输出,并 右 击鼠 标,右键 菜 单上 会 有 Res
ult
sCo
ach选 项,它 可 以 链接 到
相 应的向 导界面 ,详细地 对该过 程的功 能和结 果加以 讲解。 但需要 注意的 是,对 于少数统 计上比
较 复杂,难 以解释 清楚的 方法,SPSS没有提 供。

图 1.
21 Res
ultCoach在 解 释频 数表

(4)Cas
eSt
udi
es:上 述三个 向导多 少都 有一 些 入门 和救急 的 味 道,对 于希 望 系 统 学习 SPSS
中 统计功 能的用 户而言 ,就可以 使用 Ca
seSt
udi
es这 一 详 细 的案 例 向 导。 用 户选 择 菜 单 项 He
lp
→ Ca
seSt
udi
es即可进 入,如 图 1.22所示,它为 中级 用户提 供了 SPSS各 模块 的 主要 分 析 方法 的
基 本操作 和结果 解释。 其讲解 方式也 是示例 化、图形 化 的。 只 要大家 的英 文 水平 和统 计功 底尚
可 ,实际上 可以通 过 该向 导 掌握 绝 大多 数 的 SPSS基 本 操 作,从 而 避 免了 到 处 寻 找 一本 优 秀 的
SPSS入 门教材 的痛苦 。

图 1.22 Cas
eSt
udy在演 示 Means过程

2.帮助菜 单

SPSS的帮 助文件 就是一 个标准 的 Wi


ndo
ws帮 助文件 ,在菜 单 上选择 Hel
p→Topi
cs进 入。在
使 用上没 有太多 特殊的 地方,主 要也是 通过目 录和索 引两种 方式查 找所需 的内容 。
1.2 SPSS操作 入门  19      

(1)目录树 方式:目 录树像 一本电 子书的 目录一 样,将 所 有主 题 分 成了 一 个树 状结 构,如图


1.23所示。 只要循 着该目 录的各 级分支 ,最终总 能找到 所需的 内容。 用户可 以在“目 录”表 中浏
览 用户手 册从而 学习 SPSS的使 用。从 左边选 择一个 主 题,如 “Howt
ore
adEx
cel5orl
ater
?”,右
边 内容区 即显示 此部分 内容。

图 1.23  SPSS帮 助主 题

(2)索引方 式:目录 树的结 构比较 完整,但使用 上 要求 用 户首 先 要 熟悉 分 类,而且 要一 层层


找 下去,如 果知道 希望查 找的关 键词,用户就 可以在 “索引”表 中 键入 关 键词,系 统 会在 其左 边的
索 引栏中 寻找与 键入词 完全匹 配的内 容。如 在索引 栏中键 入“Fr
equency”,左边 的 索引 栏的 第一
行 即显示 “Fr
equency”,双击 并选择 其中 一个 表,即可 出 现内 容。而 当 关键 词 不 确定 时 也 可以 通
过 “搜索”表 查询相 关内容 。在“搜 索”栏中 键 入待 搜 索内容 ,单击 “列 出主题 ”,下 边即 列出 包含
该 搜索内 容的所 有主题 。

3.对话框 帮助

SPSS的界 面做得 非常友 好,对 话框 界面 中 到处 都是帮 助 功 能。 首先,在 所 有主 对 话 框或 子


对 话框中 都会 有 Hel
p按 钮,单击 Hel
p后系统 会 弹出相 应 的帮 助 内容 ,用于解 释各个选 项、框组
的 作用是 什么。 除这种 标准的 帮助以 外,任何 时候如 果对某 个选项 的功能 不太熟 悉,则可 以直接
在 该选项 框上方 单击鼠 标右键 ,就会立 刻弹 出 相 应的 解 释(见图 1.24),注 意 此处 的帮 助内 容并
非 Hel
p菜单中 相应内 容的重 复,一般 来说要 更详细 些。

图 1.24  SPSS中 的 对话框帮 助


        20 第 1章  数据 分析概 述与软 件入门

4.语法手 册

当大 家对 SPSS的熟 悉达到 一定程 度时,就会发 现 许多 操 作使 用 对 话框 来 做非 常麻 烦,甚至


无 法用对 话框来 实现。 实际上 ,至 少有 20% 的高级 功能 是 必须 使用 程序 方 式 才 能实 现 的,而 且
使 用编程 方式来 完成相 同的工 作时,操 作效率 也要高 得多。 由于目 前国内 几乎没 有对 SPSS编程
加 以深入 讲解的 资料,此 时可以 直接参 考 SPSS附带的 语法指 南。 在 SPSS的 安装 文件 中都 附送
了 所有模 块语法 指南书 的 PDF格式 文档,这是 SPSS官方 提供的 最为 权 威的使 用指导,学会 如何
使 用它,是 最有效 的 学 习 SPSS的 方 法。语 法 指 南 的调 用 非 常 简 单,只 要 选 择 Hel
p→ Command
Synt
axRef
ere
nce,就会 自动打 开相应 的 PDF文 档。该 文档自 带一个 目录树 ,通过 它就可以 查找到
希 望学习 的 SPSS过程名 称,从 而进行 深入的 学习。


.3 数据分析概述

1.3.1 数据分 析 方法论介 绍

任何 一个数 据分析 项目,如 果按照 整个分 析过程 的流程 结构来 看,都 可以被 分解为大 致 7个
阶 段:计划 阶段、数据收 集、数据 获取、数据准 备、数据 分析、结果报 告和模 型发布 阶段。下 面就来
对 这 7个 阶段做 一下简 单的探 讨。
(1)计划阶 段。在 分析项 目的初 始阶段 ,需要花 费大量 的时间 来设计 分析计 划,以减 少盲目
分 析,避免 资源浪 费。在 该阶段 ,要对 数据分 析的各 个 行动 步 骤作 好 规 划,主 要任 务是 弄清 楚以
下 几个问 题:
① 确定研 究问题 。从研 究分析 开始,就确立 明确的 分析目 标是非 常 重要的 。 它可 以帮 助用
户 合理地 计划人 员、时间 、资源 分配,并 能指导 用户集 中精力 于研究 性分析 。
② 建立项 目预算 。
③ 确定研 究范围 即确定 研究总 体和个 体。
④ 确定样 本的抽 取方法 。
⑤ 分析评 估所需 样本量 。
⑥ 确定数 据收集 方式。
⑦ 确定与 研究问 题相关 的数据 即确定 应该收 集个体 的哪些 数据。
⑧ 确定研 究问题 的分析 方法和 分析工 具。
(2)数据收 集阶段 。如果 手头已 经有现 成的数 据 ,就可 以 不必 再 进 行数 据 收集。 数据 收集
的 目标、方 式完全 取决于 在 上 一 步 中所 制 定 的计 划 。数 据 收集 方式 有很 多 种,可以 是 电 话式 访
问 ,可以是 面谈式 收集,也可以 是拦截 式访问 。如果 是 从头 进 行数 据 收 集,则 应当 有一 份标 准问
卷 ,问题的 设计不 仅要相 关,还 要能够 从中得 出有意 义的结 论。
(3)数据获 取阶段 。该阶 段的目 的是将 分散的 、原始格 式各不 相同的 数据读 入分析 工具中 ,
1.3 数 据分析 概述  21      

使 分析工 具可以 对数据 进行分 析。


(4)数据准 备阶段 。该阶 段的主 要任务 是:
① 清理数 据以保 证数据 的准确 性。数 据准确 性是数 据分析 结果正 确的最 基本的 前提条 件。
② 对数据 进行必 要的转 换。如 生成 一 些 新的 字 段以 供 分 析;将 连续 字段 离散化 ;将 字符 型
字 段数值 化等。 目的是 将数据 结构转 换成合 适的形 式。
③ 填充缺 失数据 。对各 种缺失 字段,利用适 当的方 法进行 填补。
④ 对数据 进行合 并、汇 总等。 将数据 文件进 行合并 ,将个体 数据进 行汇总 ,生成 各组数据 。
(5)数据分 析阶段 。利用 各种数 据分析 方法对 数 据 进行 分析,得 出 结论 。数 据分 析阶 段又
可 以分为 几个部 分:
① 预分析 :包 括概 括 性统 计描 述和 探索 性 统计 推 断两部 分 ,前者 是使 用统 计 图和 统计 表对
数 据进行 更好地 理解,而 后者则 基于对 数据的 理解开 始尝试 进行分 析,以 寻找最 终分析模 型的雏
形 。具体 使用的 方法可 以是单 因素分 析,也可 以是简 单的多 因素分 析。
② 精确分 析:基 于上一 步得到 的各种 信息,开 始尝试 拟合最 佳的统 计模型 ,以 寻求 对数 据中
所 蕴含信 息最完 美的解 释。完 成这一 部分的 工作往 往 需要 统 计知 识 和 专业 知 识互 相补 充,而所
使 用的统 计方法 一般都 是多变 量方法 ,甚至是 多元统 计分析 方法。
(6)结果报 告阶段 。结果 报告的 目的是 将整个 数据分 析项目 的结果 以一种 非学术化 的方式
表 达出来 ,使得决 策者(报 告的阅 读者 )能 够 快速 理 解,并 基 于此 分 析 结 果做 出决 策。 报 告可 以
是 文本文 档、表格 、图形 或者是 网页。
(7)模型发 布阶段 。结果 报告仅 仅是对 基于历 史 数据 所 建立 的 模 型加 以 阐述,当 需要 利用
该 模型进 行预测 时,具体 的做法 可以是 在分析 软件中 加以预 测,也 可以将 生成的 模型编译 成单独
运 行的控 件或程 序,将其 模型整 合到应 用平台 中去。 该阶段 的目标 是将分 析阶段 得到的 模型、信
息 和知识 带给机 构决策 者以便 他们能 为机构 做出更 好的未 来规划 。
在大 多数分 析过程 中,不一 定会经 历所有 的这 7步。例 如 ,根 据 分 析的 目 的,所需 的数 据仅
是 日常工 作产生 的交易 数据,那 么就不 必再经 历 “数 据 收 集”阶 段 ,而是 直 接 进入 “数 据 获取 ”阶
段 。另外 ,各阶段 之间可 能交叉 进行。 例如,有 时在 对 原 始 数据 进 行 分析 之 后,即 进 入了 “数 据
分 析”阶段 ,突然发 现其他 数据 也 是 分析 必 需的,所 以不 得 不重 新 返 回“数 据 收集 ”阶段 。 又如 ,
在 “数据分 析”阶段 中发现 某个字 段因其 格式不 能参与 分析,所 以就需 要再进 行“数 据 准备”阶段
所 做的工 作。
在一 个数据 分析项 目结束 后,可能 因该项 目中的 新发现 和对数 据的新 的理解 ,从而引 发一个
新 数据分 析项目 。

1.3.2 SPSS系 列产品 对数据分析 流程的 支 持

作为 一家信 息统计 决策支 持服务 的提供 商,SPSS公 司在以 上涉及 的各 个数 据 分析 阶段 均有


相 应的 产品 与 其对 应 。 例如 ,在计 划 阶 段 可 以 用 Sampl
ePo
wer来计 算 样 本量 ,用 SPSSCompl
ex
Sampl
e模块 设定样 本抽取 计划,甚至直 接 抽取 样 本;数据 收集 阶段 可 以用 SPSSDa
taEnt
ry来 进
行 问卷设 计及 数据 网络 录 入工 作 ;数 据准 备 阶段 可以 用 SPSSBa
se和 Mi
ssi
ngVal
ue等 对数 据进
行 必要的 整理和 修补工 作;数据 分析阶 段是 SPSS产品 的核心 功 能,多 个 SPSS模块 和 SPSS独立
        22 第 1章  数据 分析概 述与软 件入门

软 件为数 据分析 提供了 各种统 计分析 方法和 数据挖 掘方法 。而 SPSS软件 提供的 统计图 、统计报
表 功能和 结果输 出功能 则可以 很好地 支持结 果报 告阶 段 的需 求。总 之,以 上 提到 的各 阶段 均可
以 从 SPSS公司的 产品线 中获得 支持。 而 SPSS软件本 身 则作 为 一个 核 心平 台 ,在 整个 数据 分析
流 程中起 着关键 的作用 。

1.3.3 本书内 容 介绍

本书 将以上 述数据 分析的 7个阶 段为主 线来组 织内容 。在本 书的第 2章详 细介绍了 各种格
式 的数据 如何读 入 SPSS中,即 数据获 取阶段 的内 容;第 3章 介 绍了 数 据 转换 、合并、汇 总等 各种
数 据准备 问题;第 4、5章 介绍了 数据分 析的最 初 阶段 ,即描 述 性 统计 分 析;第 6章 ~第 9章 介绍
了 各种表 格、图形 的制作 ,而表 格、图形 正是分 析报告 阶段的 必需品 ;第 10章 ~第 15章 讲述 数据
分 析的初 级 内 容,即 推 断 性 统 计 分 析 的 部 分 方 法。 更 复 杂 的 统 计 分 析 方 法 将 在 本 套 丛 书 的
《SPSS统 计分析 高级教 程》中讲 解。至 于计划 阶段、数 据收集 阶段、结 果发 布 阶段 等往 往因 为会
涉 及具体 的行业 应用,不 应当是 统计教 程的讲 解内容 ,所以 在基础 教程和 高级教 程中都不 会有太
多 介绍,但 将会在 本丛书 的其他 行业应 用分册 中涉及 ,感兴 趣的读 者可参 考这些 分册中的 相关内
容。

思考与练习

1.试检查 自己的 SPSS软 件共有 几个模 块,其 中包括 了哪些 功能,并 思考平 时 的统 计分 析究
竟 要哪些 模块才 能够满 足需求 。
2.尝试使 用本章 所介绍 的 4种 方 法来使 用 SPSS进行书 中 例题的 分析,并 体会 这 4种 方法
各 自的优 缺点。

参考文献

1 TheBas
ics
:SPSSf
orWi
ndo
ws10.0.SPSSI
nc.Chi
cago,I
ll
inoi
s,1999
2 Pr
ogr
ammi
ngwi
th SPSSSynt
axandMa
cro
s(v
10.0Re
vis
ed).SPSSI
nc.Chi
cago,I
ll
inoi
s,
1999
3 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002
2.1 数 据格式 概述  23      

第 章 数据录入与数据获取
数据 是统计 研究的 基础,如 果没有 数据,分析也 就 无 从谈 起。用 于 分析 的 数据 资料 有两种 ,
一 种是原 始资料 ,如调查 问卷中 的数据 需要将 它们录 入进 SPSS软 件,建立 数据文 件;另一 种是已
经 被录入 为其他 数据格 式的资 料,需要 将其内 容直接 读入 SPSS中 。
针对 上述的 两种情 况,这一 章将主 要介绍 两 个问 题,即如 何将 数 据 录入进 SPSS中 以及 如何
将 其他格 式的数 据读进 SPSS中 。对于 第一个 问题,根据问 题类型 的不同 ,将会从 开放题 、单选题
和 多选题 的 录 入方 式为例 进 行 介绍 ;对 于第 二 个问 题 ,则重 点 介绍 如 何 用 SPSS直接 读 取 Exce

类 型和文 本格式 的数据 ,以及如 何通过 ODBC接口读 取数据 库文件 。良好 的开始 是成功 的一半 ,
录 入或者 读入数 据是数 据分析 的第一 步工作 ,其重要 性是不 言而喻 的。


.1 数据格式概述

2.1.1 统计软 件 中数据的 录入格式

统计 软件中 数据的 录入格 式和大 家平时 记录数 据用的 格式不 太 相同,SPSS所 使用 的数 据格


式 也遵守 这些基 本的格 式要求 ,大致的 原则如 下:
(1)不同观 察对象 的数据 不能在 同一条 记录中 出现,即 同一观 测数据 应当独 占一行 。
(2)每一个 测量指 标或影 响因素 只能占 据一列 的 位置,即 同一个 指标 的 测量 数值 都应 当录
入 到同一 个变量 中去。
有时 分析方 法会对 数据格 式有特 别的要 求,此 时 可能 会 违反“一 个 观测 占 一行,一 个变 量占
一 列”的原 则。这 种 情况 在 配对 数 据 和 重 复测 量 数 据中 最 多见 。 这是 因 为 根据 分 析模 型 的 要
求 ,需要将 同一个 观察对 象的某 个观察 指标的 不同次 测量看 成不同 的指标 ,因此 被录入成 了不同
的 变量,这 是允许 的。但 对于统 计的初 学者而 言,最 好能够 严格遵 守以上 规则。 而且无论 表现格
式 怎样,最 终的数 据集都 应当能 够包含 原始数 据的所 有信息 。

2.1.2 变量属 性 介绍

数据 录入就 是要把 每个被 访者的 每个指 标值录 入 到 软件 中。在 录 入数 据 时,大致 可归 纳为


“数 据录入 三步曲 ”:定义各 变量 名 ,即给 每 个指 标 起 个名字 ;指 定每 个变 量 的 各 种属 性 ,即对 每
个 指标的 一些统 计特性 做出指 定;录入 数据,即把每 个被访 者的各 指标取 值录入 为电子格 式。因
此 这里首 先介绍 一下变 量的各 种属性 问题。
        24 第 2章  数据 录入与 数据获 取

任何 一个变 量显然 都应当 有变量 名与之 对应,但 为了进 一步满 足统计 分析的 需要,除 变量名
外 ,统计软 件中还 往 往 对 每 一 个变 量 定 义许 多 附加 的 变量 属 性 ,如 变 量 类 型 (Type)、变量 宽 度
(Wi
dth)、小 数位(Deci
mal
)等。 在上 一 章 所讲 解 的数 据 管理 窗 口 的变 量 视 图中 ,可 以 看到 SPSS
会 为每一 个变量 指定 10种变量 属性,但这里 将重点 介 绍变 量 类型 和 测 量尺 度 这两 个属 性,对于
其 他的一 些属性 ,比如变 量标签 和缺失 值等,会给出 简单介 绍,至于 像变量 列格式 、变量对 齐方式
这 样的属 性,不用 说,根 据字面 意思,大 家也能 理解其 内涵。

1.变量的 存储类 型

SPSS中,变量有 三种基 本的类 型,分别 是:数 值型、字 符型和 日 期型 。根据 不同的 显 示方式 ,
数 值型又 被细 分为 了 5种 ,所以 SPSS中的 变量类 型 共有 8种。
Type项用于 设 定变 量 类 型,选 择 Type单元 格时 右侧 会 出 现 形
如 的按钮 ,单击 会弹 出变量 类型对 话框,如 图 2.1所示。
在以 上三大 类 变量 类 型 中,数 值 型 是 SPSS中 最 常 用 的 变
量 类型。 数值 型的 数 据是 由 0~9的阿 拉 伯数字 和 其他 特 殊符
图 2.
1  变 量类 型对 话框
号 ,如美元 符 号、逗 号或 圆 点 组 成 的。 如 工 资 、年 龄、成 绩 等 变
量 都可定 义为数 值型数 据。数 值型数 据根据 内容和 显 示方式 的不同 ,又可 分 为标准 数值 型(Nu-
mer
ic)、逗号数 值型(Comma)、圆点数 值型(Dot
)、科 学计数 法型(Sci
ent
if
icNot
ati
on)、美 元数 值型
(Do
llar
)、用 户自定 义型(Cus
tomCur
rency)共 6种不 同的表 示方法 。每种 方法的 用法根据 名称的
字 面含义 也可以 猜得出 来,这里 不再赘 述。
字符 型数据 类型也 是 SPSS较常用 的数据 类型,字 符型 数 据 的默 认 显示 宽 度为 8个 字符位 ,
它 区分大 小写字 母,并且 不能进 行数学 运算。 字 符型 数 据在 SPSS的 数据处 理 过程(如 在计 算生
成 新变量 时)中是 用一对 引号引 起 来的。 需要 注 意 的 是,在 输 入 数 据 时不 应 输 入引 号 ,否 则,双
引 号将会 作为字 符型数 据的一 部分。
日期 型数据 是用来 表示日 期或时 间的。 日期型 数据的 显示格 式 有很多 ,SPSS以菜 单的 方式
列 出日期 型数据 的显示 格式以 供用户 选择。 但事实 上,SPSS中 的日期 型变 量存 储 的是 该时 间与
1582年 10月 14日 零点相 差的秒 数,如 1582年 10月 15日存 储的 就是 60×60×24=86400,大
家 将变量 类型变 换为数 值型就 可以看 到。但 是这里 只能存 储正数 ,即 1582年 10月 14日及 更早
时 间在 SPSS中是 无效的 。日期 型数据 主要在 时间序 列分析 中比较 有用,在较为 简单的分 析问题
中 完全可 以用普 通数值 型数据 来代替 。

2.变量的 测量尺 度

如果 只使用 变量类 型 ,很 多时 候 并 不能 准 确地 说 明变 量 的 含义 和 属 性。 比 如 说,变 量 “性


别 ”,用 1代 表男,2代 表女。 在这里 ,
1和 2只 是一个 符号,没 有任何 数 字意 义。2并不 比 1大,1
也 并不比 2小。 变量“足 球的喜 欢 程 度”,用 1表示 “非 常 喜 欢”,2表 示 “喜 欢 ”,3表 示“一 般 ”
等 ,1和 2虽 然也是 符号,但 这里有 顺序之 分了,1就 是比 2喜欢的 程度更 高。如 果以更 喜欢 为高
分 ,那么 1就比 2大。大 多少? 不知道 ,无法 衡量。 再有一 个变量 “薪水”,1和 2就是 有 区别的 ,
2就是 比 1多 ,多多 少?多 1。 同样都 是 1和 2,都是 数值型 变量,但 是它们 的含义 不同,适 用的统
2.1 数 据格式 概述  25      

计 方法也 不同。 如果只 以变量 类型来 说明这 个变量 的 属性,就 不能区 分出 这 三 个变量 的值 1和
2彼此 的区别 。为了 区分这 三类数 字,就有 了变量 测量尺 度这个 属性。
在 SPSS中使 用 Mea
sur
e属性对 变量的 测量尺 度进行 定义。 在统计 学中,按 照 对事 物描 述的
精 确程度 ,将所采 用的测 量尺度 从低级 到高级 分为 4个层次 :定类 尺度、定 序尺度 、定距尺 度和定
比 尺度。
(1)定类尺 度(No
minalMe
asur
ement
):定 类尺度 是对事 物的类 别或属 性的一 种测度 ,按照事
物 的某种 属性对 其进行 分类或 分组。 定类变 量的特 点 是其 值 仅代 表 了 事物 的 类别 和属 性,仅能
测 度类别 差异,不 能比较 各类之 间的大 小,所 以各类 之间没 有顺序 或等级 。通常 定类尺度 的变量
又 被称为 无序分 类变量 ,如性别 可取值 为“男”、“女”,就是 一个定 类尺度 的变量 。 对定 类尺 度的
变 量只能 计算频 数和频 率,如在 所有客 户中,男性有 多少人 ,占总人 数的百 分率是 多少。
在 SPSS中,能使用 定类尺 度的数 据可以 是数 值型 ,也可 以 是字 符 型 变量 。使 用定 类变 量对
事 物进行 分类时 ,必须符 合穷尽 和互斥 的原则 。穷 尽 的原 则 就 是指每 个个 体 都必 须能 归为 一个
类 别,互斥 的原则 是指每 个个体 都只能 归为一 个类别 。
(2)定序尺 度(Or
dinalMe
asur
eme
nt):定序 尺度是 对 事物 之间 等级 或 顺序 差别 的一 种测度 ,
可 以比较 优劣或 排序。 定序变 量又被 称为有 序分类 变量,它 比定类 变量的 信息量 多一些 ,不仅含
有 类别的 信息,还 包含了 次序的 信息;但是由 于定序 变 量只 是 测度 类 别 之间 的 顺序,无 法测 出类
别 之间的 准确差 值,即测 量数值 不代表 绝对的 数 量大 小,所 以 其计 量 结 果只 能 排序,不 能进 行算
术 运算。 定序变 量同定 类变量 一样,其 数据可 以是数 值型,也可以 是字符 型变量 。定序变 量除可
以 计算频 率之外 ,还可 以 计 算 累计 频率。 如 足 球喜 欢程 度 这 一变 量 的取 值 有 :1——— 非 常 喜欢 ,
2———喜欢 ,3——— 无所谓 ,4——— 不喜欢 ,5——— 非常不 喜欢,这是一 个定序 尺度的 变量。 对它 就可
以 计算累 计频数 和累计 频率。 如对 “足球 喜欢程 度”,不 仅 可以 计算 喜欢 的 人 数 和比 例 有 多少 ,
还 可以计 算喜欢 及非常 喜欢的 累计人 数和比 例有多 少。
(3)定距尺 度(I
nter
valMeas
urement
):定 距尺 度是 对事 物类 别 或 次 序之 间间 距的 测 度。定
距 变量的 特点是 其不仅 能将事 物区分 为不同 类型并 进 行排 序 ,而且可 准确 指 出类 别之 间的 差距
是 多少;定 距变量 通常以 自然或 物理单 位为计 量 尺度 ,因此 测 量结 果 往 往表 现 为数 值,所以 计量
结 果可以 进行加 减运算 。
(4)定比尺 度(Scal
eMe
asur
ement
):定 比尺 度 是能 够测 算两 个 测度 值之 间 比值 的 一 种计 量
尺 度,它的 测量结 果同定 距变量 一样也 表现为 数值,如 职 工月 收入,企 业 销售 额 等。其 与定 距变
量 的差别 在于有 一固定 的绝对 “零点”,而 定距 变 量则没 有,定距 变量 中 的“0”并不 表示 “没有 ”,
仅 仅是一 个测量 值,而定 比变量 中的“0”就 真正表 示“没有 ”。 比如 温 度,0℃ 只是 一个 普通 的温
度 ,并非没 有温度 ,因此 它只是 定距变 量,而体 重 则是 真 正的 定 比变 量 。定 比 变量 是测 量尺 度的
最 高水平 ,它除了 具有其 他三种 测量尺 度的全 部特点 外,还 具有可 计算两 个测度 值之间比 值的特
点 ,因此它 可进行 加、减 、乘、除 运算,而 定距变 量只可 进行加 减运算 。
SPSS中默 认的变 量测量 尺度就 是定比 尺度。 但 由于 后 两 种测 量 尺度 在 绝 大多 数 统 计分 析
中 没有本 质上的 差别,在 SPSS中就将 其合并 为一类 ,统称为 “Sca
le”测 量。
这三 种尺度 在许多 统计书 籍中会 有更为 通俗的 称呼:无 序分类 变量、有序分 类变量和 连续性
变 量。从 实用的 角度出 发,本书 将同时 采用这 两种命 名体系 。
在这 4种测 量尺度 之间,按 照信息 量的高 低,可 将高层 次测量 尺度的 测量结 果转换为 低层次
        26 第 2章  数据 录入与 数据获 取

测 量尺度 的测量 结果,但 这样会 损失一 部分信 息。不 能将 低 层 次的测 量尺 度 转换 为高 层次 测量


尺 度的结 果,这样 可能会 引入错 误的信 息。

3.变量名 与变量 值标签

除了 上边介 绍的变 量类型 和测量 尺度外 ,变 量的 其 他属 性 是不 是 就 没用 了 呢?回 答当 然是


否 定的。 其他的 属性仍 然 很重要 ,比如,Label项 用 于定 义 变量
名 标签,对 变量 名 的 含义 进 行进 一 步 解 释 说明 ,该 标 签 会 在 结
果 中输出 以方便 阅读,增 强变 量 名 的可视 性和 统 计分 析结 果的
可 读性。 另外,Val
ues项也是 一个不 得不提 的选项 ,用于定 义变
量 值标签 (见图 2.2),变 量 值标 签 是对 变 量取 值 含 义的 解 释说
明 信息。 例如对 于性别 数 据,假 设 用 1表 示男,用 2表示 女,如 图 2.2  变量 值标 签对 话 框

果 在录入 数据时 数据集 中没有 设定变 量值标 签,其他 人就很 难弄清 楚是 1表示男 还是 2表示男 。
因 此,变量 值标签 对于定 序变量 (如职称 )和 定类 变 量(如民 族、性别 )来说,是 必不 可少 的,它不
但 使定类 和定序 变量的 数据录 入变得 更加方 便,且明 确了数 据的含 义,也 同样增 强了分析 结果的
可 读性。
变量 值标签 对话框 上部的 两个文 本框分 别为变 量 值输 入 框和 变 量 值标 签 输入 框,分别 在其
中 输入“1”和 “男”,此 时下方 的 Add按 钮变黑 ,单 击它 ,该变 量 值标签 就会 被 加入 下方 的标 签框
内 。与此 类似定 义变量 值“2”为“女 ”,最后 单击 OK按 钮,变量 值标签 就 设置完 成。此 时做 任何
分 析,在结 果中都 有相应 的标 签 出 现。 如 果现 在 就 想 看效 果,切换 回 Dat
aVi
ew界面 ,然 后选 择
菜 单 Vi
ew→ Val
ueLabe
ls,就会 看到上 述结果 。
另外 ,SPSS在 12.0版本 以前,对于变 量名有 一个限 制,即要 求 变量 名限 制 在 8个 字 符之内 。
但 令人欣 喜的是 ,从 12.
0版本 开始,此 限制已 经被取 消,变 量名最 多可以 有 64个 字符。 当然,出
于 兼容性 的考虑 ,变量名 的定义 还有一 些限制 ,即不 能以数 字开头 ,中间不 能有空 格,一个 数据文
件 中不能 有相同 的变量 名等。 读者只 要在使 用中尝 试即可 ,不必记 那么多 规则。

4.缺失值

Mi
ssi
ng项 是一个 重要而 且容易 被忽视 的选项 ,它用 于定义 变量缺 失值。 SPSS中缺失 值有用
户 自定义 缺失值 和系统 缺失值 两大 类。 对于 数 值 型变 量 的 数据 ,系 统缺 失值 用 一 个 圆点 “.”表
示 ,而字符 型变量 默认就 是空字 符串。 如果在 问 卷调 查 中,有 些数 据 项 漏填 了 ,则 数据 录入 时只
能 跳过,相 应的数 据单元 格就会 被系统 自动当 作缺失 值来处 理。
另外 一类缺 失值是 用户自 定义缺 失值,这 往往出 现在一 些设计 较严格 的大型 调查中 ,在一些
题 项处会 给出一 个选项 :不知 道 或 拒答。 相应 的 代 码 可能 用 9或 者
99来 表示。 显然,这 里的 99不是 一 个真 实 的 答案 ,仅 仅是 缺 失值 代
码 ,需要告 知 SPSS这个 特 定的标 记数 据 ,以 在进 行 统 计分 析时 区 别
对 待缺失 值和正 常 的分 析 数 据。具 体做 法 为 单击 相 应 变 量 Mi
ssi
ng
框 右侧的 省略号 ,会 弹 出缺 失 值 对 话 框如 图 2.3所 示,利 用 该 对 话
框 ,用户可 以自定 义缺失 值。界 面上有 一列三 个单选 钮,默 认 值为 最 图 2.3 缺 失 值对 话框

上 方的“无 自定义 缺失值 ”;第二项 指定离 散的缺 失值(Di


scr
eteMi
ssi
ngVa
lues
),最 多可 以定 义 3
2.2 数据 的直接 录入  27      

个 值;最后 一项,指定缺 失值所 在的区 间范围 ,并可同 时指定 一个离 散值。


其他 的变量 属性,即 使不作 讲解,大家也 可以根 据 SPSS界面的 提示做 出正确 的选择 ,这里就
不 再详述 了。但 是有一 点要强 调的是 ,就数据 录入这 部分内 容而言 ,变量 属性的 设置是最 重要的
一 部分工 作,属性 的设置 不仅涉 及对错 ,而且 还有一 个设置 好坏的 问题,属 性设置 得好,会 简化后
边 的数据 分析工 作,所以 读者不 可小看 这部分 工作。

2.
2 数据的直接录入

在 SPSS中,新建一 个数据 文件非 常容易 。只要 打开 SPSS,系统就 已经 生成 了 一个 空数 据文


件 ,用户只 要按自 己的需 要定义 变量、输入数 据,然后 保存即 可。

2.2.1 操作界 面 说明

初次 进入 SPSS系统 时会出 现一 个导 航对 话 框,单击 右 下方 的 Ca


ncel按钮 ,即可 进 入 SPSS
的 主界面 ,如图 2.4所示 。从窗 口顶部 的“SPSSDa
taEdi
to
r”可 以看 出 ,现在所 看到 的是 SPSS的
数 据编辑 窗口。 这个窗 口是一 个典型 的 Wi
ndows软件 界 面,第 一次 使 用 SPSS也会 觉得 很亲切 ,
从 中可以 看到菜 单栏、工 具栏,在 SPSS的工具 栏下方 的是数 据栏,数据栏 下方则 是数据编 辑窗口
的 主界面 。该界 面由若 干行和 列组成 ,每行对 应一条 记录,每列对 应一个 变量。 由于现在 没有输
入 任何数 据,所以 行、列 的标号 都是灰 色的。 注意第 一 行第 一 列的 单 元 格边 框 为深 色,表明 该数
据 单元格 为当前 单元格 。

图 2.4  SPSS的数 据编辑 窗口

在这 个界面 的左下 角,可 以 看 到“Dat


aVi
ew”和 “Var
iabl
eVi
ew”的标 签 ,现 在图 中 显 示的 是
数 据视图 ,如果点 击右边 的“Var
iabl
eVi
ew”,就进 入变量 视图。 前面提 到的 变量 属 性的 设置 都在
变 量视图 中进行 ,而数据 的录入 工作则 应当在 数据视 图中直 接通过 键盘完 成。
        28 第 2章  数据 录入与 数据获 取

2.2.2 开放题 和 简单单选 题的录入

根据 调查问 卷中设 计问题 的类型 的不同 ,定 义变 量 的方 式 也不 同 。通 常 调查 问卷 中的 问题


包 括单选 题、多选 题和开 放题等 几种,所以,下 文将分 别就这 三种类 型题目 的录入 方式加 以介绍 。
为 了更好 地对此 加以说 明,这里 以这样 一份简 单的问 卷来做 例子。

  1.序 号:
2.性 别:     1男    2女
3.姓 名:
4.家 庭月收 入:.3000以下  b.3000~4999  c.5000~6999 d.7000~9999 
e.10000及以 上
5.出 生年月 日(mm/
dd/
yyy
y):
6.婚 姻状况 :a
.未婚  b.已婚  c.丧 偶 d.离异
7.你 在选择 购物商 场的时 候,关 注以下 哪些因 素:
a.交 通条件  b.促销活 动 c.购 物环境  d.服务质 量 e.其他
8.请 问你购 物的打 折信息 主要来 自以下 哪些渠 道(限选 3项):
a.报 纸 b.杂志  c.电视   d.收 音 机  e.网络   f
.朋友 介 绍  g.手机 短 信  
h.其 他,请指 出
9.每 天上网 的小时 数: 小时

在这 份问卷 中,包含 了开放 题、单 选题和 多选题 ,其中第 1、3、5、9是开 放题,题 1、9是数 值型
开 放题,3是字 符型,5是 日期型 ;第 2、
4、6题 是单选 题,第 7、8题 是多选 题。其 中,第 8题有 一些
特 殊,将在 后文中 说明。 下文将 分别就 这三种 类型题 目的录 入方式 加以介 绍。

1.在 SPSS中 定义变 量

由前 文可知 ,录入数 据的第 一步是 定义变 量属性 ,随后 才能进 行数据 录入。 虽然在空 白的变
量 列中直 接输入 数据,SPSS会自动 给该 列给 定一 个 变量 名,但是 这样 往 往不 能完全 满 足 用户 的
需 要,所以 还是首 先来定 义需要 使用的 变量吧 。
定义 变量属 性,首先 要定义 变量名 ,变量 名是变 量的唯 一标识 ,前边已 经讨论 过相关 的知识 ,
这 里不再 重复,在 前 4行 的 Na
me列 中直接 输入变 量名———“i
d”、“name”、“bo
rn”、“net
”,大 家同
时 可以看 到 SPSS会在变 量类型 等列自 动填入 默认值 。
在绝 大多数 情况下 ,SPSS给出 的默认 数 据 类型 和 数据 精 度可 以 满 足需 要 ,如果 默 认 值满 足
分 析的需 要,变量 定义到 此就可 以结束 了,否 则就需 要 对不 满 足条 件 的 选项 进 行进 一步 的设置 。
在 本例中 ,变量“i
d”是被 访者的 记录 号 ,它的 测 量 尺度 应 该是 定 类尺 度 ———“No
minal
”。但 值得
指 出的是 ,因为变 量“i
d”只是方 便检查 和核对 问卷,不参与 后边的 数据分 析工作 ,所以,要求 不严
格 的情况 下,此处 的变量 类型可 采用默 认形式 不做修 改。此 外,变 量“name”是 被访者 姓 名,应是
字 符型变 量,这里 应当将 “Type”中的“Numer
ic”改成“St
ri
ng”。 同理,变 量“bo
rn”代 表出 生日期 ,
应 当更改 为日期 型数值 “Dat
e”。在对 变量类 型作修 改 的同 时 可以 看 到,变 量 的其 他属 性也 会自
2.2 数据 的直接 录入  29      

动 进行相 应的修 改,如图 2.5所 示。

图 2.5 变 量定 义

引例 中的开 放题的 定义是 比较简 单的,但 是大多 时候,开放题 的答案 可能是 一个句子 或者一
段 话,此时 要更改 该变量 的 Wi
dth,因为 默认的 8个字 符的宽 度只能 存放 4个汉字 ,要根据 该变量
可 能出现 的最大 字符长 度来确 定 Wi
dth(最 大不超 过 256个字 符)。
现在 切换回 数据视 图,数据 编辑窗 口如图 2.6所 示。可 见前 4列的名 称均为 深色显 示,就是
刚 才定义 的内容 ,表明这 4列已 经被定 义为变 量,其 余各列 的名称 仍为灰 色的“var
”,表 示尚 未使
用 。同样 地,各行 的标号 也为灰 色,表 明现在 还未输 入 过 数据 ,即该 数 据 集内 没 有记 录 。在 变量
定 义完毕 后,就可 以向这 个文件 中录入 数据了 。

图 2.6  定 义好 变量 的数 据 编辑 窗口

2.开放题 的录入

单选 题和开 放题的 录入方 式很相 似,在本 部分内 容中,将首先 以问卷 中的 1、3、5、


9为例 来介
绍 开放题 的录入 方式,然 后说明 单选题 的录入 方式,最后总 结二者 的区别 。
现在 开始录 入数据 ,首先来 输入变 量 i
d的值 ,首先确 认一行 一列 单 元格为 当前单 元 格,弃鼠
标 而用键 盘,输入 数据 1,此 时界面 显示如 图 2.7所示。

图 2.7 录入数 据 过程 (一)
        30 第 2章  数据 录入与 数据获 取

注意 :在回车 之前,输入的 数据在 数据单 元格内 左 对齐 显 示,表示 该单 元 格为 第一 次录 入数


据 ,同时数 据栏内 同步显 示出输 入的数 值。现 在回车 ,界面 如图 2.8所示 。

图 2.8 录入数 据 过程 (二)

图 2.8和前 面的图 形相比 ,发生了 以下变 化。 首 先,当前 单元 格 下 移,变 成了 二行 一列 单元


格 ,而一行 一列单 元格的 内容则 被替换 成了 1.
00。出现 两位小 数 是因 为数 值型 变 量默 认为 两位
小 数(由于 序号只 会是整 数,可以 将 De
cimal设为 “0”);其次,第一行 的 标号 变 黑,表明 该行 已输
入 了数据 ;第三,一行二 列单元 格(字符型 变量)因 为 没有输 入数 据 ,显示 为 空 ,一行 三 列 和四 列
单 元格(数 值型变 量)因为 没有输 入过数 据,显示 为“.”,这 代表该 数据为 缺失值 。 用类 似的 输入
方 式将数 据录入 完毕,此 时数据 编辑窗 口如图 2.9所 示。

图 2.
9  数据 录 入完 毕的 窗口

此外 ,有一 点 不 得不提 醒大 家 ,在数据 录入 过程 中,要随 时 注意 保存,如 果突然 断 电 或者 死


机 ,辛苦工 作的成 果将付 之东流 。

3.单选题 的录入

单选 题的录 入方式 与开放 题类似 ,不同的 是,单 选 题中 可 以定 义 变 量值 标 签,通过 这种 方式


既 可以减 少数据 录入的 工作量 ,还方便 了后边 的数据 分析工 作。具 体而言 ,单选 题的录入 可以采
用 字符直 接录入 、字符代 码 +值 标签、数值代 码 +值 标 签 三种 方式。 对 应这 三 种录 入方 式,变量
“gende
r”定义 后的界 面参见 图 2.10。
对于 这三种 录入方 式,原则 上都是 可以 选 择 的;但 是第 三种 录入 方 式 “数 值 代 码 +值标 签 ”
(参 见图 2.11)方便了 后边的 分析工 作,推荐 读者使 用第三 种录入 方式。
再来 看一下 对于“收 入”的定 义,变量 “i
nco
me”为定 序 型变 量,值标 签中 对 变量 取 值 的含 义
进 行了说 明,参见 图 2.
11。
2.2 数据 的直接 录入  31      

图 2.10  单选 题的 三种 录入方 式说 明

图 2.11 “数 值 +值标 签”录入 方式

如果 问卷数 据中有 含“其他 ,请指 出 ”选项的 单 选 题,则 在 录入 时可 以使 用 两个 变 量 对其 进


行 定义,在 第一个 变量中 ,“其他 ,请指 出 ”作 为选项 中的 一 个可 进行 选择;第 二 个变 量将 “其他 ,
请 指出”看 作一个 独立的 开放题 ,按照开 放题的 录 入方 式 进行 数据 录入 ,将没 有 选择该 选项 的被
访 者作为 缺失值 处理。

2.2.3 多选题 的 录入

多选 题,又被 称为多 重应答 (Mul


ti
pleRes
pons
e),是在 社 会 调查和 市场 调 研中 极为 常见 的一
种 数据记 录类型 。通常 ,问卷中 的一个 单选题 问题对 一个被 访者只 能取一 个值。 多选题 ,顾名思
义 ,就是对 应一个 被访者 ,一个 问题可 以取多 个值,比 如引例 中的第 7、8题 如下:

  7.你 在选择 购物商 场的时 候,关 注以下 哪些因 素:


a.交 通条件  b.促销活 动 c.购 物环境  d.服务质 量 e.其他
8.请 问你购 物的打 折信息 主要来 自以下 哪些渠 道(限选 3项)
a.报 纸 b.杂志  c.电视   d.收 音 机  e.网络   f
.朋友 介 绍  g.手机 短 信  
h.其 他,请指 出

这是 两个典 型的多 选题,被 访者可 以选择 一个 因 素,也 可 以选 择 两 个或 者 多个,虽 然在 问卷


中 这只是 一个问 题,但实 际上答 案可以 是多个 。由 于 在多 选 题 中每道 题都 可 能有 一个 以上 的答
        32 第 2章  数据 录入与 数据获 取

案 ,因此多 选题不 能被直 接编 码 ,需要 使 用 几 个变 量来 进行 记 录。 在 SPSS中,常见 的 方 法有 两


种 ,多重二 分法(Mul
ti
pleDi
chot
omyMet
hod)和多 重分类 法(Mul
ti
pleCat
ego
ryMe
tho
d)。下 文将进
行 详细说 明。

1.多重二 分法

所谓 多重二 分法,是 指在编 码的时 候,对 应每一 个 选项 都 要定 义 一 个变 量 ,有 几个 选项 就有


几 个变量 ,这些变 量均为 二分类 (二分类 变量是 指 该变 量 只有 两个 取值 ,此例 中 这些变 量只 有两
个 取值:“选 中”与“未 选”),它 们各自 代表对 一个选 项的选 择结果 。
在 SPSS中对 多选题 进行数 据录入 与单选 题的录 入程序 相同,均是首 先在变 量视窗进 行变量
定 义,然后 直接录 入数据 ,多选 题所不 同的是 变量的 定 义 方式 不 同,而 且,数 据 录入 完毕 ,在 分析
之 前,还需 定义多 选题集 。
首先 来定义 变量。 每个选 项对应 一个变 量,比如 上文的 例子,对应第 7题选 择商场的 5个因
素 ,定义 5个变量 ,因为 SPSS12已经 取消了 对“变 量 名只 能 8个 字 符 长”的 限 制,所以 可以 根据
自 己的习 惯和偏 好选择 是取一 个长而 详细的 变量名 ,还是取 个简短 的名字 ,然后 在变量标 签中对
变 量的含 义进行 说明。 很显然 本例选 择了后 者,见图 2.12。
还有 一点要 说明的 是,变量 值标签 的定义 应 该一 致,即 这 5个 变 量 的编 码 方式 应该 相同,在
这 个例子 中,“1”和 “0”所代表 的含义 应该一 致。比 如这个 例子,对应选 择商 场 的 5个 因 素,定义
5个变 量,每个 变量都 是 二分 类,1代 表 选 择,0代表 未 选 。将数 据 录入 SPSS中,格 式如 图 2.12
所 示。

图 2.12  多 重二 分法 数据 录入 格 式

从图 2.12可 以很明 显地看 出,每 个变量 都对应 一 个选 项 ,第一个 被访 者 在这 道题 的选 项中


选 择了“交 通条件 ”和“促销 活 动”两项 ,第 二个 被 访者 选 择 了“购物 环 境”和 “服 务 质量 ”两项 。
那 么如果 选项过 多,比如 20个 选项,要 求被访 者 选出 最 关注 的 5个,显 然,绝 大部 分被 选中 的频
率 都会较 低,使用 多重二 分法录 入,则 大部分 数据都 是 0,不仅增 加了 数 据录入 的工作,而且 不利
于 进行分 析,这时 不适合 使用二 分法进 行数据 录入,需使用 下文将 要介绍 的多重 分类法。

2.多重分 类法

多重 分类法 ,也是利 用多个 变量来 对一个 多选 题 的 答案 进 行定 义 ,应该 用 多少 个变 量,由被


访 者实际 可能给 出的最 多答 案数 而 定。 而 且,这 些 变量 须 为数 值型 变量,利 用 值标 签 将 答案 标
出 ,所有变 量采用 一套值 标签。 之所以 称它为 多 重分 类 法,是 因为 每 个 变量 都 是多 分类 的,每个
2.2 数据 的直接 录入  33      

变 量代表 被访者 的一次 选择。 多重分 类 法 适合 问题 的 选 项 较多 的 情 况,尤 其适 合 于 “请 在下 列


选 项中选 出您最 喜欢的 几个选 项”一类 的问题 。例如 在问 卷的
第 8题中 ,研究者 希望了 解目标 人群主 要 通过 什 么渠 道得 到消
费 信息,在 问卷 中列 出 了 8个选 项,让被访 者 从 中选 择他认 为
最 主要的 几个。 此时 一 般 都 会采 用 多 重分 类 法的 格 式 来记 录
数 据,如图 2.13所示。 图 中 共有 三个 变 量 ,均 为 多 分 类,各 代
表 被访者 的一次 选择,即 记录的 是被选 中渠道 的代码 。注 意图
中 第 6条 记录只 填入了 两个渠 道,也就 是 说该 被 访者 只选 出了
两 种渠道 。显然 ,这种“数 据缺失 ”的现象 在多重 分类法 中其实 图 2.13  多 重分 类法 的数 据格 式

是 一种正 常情况 。

3.多选题 录入在 SPSS中的 实现

在进 行多选 题录入 时,只需 要将相 应的变 量设定 好即可 进行操 作,但 是录入 完毕后对 多选题
进 行分析 前,首先 需要定 义多 选 题 集,然 后才 可以 把多 选 题 的 全部 变量 当作 一 道题 目 来 进行 分
析 。在 SPSS中提 供了专 门的菜 单用来 对付多 选题,Tabl
es模 块和 Mul
ti
pleRes
pons
e菜 单都 可以
用 来设定 多选题 变量集 。所不 同的是 ,Mul
ti
pleRes
pons
e菜单 中的 De
fi
neSet
s过 程定义多 选题变
量 集的信 息不能 在 SPSS数据文 件中保 存,关 闭数据 文件后 相应信 息就会 丢失,如 果再次 使用,则
必 须重新 加以定 义;而 Tabl
es模 块可以 保存定 义 的信 息。所 幸 的是这 两个 过 程的 操作 是基 本相
同 的,现在 就以 De
fi
neSe
ts过 程为 例来 看 一下是 如何定 义 多选题 集的。 在 SPSS中 选择 Anal
yze
→ Mul
ti
pleRes
pons
e→ Def
ineSe
ts,打 开定义 多选题 集 的对 话 框,界 面 如图 2.14所 示。 在 该对 话
框 中,需要 注意以 下几点 :

图 2.14  定义 多选 题变量 集

(1)Var
iabl
esi
nSe
t框 :选入 需要加 入同一 个多选 题 变量 集的 变量 列 表,对 于多重 二分 类法
录 入的多 选题,这 些变量 必须为 二 分类 ,并 按照 相同的 方 式 来编 码(如都 用 1代 表选 中)。对 于
        34 第 2章  数据 录入与 数据获 取

多 重多分 类法录 入的多 选题,这 些变量 须为多 分类,并共用 一套值 和值标 签。


(2)Var
iabl
esAr
eCodedAs单选 框组:选 择变 量 的编 码方 式。Di
chot
omi
cs即为 多 重 二分 法
编 码方式 ,co
unt
edval
ue是 指用哪 个数值 表示选 中。Cat
ego
ries指变 量为多 重分类 法编码 方式,此
时 需要设 定取值 范围,在 该范围 内的记 录值将 纳入分 析。
(3)Name框 :键入 多选题 变量集 的名 称,在此 定义 的变量 集名 为 ques
7,当 然在 SPSS12中
也 可以定 义很长 的中文 变 量名。 下 方的 Label框可 以 为 相应 的 多 选 题 变 量 集 定义 一 个 名称 标
签 ,如同本 例中所 见。
另外 ,对于形 如问题 8一样 的多选 题,即含 有“其 他 ,请 指出 ”答 案的 附 加 内 容的 问 题,也 是
先 把其他 算作一 个答案 选项,而 用另一 个变量 来表示 其 他的 内 容。在 数据 录 入完 毕后 再对 附加
内 容根据 频次高 低进行 编码,以 进行更 为深入 的分析 。

2.
3 外部数据的获取

对于 SPSS格 式的数 据,只 要点击 Fi


le→ Open→ Dat
a,选 择文 件 路 径 和文 件名 打开 即 可。但
如 果数据 不是 SPSS格 式 的,是 否 可 以 直 接 读 入 SPSS,用 SPSS进 行 分 析 呢? 回 答 是 肯 定 的 。
SPSS可 以读 入 许多非 SPSS默 认类型 的 数据文 件,方式 主要 有 三种:直 接 打开 ,利用文 本向 导读
入 文本数 据以及 利用数 据库 ODBC接口 读取数 据。对 这 三 种方 法,下 文 将 以常 见 的 Exce
l格 式
的 数据、文 本数据 和 Ac
cess数据为 例,介 绍 SPSS获取数 据的功 能。

2.3.1 电子表 格 数据如何 导入 SPSS中

SPSS中可 以直接 读入许 多常用 格式的 数据文 件,选 择菜单 Fi


le→ Open→ Dat
a或直 接单 击快
捷 工具栏 上的 快捷按 钮,系 统就会 弹出 OpenFi
le对话 框 ,单 击“文 件 类型 ”列表 框,在里 面能
看 到可以 直接打 开的数 据文件 格式,包 括如表 2.1所 示的 16种类 型。
表 2.1 SPSS可以 直接 打开 的数 据 类型

数 据标识 数据 类 型

SPSS(* .s
av) SPSS数 据文 件(6.
0版 ~12.
0版)

SPSS/
PC+(* .sy
s) SPSS4.0版数 据文 件

Sys
tat
(*.s
yd) * .syd格 式的 Sys
tat数据 文件

Sys
tat
(*.s
ys) * .sys格 式的 Syst
at数据 文 件

SPSSPo
rtabl
e(* .por
) SPSS便 携格 式的 数据文 件

Excel
(* .x
ls) Excel数据 文 件(5.
0版 ~2000版)

Lot
us(* .w* ) Lo
tus数 据文 件

SYLK(*.s
lk) SYLK数据 文件

dBas
e(*.dbf
) dBa
se系列 数据 文件 (dBas
eⅡ ~Ⅳ )
2.3 外部 数据的 获取  35      

续表

数 据标识 数据 类 型

SASLongFi
leName(*.sa
s7bdat
) SAS7~8版 长文 件 名类 型数 据文 件

SASShor
tFi
leNa
me(* .sd7) SAS7~8版 短文 件 名类 型数 据文 件

SASv
6forWi
ndows(*.s
d2) SAS6版 (f
orWi
ndows
)数 据文 件

SASv
6forUNI
X(*.ss
d01) SAS6版 (f
orUNI
X)数 据文 件

SASTr
ans
por
t(* .xpt
) SAS便携 格式 的数 据 文件

Te
xt(* .t
xt) 纯 文本 格 式的 数据 文件

Dat
a(*.dat
) 纯 文本 格 式的 数据 文件

选择 所需的 文件类 型,然后 选中需 要打开 的文件 ,SPSS就会 按照 要 求打开 相应的 数 据文件 ,
并 自动转 换为 SPSS格式 。
下面 以 SPSS自 带 的 文 件 demo.x
ls为 例,来 看 SPSS如何 直 接 读 取 这个 文 件 ,该 文 件 位 于
SPSS目 录下的 Tut
ori
al\
sampl
e_f
il
es子 目录 中。首 先 在 Ex
cel中 打开 demo.xl
s,了解 一 下 这个 文
件 的结构 ,重点需 要了解 这样几 项内容 :第一 ,该 文件 中 包含 几 个数 据 表,具 体 应当 打开 哪个表 ;
第 二,如果 不需要 该 表的 所 有数 据 ,而 只 需 读 入 一 部 分,这时 需 要 了 解要 读 入 的 数 据的 精 确 位
置 ———如 单元格 A2:F5。第三 ,此部分 数据的 第一行 是否是 变量名 。在这 个文件 中,很 明显 可以
看 出,第一 行是变 量名,该文件 只有一 个表,要 读取的 是该表 单中的 全部数 据。
第一 步,在 OpenFi
le对话 框中,选 择路 径 (此 例 中为 SPSS\Tut
ori
al\Sampl
efi
les),选 择文 件
类 型“Ex
cel
(.xl
s)”,文件列 表中 出 现 所有 的 Exce
l文 件,点 击 文件 demo.xl
s。 第 二步 ,弹 出对 话
框 ,如图 2.15所 示 。Wo
rks
heet框 中指 定 哪张 表 ;Ra
nge框 中 指定 读 取 的数 据 具 体位 置 ,用单 元
格 的起(左 上角 单元 格名 称 ,如 A2)止(右 下 角单元 格 名称,如 F5)位置来 表 示,中 间用 冒号 “:”
隔 开;“Readvar
iabl
enamesf
rom t
hef
ir
str
ow o
fdat
a?”意 为 “该 单元 格 范 围 的 第 一 行 是 变 量 名
吗 ?”。指定 完毕,点击“OK”按钮 之后,数据顺 利地读 入了 SPSS。

图 2.15 打 开 Excel数据 文件 对 话框
        36 第 2章  数据 录入与 数据获 取

这种 直接读 取的方 法要优 于“拷贝 +粘 贴”,它 不 仅可 以顺 利地 进行 变 量 名 的转 化 ,最重 要


的 是,它可 以直接 读取字 符 型 变 量,若用 “拷 贝 +粘 贴 ”的 方法,字 符 型 变 量 就 全部 变 成 缺失 值
了 。并且 操作简 单,不容 易出错 ,就和 读取 SPSS自己 的文件 一样方 便。
在上 面的例 子中只 需要读 取一个 表 单 的数 据,如 果 需 要将 两 个 或者 多 个 She
et放 在 一个 数
据 文件中 ,是否仍 然像读 取单 个 She
et文件 那样 轻 松 方便 呢 ?回 答 是 肯 定的 。 有两 种 方 式可 以
实 现这一 要求,第 一种是 打开两 个 SPSS窗口 ,分别读 取两个 Sheet
,然后 使用 Mer
ge命 令(详 见第
3章)对 两个文 件进行 合并;第二种 方式是 使用前 文的 方式 ,首先 读取 其中 的 一个 She
et,并保存 ,
然 后直接 从该文 件读取 另一个 Shee
t,实现 SPSS和 Excel的合 并。

2.3.2 文本数 据 如何导入 SPSS中

SPSS可以 通过两 种菜单 操作方 式读取 文本数 据,一 种是,选 择菜 单 Fi


le→Rea
dTex
tDat
a;另
一 种是,选 择 Fi
le→Ope
n→Dat
a,这 两种情 况是一 样的,系统会 弹出 OpenFi
le对话 框,只是 前者文
件 类型自 动跳到 了 Te
xt(*.t
xt),后 者需 要 在 文件 类型 下拉 菜单 中 作 选 择。 之 所以 在 菜 单上 保
留 “ReadTex
tDa
ta”条 目有两 个原因 :① 读 入纯文 本的情 况非常 普遍,放 在这里 更 加 醒目 ;② 为
了 和 SPSS老版本 在菜单 上保持 兼容。
这里 以系统 自带的 文件“demo.t
xt”为 例来说 明如何 将文本 数 据导入 SPSS中 。与 读 取 Exce

数 据一样 ,首先打 开该数 据,观 察这个 数据的 基本结 构,如变 量间是 固定宽 度,还 是用某种 分隔符
区 分,第一 行是否 为变量 名等。 然后关 掉这 个 文 本文 件 ,打开 SPSS软 件 。首先 ,在 Ope
nFi
le对
话 框选中 相应的 文件名 并单击 “确定”,系 统会自 动启动 文本导 入向导 对话框 如图 2.16(a)所示 ,
从 对话框 标题可 以看到 该向导 共分 6步,下面 一步步 地讲解 。

                     (a
)                                         (b)

图 2.16 文 本 导入向导 的第 一 、二个 对 话框

第 1步:中部 为一对 单选钮 ,问题 为 “你的 文 本 文 件和 预定 义 格 式相 一 致吗?”,下 方 为按 预


定 义格式 读入的 数据文 件的预 览。显 然,SPSS的 预定义 格式并 没有正 确 识别该 文件。 因此 选择
“No
”并 单击“下 一步”按 钮。
2.3 外部 数据的 获取  37      

第 2步:最上 方的问 题是“变 量是 如 何排 列的 ?”,下面 的 选项 分 别为 Del


imi
ted(用 某 种字 符
区 分)和 Fi
xedWi
dth(固定宽 度),一 般都是 De
limi
ted,该数 据也是 ;第二 个问题 是“变量名 包括在
文 件最前 面了吗 ?”,选“Yes”,然后 单击“下 一步”按 钮,如图 2.16(b)所 示。
第 3步:最 上 方的句 子意为 “第一条 记录从 第 几行开 始?”,右 侧 可以 输入行 数。由 于 所用数
据 的第一 行为变 量名,因 此这里 输入 2。下 面的问 题是“你的记 录是怎 样存储 在文 件中 的?”。可
以 是“每一 行代表 一条记 录 ”,或者 “每 * *个 变 量 代 表 一 条记 录 ”,数 据一 般都 是 第 一 种 情况 。
下 一个问 题是“你 想导入 多少条 记录?”,可以是 “所有记 录”、“前 * * 条”或 “随 机导 入 * *%的
记 录”。一 般也选 前者,如 图 2.17(a)所示。
第 4步:左上 方的问 题为“变 量 间用 的是 哪 种 分 隔符 ?”,可选 的 有 Ta
b键 、空格 、逗 号、分 号
或 自行定 义的其 他符号 。本数 据采用 的是 Ta
b键,可 见系统 已经自 动识别 并选择 了 Tab键,而下
方 的数据 预览窗 口显示 出了正 确的数 据读入 情况。 右 上方的 问题意 为 “数据 中 采用的 是什 么文
本 限定符 ?”,提供 了无、单 引号、双引号 和自定 义 4种 选 择。如 果数 据 中的 字 符串 变量 使用 了限
定 符进行 分隔,则 需在此 处指定 ,如图 2.17(b)所示 。

                     (a
)                                           (b)

图 2.17 文 本 导入向导 的第 三 、四个 对 话框

第 5步:上方 的提示 为“定义 在 数据 预览窗 口 中 所选 择的 变 量 ”。顾 名 思 义,在 这 个 对话 框


中 用户可 以在数 据预览 窗口中 选择某 一列变 量,然后 更改其 变量名 和类型 。这里 不需要 做更改 ,
可 以直接 单击“下 一步”按 钮,如图 2.18(a)所 示。
第 6步:如图 2.18(b)所 示最 上面 的 问题 为“你 愿意 保存这 次的 文件 (读入 )格 式 设 置以 备
下 次使用 吗?”,第 二个问 题为“你 是 否愿 意 将以 上 操 作粘贴 为 SPSS语句 吗 ?”,这里 使 用 默认 选
项 ,单击“完 成”按钮 ,可以 看到 SPSS成功 地读入 了该文 本数据 。

2.3.3 数据库 格 式数据如 何导入 SPSS中

SPSS可以 直接读 取很多 类型的 数据文 件,对 于不能 直 接打 开 的数 据 格 式,SPSS提 供了 利用


通 用的数 据库 ODBC接 口读取 数据的 方法。 这里以 SPSS系 统自带 的文 件 demo.mdb为 例,来看
        38 第 2章  数据 录入与 数据获 取

                     (a
)                                           (b)

图 2.18 文 本 导入向导 的第 五 、六个 对 话框

一 下如何 使用数 据库查 询方法 读取这 个文件 。首先 ,选择菜 单 Fi


le→ OpenDat
abas
e→Ne
wQuer
y,
系 统会弹 出数据 库向导 的第一 个窗口 ,其中会 列出本 机上已 安装的 所有数 据源,如图 2.19(a)所
示 。可见 里面列 出了需 要的 MSAc
ces
sDat
abas
e数据源 ,但该 数 据源 不 能直接 使用,需 要先 进行
定 义:单击 下方的 AddDa
taSo
urce,系 统会弹 出 ODBC数据管 理器窗 口如图 2.19(b)所示 。在用
户 数据源 列表中 选中 MSAcces
sDat
abas
e,单击配 置按钮 ,会弹出 该数据 源的安 装界面 ,如图 2.20
所 示,单击 其中的 “数据库 :选择 ”按 钮,在 弹 出的 文 件 打开 对 话 框 中找 到 demo
.mdb并单 击 “确
定 ”按钮,数 据源名 可以任 意指定 ,此处 使用 “MSAcc
essDa
tabas
e”,此 时安 装 界面 上相 应位 置就
会 列出所 指向的 数据库 名。

              (a
)                                 (b)
图 2.19 向 导 初始 对话 框中 的数据 源列 表和 系统 的 ODBC数 据源 管 理器

单击 两次“确 定 ”按 钮后 回到 最 初的数 据 库向 导 界面,此 时 即可 选中 MSAc


ces
sDat
aba
se数
据 源并单 击下一 步,系统 就会 进 入 向 导的 第二 个 窗 口,采 用 拖 放式 操作 将所 需 变量 引 入 右侧 框
中 ,见图 2.
21。向导 的第 3步 ~第 5步 适 用于 数据 的选 择 性读 入、字符 值到 数 值与 值 标 签的 转
换 等操作 。第 6步则提 供了将 生成的 SQL语句 保存为 文件以 供 再次 使 用,将前 面 的操 作粘 贴成
2.4  数据的 保存  39      

图 2.20 MSAcces
s驱动 程序 安装 界面

Synt
ax语句等 功能。 如 果 不 需 要 这 些 设 置,则 可 在 第 2步 时 直 接 单 击 完 成,数 据 就 被 成 功 读
入 了。

图 2.21  数据 库向 导的 第二个 对话 框

由于 SPSS现 在可以 直接打 开许多 常用格 式的数 据文件 ,因此 数据库 查询接 口的用处 不是很
大 。但是 使用 ODBC接 口可以 直接和 绝大多 数流行 的数据 库进行 数据交 换,如 SQLSe
rve
r、DB2、
Or
acl
e等,这是 直接打 开方式 无法做 到 的。 其 次,在 例行 工作 中,比如 每 月都 要读入 相 同 的数 据
库 ,可以将 所使用 的 SQL语 句存储 起来,每 次只 要 调用 SQL语 句即 可 。这 一 方法 也可 用来 解决
一 些需要 对动态 数据库 进行统 计分析 的问题 。数据 仅 仅是 在 需要 分 析 时临 时 读入,从 而可 以保
证 数据始 终是最 新的。

2.
4 数据的保存

数据 录入过 程中,要 随时注 意保存 ,以防 出现意 外情况 ,导 致信 息丢 失 。SPSS不仅 能将 数据


保 存为自 己的数 据 格 式 (*.sav文 件 ),而 且 还 可 以 将 数 据 保 存 为 其 他 类 型 ,如 DBF、FoxPr
o、
Excel
、Acc
ess等,下 边将给 出简单 介绍。
        40 第 2章  数据 录入与 数据获 取

2.4.1 存为 SPSS格 式

无论 是数据 录入过 程还是 对数据 做了修 改,随时 保 存数 据 文件 是 必 不可 少 的工 作 之 一。选


择 Fi
le→Save,如果 数据文 件曾 经 存 储 过,则 系 统会 自 动 按原 文 件名 保 存 数 据;否 则 ,就 会 弹 出
Sav
eDat
aAs对话 框(见图 2.22)。此 时为所 要保存 的文件 指定文 件名和 保存的 路径就可 以了。
另外 ,有些时 候分析 者会在 分析过 程中生 成一 些 临 时变 量 ,如 果 不 希望 保 存全 部变 量,那么
就 可以使 用 Sav
eDa
taAs对话 框中的 Var
iabl
es按钮来 指定 需 要保 存的 变量。 图 2.23就是 在保
存 文件 i
nput
.sav时 Va
riabl
es子 对话框 的内容 ,可见 在 每个 变 量的 最 左 侧都 有 一个 复选 框,表明
它 们是否 会被保 存在文 件中。 对不需 要的变 量,单击 相应复 选框去 除选择 ,则该 变量就不 会出现
在 新保存 的数据 文件中 。

图 2.22  Sav
eDa
taAs主对话 框

图 2.23  Va
riabl
es子 对话 框

2.4.2 存为其 他 数据格式

SPSS的开 放和友 好之处 不仅在 于可以 读取 非 SPSS类 型 的 数据 ,而且 它 还 允许 将 数 据存 为


很 多种非 SPSS格 式的数 据。在 Sav
eDa
taAs对话 框中可 以 看到,最下 方有 一个“保 存”列表框 ,
参考 文献  41      

单 击后可 以看到 SPSS能 够保存 的各 种 数 据 类型 ,有 dbf


、Exc
el、SAS各版 本 的 各 种数 据 格 式、纯
文 本格式 等,用户 只需要 选择合 适的类 型,然 后确定 就可以 了。不 过,将数 据存为 SPSS以 外的其
他 类型,有 些设置 可能会 丢失,如标签 和缺失 值等。 虽然在 保 存为 SAS等 数据 格式 时 SPSS会提
示 将标签 等另行 存储为 一个 SAS程 序文 件 ,但这 样 毕竟 不 太方 便,因此 除非 确 实需 要 和 其他 软
件 交换数 据,否则 在决定 保存为 其他类 型的数 据的时 候,一 定要慎 重行事 。

思考与练习

针对 SPSS自 带文件 demo.x


ls,进 行以下 练习:
1.将该文 件读入 SPSS中 ,仅包 含以下 变量:年 龄、婚 姻状况 、家庭住 址、收 入。
2.对变量 Ma
rit
al(婚姻状 况)设置 值标签 ,1代表已 婚,
0代表 未婚。

参考文献

1 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002
2 SPSS Bas
e12.
0Us
ersGui
de.SPSSI
nc.Chi
cag
o,I
ll
inoi
s,2003
        42 第 3章  数据 管理

第 章 数据管理
不言 而喻,一 切统计 分析都 是以数 据为基 础的,在 数据 文 件建 立 好 之后,还需 要对 数据 进行
必 要的加 工处理 。对同 一个数 据往往 要从各 种不同 的 侧面 进 行研 究 ,采取 多 种统 计方 法进 行分
析 ,而不同 的统计 方法对 数据文 件结构 的要求 不尽相 同,这 就需要 对数据 文件的 结构进行 重新调
整 或转换 ,以便适 合于相 应的统 计方法 ,这项 工作称 为数据 管理。 数据管 理直接 关系到数 据分析
的 结果,因 此是统 计分析 工作中 不可缺 少的一 个关键 步骤。
本章 主要介 绍 SPSS提供的 数据管 理方面 的一 些 基本 功能 。在 SPSS中,数据 文件 的管 理功
能 基本上 都集中 在 Dat
a和 Tr
ans
for
m菜单 上,其 中前者 主要实 现 变量 级 别的数 据管理,如计 算新
变 量、变量 取值重 编码等 ,而后 者 的 功能 主 要是 实 现 文件 级 别 的 数 据 管理,如 变 量排 序 、文件 合
并 、拆分等 ,下面 将具体 介绍这 些功能 。

3.
1 变量级别的数据管理

对变 量进行 操作的 内容主 要 集中于 Tr


ansf
orm 菜 单(参见图 3.1),包括 新 变 量的 生 成、记 录
的 排序、对 变量进 行计数 等。在 12.0版中,SPSS这一菜 单的项 目可被 分为以 下几类 :
计算新 变量:实际上 就是指 最上面 的 Comput
e过 程,这是 该
菜 单中最 为常用 和重要 的过程 。
变 量转 换 :包 括 Rec
ode、Vi
sualBander
、Co
unt
、RankCas
es、
Aut
omat
icRecode这 5个 过 程,它 们 实 际 上 都 可以 被 看 成 是 Co
m-
put
e过程 在某一 方面功 能 的强 化 和 打 包 ,其中 第 二 个 过程 为 12.0
版 新增。
专用过 程:包 括建立 时间序 列、缺失 值替代 和设定 随机种 子
三 个过程 ,其中前 两个过 程实际 上 专用 于 时间 序列 模型 ,对 它们 的
讲 解请参 见本 丛书 中 的 《统 计 预 测 与时 间 序 列 模 型》一 书 相 关 内
容 。设定 随机种 子的 功能 则主 要 影 响 伪随 机 函 数的 使 用,详 述 见
后 面相关 章节。 图 3.1 Tr
ans
for
m菜单

RunPendi
ngTr
ans
for
ms:用于执 行编程 中被挂 起(Pendi
ng)的数据 整理操 作。属于 控制命
令 ,本书对 此不作 讲解。

3.1.1 计算新 变 量

计算 新变量 的功能 就是在 原有 SPSS数据 文件的 基础之 上,根 据用户 的要求 ,使用 SPSS算术
表 达式及 函数,对 所有记 录或满 足 SPSS条件 表达式 的记录 ,计算出 一个新 结果,并将结果 存入一
3.1 变 量级别 的数据 管理  43      

个 用户指 定的变 量中。 这个指 定的变 量可以 是一个 新变量 ,也可以 是一个 已经存 在的变 量。

1.常用基 本概念

在新 变量生 成 中,涉 及 了 SPSS算 术表 达式、SPSS函 数、SPSS条 件表 达式 等 基本 概 念,因 此


首 先简单 讨论这 些概念 。
(1)SPSS算术表 达式:在变量 转换的 过程中 ,应根据 实际需 要,指 出按 照什 么 方法 进行 变量
转 换。这 里的方 法一般 以 SPSS算术表 达式的 形式给 出。SPSS算术表 达式 (Numer
icExpr
ess
ion)
是 由常量 、SPSS变量 名、SPSS的 算术运 算符、圆 括号等 组成的 式子。
(2)SPSS函数:SPSS提供了 多达 70余种 的系统 函数。 根据函 数功能 和处理 对象的 不同,可
以 将 SPSS函数分 成八大 类,它 们分别 是:算术 函数、统计函 数、分布 函数、逻辑函 数、字符 串函数 、
日 期时间 函数、缺 失值函 数和其 他函数 。
函数 具体的 书写形 式为:函 数 名(参 数)。这 里 ,函 数名 是系 统 已 经 规定 好的。 圆 括 号中 的
参 数有时 是一个 ,也可以 是多个 ;而参 数的类 型有时 是常量 (字 符型常 量应用 单 引号 引 起来),也
可 以是变 量名或 SPSS的 算术表 达式。 此外,函数中 如 果有 多 个参 数 ,各参 数 之间 要用 单字 符逗
号 “,”隔开。
SPSS函数 一般也 会与 SPSS的 算术 表达 式混 合 出现,用 于完 成更 加 复杂 的计 算。 各 种函 数
的 释义可 参考附 录。
(3)SPSS的条件 表达式 :通过 SPSS的 算术表 达式和 函数可 以对所 有记录 计算出 一 个结果 ,
如 果仅希 望对部 分记录 进行计 算,则应 当利用 SPSS的条件 表达式 指定对 哪些记 录进行计 算。根
据 实际需 要构造 出条件 表达式 之 后,SPSS会 从所 有 记录 中自 动挑选 出满 足该 条件的 记 录,然 后
再 对它们 进行计 算处理 。
因此 ,如果用 户在给 出 SPSS算术 表达式 和函数 的 同 时,又 给出 了 一 个条 件 表达 式 ,那么,系
统 就会根 据要求 仅对满 足一定 条件的 记录进 行计算 处理。

2.Comput
e过程的 分析实 例

了解 了 SPSS算术表 达式、SPSS函数和 SPSS的条件 表达式 之后,现 在来看 看如何 通过 Tr


ans


orm命令 实现新 变量的 生成。 这里以 数据 t
rans
for
m.s
av为 例,来 介绍变 量转换 的操作步 骤。
例 3.1  数据 t
ransf
orm.s
av是 某年级 学生 的 数 学、英 语 、语 文三 门课 程 的 成 绩,现 在 需要 统
计 英语成 绩在 60分以上 的学生 的语文 和数学 的平均 成绩。
来看 看怎么 通过 Comput
e命令轻 松地完 成这一 任务。 选择菜 单项 Tr
ans
for
m→ Co
mput
e,出现
如 图 3.2所示的 窗口。 该对话 框看起 来非常 复杂,但 实际上 内容排 列很整 齐,左 上角为需 要计算
的 变量名 ,右上方 的算术 表达 式 (Numer
icExpr
ess
ion)框 用 于给 目标 变量 赋 值,对话 框 中 部是 类
似 计算器 的软键 盘,可以 用鼠标 按键输 入数字 和 符号 ,软键 盘 右侧 为 函 数窗 口 ,可 以在 这里 找到
并 使用所 需的 SPSS函数 。
现在 开 始具 体 的设 定 操 作,在 Tar
getVar
iabl
e框 中 输入 存 放计 算 结 果的 变 量名。 该变量 可
以 是一个 新变量 ,也可以 是已经 存在的 变量。 新变量 的变量 类型默 认为数 值型,用户可以 根据需
要 ,点击 Type&Label按钮来 修改变 量的类 型,或对 新变量 加变量 名标签 信息。
如果 指定存 放计算 结果的 变量为 新变量 ,系 统会 自 动在 数 据编 辑 窗 口中 创 建该 变 量。 如果
        44 第 3章  数据 管理

指 定产生 的变量 名已经 存在,则 会以 计 算 出的新 值覆 盖 旧 值。本 例 中命 名新变 量 为 s


cor
e,变 量
标 签和变 量类型 采用默 认,不做 更改。

图 3.2 SPSS变 量转 换窗 口

如果 要对全 部学生 计算平 均成绩 ,则直接 在主对 话框中 操作即 可,但 现在仅 希望对符 合一定
条 件的记 录进行 变量转 换,所以 按 I
f钮 ,出现如 图 3.3所 示的窗 口。 点 击 I
ncl
udei
fcas
esat
is
fi
es
condi
ti
on选项,然后通 过手工 输入或 按动 屏 幕 中的按 钮和 函 数 下拉菜 单来 实 现条 件表 达式 的输
入 工作。 在本例 中,单击 “I
ncl
udei
fca
ses
ati
sfi
esco
ndi
ti
on”选 项以后 ,将左 边 的变量 eng
li
sh通过
黑 色的小 箭头,使 之进入 右边的 框中。 然后利 用软键 盘输入 “engl
is
h>=60”,这 意味着 仅对 英语
成 绩在 60分以上 的学生 进行统 计分析 。单击 “Cont
inue”按钮 之后,回 到 Tr
ans
for
m的主窗 口。

图 3.3 I
f按 钮子 对话 框

最后 ,在 Nume
ricExpr
ess
ion框给 出 SPSS算术表 达式和 函数。 可以手 工输入 ,也可 以按 动数
字 键盘中 的按钮 以及函 数下拉 菜单来 完成表 达式、函 数的输 入工作 。
3.1 变 量级别 的数据 管理  45      

在本 例中,Numer
icExpr
ess
ion框给 出 了 MEAN(chi
nes
e,mat
h)函 数 表 达 式,单 击 “OK”按 钮
即 可,如图 3.4所 示。

图 3.4  设置 完毕 的 Tra
nsf
orm窗 口

如果 对 全部 人 群 生成 一 个新 变 量,但 不 同人 群 采 用不同 的算 术 表 达式,可以 通过 多次 调用


Comput
eVa
riabl
e来实 现。例 如,要 根据每 个人的 调整后 工资计 算其应 缴的“个 人所得税 ”。根据
个 人所得 税法规 定:对于 调整后 工资额 小于 1200元的人 ,他应 交的个 人所得 税为 0;对于 调整后
工 资额大 于 1200元且 小于 1700元 的 人,他 应 缴 的个 人所 得 税 为 (调 整后 工资 额 -1200)×
0.05;对于 调整后 工资额 大于 1700元且 小于 3200元的人 ,他应 缴的个 人所得 税为(调整 后工资
额 -1200)×0.1-25;对于 调整后 工资额 大于 3200元且小 于 6200元 的人,他 应缴的 个人 所得
税 为(调整 后工资 额 -1200)×0.15-125;等等。 像这样 一个问 题,依然 可以利 用 Comput
eVa
ri-
abl
e来计 算。具 体做法 是,第 一次用 Comput
eVar
iabl
e来计 算满足 条件“调 整后工 资额小 于 1200
元 ”的人的 个人所 得税 为“0”;第 二次 用 Comput
eVar
iabl
e来 计算 满足 条 件 “调 整后 工 资 额大 于
1200元 且小于 1700元”的 人的个 人所得 税为 “(调 整 后工 资 额 -1200)×0.05”,点 击 “OK”后
会 出现“Chang
eExi
sti
ngVa
riabl
e”,点击“确 定”;依次 下去即 可。这 里的操 作看似 复杂,实际 上直
接 写程序 时,代码 是很简 单的,读者可 以利用 Pas
te按 钮粘贴 出程序 自行练 习。

3.1.2 对变量 值 进行分组 合并

数据 分析中 ,将连续 变量转 换为等 级变量 ,或者 将分类 变量不 同的变 量等级 进行合并 是常见
的 工作。 而 Reco
de过程 可 以很 好 地完 成这 一类 任务。 Reco
dei
ntoSameVar
iabl
e是对 原始 变量
的 取值进 行修改 ;而 Reco
dei
ntoDi
ff
ere
ntVa
riabl
e是 根据原 始变量 的取值 生成一 个新变量 来表示
分 组情况 。但为 了保存 原始信 息的完 整性,一 般选后 者。

1.对连续 变量进 行分组

在 SPSS中可 以将连 续变量 转换为 离散 (等级 或定序 )变量,按 照某 种一 一 对应 的 关 系生 成


        46 第 3章  数据 管理

新 变量值 ,可以将 新值赋 给原 变 量,也可 以生 成 一 个新 变 量。 Re


code过 程和 Vi
sualBander过 程
都 可以完 成这一 任务,但 前者 更 为简 单 和 常用。 现 在来 看看下 边 这 个例 子,SPSS易 学 易 用的 特
点 将会再 一次被 证明。
例 3.2  在 t
rans
for
m.s
av中生 成新变 量 gr
ade
,当 英语成 绩小 于 60时取 值为 “不 及 格”,大于
等 于 60且 小于 70为“及 格”,大于 等于 70且小 于 80为“较好 ”,大于等 于 80为“优秀 ”。
选择 菜单 Tr
ans
for
m→ Rec
ord→I
ntoDi
ff
erentVa
riabl
es,将英 语成绩 (Engl
ish)选入 I
nputVar
ia-
bl
e→ Out
putVar
iabl
e框 ,此 时 Out
putVar
iabl
e框 变 黑,在 Na
me框 键 入 新 变 量 名 gr
ade并 单 击
“Change”按 钮,可 见原来 的 eng
li
sh- >? 变成了 engl
is
h- >gr
ade如 图 3.5所示。

图 3.5  Recode对 话框

现在 单击“Ol
dandNewVal
ues
”,系统弹 出变量 值定义 对话框 如图 3.6所示 。许多 东西 和前
面 类似,但 要注意 所有的 范围都 是包含 了端点 的,而 前 面设 定 的变 换 会 优于 后 面的 变换 ,所 以为
了 能得到 正确结 果,应当 将相应 界值的 变换设 定放在 最后面 。另外 ,由于 这里要 生成的变 量是字
符 型变量 ,需要选 择相应 的复选 框,否 则将无 法录入 变量值 。

图 3.6 变 量值 定义 对 话框
3.1 变 量级别 的数据 管理  47      

这里 的操作 比较复 杂,因此 采用操 作表格 叙述如 下:

Out
putva
riabl
esar
est
ri
ngs
Ol
dVal
ue: Range
:80t
hro
ughhi
ghes
t|NewVa
lue: Va
lue:优 秀:Add

Ol
dVal
ue: Range
:70t
hro
ugh80|
NewVa
lue: Val
ue:良好:Add

Ol
dVal
ue: Range
:60t
hro
ugh70|
NewVa
lue: Val
ue:及格:Add

Ol
dVal
ue: Range
:Lowe
stt
hrough60|Ne
wVal
ue: Va
lue:不及 格:Add

Co
nti
nue

Re
code可以将 连续变 量转化 成数值 型或者 字符型 离散变 量 ,也 可 将数值 型 字符 变 量转 化成
数 值变量 ,只需选 中选项 “Conver
tnumer
icst
ri
ngst
onumber
s”即 可,轻轻 一点,一切尽 在掌握中 。

2.分类变 量类别 的合并

Re
code过程也 常用于 合 并 某个 分 类变 量 的 几个 水 平为 一 个 水 平,仍 然 举 个 例 子来 说 明 问
题 :将前文 在数据 t
rans
for
m.sa
v中产 生的变 量 gr
ade中 的优 秀 、良好和 及格 三 个等 级合 并为 一个
等 级“PASS”,将 gr
ade的 等级“不 及格”转 化为“NOPASS”。
界面 在前文 已经熟 悉,现在 来看看 如何进 行相应 操作:

Tr
ans
for
m→ Re
cor
d→I
ntoDi
ff
erentVar
iabl
es
Nume
ricva
riabl
e:gr
ade|
Out
putvar
iabl
e:Name:gr
ade
1:Change

Ol
dandNe
wval
ues

  Out
putvar
iabl
esa
res
tri
ngs
 Ol
dVal
ue: va
lue:不 及格 |
NewVal
ue: Val
ue:NOPASS:Add

 Ol
dVal
ue: Al
lot
herval
ues|
NewVal
ue: Va
lue:PASS:Add

  Co
nti
nue

OK

该程 序运行 之后,就 可 以 看 到 变 量 gr
ade
1将 变 量 gr
ade中 前 三 个 水 平 合 并 为 了 一 个 水 平
“PASS”。

3.1.3 连续变 量 的可视化 分段

Re
code过程提 供了精 确分组 的功能 ,但是 如 果 希望 进 行的 分组 是较 有 规 律 的,比 如 等距 分
组 ,或者等 样本量 分组,使用 Rec
ode过程进 行 操作 就 显得 非 常 麻烦,且 可视化 程度 不高 ,此 时可
以 考虑使 用 Vi
sualBander过程进 行可视 化分段 。Vi
sua
lBander过程 是 SPSS12.
0中新 增的 用于
将 连续变 量进行 分段的 过程,该 过程使 用百分 位数、标准差 范围或 者等间 距方式 将连续变 量划分
        48 第 3章  数据 管理

为 若干组 段,并采 用图形 化操作 的方式 ,非常 直观好 用。


这里 仍以数 据文件 t
rans
for
m.s
av为例,假设现 在希 望按 变量 ma
th将 学 生 分为 5组,60分以
下 为第一 组,
60分以 上的按 照等间 距的 方 式分 4组 ,则选 择 菜 单 Tr
ans
for
m→ Vi
sualBa
nder
,首先
会 弹出变 量选择 界面,要 求选择 希望进 行 分段 (组)的变 量,这里 选入 mat
h,单 击“Cont
inue”后即
弹 出主界 面如图 3.7所 示。界 面左上 角列出 的是需 要 进行 分 组的 变 量,选 中 后则 会在 右侧 以直
方 图的形 式给出 变量的 分布特 征,同时 在上方 还会指 出最大 、最小 值和缺 失值情 况。界面 最上方
的 Cur
rent行给出 的是原 变量的 信息,而 Banded行 给出的 则是生 成的分 组变量 的信息,可以 自行
定 义和更 改。

图 3.7 可 视化 分段 对 话框

整个 界面的 中下部 均用于 定义分 组规则 ,Gr


id框 组用于 显示定 义好的 规则,更改规则 可以在
该 界面上 直接进 行,但更 方便的 方式是 使用 Ma
keCut
poi
nts子 对话 框设 定 分段 规则,用 Ma
keLa

bel
s按 钮自动 填充值 标签。 以前者 为例,它 可以选 择使用 等间距 (Equa
lWi
dthI
nter
)、等比例 (等
样 本量,EqualPer
cent
il
esBas
edonSca
nnedCas
es)或者 按照指 定的标 准差范 围(Cut
poi
ntsatMean
andSel
ect
edSt
andar
dDevi
ati
onsBa
sedonSca
nnedCas
es)三种方 式进行 分段,如图 3.8(a)所示,其
中 第三种 方式显 然可以 用来在 数据分 析或质 量控 制中 筛 选异 常值。 本 例中 为 第一 种方 式,即在
对 话框中 依次定 义好分 组的起 点、组段 数或组 距,相 应的分 组定义 即可完 成。
在单 击“Appl
y”按钮 回到主 界面后 ,就会发 现变 量 mat
h的 直方图 自动 显 示出 了所 定义 的分
组 界限,如 图 3.8(b)所 示,此 时可以 通过拖 拉分隔 线的方 式来修 改分组 界限值 。显然,可视 化分
段 过程在 操作上 要比 Rec
ode过程赋 予用户 对数据 更多的 控制能 力。本 例完整 的操作步 骤如下 :
3.1 变 量级别 的数据 管理  49      

Tr
ans
for
m→ Vi
sua
lBa
nde

Va
riabl
est
oBander
:ma
th
Co
nti
nue
 选 中 mat
h:
 Banded:Name:mat
hcl

 Uppe
rEndpoi
nts
:Exc
lude
d(<)
  MakeCut
poi
nts:Fi
rstCut
poi
nt:60|
Numbe
rof
:5|
Widt
h:10:Appl

  MakeLabel

OK

                      (a
)                                         (b)

图 3.8  MakeCut
poi
nts子 对 话框以及 设置 完 毕的 可视 化分 段对话 框

3.1.4 将字符 变 量转换为 数值变量

在数 据分析 中,将字 符变量 转换为 数值变 量是非 常实用 的一个 功能。 除了 使 用 Reco
de过程
手 工设定 转换规 则外,在 SPSS中还可 以使用 Aut
omat
icRe
code过 程自 动按 原变 量 值的 大小 或者
字 母排序 生成新 变量,而 变量值 就是原 值的大 小次序 。
例 3.3  在 t
rans
for
m.s
av数据 中,将 字符型 变量 c
it
y转化 为数值 变量 newci
ty。
由于 Aut
oma
ti
cRec
ode过程的 操作界 面非常 简单,这里就 不 再详 述 操作过 程,直接 给出 相应
的 界面和 结果如 图 3.9所示。
Aut
omat
icRe
code的 排序功 能和 Ra
nkCa
ses类似 ,所不同 的是,Aut
omat
icRec
ode可以 用于字
符 型变量 。
        50 第 3章  数据 管理

                           (a
)                                           (b)

图 3.9  Aut
oma
ticRe
code对 话框以及 所生 成 变量 newci
ty的值 标签 定 义

3.1.5 变量的 编 秩

所谓 编秩,其 实就是 对记录 按照 某 个变 量 值 的大小 来排 序 。Ra


nkCas
es过程 就是 用来 排序
的 一个专 用过程 。具体 来说,它 根 据某 变 量的 大 小来 排 出 次序 (秩 次 ),然后 将 秩次 结 果 存储 到
一 个新变 量中去 。这样 做有什 么用处 呢?在 许多时 候 参数 检 验的 条 件 不被 满 足,此时 不得 不使
用 非参数 方法,而 稍微复 杂些的 非参数 方法就 无法直 接用对 话框来 完成了 ,需要 先计算秩 次再进
行 分析(详 见非参 数检验 一章)。
例 3.4  试根据 性别分 组计算 数学成 绩的秩 次。
解:选择 菜单 Tr
ans
for
m→ RankCas
es,弹出 Ra
nkCa
ses对话 框如图 3.10所示。

                      (a
)                                           (b)

图 3.10  RankCas
es对话框

在 RankCas
es对话框 中:
(1)As
sig
nRa
nk1t
o单选 框组:用于选 择将秩 次 1赋 给最小 值或最 大值。
(2) Di
spl
ays
ummar
ytabl
es:用于 确定是 否在结 果窗口 内输出 结果报 表。
3.1 变 量级别 的数据 管理  51      

(3)RankTy
pes按 钮:用于 定义秩 次类型 ,默认 为最常 用的 Rank(秩 分数),另有其他 几种选
择 ,单击“Mo
re”按钮 ,还会 有更多 的设置 。由于 除了 秩 分数以 外 的方 法 很少被 用到,这 里不 再详
述 ,有兴趣 的朋友 可参见 用户手 册。
(4)Ti
es按 钮:用 于定义 对相同 值观测 量的处 理方式 ,可以是 取平均 秩次、最小秩 次 、最 大秩
次 或当作 一个记 录处理 ,默认值 为取平 均秩次 。
这里 将变量 mat
h选入 Va
riabl
e框,分 组变量 gende
r选 入 By框 ,单击 “OK”按 钮即可 ,其 他一
些 设置使 用默认 。系统 会建立 一 个新 变 量 Rmat
h(即 原 变 量名 前 加 R表 示 Rank之 意 ),其取 值
为 mat
h分组的 秩次。
在前 面讲解 的操作 全部结 束后,数 据集 t
ransf
orm.s
av中的数 据如图 3.11所 示。

图 3.11  变 换后 的 t
rans
for
m.s
av中的 数 据

3.1.6 Trans
for
m 菜单 中的其他 功 能

(1)Count过 程:该过 程用于 表 示某 个 变量 的 取 值中 是 否 出 现 某 个值,可 以 是单 个 数 值,也


可 以指定 区间,并 且可以 仅给出 条件,而不必 对整个 数据集 进行操 作。该 过程的 功能可以 直接使
用 Recode过程 来实现 。
(2)Random Numbe
rSe
ed过 程:用于 设定伪 随机函 数的 随 机种子 。 默认 情况 下随 机种 子随
着 时间在 不停改 变,这样 所计 算 出 的 随机 数值 无 法 重复,这 在 临床 试验 等情 况 中是 不 符 合要 求
的 。此时 可用 Random NumberSee
d过程人 为指定 一个种 子,以后 所有的 伪随机 函 数在 计算 时都
会 以该种 子开始 计算,即 结果可 重现。 但它对 真随机 函数没 有任何 影响。
        52 第 3章  数据 管理

3.
2 文件级别的数据管理(一)

Tr
ans
for
m菜单 提供的 数据管 理功能 虽 然很 强 ,但基 本 上仅 限于 变量 级 别,有时 候 需 要对 整
个 数据文 件进行 加工整 理,而不 仅仅是 对变量 进 行操 作。 在 SPSS中 ,
这 部分功 能主要 集中在 Dat
a菜单(参 见图 3.12)下。根 据各自 的功能
特 点,该菜 单中的 所有项 目可分 为以下 几类:
① 简单命 令:包 括 插入 变 量、插 入 记 录 和到 达 某 条记 录,它 们 的
功 能实际 上都可 以使用 鼠标在 数据表 界面上 直接完 成,很 少 会使用 菜
单 来调用 ,本书不 对其进 行讲解 。
② 常用的 简单过 程:包 括排序 、拆分文 件、选择 记录和 加 权 记录 ,
这 几个过 程并不 复杂,但 使用得 极为频 繁,是 大家必 须掌握 的内容 。
③ 变量与 数据文 件 属性 向 导:是 11.5版新 增 的 两个 向 导,用 于
定 义数据 字典,或 者将预 定义 的 数 据字 典 直 接 引入 当前 数 据 文件,对
于 大型或 者连续 性的数 据分析 项目而 言,这是 一个非 常有用 的功能 。
④ 数据重 构向导 :用于 进行数 据 转置,或者对 重 复 测量 数 据进 行
长 型、宽型 记录格 式间的 转换,详述见 后面相 关章节 。 图 3.12 Dat
a菜 单

⑤ 文件合 并过程 :将几 个数据 文件合 并为一 个大的 SPSS数 据文件 ,含横向 合 并和 纵向 合并
两 种情况 ,详述见 后面相 关章节 。
⑥ 正交设 计过程 :实际 上是联 合分析 模块的 一部分 ,用于生 成实施 联合分 析所需 的 设计,由
于 这一分 析方法 是市场 研究中 的专用 工具,对 它的讲 解可参 见本丛 书中的 《SPSS与市 场研究 》一
书 相关内 容。
⑦ 其他过 程:包 括定义 日期变 量 过 程、数 据汇 总 过 程和 查 找重 复 记录 向 导。 前者 用 于时 间
序 列数据 的分析 ,将在时 间序列 一书中 讲解,后两个 过 程将 在 下文 加 以 讲解,其中 查找 重复 记录
向 导为 12.0版新 增功能 。
本节 将首先 讲解非 常重要 的几个 简单过 程,下 一 节将 重 点 讲述文 件级 别 数据 管理 中一 些比
较 复杂的 功能。

3.2.1 记录排 序

数据 编辑窗 口中记 录的前 后次序 是随机 的,由录 入时的 先后顺 序决定 。实际 工作中 ,有时用
户 希望按 某种顺 序来观 察一批 数据,例 如,在 销售报 表中,希 望按销 售额从 低到高 的顺序 ,或者按
销 售时间 从早到 晚的顺 序来浏 览数据 。观察 排序后 的记录 数据,会 方便用 户了解 数据。
SPSS中的 记录排 序就是 将数据 编辑窗 口中的 数据,按照用 户指定 的某 一个 或 多个 变量 值的
升 序或降 序重新 排列,这 里用户 所指定 的变量 称为排 序变量 。当对 所有记 录进行 排序时 ,可按照
排 序变量 取值的 大小次 序对记 录数据 重新整 理后显 示。当 对记录 进行分 组排序 时,在每 个组内 ,
按 照排序 变量取 值的大 小次序 对记录 数据进 行排序 。
3.2 文件 级别的 数据管 理(一)  53      

对于 单变量 排序,SPSS提供了 一种简 易操作 方法,就 是在数 据表 格 的变量 名处单 击 右键,弹


出 的右键 菜单其 最后两 项就是 “Sor
tAs
cendi
ng”和“So
rtDe
scendi
ng”。 但是,对 于多变量 排序,则
需 要使用 这里讲 述的 Sor
tCa
ses过程来 进行。 由于该 对 话框并 不复杂 ,因此 这 里不 再详 细讲解 ,
仅 给出一 个示意 图,如图 3.13所示。

图 3.13 Sor
tCa
ses对 话框

图 3.13显示 的是将 数据按 照 c


it
y升 序,g
ender降序 的 方 式进 行 排 列 的操 作。其 中 ,比较 特
殊 的是 c
it
y和 g
ender后面 分别跟 着 As
cendi
ng和 Des
cendi
ng,表明 前者按 升序,后 者按降 序排列 ,
如 果要改 变升降 序,则选 中相应 变量,然 后直 接 在 Sor
tOr
der单 选框 组中 修 改 选 择即 可 ,同时 需
要 说明以 下几点 :
(1)在多重 排序中 ,指定排 序变量 名的次 序是很 关键的 ,先指 定的变 量在排 序时必然 优先于
后 指定的 变量。 即记录 首先按 第一个 变量进 行排序 ,对于 与 第 一变量 取值 相 同的 记录 考虑 按第
二 个变量 排序,以 此类推 。
(2)可以指 定按某 变量值 升序排 序的同 时按另 一变量 值降序 排序,或 相反。
(3)排序以 后,原来 记录数 据的排 列次序 将被打 乱。因 此 ,在 时 间 序列 的 数据 中,如果 数据
中 没有存 放记录 标志的 变量,如 年份等 ,则应 注意保 存原数 据的排 列顺序 ,以免数 据混乱 。

3.2.2 记录拆 分

用于 将数据 文件分 组进行 处理。 如果希 望分组 进 行相 应 的统 计 分 析,或 者只 分析 其中 的一


部 分数据 ,则可以 通过拆 分数据 集来加 以实现 。Spl
itFi
le过程用 于实现 这一功 能,其界 面非 常简
单 ,如图 3.14所 示。
这里 介绍一 下各个 对话框 元素的 用途:
(1) Ana
lyz
eal
lca
ses
:和 下面的 两个单 选框为 一组,选 中本框 不拆分 文件。
(2) Compar
egr
oups
:按所 选变量 拆分文 件,各 组分析 结果放 在一起 便于比 较。
(3) Or
gani
zeout
putbygr
oups
:按 所选变 量拆分 文件,各 组分析 结果单 独放置 。
(4)Gr
oupsBas
edon框:用 于选择 拆分数 据文件 的变量 。
(5) Sor
tthef
il
ebyg
roupi
ngv
ari
abl
es:和下 面 的 Fi
lei
sal
readys
ort
ed为 一组,要 求拆 分时
将 数据按 所用的 拆分变 量排序 。
(6) Fi
lei
sal
readys
ort
ed:如果 数据集 很大,而 所用的 拆分变 量已经 排过序 了,可使 用该单
        54 第 3章  数据 管理

图 3.
14 Spl
itFi
le过程 主对 话框

选 框以节 省运行 时间,但 实际上 较少用 到。


当对 数据集 进行拆 分后,可 以看到 状态栏 右侧会 出现 Spl
itOn的提 示,表明 所 做的 拆分 正在
生 效,它将 在以后 的分析 中一直 有效,而且会 被存储 在数据 集中,直 到再次 进行设 定为止 。

3.2.3 记录筛 选

很多 时候用 户不需 要分析 全部的 数据,而 是按要 求分析 其中的 一部分 ,比如 只分析职 位是经
理 的人的 年薪,或 者只对 接受教 育年限 在 12年以上 的人进 行分析 ,这时使 用 Sel
ectCa
ses过 程可
以 大大简 化用户 的工作 。对话 框界面 如图 3.15所示 。

图 3.
15  Sel
ectCas
es过程 主对 话框
3.2 文件 级别的 数据管 理(一)  55      

(1)主要的 对话框 元素为 Sel


ect单选框 组,用 于确定 选择方 式。
Al
lcas
es:分析所 有的记 录。

fcondi
ti
oni
ssat
is
fi
ed:只 分析满 足条件 的 记录 ,单击 下 方的 I
f按 钮后 弹出 I
f对话框 ,
用 于定义 筛选条 件。
Rando
msa
mpl
eofc
ase
s:从 原数据 中按某 种条件 抽样,使用 下方 的 Sa
mpl
e按 钮进 行具
体 设定,可 以按百 分比抽 取记录 ,或者 精确设 定从前 若干个 记录中 抽取多 少个记 录。
Ba
sedo
nti
meo
rcas
erange:基于 时间或 记录序 号来选 择记录 ,使 用下 方 的 Range按钮
设 定记录 序号范 围。
Us
efi
lt
ervar
iabl
e:使 用筛选 指示变 量来选 择记录 ,必须在 下面选 入一个 筛选指 示变量 ,
该 变量取 值为非 0的记 录将被 选中,进 入以后 的分析 。
(2)最下方 的 Uns
elec
tedCas
esAr
e单选框 组用于 选择对 没有选 中的记 录的处 理方式 。
Fi
lt
ered:表示未 被选中 的记录 只是被 隔离,这 些记录 的 记录 号 上会 被加 上斜 杠以 示区
别 ;同时系 统会自 动产生 一个名 为 f
il
te
r $ 的筛选 指示变 量,被 选中的 记录该 变量取 值为 1,反之
则 为 0。
Del
et
ed:未被选 中的记 录将被 删除,一般不 要使用 ,以免误 删数据 。
当对 数据集 做出筛 选后,可 以看到 状态栏 右侧会 出现“Fi
lt
erOn”的 提示,表 明 所做 的筛 选正
在 生效,筛 选功能 将在以 后的分 析中一 直有效 ,而且 会 被存 储 在数 据 集 中,直 到再 次改 变选 择条
件 为止。

3.2.4 记录加 权

在默 认情况 下,每一 行 就是 一条 记录 ,这 在 多 数 情况 下 没 有什 么 问题,但 有时 却 非 常 麻烦 。


如 图 3.16所示的 数据表 ,如果 每一行 就是一 条记录 ,则需要 输入
121行 。这时 候,一 般 使用 频 数 格 式 录 入 数 据,即 相同 取 值的 观
测 只录入 一次,另 加一个 频数变 量用于 记录该 数值共 出现了 多少
次 。这样 就需要 在分析 时用到 Wei
ghtCas
es过程 (参 见图 3.17)
将 数据指 定为该 种格式 。该过 程的使 用极为 简单,对 话框界 面上
有 两个单 选按钮 ,分别 是 不 按权 重 记录 和 按某 变 量 权重 记 录,如 图 3.16  频数 格 式录 入数 据
果 选择后 者,则需 要选中 一个权 重变量 。

图 3.17 Wei
ghtCase
s过 程主对 话框
        56 第 3章  数据 管理

进行 权重 记录 以后,SPSS界 面 右 下 角 会出 现 “We
ightOn”的 字 样,且可 以被 存 储 到 数据 集
中 ,直到用 户取消 加权,否则一 直按加 权对数 据进行 处理。

3.2.5 数据汇 总

所谓 分类汇 总就是 按指定 的分类 变量对 观测值 进 行分 组 ,对每组 记录 的 各变 量求 指定 的描


述 统计量 ,结果可 以存入 新数据 文件,也可以 替换当 前数据 文件。 对数据 文件进 行分类汇 总是实
际 工作中 经常遇 到的事 情。例 如,对于 学生基 本情况 的数据 ,现希 望了解 不同性 别学生的 平均分
数 情况。 这就需 要首先 对数据 按不同 性别分 类,然后 再 分别 求 出各 类 学 生的 分 数平 均 值。 这个
过 程本质 就是一 个数据 的分类 汇总的 过程。
在 SPSS中,实 现 数 据 文 件 的 分 类 汇 总 是 经 过 三 大 步 骤 完 成 的 。 首 先 ,要 指 定 分 类 变 量
(Br
eakVar
iabl
e(s))和汇总 变量(Aggr
egat
eVa
riabl
e(s
));然后 ,SPSS自 动根 据 分类 变 量 的取 值
将 记录数 据分成 若干类 ,并对每 类记录 分别计 算 汇总 变 量的 描 述统 计 量;最 后 ,将 分类 汇总 的计
算 结果保 存到一 个 SPSS数据文 件中。
为更 清楚地 了解 SPSS分类 汇总的 过程和 结果,这里以 数据 t
ransf
orm.s
av为 例来加 以演示 。
例 3.5  根据数 据 t
rans
for
m.s
av中学 生的性 别变量 对英语 的平均 成绩进 行汇总 。
首先 ,选择菜 单:Da
ta→ Agg
reg
ate,出 现 如图 3.18所 示的窗 口。然 后 ,指定 分类变量 到 Br
eak
Va
riabl
e(s
)框中 ,指定 汇总变 量到 Ag
greg
ateVa
riabl
e(s)框中。 使 用 Func
tion按 钮 指定 对汇 总变
量 计算哪 些描述 统计量 ,此处共 提供了 5组函 数,分 别 为 常用 汇 总函 数 、特定 值、记 录数 、百 分比
和 百分片 断(Fr
act
io
n)。以最 常用的 第一组 为例,可 选的函 数有均 数、中 位数、总 和、标 准 差 4种 。
SPSS默 认对各 类分别 计算汇 总变量 的均值 ,见图 3.18。

图 3.18  Aggr
egat
e过 程的 主对 话 框

另外 ,也可以 指定分 类汇总 的结果 保存到 何处。 有两种 选择:第一,Cr


eat
ene
wdat
afi
le:表示
3.3 文件 级别的 数据管 理(二)  57      

将 结果生 成到系 统默认 的名为 a


ggr
.sa
v的 SPSS数据 文件中 ,可以 按 Fi
le按钮重 新指定结 果文件
路 径和文 件名。 第二,Repl
acewor
kingdat
afi
le:表 示以分 类汇总 后的结 果覆 盖 SPSS当 前 数据编
辑 窗口中 的数据 。一般 采用前 一种方 式较好 。
如果 希望在 结果数 据文件 中保存 分类组 的记录 数,则选 择 Sa
venumberofc
asei
nbr
eakgr
oup
asva
riabl
e选项。 于是 SPSS便 在 结 果数 据 文 件 中自 动生 成
一 个默认 名为 N BREAK的 变量,见 图 3.
19。
分类 汇总产 生的 SPSS数据 文件的 记录数 取决于 分 类变
量 的取值 个数。 这里,分 类 变量 性 别 有两 种 取 值,则 按性 别 图 3.19 保 存分 类组 的记 录 数
分 类汇总 后的数 据就有 两条。
还需 要说明 的是:分 类汇总 中的分 类变量 可以指 定多个 ,称为 多重分 类汇总 。此时汇 总数据
文 件的记 录数等 于各分 类变量 类别数 的乘积 。 如分类 变量 为 性 别(男、女 )和 班级 (一、二、三 ),
则 汇总数 据文件 中会有 6(2×3)条记 录。第 一个 指 定 的分类 变量 为 主 分类变 量,其他 的依 次为
第 二、第三 分类变 量。

3.
3 文件级别的数据管理(二)

在上 一节中 讲解了 最为基 本和常 用的数 据管理 功能,对 于一般 的数据 分析任 务,这些 已经足
够 。但是 在较复 杂的数 据分析 项 目 中,往 往会 在 数 据管 理 中涉 及格 式化 数 据、发现 重 复 录入 记
录 ,拼接多 个数据 集和转 换存储 格式等 复杂功 能,涉 及 的数 据 文件 也 不 止一 个 ,本 节的 任务 就是
为 大家讲 解这些 较为复 杂的文 件级别 数据管 理功能 。

3.3.1 数据字 典 的定义与 应用

在大 型的数 据分析 项目中 ,数据管 理是非 常重 要 的 一个 环 节,为 了 保证 工 作质 量,数据 处理


人 员往往 会事先 定义好 一个非 常详细 的数据 格式,包 括变量 格式、变量标 签、值标 签、缺失 值定义
等 ,这被称 为数据 字典。 从 11.5版起 ,SPSS新增 了两个 数据管 理向导 ,专门用 于定义 数 据字典 ,
或 者将预 定义的 数据字 典直接 引入当 前数据 文件。 对 于大 型 或者 连 续 性的 数 据分 析项 目而言 ,
这 是一个 非常有 用的功 能,可以 大大减 轻数据 处理人 员的工 作负担 。

1.变量属 性定义 向导

变量 属性定 义向导 即 Def


ineVa
riabl
ePr
ope
rti
es过 程,用 于 对数据 集中 已 存在 的变 量进 一步
定 义其属 性。具 体说来 ,可以列 出所选 变量的 所 有取 值;分 辨 没有 值 标 签的 值 ,并 且提 供自 动给
出 值标签 的功能 ;可以将 另一个 变量的 属性拷 贝到所 选的变 量,也 可以将 所选变 量的属性 拷贝到
其 他变量 。虽然 该向导 的绝大 多数功 能都可 以在变 量 视图 中 实现,但 对于 复 杂的 数据 管理 项目
而 言,它的 可视化 能力可 以大大 提高工 作效率 ,并且 对 初学 者 而言,使 用该 向 导进 行变 量的 设置
也 是非常 好的选 择。
这里 仍以数 据集 t
ransf
orm.s
av为 例对该 向导加 以说明 。假设 现在希 望对变 量 g
ender进行属
        58 第 3章  数据 管理

性 设定,则 选择 Da
ta→Def
ineVar
iabl
ePr
oper
ti
es,此时 会弹出 预定义 对话框 ,要求 选择希望 进行设
定 的变量 ,可 以选 择多个 ,SPSS将 会 对选入 的变量 都 进行扫 描。这 里 只选 入 g
ender
,则 进 入向导
的 主界面 如图 3.20所示 。

图 3.20  De
fineVa
riabl
ePr
oper
ti
es对话 框

主界 面的左 侧会列 出所有 被选择 或扫描 的变量 ,选中相 应的变 量名称 ,则右 侧会显示 出相应
的 设定,并 供用户 加以更 改:上 部用于 设定测 量尺度 、存储格 式、变 量 名标签 等,如果 单击 Sugges

按 钮,则 系 统会 根 据扫描 到 的数据 给出建 议的测 量 尺度;中部的 Val
ueLa
bel网 格会 列 出该 变量
所 有 取 值 的 频 数、当 前 值 标 签和 缺 失 值 设 定 等,这 里 可 以更 改 标 签 和 缺 失 值 的 设 定 。下 部 的
CopyPr
oper
ti
es按 钮组用 于将另 一个被 扫描变 量的属 性拷贝 到所选 的变量 ,也可 以将所选 变量的
属 性拷贝 到其他 被扫描 变量,这 里由于 只选择 了一个 变量,因此实 际上没 有用到 该按钮组 。右下
方 的 Aut
omat
icLabel
s按钮用 于自动 生成值 标签,实 际上就 是将所 有的变 量值均 赋给值 标签。
如图 3.20所 示,此 时已经 对 ge
nder的属性 进行了 更改,读 者可以 看到 在 这一 个界 面中 就完
成 了对变 量的所 有属性 定义,而 且可以 一次性 定义多 个变量 ,并且 由系统 帮助扫 描出全部 取值范
围 ,这显然 要比在 变量视 图中进 行操作 要容易 得多,可以大 大方便 数据字 典的定 义工作。

2.复制数 据文件 属性向 导

Co
pyDa
taPr
oper
ti
es过 程用 于 将 定义 好 的数 据 字 典直接 应用 到 当 前文件 中,在操 作时 不仅
可 以将一 个外部 的数据 文件相 关属性 拷贝到 当前数 据文件 中,还可 以进行 自定义 ,只选择 某些变
量 ,或者某 些属性 进行拷 贝,这 无疑大 大提高 了连续 性项目 对原有 资源的 利用程 度。对于 一些特
殊 的文件 属性,如 多选题 变量集 、普通 变量集 、权重变 量的设 定等,使用该 向导进 行复制会 减少许
多 重复工 作。
例 3.6  将数据 集 t
rans
for
m.s
av中 相关的 变量属 性作为 数据字 典应用 到另一 个数据 集 t
rans


orm2.s
av中。
各位 读者可 以首先 分别打 开这两 个文件 ,比较一 下它们 之间的 区别,可以发 现对于相 同的变
3.3 文件 级别的 数据管 理(二)  59      

量 ,t
ransf
orm.s
av中 均设置 了标签 ,且列宽 、测量 尺度 等 的设 置均 不相 同 。下面 开 始进行 操作,首
先 打开文 件 t
rans
for
m2.s
av,然后选 择 Dat
a→Co
pyDat
aPr
oper
ti
es,系统 会首 先 弹出 向导 的第 一个
对 话框,要 求指定 希望复 制的属 性是来 自于当 前 文件 ,还是 另 一个 外 部 数据 文 件,本例 中指 定为

rans
for
m.sa
v所在位 置。单 击“下一 步”按钮 后出现 如图 3.21所 示的对 话框,该 界 面用 于设 定希
望 复制的 属性 种 类 ,有 三 种 选 择,分 别 为 选 择 同 名 同 类 型 同 长 度变 量 的 属 性 进 行 复 制 (Appl

pr
oper
ti
esf
rom s
elect
eds
our
cef
il
evar
iabl
est
omat
chi
ngwor
kingf
il
e)、选 择 一个变 量的属 性 进行复
制 (Appl
ypr
oper
ti
esf
romas
ingl
eso
urceva
riabl
etose
lec
tedwo
rki
ngf
il
eva
riabl
e)和 仅复制文 件属性
(Appl
yda
tas
etpr
oper
ti
esonl
y-novar
iabl
ese
lec
ti
on)如多选 题集定 义、权 重 设定等 。 这里 选择 第一
项 ,需注意 性别变 量由于 在两个 文件中 的名称 不同,因此未 出现在 下方的 列表中 。然后选 中源文
件 变量列 表中的 全部变 量,单击 “下一步 ”按钮,随后 的对 话 框(见 图 3.22)会 要求 用户 详细 指定
希 望复制 的变量 属性,共 有 7种 之多,并且可 以选择 是替换 原有属 性,还是 和原属 性进行 合并。

图 3.21  Co
pyDat
aPr
oper
ti
es对话框 1

在如 图 3.21,图 3.22所示的 两个对 话框出 现时,使 用者其 实就可 以单击 “完成 ”按 钮结 束向


导 了,此后 出现的 界面分 别用于 选择希 望复 制 的文件 属性,以 及 是否 生 成 相应 的 SPSS程 序。运
行 完毕后 ,大家就 会看到 ,除了 未加设 定的变 量 s
ex外,其 余各变 量的属 性都套 用了 t
ransf
orm.s
av
中 的相应 设置。
最后 ,总结一 下如何 应用上 述两个 向导来 完 成数 据 管理 任 务。如 果有 事 先定 义的 数据 字典
格 式,则可 以先生 成一个 没有记 录的空 数据文 件,将 全 部的 数 据字 典 设 定好,将来 在数 据录 入完
毕 后使用 复制文 件属性 向导套 用字典 即可;如 果没有 事先定 义的数 据字典 格式,则可以在 录入工
        60 第 3章  数据 管理

图 3.22  Co
pyDat
aPr
oper
ti
es对话框 2

作 进行了 一段时 间以后 先使用 变量属 性定义 向导完 成 数据 字 典的 设 定 工作,然后 随着 录入 工作


的 进行经 常扫描 数据的 情况,及 时更新 字典,最后在 录 入工 作 完毕 后 ,使用 复 制文 件属 性向 导应
用 字典的 最终版 本。现 在大家 知道了 这两个 向导并 不是多 余的,而 是非常 重要和 实用的 。当然 ,
如 果数据 管理任 务不太 复杂,则 也可以 直接在 数据字 典中录 入数据 ,或者 直接在 变量视图 中修改
属 性。但 是在真 正的大 型数据 管理项 目中,单 独建立 和维护 数据字 典是非 常关键 的一环 ,此时这
两 个向导 的作用 就不可 忽视了 。

3.3.2 查找重 复 记录

在大 型 的数 据 管 理或 者 复杂 的 数 据变 换 工作 中 ,重复 记 录的 发 现 是经 常 需要 完成 的任务 。

dent
if
yingDupl
icat
eCa
ses是 SPSS12.0新增 的功能 ,通过简 单的菜 单操作 ,可以 迅速地发 现个别
变 量值重 复,或者 所有数 值完全 重复的 记录。
下面 用数据 c
ompa
ny r
ongy
u.s
av来进 行示 例。 该数 据 是 一份 对 几 个公 司的 统计 表。但 由
于 有的公 司提交 了数次 ,因而在 这个数 据文件 中出现 了 不止 一 次。在 作统 计 工作 时必 须把 这些
重 复数据 删掉。 数据量 少时排 序后逐 个删除 当然是 没有问 题的,但 数据量 较大时 ,这将是 一个非
常 庞大的 工作。 SPSS提供了 这种识 别重复 记录(I
dent
if
yDupl
icat
eCas
es)的 程 序,下面 看一 下如
何 用它来 简 化工 作 。选择 Dat
a→I
dent
if
yDupl
icat
eCa
ses
,弹出 如 图 3.23所示 的对话 框 ,上方 的
De
finemat
chi
ngc
asesby框用 于选入 希望查 找重复 值的变 量 (组),这 里 将企 业 名称、企 业所 在地
3.3 文件 级别的 数据管 理(二)  61      

区 两个变 量选入 ;下方的 So


rt框 组用于 设定对 于重复 的记录 按照哪 个变量 的取值 排序,操 作方式
和 Sor
t对话 框基本 相同,此处选 入 i
d;整 个对话 框的 下 方实际 上不会 影 响重 复 记录 的查 找,只是
影 响相应 记录的 显示和 排列方 式,I
ndi
cat
or框组用 于设定 是将第 一个,还是 最后 一 个重 复记 录设
为 主记录 (相应的 ,其余记 录就成 为了“重 复”的记 录),而 Seque
nti
al框用 于选择 是否要 求为 重复
记 录编制 流水号 。

图 3.
23 Ident
if
yDupl
ica
teCase
s对 话框

在操 作完毕 后,得到 的结果 如图 3.


24所 示,可 见 变量 Pr
ima
ryLa
st等于 0表示 相应 记录 为重
复 记录,本 例中共 发现 2、
4、7三 条重复 记录。 而重 复 的 记录 间 又是 按 照 I
D号 的大 小进 行排序 ,
这 正是原 本所设 定的情 形。

图 3.24 操 作结 束后的 数据 界面

最后 ,结果窗 口中还 会给出 本次操 作的汇 总信息 ,如表 3.1和 表 3.2所示。


        62 第 3章  数据 管理

表 3.1 St
ati
st
ics

表 3.2 Indi
cat
orofeachl
astmat
chi
ngcaseasPr
imary

3.3.3 数据文 件 的重新排 列与转置

数据 文件的 重新排 列,是数 据分析 中经常 用到的 一个功 能。数 据录入 的格式 ,未必能 一步到
位 地满足 用户分 析时的 要求,很 多时候 用户 要 根据 分 析 的要求 改变 数 据 的排列 格式,Res
truct
ure
过 程是一 个图形 化界面 的数据 重构向 导,直观 地实现 了这一 功能。

1.数据的 长型与 宽型格 式

长型 格式和 宽型格 式指的 是重复 测量数 据的两 种 不同 的 排列 方 式,由 于 重复 测量 模型 可以


使 用不同 的统计 模型加 以分析 ,因此,根据模 型的要 求进行 长型格 式和宽 型格式 之间的互 转是数
据 分析中 经常要 遇到的 问题。
这里 以 SPSS的自 带 文件 Anxi
ety.s
av和 Anxi
ety2.s
av来 说明 这两 种 数据 排列 格式 的特点 。
这 两个文 件记录 的都是 12名精 神病患 者在接 受治疗 后的 4个时间 点的精 神状态 评分,其中 变量

ubj
ect为 病人的 i
d号 ,s
cor
e为评 分,t
ri
al为 测 量时 的时 间点 编 号,a
nxi
ety和 t
ens
ion记 录 了病 人
在 治疗前 有无焦 虑和紧 张。Anxi
et
y.s
av文件 是长型 格式,以 每次测 量作为 一条记 录,用变 量 s
ub-

ect和 t
ri
al来 区分是 哪位病 人的第 几次测 量,anxi
et
y和 t
ens
ion作为 携 带变 量 在相 同病 人的 记录
中 重复出 现,这样 12个 病人共 形成了 48条记 录;而 Anxi
ety2.s
av是 宽 型格 式 ,每 位病 人作 为一
条 记录,4次测 量分别 用 t
ri
al
1~t
ri
al4这 4个 变量来 分别记 录,原 先用于 区分测 量次数 的 变量 t
ri

al不再需 要,同一 个病人 的 s
ubj
ect
、anx
iet
y和 t
ens
ion也只 出现一 次。从 图 3.25中 可以 更清 楚地
理 解这两 种数据 格式的 特点。
事实 上,在学 习了第 2章后 ,大家 应当能 够明白 长型格 式才是 符合统 计分析 要求的标 准记录
格 式,但是 由于重 复测量 数据会 使用特 殊的重 复测量 模型来 进行分 析,此 时就需 要将数据 变换为
宽 型格式 ,该模型 的详情 参见本 丛书的 高级教 程相关 章节。

2.长型格 式转换 为宽型 格式

现在 来看看 如何使 用 Res


tr
uct
ure过程实 现数据 结构的 重建。
例 3.7  将 SPSS自带文 件 Anx
iet
y.s
av转 换为 Anx
iet
y2.s
av的格 式。
3.3 文件 级别的 数据管 理(二)  63      

图 3.
25 数 据集 Anxi
ety.s
av和 Anxi
ety2.sav的 内容

解:选择 Da
ta→Res
tr
uct
ure,系统 会弹出 Res
truct
ure向 导的第 一个界 面如图 3.26所 示,从图
中 可以看 出,在向 导中共 提供了 三种数 据重排 功 能,分 别是 长 型与 宽 型 格式 的 互换 和行 列转置 。
根 据要求 ,在这个 例子中 要使用 的是 第 二 种功 能 ,选择 Res
truct
ures
ele
ctedc
asesi
ntova
riabl
es单
选 框,单击 “下一步 ”按钮后 显示向 导的第 二个界 面,见 图 3.
27。

图 3.
26  Res
truct
ure向 导第一 步

图 3.
27  Res
truct
ure向 导第二 步
        64 第 3章  数据 管理

根据 要求可 知,用户 指定被 重复测 量个体 的 i


d标识 变量和 用于反 映测量 次别的 I
nde
x变量 ,
此 处分别 为 s
ubj
ect和 t
ri
al,将它 们分别 选入 I
dent
if
ie
rVar
iabl
es框和 I
nde
xVar
iabl
es框后 单击“下
一 步”按钮 ,向导会 进一步 询问是 否根据 i
d变量和 I
nde
x变量 对数据 进行排 序,见 图 3.
28。

图 3.28  Rest
ruct
ure向 导第 三步 图

系统 默认为 “Yes
”,此 时不做 更改可 以继续 单击“下 一 步”按钮 ,也 可以 单击“完 成”按钮,系
统 会自动 判断所 需的内 容。单 击“下一 步”按钮 ,看看下 边 会有 些 什么内 容,从 图 3.29中可 以看
出 ,这一步 是对重 新排列 以后的 数据文 件的结 构进行 设置,给出产 生一条 新记录 的原记录 的数目
以 及选择 是否需 要标识 变量。 即使用 户对这 个界面 的功能 不了解 ,根据向 导的简 短说明 ,也可以
判 断出此 步骤的 意图,这 也是 SPSS友好 的人 机 界 面 的一 个展 示。 在 这一 步 不做 更 改,单 击 “下
一 步”按 钮,最 后一 个 对 话框 用 于 选 择 是 直接 得 到 结果 ,还是 生成 相 应的 SPSS程序 ,默 认为 前
者 。直接 单击“完 成”按钮 ,就可 以 得 到 相应 的转 换后 的数 据 集 ,将该 结 果 与 数 据 Anxi
ety2.s
av
进 行比较 ,可以看 出除变 量名和 标签不 同外,两个文 件 的 内容 实际上 是 一 致的 。另 外,也可 以看
看 系统在 结果窗 口中的 汇总输 出,如表 3.3和 表 3.4所示,这常被 用来检 查是否 操作有 误。

图 3.
29  Res
truct
ure向 导第四 步
3.3 文件 级别的 数据管 理(二)  65      

表 3.3 Gene
rat
edVar
iabl
es 表 3.4  Proces
singStat
ist
ics

最后 还有一 个非常 有趣的 问题:本 例 中没 有 说明 哪 个 变量 需 要转 换 ,但最 后 程序 只将 s


cor

转 换为了 宽型格 式,anxi
et
y和 t
ens
ion则直接 携带 了 过来,未 加转 换。 这是 因 为 程序 会 自 动扫 描
需 要转换 的变量 ,如果该 变量在 相同个 体内取 值 均不 变,则 会 被自 动 携 带过 来 而不 加转 换,本例
中 的 anx
iet
y和 t
ensi
on正 属于这 种情况 。显然 ,SPSS的这 种设计 大大方 便了用 户的使 用。

3.宽型格 式转换 为长型 格式

下面 来看看 如何将 宽型格 式的数 据转换 为长型 格式,有 了前面 的基础 ,这一 部分内容 大家应
当 很容易 理解了 。假设 此处的 任务是 将 Anx
iet
y2.s
av转换为 如 Anxi
et
y.s
av的 长型格 式 ,则 在第
一 个向导 界面上 选择第 一项,单 击“下一 步”按钮 后弹出 界面如 图 3.30(a)所示,询问共有 几组重
复 测量变 量需要 转换,此 处只有 一个,单击“下 一步”按 钮后进 入最重 要的 变量 选择 界 面(参 见图
3.30(b)):Cas
eGr
oupI
dent
if
yica
ti
on框 用于设 定重 复测 量个体 的 i
d标识 变 量 ,此处 设 定 为变 量
Subj
ect
;中部的 Va
riabl
est
obeTr
ans
pos
ed框组 则用于 设定被 转换的 变量组 ,首先 将变量组 名称改
为t
ri
al,随后在 下方的 列表中 将 Tr
ial1~4选 入。如 果有多 组变量 需要转 换,则依 次设定 即可;最
下 方的 Fi
xedVar
iabl
e(s
)框 则用于 选入携 带变量 ,此处 为 Anx
iet
y和 Tens
ion。
        66 第 3章  数据 管理

图 3.30 转 换向 导 的第 二、三个 界面

   在正 确设定 了变量 选择界 面 之 后,下 面的 工 作 就非 常 简单 了 ,随后 的 Cr


eat
eIndexVar
iabl
es
界 面(参见 图 3.31(a))用 于设定 重复测 量指示 变量(如 同本例 中的变 量 t
ri
al),而 Cr
eat
eOneI
n-
dexVar
iabl
e界 面(参见 图 3.31(b))则具体 设定该 变量的 数值。 实际上 现在就 可以直接 单击“完
3.3 文件 级别的 数据管 理(二)  67      

图 3.31 转 换向 导 的第 四、五个 界面

成 ”按钮结 束本向 导了,如 果希望 更详细 地 加以 设 定,则 最 后还 有两 个界 面 用 于 选择 缺 失 值、未


选 中变量 的处理 方式以 及是直 接执行 ,还是生 成相应 的程序 。
在本 向导全 部运行 完毕后 ,数据就 会被转 换成长 型格式 ,同时 结果窗 口中会 给出操作 的汇总
表 格如表 3.5和 表 3.6所示。
表 3.5 Gene
rat
edVar
iabl
es 表 3.6  Proces
singStat
ist
ics

4.数据转 置

下面 看看 Tr
ans
pos
e过程 ,也就 是 数 据重 构 向导 的第 三 个功 能 。Tr
ans
pos
e过程 用 于 对数 据
进 行行列 转置,数 据文件 的转置 就是将 数据编 辑 窗口 中 数据 的 行列 互 换,即 将 记录 转为 变量,将
变 量转为 记录后 ,重新显 示在数 据编辑 窗口中 ,如图 3.32所 示。

图 3.32  转置 前 的数 据集 和转 置后 的 数据 集
        68 第 3章  数据 管理

Tr
ans
pos
e过程 的对话 框也非 常简单 (见图 3.33),左侧为 候选 变 量框;右 上 方为 Va
riabl
e(s)
框 ,用于选 入需要 转置的 变量,一般应 选入除 名称变 量外的 所有其 他变量 ,如果有 变量未 选入,则
转 置时会 被自动 丢弃;右 下方为 NameVa
riabl
e框,用 于指 定 原 数据文 件中 记 录转 置后 变量 名的
字 符变量 ,但不是 必需的 ,此时 系统会 将新变 量自动 按 var
001、v
ar002、…的顺 序命名 。

图 3.
33 Tra
nspos
e对 话框

对统 计分析 的初学 者而言 ,可能无 法想像 这个功 能有什 么用处 。实际 上,数 据转置主 要是用
于 编程,进 行矩阵 运算时 的矩阵 转置操 作,对 于只需 要 调用 现 成的 分 析 程序,不需 要自 行编 写算
法 的用户 而言,转 置功能 的确没 有多少 实际用 途。

3.3.4 多个数 据 文件的合 并

进行 统计分 析的第 一步工 作就是 将待分 析的数 据录入 到 SPSS中。在 数据量 较大时 ,经常需
要 把一份 大的数 据分成 几个小 部分,然 后再分 别由不 同的录 入员进 行录入 ,以缩 短数据录 入的时
间 。这样 就会出 现一份 大数据 分别存 储在几 个不同 的 数 据文 件中的 现 象。 因 此,将这 若干 个小
的 数据文 件合并 成一个 大的数 据文件 是进行 数据分 析的前 提。除 此以外 ,如果数 据有多 个来源 ,
则 可能会 使变量 分散在 几个文 件中,需 要按照 某种规 则加以 合并后 才能进 行分析 。
SPSS数据 文件的 合并方 式有两 种:纵 向连接 和横向 合并,它 们分 别 对应了 上述的 两 种情况 。
数 据集的 纵向连 接指的 是几个 数据集 中的数 据纵向 相加,组 成一个 新的数 据集,新数据集 中的记
录 数是原 来几个 数据集 中记录 数的总 和。横 向合并 指 的是 按 照记 录 的 次序,或者 某个 关键 变量
的 数值,将 不同数 据集中 的不同 变量合 并为一 个数据 集,新 数据集 中的变 量数是 所有原数 据集中
不 重名变 量的总 和。
在 SPSS中,进行合 并的文 件必须 都存储 为 SPSS数据格 式。如 果是用 程序方 式,则可 以一次
实 现多个 数据文 件的合 并,但是 ,如果 使用对 话框方 式,则一 次只能 进行两 个 SPSS数据文 件的合
并 ,且其中 一个必 须是已 被打开 的当前 数据文 件。

1.数据文 件的纵 向连接

SPSS数据 文件的 纵向连 接或合 并就是 将数据 编辑窗 口中的 数据与 一个 SPSS数据 文件 中的
数 据进行 首尾对 接,即将 一个 SPSS数 据文件 的内容 追加到 数据编 辑窗口 中当前 数据的后 面。纵
向 合并实 质就是 将两个 数据文 件的变 量列,按 照各个 变量名 的含义 ,一一 对应进 行首尾连 接。
3.3 文件 级别的 数据管 理(二)  69      

实现 SPSS数 据文件 的纵向 合并应 遵循两 个条件 :第一,两 个待 合 并的 SPSS数 据文 件,其内


容 合并是 有实际 意义的 ;第二,为方便 SPSS数 据文件 的合并 ,在不 同 数 据文 件 中,数据 含义 相同
的 列,最好 起相同 的名字 ,变量 类型和 变量长 度也要 尽量相 同。这 样,将方 便 SPSS对变量 的自动
对 应和匹 配。
例 3.8  将数据 t
rans
for
m2.s
av中的 记录添 加到 t
rans
for
m.s
av中 ,注意 在 t
rans
for
m2.s
av中的
变量 s
ex对应 了 t
rans
for
m.s
av中的 gender

首先 ,在数据 编辑窗 口中打 开数据 文 件 t
ransf
orm.s
av,然后 选 择菜 单 Dat
a→ Mer
geFi
le→ Add
Cas
es,并选择 待合并 的文件 t
rans
for
m2.s
av,出现如 图 3.34所示的 界面。

图 3.34  SPSS数据 文件 纵向 合 并窗 口

在该 窗口中 ,两个待 合并的 数据文 件中共 有的变 量名会 被自动 对应匹 配,并 出现在 Var
iabl
es

nNewWor
kingDat
aFi
le框 中。SPSS默 认它们 具有相 同的 数 据含 义 ,自动 成 为合 并后 新数 据文
件 中的变 量。如 果需要 修改默 认设置 ,可以将 它们剔 除到 Unpai
redVar
iabl
es框中。
* *
在 Unpai
redVa
riabl
es框中,变 量名后 面有 或 +号。 表示该 变量名 是当前 数据编辑 窗口中
的 变量,+表示该 变量名 是待合 并文件 中的变 量。可 见,Unpai
redVa
riabl
es框中 的 变量 名不 是待
合 并的两 个文件 所共有 的,是无 法被自 动对应 匹配的 ,SPSS默认 它们 不 具有相 同的数 据 含义,不
自 动成为 合并后 新数据 文件中 的变量 。同样 地,用户 可以修 改这种 默认设 置,可 以手工选 择两个
变 量名,点 击“Pai
r”按 钮强行 配对,表示 它们 具 有相 同的数 据 含 义,并 将 其选 入 Var
iabl
esi
nNe

Wo
rki
ngDa
taFi
le框中。 或者先 点击“Rename”按钮 改 名后 再 指 定配 对 。当然 ,也 可以 指定 某变
量 不经任 何对应 匹配,强 行进入 Var
iabl
esi
nNe
wWo
rki
ngDat
aFi
le框中,但这种 方式显然 会造成
缺 失数据 。
如果 希望在 合并后 的数据 文 件 中看 出哪 些 记 录 来自 合 并 前的 哪 个 SPSS数 据文 件 ,可以 选

ndi
cat
ecas
esour
ceasva
riabl
e项。于 是,在 合 并后 的 数 据文 件 中将 自 动 出现 名 为 s
our
ce01的 变
量 ,取值为 0或 1。 0表 示该记 录来自 第一个 数据文 件,
1表示 该记录 来自第 二个数 据文件。

2.数据文 件的横 向合并

SPSS数据 文件的 横向合 并是将 已有的 一个 SPSS数 据文件 中的若 干个 变量 加 到当 前数 据编


        70 第 3章  数据 管理

辑 窗口的 数据中 ,即将一 个 SPSS数据 文件的 内容 接到 数据 编 辑窗 口 中 当前 数 据的 右边 ,然 后将


合 并后的 数据重 新显示 在数据 编辑窗 口中。 横向合 并 的实 质 就是 将 两 个数 据 文件 的记 录,按照
记 录对应 ,一一进 行左右 对接。
实现 SPSS数 据文件 的横向 合并应 遵循三 个条件 ,第一,如 果不是 按照 记 录号 对应 的规 则进
行 合并,则 两个数 据文件 必须至 少有一 个变量 名相同 的公共 变量,这个变 量是两 个数据文 件横向
对 应合并 的依据 ,称为关 键变量 。如学 号、贵 宾卡号 等 ,关键 变 量可 以 是 多个 ;第二,如 果是 使用
关 键变量 进行合 并的对 应,则两 个数据 文件都 必 须事 先 按关 键 变量 进 行 升序 排 列;第三 ,为 方便
SPSS数 据文件 的合并 ,在不 同数据 文件中 ,数据含 义不相 同的列 ,变量 名不应 取相同 的名称。
例 3.
9  将数据 t
rans
for
m3.s
av中的 变量添 加到 t
rans
for
m.s
av中。通 过这个 例子可以 直观理
解 数据文 件的横 向合并 。
首先 ,在数据 编辑窗 口中打 开数据 文 件 t
ransf
orm.s
av,然后 选 择菜 单 Dat
a→ Mer
geFi
le→ Add
Va
riabl
es,并 选择待 合并的 文件 t
rans
for
m3.s
av,出现 如图 3.35所 示界面 。可以 看出,和 纵向 合并
的 操作窗 口类似 ,两个待 合并数 据文件 中的所 有变量 名出现 在 Ne
wWo
rki
ngDa
taFi
le框 中,外部
数 据中与 当前数 据重复 的变量 ,为免于 重复而 被列入 Excl
ude
dVar
iabl
es(即这些 变量是两 个文件
* *
共 有的变 量,关键 变量的 名字一 定在这 个列 表 中 可以 找 到)。变 量名后 面有 或 +号。 表 示该
变 量名是 当前数 据编辑 窗口中 的变量 ,+表示 该变量 为待合 并 文件 中的 变 量。SPSS默 认仍 以原
变 量名取 名,成为 合并后 新数据 文件中 的变量 。同样 地,用 户也可 以做更 改。

图 3.35 SPSS数据 文 件的横向 合并

如果 两个待 合并的 数据文 件中的 记录数 据是横 向顺序 一一对 应的,可 单击“OK”按钮 完成合
并 工作。 否则,两 个 待 合 并 的 数 据 文 件 中 的 共 有变 量 名 出 现 在 Excl
udedVar
iabl
es框 中。点 选
Mat
chc
asesonkeyv
ari
abl
esi
nsor
tedf
il
es项 ,并从 Excl
udedVar
iabl
es框中 选出一 个或多个 变量作
为 关键变 量送到 KeyVa
riabl
es框 中。
关于 合并后 的数据 文件中 的数据 按哪种 方式提 供,SPSS有 三个选 项可供 选择:
Bo
thf
il
espr
ovi
decas
es:是 SPSS默 认的方 式 ,指合 并 后 的数 据由 原来 的 两个 数 据 文件 共
同 提供,即 由原来 两个数 据文 件 中 的 记录 共同 组 成 合并 后 的数 据文 件,当两 个 数据 是 逐 条对 应
参考 文献  71      

时 ,用此选 项。
Ex
ter
nalf
il
eiskey
edt
abl
e:指在 当前已 打开数 据基础 之上,合并第 二个数 据文件中 的变量
数 据,即合 并后数 据文件 的记录 仅包括 当前数 据编辑 窗 口中 的 记录。 当外 部 数据 根据 关键 变量
是 无重复 记录,而 当前数 据根据 关键变 量是有 重复记 录时,用此选 项。
Wor
kingDat
aFi
lei
skey
edt
abl
e:指在第 二个数 据文 件 的基 础 之 上,合 并数 据编 辑窗 口中
的 变量数 据,即合 并后数 据文件 的记录 仅包括 第二个 数据文 件中的 记录,当当前 数据根据 关键变
量 是无重 复记录 ,而外部 数据根 据关键 变量是 有重复 记录时 ,用此 选项。
另外 ,如果希 望在合 并后的 数据文 件中看 出 哪些 记 录来 自 合并 前 的哪 个 SPSS数据 文件,可
以选 I
ndi
cat
eca
ses
our
ceasva
riabl
e项。 于是,在 合并 后 的 数据 文 件中 将 自 动出 现 名为 s
our
ce01
的 变量,取 值为 0或 1。0表示 该记录 来自第 一个数 据文件 ,
1表示该 记录来 自第二 个数据文 件。
最后 再次提 醒大家 ,使用关 键变量 进行横 向合 并 前,数 据 文件 必 须 按照 关 键变 量排 序,否则
相 应的合 并操作 将会失 败。

思考与练习

针对 数据 Empl
oye
eda
ta.s
av进行以 下练习 :
1.试根据 变量 bdat
e生成 一个新 变量“年 龄”(提示 :可以使 用函数 :XDATE.YEAR())。
2.试根据 j
obcat分组 计算 s
ala
ry的秩次 。
3.试根据 雇员的 性别变 量对 s
ala
ry的平均 值进行 汇总。
4.在 Empl
oye
edat
a.s
av中生成 新变量 g
rade,当 s
ala
ry小 于 20000时 取值为 d,当 取值 范围
为 等于 20000或 20000~50000时 为 c,等 于 50000或 50000~100000时 为 b,大 于 等 于
100000时为 a。

参考文献

1 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002
2 SPSS Bas
e12Use
rsGui
de.SPSSI
nc.Chi
cago,I
ll
inoi
s,2003
第二部分
统计描述与统计图表
4.1  连续变 量的统 计描述 概述  75      

第 章  续变量的统计描述与
参数估计
   统计 分析的 目的是 研究总 体特征 。但是 ,由于各 种各样 的原因 ,研究 者能够 得到的往 往只能
是 从总体 中随机 抽取的 一部分 观察对 象,它们 构成了 样本。 只有通 过对样 本的研 究,才能 对总体
的 实际情 况做出 可能的 推断。 因此,在 数据收 集、整 理完毕 后,进行 深入分 析之前 ,首要的 工作就
是 去了解 这个数 据的整 体情况 ,通过数 据来掌 握一定 的行业 背景,随后才 能考虑 作深入的 推断。
用少 量数字 (即描述 指标)概 括大量 原始数 字,对数 据 进行 描 述的 统计 方法 即 为描 述性 统计
分 析。所 谓描述 性统计 分析,是 针对统 计学的 另一大 类——— 推断性 统计分 析而言 的,后者 指从样
本 信息来 回推总 体特征 。在第 二章中 介绍了 变量 按其 测量 类 型可 以 分为:Nomi
nal变 量(即 名义
型 )、Or
dina
l变 量 (即 定 序 型 )和 Sc
ale变 量 (即 定 距型 )。针 对 不 同 测 量类 型 的 变 量 (属 性、字
段 ),有不同 的描述 指标体 系和统 计图 形 与 之对应 。 本章 将讲 述 Sc
ale变 量 ,或 者说 连 续 变量 的
统 计描述 ,而下一 章将讲 述 No
minal变量和 Or
dinal变量 以及多 选题的 统计描 述。

4.
1 连续变量的统计描述概述

当数 据量较 少时,如 只有 5个人的 身高,或者 7个 人的 性 别资 料 时,研 究 者可 以通 过直 接观


察 原始数 据来了 解几乎 所有的 信息。 但是,接 触到的 数据量 往往要 远大于 人脑可 以直接 处理、记
忆 的容量 。这时 就必须 借助于 各种统 计指标 来辅助 完成对 数据的 描述工 作了。 而为了方 便统计
指 标的应 用,又以 此为基 础衍生 出了各 种描述 用 工具 ,最终 再 使用 各 种 统计 软 件来 加以 实现,而
SPSS就 是最常 用的一 种。

4.1.1 统计描 述 中可用的 工具

首先 ,在统计 描述中 最基本 的工具 就是列 表进行 原始数 据的频 数描述 ,特别 是对于分 类数据
而 言,频数 表仍然 是现在 最常用 的描述 工具。 但是,当数据 量较大 时,原始 频数表 显得过 于冗长 ,
如 果希望 深入发 掘数据 中蕴含 的信息 ,则需要 对数据 加以浓 缩汇总 。
(1)各种初 步汇总 描述方 法:最直 接的汇 总描述 方法 就 是 将原始 数据 按 照其 大小 进行 分组
汇 总,计算 各组段 的频数 大小,最终汇 总成相 应的分 组 频数 表 或相 应 的 分组 直 方图,汇 总频 数表
可 以反映 出数据 的大致 趋势。 除分段 汇总以 外,百分 位数也 能够对 数据的 分布特 征进行 刻画,多
个 百分位 数组合 起来,也 能够反 映出数 据的分 布特征 来。 但 是 分组汇 总和 百 分位 数对 信息 的利
用 仍然比 较粗糙 ,均只能 反映比 较基础 的信息 ,如果 希 望对 数 据的 分 布 特征 描 述得 更为 简练,还
需 要更进 一步。
(2)各种统 计描述 指标:这 实际上 是更复 杂的各 种描述 工具的 基础,是针对 数据的某 种特征
        76 第 4章  连续 变量的 统计描 述与参 数估计

进 行精确 的数字 呈现的 一系列 指标。 对于样 本而言 ,这 些统 计 描述 指 标 也可 被 称为 统 计 量。常


用 的统计 描述指 标在连 续变量 中 有均 数 、标准 差 、四 分位 数 间 距 等 ,而在 分 类 变 量中 则 有 比、率
等。
(3)统计表 :当数据 比较复 杂,所 计算的 统计指 标较多 时,直接 观察计 算出的 数值比 较困难 ,
为 此人们 又会按 照一定 的排列 方式将 统计指 标组织 为一张 表格,以 方便使 用,这 就是所谓 的统计
表 。在一 张统计 表中可 以同时 呈现多 种统计 指标,并 进行复 杂的样 本分组 、合并 计算,因 此,统计
表 是统计 描述中 常用的 工具之 一。
(4)统计图 :统计表 虽然能 非常精 确、详 细地对 统计指 标进行 陈列,但 是不够 直观,如 果希望
结 果更为 直观一 些,则可 以按照 统计指 标的大 小将其 绘制为 一张图 形,这 就是所 谓的统计 图。例
如 对于连 续变量 数据,常 用直方 图、箱 图等工 具加以 展 示,而 对 于分 类 变 量,则 常用 条图 、饼 图等
加 以展示 。
显然 ,统计表 和统计 图都是 建立在 各种统 计描述 指标的 基础上 的,因 此本章 和下一章 将对统
计 描述指 标体系 做详细 的讲解 ,而 第 6、7两章 将 进 一步 讲 解如 何利 用统 计 指 标 制作 统 计 表,第
8、9两 章则会 讲解统 计图的 绘制 方 法。对 于 在 本章 和 下一 章 中可 能 会 提前 涉 及 到的 统 计 图形 ,
文 中将仅 作简单 解释,不 详细讨 论,请 大家参 阅随后 各章的 相应内 容。

4.1.2 连续变 量 的统计描 述指标体系

图 4.1是对 某人群 体重分 布情况 绘制的 直方图 ,这种图 形是描 述连续 性变量 最常用 的工具 ,
它 实际上 就是按 照数据 的大小 将数值 分成若 干个组 段,然后 计算每 个组段 内的频 数,最终 用直条

图 4.1  体重 的直 方 图

的 高低反 映出来 ,它可以 直观地 反应数 据的分 布状况 。通过 对这张 图形的 观察,可以发现 如果要
使 用统计 指标对 该数据 加以描 述,则主 要是表 现以下 几个趋 势:
4.1  连续变 量的统 计描述 概述  77      

(1)集中趋 势(Cent
ralTe
ndenc
y):该 人群的 平均体 重 是多 少?这 可能是 人 们希望 了解 的最
基 本的汇 总信息 。人们 常说美 国人比 中国人 高,这并 不是说 美国人 比中国 人都高 ,比如姚 明就要
高 于绝大 多数美 国人,这 种说法 实际上 省略 了“平 均起 来 ”这 个定 语 。或 者 说,它实 际 上 是关 于
数 据的“中 心位置 ”的某种 表述。 在统 计学 中,相应 的用于 描述 集中 趋势,或 者 说数 据 分 布的 中
心 位置的 统计量 就被称 为位置 统计量 (Lo
cat
ionSt
ati
st
ic)。 常用的 位置统 计量有 均数、中 位数等 ,
其 中均数 适用于 正态分 布和对 称分布 资料,中 位数则 适用于 所有分 布类型 的资料 ,详述后 面相关
章 节。
(2)离散趋 势(Di
spe
rsi
onTe
ndency):显 然,仅 仅反映 数 据的 集 中趋势 是远远 不 够的,图 4.1
中 还反映 出体重 在该人 群中的 分 散状 况 ,最轻的 不到 40kg,而最 重的 大 约在 90kg上 下。应 当
有 某种指 标可以 反映数 据波动 范围的 大小,这 被称为 数 据的 离 散趋 势 。比 如 人们 常说 的某 国的
贫 富分化 严重,或 者某国 卫生资 源分配 的公平 性很差 ,偏远 地区还 缺医少 药的时 候,大城 市的 CT
等 大型医 疗设备 却大量 闲置,占 用了大 量资源 。这些 实际上 都是在 讨论数 据的离 散趋势 ,而描述
该 趋势的 统计量 就被称 为尺度 统计量 (Sca
leSt
ati
sti
c)。 常 用的 尺 度统 计量 有标 准 差、方 差、四分
位 数间距 等,其中 标准差 、方差 只适用 于正态 分布资 料,而 四 分 位数间 距则 适 用于 各种 分布 类型
的 资料。
(3)分布特 征(Di
st
ri
but
io
nTendency):除以上 两大基 本趋势 外,随着 对数据 特征了 解的 逐渐
深 入,研究 者常常 会提出 假设,认为该 数据所 在的总 体 应 当是 服从某 种 分 布的 。那 么,针对 每一
种 分布类 型,都可 以由一 系列的 指标来 描述数 据偏离 分布的 程度。 例如对 于正态 分布而 言,偏度
系 数、峰度 系数就 可以用 来反映 当前数 据偏离 正态分 布的 严重 程 度。 当 然,相 对而 言,这些 分布
指 标使用 得较少 。
(4)其他趋 势:统计 描述中 还会用 于许多 其他指 标,如 可同时 反映集 中趋势 和离散趋 势的百
分 位数指 标(Pe
rce
nti
le),描述数 据是呈 单峰还 是双峰 分 布,数 据的 分布 是对 称 的还 是偏 态的,专
门 针对存 在异常 值的数 据进行 描述的 M统 计量(M-Es
ti
mat
ors)、极端 值(Out
li
er)列 表等,详 后。

4.1.3 SPSS中 的相应 功能

SPSS的许 多模块 均可完 成统计 描述的 任务,除各种 用于统 计推断 的过 程会 附 带进 行相 关的


统 计描述 外,SPSS还 专门提 供 了 几个 用于 连续 变 量统 计 描述 的 过 程,它们 均 集 中在 De
scr
ipt
ive
St
ati
st
ics子菜 单中:
(1)Fr
equenci
es过 程:其特 色是产 生原始 数据的 频数表 ,并能 计 算各种 百分位 数。由图 4.2
(a)可 见,它 所提供 的统计 描述功 能非 常全 面,且 对 话 框布 置很 有规 律,基本 上 按照 数 据 的集 中
趋 势、离散 趋势、百分位 数和分 布指标 四大块 将各描 述 指 标进 行了归 类 。有 了 上面 的基 础,读者
使 用它应 当不存 在任何 的困难 。
除统 计指标 外,Fr
equenci
es过程还 可以为 数据直 接绘制 相应的 统计图 ,如用 于连续性 变量的
直 方图,用 于分类 变量的 饼图和 条图等 。
(2)Des
cri
pti
ves过 程:该过 程用于 进行一 般性的 统计描 述,相对 于 Fr
equenci
es过程 而言,它
不 能绘制 统计图 ,所能计 算的统 计量也 较少,但使用 频 率 却是 最 高的 。 实际上 从图 4.2(b)所示
的 统计选 项可以 看出,该 过程适 用于对 服从正 态分布 的连续 性变量 进行描 述。
        78 第 4章  连续 变量的 统计描 述与参 数估计

  (a
)                                            (b)

图 4.
2  Fr
equenci
es过程 和 Desc
ript
ives过程 的 统计 选项 子对 话框

(3)Expl
ore过程 :顾名 思义,该 过程用 于对连 续性资 料分布 状况 不 清楚时 的探索 性 分析,它
可 以计算 许多描 述统计 量,给出 各种统 计图,并进行 简单的 参数估 计。本 章最后 的分析实 例将以
该 过程为 主加以 讲解。
(4)Rat
io过程:功能比 较特殊 ,用于对 两个连 续性变 量计算 相对比 指标,它 可 以计 算出 一系
列 非常专 业的相 对比描 述指标 ,相对而 言使用 面 比较 窄,因 此 本书 将 不 对它 做 过多 介绍 ,对 此感
兴 趣的朋 友请参 见笔者 前作《SPSS11统 计分析 教程》(基 础篇)。

4.
2 集中趋势的描述指标

怎样 将一个 变量的 所有个 体的值 汇总为 一个数 字,使 这 个 数字代 表原 数 据的 中心 趋势 或平


均 水平? 统计学 家提供 了多种 统计量 来代表 原始数 据的中 心趋势 ,如平均 值、中 位数和众 数等。

4.2.1 算术均 数

平均 数用于 反映一 组数值 的平均 水平,包 括算术 均数、几何均 数、调和 均数等 ,但是以 算术均
数 最为常 用,往往 也直接 将算术 均数简 称均数 。
算术 均数(Ar
it
hme
ti
cMean)是 最 常 用 的 描 述 数 据 分 布 的 集 中 趋 势 的 统 计 量 。 总 体 均 数
(Popul
ati
onMea
n)用 希腊字 母 μ表示 ,样本 均数常 用 珔
X表示 。

1.算术平 均数的 定义和 性质

实际 上,大家 从小学 起就已 经学习 了相关 的知识 ,对一 组数据 X1,…,Xn 而言 ,其均数 的算法
为 各数据 直接相 加,再除 以总例 数 n,即:
4.2 集 中趋势 的描述 指标  79      

X1 +X2 +… +Xn 6 Xi
X=
珔 =
n n
显然 ,有各个 变量值 与均数 离差之 和等于 零。即 :

6 (Xi -珔
X)=0
算术 平均数 的这条 数学性 质说明 ,均数的 实质是 把总体 各单位 的差异 全部抽 象化,采 用取长
补 短的方 法把变 量值小 于平均 数的负 离差全 部用大 于平均 数的正 离差抵 消补齐 。
除上 面的性 质外,各 个变量 值与平 均数离 差平方 之和为 最小值 。即:

6 X) < 6
(Xi -珔
2 2
(Xi -a) (a≠ X
珔)
算术 平均数 的这条 数学性 质说明 ,以任意 不为 平 均数 的 数 值为中 心计 算 的离 差平 方和 大于
以 平均数 为中心 的离差 平方和 ,因此,算术平 均数是 误差最 小的总 体代表 值。

2.均数的 意义

任何 一个平 均数首 先是同 类现象 的平均 数,这是 平 均数 的 同质 性 。任 何 一个 平均 数总 是一


个 平衡点 。在这 个平衡 点的两 边有多 有少、有 大有小 、有高 有低、有 胖有瘦 。而且 总是多 少相等 ,
大 小相同 ,高低适 中,胖 瘦相抵 。这就 是说,用 平均 数 作为 观 测 数据的 代表 在 整体 上是 没有 误差
的 ,而且数 学上可 以证明 ,平均 数的误 差平方 和也比 其 他任 何 一个数 都小。 统计 学中 著名的 “最
小 二乘法 ”就是根 据这个 结论建 立起来 的。但 是,由于 平均 数 只是 一个 平衡 点 ,如 果两 边加 上或
去 掉相同 的砝码 ,而不管 砝码是 多少这 杆天平 总能保 持平衡 。
平均 数 最重 要 的 意义 在 于它 高 度 浓缩 了 数据,使 大量 的 观测 数 据 转变 为 一个 代表 性数值 。
用 平均数 作为变 量的集 中值不 仅考虑 到变量 值的频 次、次序 ,而且 还考虑 到它的 大小。数 据资料
中 任何频 次、次序 和数值 大小的 变化,都会引 起平均 数 的 改变 。因 此 它 是灵 敏 的,也是 对资 料所
提 供信息 运用得 最为充 分的。
但平 均数在 高度概 括观测 数据从 而使问 题简单 化的同 时,却丢 失了某 些有用 的信息 ,一方面
它 把各个 观测数 据之间 的差异 性掩盖 了起来 ,另一方 面由于 平均数 对个别 极端值 反应比 较灵敏 ,
因 而平均 数在某 些情况 下可能 具有一 定的欺 骗性,这 时它就 有可能 传递不 准确的 信息。

3.均数的 适用范 围

虽然 平均数 对资料 的信 息利 用 最充 分 ,但对 严 重 偏 态 的 分布,会 失去 它 应 有 的代 表 性。例


如 ,一个国 家会因 某些富 翁的存 在,使 平均收 入变 得很 高。假 设 某单 位 有 6个 人,5个员工 ,1个
经 理。员 工的月 收入分 别 是:360元 、380元、400元 、420元、440元 ,经理 的月 收入 为 40000元 ,
他 们的平 均月收 入为 7000元。显 然 这时用 平均 数 就不 能很 贴切 地 反映 他们 收入的 一 般 水平 。
所 以,平均 数的一 个主要 缺点是 容易受 极端值 的影响 。 因此 ,对于 偏 态 的分 布 ,应 使用 中位 数作
为 集中趋 势的统 计量。 只有单 峰和基 本对称 的分布 情 况下,使 用平均 数作 为 集中 趋势 描述 的统
计 量才是 合理的 。由于 在统计 技术中 ,发展更 多的是 平均 数,而不是 中 位 数或 众 数等。 因此,应
该 设法更 多地使 用平均 数,必要 时可以 考虑对 数据进 行变量 变换,以达到 对称分 布的要求 。
严格 地讲平 均数只 适用于 定距变 量。但 有时对 于定序 变量,求 平均等 级也可 以使用 平均数 。
对 于定类 变量,如 果人为 地把每 一类赋 予一个 数值,如用 1代表男 ,2代 表女,那 么 男性 在总 体中
        80 第 4章  连续 变量的 统计描 述与参 数估计

所 占的比 例,实际 就是一 种特殊 的平均 数。

4.2.2 中位数

中位 数(Medi
an)是将 总体各 单 位 的 标 志值 按 大 小顺 序 排列,处 于中 间 位 置 的那 个 标 志值 。
它 把全部 标志值 分成两 部分,一 半标志 值比它 小,一 半标志 值比它 大。

1.中位数 的定义

对于 未分组 的原始 资料,首 先必须 将标志 值按大 小排序 。设排 序的结 果为:
X1≤X2 ≤X3≤ …≤Xn
则 中位数 就可以 按下面 的方式 确定:
M=X(n+1) /2 , 当 n为奇 数时
 
2, 当 n为偶 数时
M=(Xn/2 +Xn/2+1)/
中位 数作为 分布数 列中处 于中等 水平的 代表值 ,能够 将 全 部总体 单位 按 标志 值的 大小 等分
为 两个部 分,所以 中位数 又称为 二分位 数。
对于 按照频 数方式 分组录 入的资 料,其中 位数的 确定方 式相对 复杂一 些,感 兴趣的读 者可以
参 看专业 统计书 籍。

2.中位数 的适用 范围

中位 数是位 置平均 数,因此 它不受 极端值 的影响 ,在具 有个别 极大或 极小标 志值的分 布数列
中 ,中位数 比算术 平均数 更具有 代表性 。例如 上面 员 工 收入的 例子,其 中位数 就是 410元,显然
要 比均数 更能够 代表数 据的集 中趋势 。
中位 数适用 于任意 分布类 型的资 料,不过 ,由于 中 位数 只 考虑 居 中 位置,其他 变量 值比 中位
数 大多少 或小多 少,它是 无法反 映出来 的。所 以,用 中位数 来描述 连续变 量会损 失很多信 息。当
样 本量较 小时,中 位数会 不太稳 定,并 不是一 个好的 选择。 因此,对 于对称 分布的 资料,分 析者往
往 优先考 虑使用 均数,仅 仅是对 均数不 能使用 的情况 下才用 中位数 加以描 述。
中位 数对于 定序变 量、连续 变量都 可以使 用。对 于定序 变量来 说,虽 然有众 数和中位 数两种
统 计量可 供选择 ,但是,由于众 数不考 虑变量 的次序 关 系,用 众 数来描 述定 序 变量 会损 失很 多信
息 。因此 ,对于定 序变量 ,应采 用中位 数来反 映更多 、更准确 的信息 。

4.2.3 其他集 中 趋势描述 指标

除上 述最常 用的两 种指标 外,在 SPSS中 还可以 计 算一 些 更为 复 杂 和专 业 的统 计描 述指标 ,


这 里简介 如下:

1.截尾均 数

由于 均数较 易受极 端值的 影响,因 此可以 考虑将 数据进 行排序 后,按 照一定 比例去掉 最两端
4.3 离 散趋势 的描述 指标  81      

的 数据,只 使用中 部的数 据来求 均数。 如果截 尾均数 和原均 数相差 不大,则说明 数据不存 在极端
值 ,或者两 侧极端 值的影 响正好 抵消;反之,则 说明数 据中有 极端值 ,此时 截尾均 数能更好 地反映
数 据的集 中趋势 。
常用 的截尾 均数有 5% 截尾均 数,即 两端各 去掉 5%的 数据。 在 SPSS中 Ex
plo
re过程 可以自
动 计算 5%截 尾均数 。

2.几何均 数

几何均数适 用于 原始数 据分布 不对 称,但经 过对数 转换后 呈对称 分布的 资料。如医学 中的血
清 滴度资料就常用几何均数 描述其分布 的集中 趋势 。样本 几何均数常用 G表示,其计算公式是:

G= X1 X2…Xn
利用 对数的 性质,上 述公式 可表达 为:

G =l

-1 6 l
gXi

可以 发现,几 何均数 实际上 就是对 数转换 后的数 据 l
gX的 算术均 数的反 对数。
在 SPSS中,几何均 数可以 在 Repo
rt子菜单 中的 4个报表 过程中 计算输 出。

3.众数(Mode)

众数 指的是 样本数 据中出 现频次 最大的 那个数 字 ,众数 容 易理 解 ,也不 受 极端 值影 响,但不


易 确定,且 没有太 明确的 统计特 性。
众数 适用于 任何层 次的变 量,特别 适用于 单峰对 称的情 况,是 比较两 个分布 是否相近 首先要
考 虑的参 数。但 是,由于 众数仅 使用了 资料中 最大频 次这一 信息,所以它 对资料 的使用是 不完全
的 ,提供的 信息有 限,用 它来反 映连续 变量会 损失很 多 信 息。 对于 多 峰 的图 形 分布,一 般也 不用
它 来描述 。因此 ,这里不 做详细 介绍。
在 SPSS中 ,
众数 可以在 Re
por
t子菜单和 Ta
bles子菜单的 全部报表过程和制表过程中 计算输出。

4.调和均 数

调和 均数用 符号 H表 示,现在 已经很 少使用 ,它实 际上是 观察值 X倒数之 均数的 倒 数,常用
于 完成的 工作量 相等而 所用时 间不同 的情况 ,主要用 来求平 均速度 。实际 上,中 学物理中 学习过
的 并联电 路的总 电阻就 是各分 电 路 电阻 的 调和 均 数,各 原 始数 据的 大小 相 差 越 悬殊 ,该 均数 的
“调 和”作用 就越明 显。
在 SPSS中,调和均 数可以 在 Repo
rt子菜单 中的 4个报表 过程中 计算输 出。

4.
3 离散趋势的描述指标

和集 中趋势 一 样,离 散 趋 势 也 有 一 系 列 的 描 述 指 标,本 节 将 就 一 些 常 用 的 指 标 一 一 加 以


讲 解。
        82 第 4章  连续 变量的 统计描 述与参 数估计

4.3.1 全距

全距 (Range)又 称为 极 差,是 一 组 数 据中 最大 值 (Maxi


mum)与最 小 值 (Mi
nimum)之 差。它
是 最简单 的变异 指标:
R=Xmax -Xmin
极差 反映的 是变量 分布的 变异范 围或离 散幅度 ,在总体 中,任 何两个 标志值 之差都不 可能超
过 极差。 极差计 算简单 ,含义直 观,运 用方便 。但存 在 两点 不 足:一是 它仅 仅 取决 于两 个极 端值
的 水平,不 能反映 其间的 变量分 布情况 ,提供 的信息 太少;二 是它容 易受个 别极端 值的影 响,不符
合 稳健性 的要求 。
一般 情况下 ,全距只 用于预 备性检 查,目 的是大 体 上了 解 数据 的 分 布范 围 ,以 便确 定随 后分
析 的方法 。

4.3.2 方差和 标 准差

1.方差(Vari
ance)和标 准差(St
andardDevi
ati
on)的定义

相对 而言,方 差和标 准差的 计算比 较复杂 ,因此 这 里 将从 其计算 原 理 开始 谈 起。首 先,对于


每 个数据 而言,其 离散程 度的大 小就是 和均数 的 差值 ,简称 离 均差,它 可以 用 来描 述个 体的 变异
大 小。那 么,离均 差之和 能否表 示整个 样本的 离散程 度大小 呢?答 案是否 定的,因为根据 均数的
性 质,所有 数据的 离均差 之和应 当正好 为 0,这是 由于大 于均数 和 小于 均数 的离 均 差正 好能 够完
全 抵消。 为此,可 以考虑 先将离 均差取 绝对值 ,然后 再求和 ,这样就 不会出 现正负 抵消的 情况了 。
显 然,离均 差绝对 值之和 可以表 示数据 离散程 度的大 小。
但是 ,使用离 均差绝 对值之 和来表 示离散 程度仍 有不便 之处,大家都 知道绝 对值符号 在数学
推 导中是 非常难 处理的 ,该指标 很难用 来进行 后续的 统计推 断,因 此人们 又改用 将各离均 差先平
方 再求和 ,这样仍 然可以 解决符 号的问 题,同 时又可 以 进行 后 续的 数 学 推导,该指 标被 称为 离均
差 平方和 (Sum o
fSqua
resofDev
iat
ionsf
rom Mean,SS)。
离均 差平方 和在使 用上比 绝对值 要方便 一些,但 是,它 的 大小 显 然 是和 样 本量 有关 的,观察
单 位越多 ,该指标 就会越 大,因 此 如 果 要 客 观反 映 变 异程 度 的大 小 ,就应 当 去 除 样本 量 的 影响 。
为 此将离 均差平 方和除 以观察 例数 N所 得,这就 是方差 :


σ =
6 X)2
(Xi -珔

方差 相当于 平均了 每个数 据的离 均差的 平方值 ,从而 克 服 了离均 差平 方 和受 样本 含量 影响
的 缺点。 故方差 可用于 不同含 量样本 数据分 布离散 程 度 的比 较。方 差 越大,数据 分布 离散 程度
越 大。
对于 样本数 据而言 ,方差的 计算公 式有所 不同:
4.3 离 散趋势 的描述 指标  83      




6 (Xi -珔

X)
n-1
其中 的 n-1被称为 自由度 (Deg
reeo
fFr
eedo
m),它 描述了 当 珔
X选定 时 n个 X中能自 由变动
的 X(变量 值)的个 数,由 于公式 中需要 使用均 数,这 是 一个限 制条件 ,因此 样 本量 为 n的样 本实
际 上只有 n-1个 可以自 由取值 ,最后 一个数 值可以 通过均 数算出 来。自 由度在 统计学中 也是一
个 非常重 要的概 念,后面 还会反 复遇到 。
最后 ,方差在 使用上 还有一 点小小 的不便 ,就是 量纲不 合常理 ,以身高 为例,原始数据 的量纲
为 米,则方 差的量 纲就是 其平方 ,即平 方米,这 显然很 别扭。 为此又 将方差 开平方 ,这就是 所谓的
标 准差,总 体和样 本的标 准差分 别用 σ和 S来表 示 。标准 差度 量了 偏离 平 均 数 的大 小 ,相当 于
平 均偏差 ,可以直 接地、概括地 、平均地 描述数 据变异 的大小 。对于 同性质 的数据 来说,标 准差越
小 ,表明数 据的变 异程度 越小,即数据 越整齐 ,数 据的 分 布范 围 越集 中 ;标准 差 越大,表 明数 据的
变 异程度 越大,即 数据越 参差不 齐,分 布越分 散。

2.方差和 标准差 的适用 范围

由于 标准差 和方差 的计算 涉及每 一个变 量值,所 以它们 反映的 信息在 离散指 标中是 最全面 、
最 可靠的 变异描 述指标 。方差 还具有 可加性 ,能够参 与进一 步的统 计运算 。不过 ,也正是 由于标
准 差和方 差的计 算涉及 每一个 变量值 ,所以,它们也 会 受到 极 端值 的 影 响,当 数据 中有 较明 显的
极 端值时 不宜使 用。另 外,它们 在计算 中实际 上都使 用了均 数,因 此实际 上只有 均数能反 映集中
趋 势时才 能使用 方差和 标准差 来反映 离散趋 势。因 此,实 际 上 方差和 标准 差 的适 用范 围应 当是
正 态分布 。

4.3.3 百分位 数 、四分位数 与四分位 数 间距

全距 的数据 最不可 靠,因为 全距只 由数据 中的 两 个 极端 数 据来 决 定,其 余 数据 均不 起作用 。


为 了尽量 减少全 距缺点 ,人们又 使用了 分位差 。分位 差是对 极差指 标的一 种改进 ,是从变 量数列
中 剔除了 一部分 极端值 之后重 新计算 的类似 于极 差的 指 标。 常用 的 分 位差 有 四分 位差 、十 分位
差 以及百 分位差 。这里 以四分 位差为 例加以 说明。

1.百分位 数、四 分位数 与四分 位数间 距的定 义

百分 位数(Per
cent
il
e)是一种 位置指 标,用 Px 表 示 。一个 百 分位 数 Px 将 一组 观察 值分 为两
部 分,理论 上有 x% 的观察 值比它 小,(100-x)% 的观察 值比它 大。前 面所 学习 过 的中 位数 实际
上 就是一 个特定 的百分 位数,即 P50。
除中 位数外 ,常用的 百分位 数还有 四分位 数,它 实际上 是三个 数值的 总 称,分 别是 P25、P50和
P75分位 数。这 三个分 位数正 好是能 够将 全 部总 体单 位按 标 志值 的大 小等分 为四 部分 的三个 数
值 ,符号分 别记为 Q1 、Q2 和 Q3。 在 许 多 统 计 书籍 中,也将 第 一 个 四 分 位 数 P25 称 为 “下 四 分 位
数 ”;第三个 四分位 数 P75称为“上 四分位 数”,分别 用符号 QL 和 QU 表示。 上、下 四分位数 的差值
被 称为四 分位数 间距:
        84 第 4章  连续 变量的 统计描 述与参 数估计

Q・ R=Q3 -Q1
显然 ,P25 和 P75这 两个分 位数间 包括了 中间 50% 的观察 值,因 此四分 位数间 距既排除 了两段
极 端值的 影响,又 能够反 映较多 数据的 离散程 度,是 当 方差、标 准差不 适用 时 较好 的离 散程 度描
述 指标。
同样 的道理 ,还可以 计算十 分位差 、百分 位差等 。它们 的作用 都是排 除少数 极端值对 分布变
异 范围的 异常影 响。分 位的程 度 越 高,分 位差 所 排 除的 极 端值 的比 例就 越 小,保留 的 信 息就 越
多 。分位 的程度 越低,分 位差所 排除的 极端值 的比例 就越 大,保留的 信 息 就越 少。 实际 分析时 ,
需 要根据 具体情 况和要 求选择 使用。

2.四分位 数与四 分位数 间距的 适用范 围

计算 四分位 差的直 接目的 是排除 部分极 端值对 变 异指 标 的影 响 ,其计 算 可以 看成 是首 先从


总 体分布 中剔除 最大和 最小各 1/
4的 单 位,再 对 剩下 的 总 体 半数 单位 计 算 “全 距”。 因 此,四 分
位 数间距 可以适 用于任 意分布 类 型的资 料,它与 全距(极 差)的区别 在于 计 算 范 围较 窄 ,反映 的
是 处于分 布中间 半数单 位的变 异幅度 。
百分 位数并 非由全 部观察 值总和 计算而 来,因此 它不如 均数和 标准差 精确,然而中间 部分的
百 分位数 因不受 极端数 据的影 响,具有 较好的 稳定性 。但是 ,靠近 两端的 百分位 数只有在 样本含
量 足够大 的时候 才比较 稳定,如 当样本 量为 100例时 ,比 P95大 的 数值 只 有 5个 ,换 言之 ,这 5个
数 字就决 定了 P95 的大小 。显然 ,此时 P95是很 不稳定 的。 因此 ,当样 本 量较 小 时,不宜 取太 接近
两 端的百 分位数 。而当 样本含 量很少 时,“百分 ”位数已 名不副 实,就 更加不 用考虑 了。
最后 需要指 出的是 ,严格地 讲百分 位数并 不应 当 被 仅限 于 描述 离 散 程度 ,显然,它 也可 以对
数 据的集 中趋势 等其他 特征进 行描述 ,而多个 百分位 数联合 起来,实际上 就可以 完整地反 映整个
数 据的分 布规律 。这一 点在本 章第一 节已有 所提及 ,这里再 次强调 一下。

4.3.4 变异系 数

当需 要比较 两组数 据离散 程度大 小的时 候,往往 直 接使 用 标准 差 来 进行 比 较并 不 合 适。这


可 以被分 为两种 情况:
(1)测量尺 度相差 太大:例 如,希 望比较 蚂蚁和 大象的 体重变 异,蚂蚁 的体重 以克计 ,而大象
的 体重以 吨计,如 果直接 比较,显然永 远都是 大象的 体重变 异更大 ,但这显 然是不 合理的 ,因为体
重 相差 1kg对 大象的 体重而 言根本 就算不 了什么 ,而蚂 蚁则永 远也做 不到。
(2)数据量 纲不同 :例如 希 望 比较 身 高 和 体重 的变 异 程 度,两 者 的 量纲 分别 是 m和 kg,那
么 ,究竟是 1m大,还 是 2kg大?根 本就没 法比较 ,完全 是一笔 糊涂账 。
在以 上情形 中,就应 当消除 测量尺 度和量 纲的影 响,而 变异系 数(Coe
ffi
cientofVar
iat
io
n),可
简 记为 CV就 可以做 到这一 点,它 是标准 差与其 平均数 的比率 。样本 变异系 数计算 公式为 :
CV=S/


计算 出的 CV没 有量纲 ,同时 又按照 其均数 大小进 行了标 化,这样 就可以 进行客 观的比 较。
4.4 连续 变量统 计描述 实例  85      

4.
4 连续变量统计描述实例

在系 统学习 了连续 变量的 统计描 述指标 体系后 ,下面 将 用 一个具 体的 分 析实 例来 看一 下各


种 描述指 标在 SPSS中的 实现方 法。

4.4.1 数据背 景 介绍

本例 是 一次 实 际 调查 的 部分 问 卷数 据 ,调查 对 象 为上海 部分 大 专 院校的 大学 生,文件 名为



tudent
.sa
v。主要 调查内 容和封 闭型题 目的选 项代 码如 下:性 别 (1男 、2女 ),出生 年 、月、日 (具
体 数字),身 高(cm),体 重(kg),血型(A、AB、B、O),血型代 码(1A、2AB、
3B、4O),教 育背景 (1
重 点大学 本科、2普通 大学本 科、3大专 、
4中 专 /
职 校),学科 (1文史、2理工 、
3其他),男 、女身高
级 别(1低、2中等、3高,但两者 的划分 标准不 一样),男 、女 体 重级别 (1轻、2中等 、3重 ,两 者的
划 分标准 不一样 )和季度 (具体数 字)。
需要 说明的 是,后面 的 5个 变 量:男 生 身 高级 别 (hm)、女 生 身 高 级 别 (hf
)、男 生体 重 级 别
(wm)、女 生体重 级别(wf
)和季度 (quar
ter
),是 通 过 SPSS的 Re
code过 程,从 前 面的 相应 变量中 ,
经过 I
ntoDi
ff
erentVar
iabl
es...变 换而来 。

4.4.2 使用 Expl
orer过程进 行 分析

1.分析操 作

这里 以 s
tudent
.sav数 据为例 ,对男 性和女 性身高 数据分 别进行 描述,具 体步骤 如下:

Anal
yze→De
scr
ipt
iveSt
ati
st
ics
→ Expl
ore
De
pendentVar
iabl
es框:hei
ght
Fact
orLi
st框 :s
ex
Pl
ots
...:
 Des
cri
pti
ve: Hi
st
ogr
am
  Co
nti
nue

OK

Ex
plo
re主 对话框 如图 4.3所 示 ,Depende
ntLi
st框 用 于 选入 需要 分 析 的 变量 ,下 方 的 Fact
or
Li
st框 用于选 入分组 变 量,从 而 将 希 望 描 述 的 变 量 按 该因 素 的 取 值 分 组 分 析,本 例 中为 性 别 。
Expl
ore过程中 的 St
ati
st
ics和 Pl
ots子对话 框如图 4.
4所示。
        86 第 4章  连续 变量的 统计描 述与参 数估计

图 4.3  对连 续变 量进 行描 述性分 析的 Ex
plor
e过程 主 对话 框

(a)                                     (b)        
图 4.4  Expl
ore过 程 的 St
ati
st
ics和 Pl
ots子对 话框

2.基本的 分析结 果

分析 结果中 首先会 给出标 题“Ex


plo
re”,表明 随后的 输出都 属于 Expl
ore过程。
表 4.1 Cas
eProc
essi
ngSummar

首先 是例行 的处理 记录缺 失值情 况报告 (见 表 4.1),可 见 对于身 高而 言 ,男性、女 性两 组均


存 在缺失 值,其中 男性 3例,女 性 1例 ,最终进 入分析 的各为 69和 146例 有效值 。
4.4 连续 变量统 计描述 实例  87      

表 4.2  De
scri
pti
ves

记录 汇 总报 告 之 后给 出 的就 是 身高 的 统 计描 述 表格,因 本例 中 的 结果输 出较 长,为便 于解


释 ,这里仅 给出表 格上半 部男性 的分析 结 果(见 表 4.2)。可 见 Expl
ore过程的 输出 结果 较 多,这
里 依次解 释如下 :
(1)集中趋 势指标 :首先可 以看到 69名 男性学 生 的 平均 身高为 174.71cm(Mean),去 掉两
侧 各 5%的极 端值后 ,截尾均 数 为 174.70cm(5% Tr
immedMean),中 位 数 为 175cm(Medi
an)。
对 于对称 分布,且 不存在 极端值 的数据 而言,均数、截 尾均数 和中位 数应当 基本相 同,显然 本例符
合 这种情 况,因此 从上述 指标及 可推测 出数据 应当是 对称分 布的。
(2)离散 趋 势 指 标:身 高 的 方 差 为 31.062 cm(Var
iance),其 平 方 根 即 标 准 差,大 小 为
5.573c
m(St
d.Devi
at
io
n)。全部男生中 最矮的为 159c
m(Mi
nimum),最 高的为 188c
m(Max
imum)。
两者之差即为全距 29c
m(Ra
nge),中 间一半 的男生 的身高 差即为 四分位 数间距 8cm(I
nter
qua
rti
le
Ra
nge)。
(3)分布特 征指标 :表 4.
2最下方 还会给 出表 示 数据 偏 离 正态分 布程 度 的偏 度系 数和 峰度
系 数,及其 各自的 标准误 ,关于 它们的 详细解 释,请参 阅 4.
5节。
(4)参数估 计:以上 结果实 际 上 还会 给出 总 体 均数 的 参数 估计 结果,可 见 均数 的 标 准误 为
0.671c
m,相应的 总体均 数 95%可 信区间 为 173.37~176.05c
m,关于可 信区间 的 详细 解释 详见
4.5节 。
女生 身高情 况请大 家自己 分析,这 里不再 详述。
在统 计描述 表格之 后,Expl
ore过程 还 会 给出身 高分 性 别的 茎叶 图和 箱 图 ,从图 形 分 布上 可
以 看出,分 性别的 升高基 本上呈 对称的 分布状 态。对 这两种 图形的 介绍请 读者参 见第 8、
9两章 ,
这 里不再 详述。
        88 第 4章  连续 变量的 统计描 述与参 数估计

3.输出百 分位数 和极端 值列表

除默 认的统 计量输 出 外,Ex


plo
re过 程 中 还 可 以 计 算 一 些 更 深 入 的 描 述 统 计 指 标,如 选 中
St
ati
st
ic子对话 框的 Out
li
ers复 选框后 ,即可输 出如表 4.3所示的 极端值 列表。
表 4.3 Ext
remeVal
ues

这里 同样只 给出了 男性的 情况,表 格中会 输出 5个最 大 值 与 5个 最小 值 以及 这些 数值 所对


应 的记录 号,从两 侧极值 的大小 可见,在最大 、最小两 个方向 上并没 有特别 明显的 异常值 ,该结果
同 样支持 前面得 出的数 据分布 基本对 称的结 论。
如果 选择 Pe
rce
nti
le
s复 选框,则 会输出 如表 4.4所示 的百分 位数表 。
表 4.4  Pe
rcent
il
es

上表 会输出 第 5%、10%、25% 、50% 、


75%、90%、95%分 位 数,并 分 别采 用 了两 种算 法,当数
据 量较大 ,且基本 无重复 值时,两法的 结果相 同,反之 ,则加 权 平均 法 会 对数 据 进行 内插 ,两 种方
法 的结果 会略有 区别。

4.4.3 使用其 他 过程进行 分析

上面 使用 Ex
plo
re过 程对数 据 进行 了 分 析,下 面来 演 示 一 下另 外两 个过 程 的分 析 结 果。但
是 ,由于另 两个过 程不能 直接对 身高进 行分组 描 述,因 此这 里 仅给 出 不 分性 别 的分 析结 果,希望
4.4 连续 变量统 计描述 实例  89      

给 出分组 描述的 读者可 以先采 用第 3章介绍 过的 Se


lectCas
es过 程进行 数据拆 分。

1.Des
cri
pti
ve过 程的结 果

该过 程 的操 作 非 常简 单,只 需 要 将希 望 描述 的 变 量选入 即可,本 例中 身 高的 分析 结果 如表


4.5所 示。
表 4.5  De
scr
ipt
iveSt
ati
sti
cs

由于 这里的 大部分 内容都 在上一 节见过 ,因此就 不再多 解释了 。

2.Fr
equenc
ies过程 的结果

Fr
equenci
es过程默 认值给 出原始 频数表 ,如果希 望得到 各种统 计量,则需要 分析者自 行加以
指 定。例 如,在上 述的分 析中,已经得 到了描 述集中 趋势的 均值、中 位数等 ,以及 描述离散 趋势的
方 差、标准 差、极 差等统 计量。 如果还 希望知 道身高 的 具体四 分位 数 及 P5 、P95 百分 位数 是多少 ,
则 可以利 用 Fr
eque
nci
es过程 来得到 。具体 步骤如 下:
Anal
yze→De
scr
ipt
iveSt
ati
st
ics
→ Fr
equenci
es
Va
riabl
es框 :hei
ght
St
ati
st
ics:
 Per
cent
il
eVa
lue: Quar
ti
les
 Per
cent
il
eVa
lue: Per
cent
il
es:5:Add| Per
cent
il
es:95:Add

  Co
nti
nue

OK

表 4.
6 St
ati
st
ics

从表 4.6中 可知,所 有学生 身高的 四分位 数为 160cm、


165cm和 172cm。意 味着,有 1/
4的
学 生身高 矮于 160c
m,1/
2的学 生身高 较 165cm矮 ,
1/4的学 生身高 高 于 172cm。另外 ,90%的
        90 第 4章  连续 变量的 统计描 述与参 数估计

学 生身高 在 155.
8~180c
m之 间。

4.
5 连续变量的参数估计

通过 统计描 述,研究 者已经 可以对 样本数 据的情 况有详 细的了 解。但 是,研 究的真正 目的是
考 察样本 所代表 的总体 情况如 何,这里 必然会 涉及到 如何将 样本信 息用来 推断总 体特征 的问题 ,
如 总体的 集中趋 势、离散 趋势究 竟如何 ?这种 根据 样 本数 据 对 总体的 客观 规 律性 作出 合理 估计
的 过程被 称为统 计推断 (St
ati
st
icalI
nfer
ence),它又可 以被分 为参数 估计和 假设检 验两大 类,而这
里 涉及到 的用样 本信息 来推断 总体特 征的推 断就被 称为总 体的参 数估计 。本节 将介绍如 何进行
连 续变量 的参数 估计。

4.5.1 正态分 布

在进 行总体 数据的 描述时 ,人们往 往会对 该 总体 的 分布 规 律作 一 定 的假 定 。比如 假定 身高


服 从正态 分布。 这些模 型假定 基本上 是根据 经验而 得 ,所以 仅 仅是 对 现 实世 界 的一 个 近 似。由
于 分布是 由参数 确定的 ,这样就 可 以将 总体 描述 的 任 务 归 结对 几 个 参数 的 估计 (此 即 参 数估 计
名 称的由 来)。而 且,如果 能确认 变量符 合或大 致 符合 某种 分 布的 话,就 可以 选择 有针 对性 的研
究 方法对 该数据 进行正 确和精 确的分 析。

常见 的连续 分布有 正态分 布、均匀 分布、χ 分 布、t分 布 和 F分 布 等。 这 里仅 介绍 统计 学中
最 为重要 的正态 分布。 正态分 布又称 高 斯 分布 ,虽 然 当 初 它是 数 学 家高 斯 作为 描 述 误差 (如 测
量 误差)分 布规律 的模型 提出来 的,并将 其用于 天文研 究。但 令人 惊讶 的是,最终 这条 曲线 竟为
描 述来自 不同领 域的数 据分布 规律提 供了一 个完美 的模型 。
正态 分布是 概率统 计中最 重要的 一种分 布,其重 要性可 以从以 下两方 面来理 解:在自 然现象
和 社会现 象中,大 量的随 机变量 都服从 或近似 服 从正 态 分布 ,如测 量 的 偶然 误 差、炮弹 落点 距目
标 的偏差 、一个地 区男性 成人的 身高及 体重、海洋波 浪的高 度、电子 管噪声 电流、工业产品 的尺寸
(直 径、长度 、宽度 等)、某地 区的每 日用水 量及用 电量等 都可看 作服从 或 近似服 从正态 分 布。一
般 说来,若 某一随 机变量 是受多 种相互 独立的 随机因 素的影 响,而 每一种 随机因 素所起的 作用又
是 极其微 小的,那 么该随 机变量 就近似 服从正 态分布 。正态 分布具 有许多 良好的 性质,很 多分布
可 以用正 态分布 来近似 描述,另 外一些 分布又 可以通 过 正态 分 布来 导 出。 所 以正 态分 布在 理论
与 实践中 都占有 重要的 地位。

1.正态分 布的定 义

若连 续性随 机变量 X的概率 分布密 度函数 为


1 - (X-μ)2

(X)= e 2σ2
σ 2π

其 中,μ为平 均 数,σ 为方 差 ,则 称随 机 变 量 X服 从正 态分 布 (No
rmalDi
str
ibut
ion),记 为 X~N
4.5 连 续变量 的参数 估计  91      

(μ,σ )。不同 的 μ、不同 的 σ,对应于 不同的 正态分 布。
图 4.5即为 正态分 布图,正 态分布 的密 度 曲线 (横 轴 为 值,纵 轴 为频 率 )是 一个 对 称 的钟 形
曲 线(最高 点在均 值处)。 显然,正 态分 布 是 一族分 布,其曲 线依 均 值 和 标准 差而 略有 区 别。该
连 续变量 落在某 个 区 间 的 概 率 就 等 于 在 这 个 区 间 上,该 曲 线 下 的 面 积 ,而 曲 线 下 的 总 面 积 为
100%,代 表概率 总和为 100%。

图 4.5 不 同均 数 μ、不同 标准 差 σ的正态 分布 示意 图

2.正态分 布的特 征

从正 态分布 曲线,可 以总结 出其分 布特征 如下:


(1)正态分 布曲线 是一条 对称曲 线,关于 均数对 称,因 此均数 被称为 正态分 布的位置 参数。
(2)曲线是 单峰,在 均值处 达到最 高点。
(3)正态分 布曲线 峰的矮 阔与尖 峭与标 准差有 关。标 准差越 大,个体 差异越 大,正态 曲线也
越 矮阔;反 之,标 准差越 小,个体 差异越 小,正 态曲线 也越尖 峭。因 此标准 差被称 为正态分 布的尺
度 参数。
(4)曲线无 论向左 或向右 延伸,都 越来越 接近横 轴,但 不会与 横轴相 交,以横 轴为渐 进线。
除此 以外,正 态曲线 下的面 积也有 一定的 分布规 律,根 据经验 法则,有 :
(1)约 68%的 个体的 取值与 平均数 的距离 在 1个 标准差 (μ±σ)之内 ,或者 说一个标 准差范
围 内的曲 线下面 积为 68% 。
(2)约 95%的个 体的取 值与平 均数的 距离在 1.
96个标准 差(μ±1.96σ)之内 。
(3)99%个 体的取 值与平 均数的 距离在 2.58个 标准差 (μ±2.58σ)之内 。
根据 上述规 律,可以 做 出一 些 相应 的 总 体推 断 。例 如 ,某单 位 所 有 男性 员工 的 平 均 身高 为
175cm,身 高的标 准差为 5cm,在 身高服 从正态 分 布 的前 提 下,可 以 得到 这 样的 推 断:约 68% 的
男 性员工 的身高 在 170cm ~180cm之间 ,约 95%的 男性员 工的身 高在 165cm ~185cm之间 。

3.标准正 态分布

统计 分析中 经常需 要求曲 线下面 积,但这 就需要 为每个 不同的 分布单 独计算 面积分 布规律 。
为 了制一 张可供 不同的 μ、σ共同 使用的 表,可以 考虑引 进以下 变换:
        92 第 4章  连续 变量的 统计描 述与参 数估计

X-μ
u=
σ
这样 做相当 于将分 布的位 置参数 移动到 0处,使 曲线沿 y轴对 称,并 且将分 布的尺 度参 数固

定 为 1。从而 将原来 的正态 分布 N(μ,σ ),变换成 了均数 为 0、标准 差为 1的正态 分布,该 分布被
称 为标准 正态分 布(St
andar
dNor
malDi
str
ibut
ion),而上述 变换则 被 称为 标准 化 变换。在 国外,标
准 正态分 布被称 为 u分 布或者 z分布 ,因此 变换也 被称为 u变换 或者 z变换。
标准 化变换 和标准 正态分 布的意 义非常 重大,因 为这 样 只 需要知 道标 准 正态 曲线 下面 积的
分 布规律 ,就可以 解决所 有正 态 分 布 的曲 线下 面 积 计算 问 题了,只 需将 其进 行 标准 正 态 变换 即
可。
在 SPSS中的 Desc
ript
ive过 程可以 将原变 量变换 为标准 正态分 布下的 得分,只需要 选中 主对
话 框左下 角的 Savest
anda
rdi
zedval
uesasv
ari
abl
es复选框 即可。

4.偏度和 峰度

上文 直接引 出了正 态分布 ,并指出 许多生 活中的 数据均 服从该 分布。 但是,如果数据 实际上
不 服从该 分布,则 随后基 于正态 分布的 一切 估 计和 检 验都 要被 推翻。 如 何来 确 认这 一 点 呢?对
于 一个具 体的连 续变量 是否近 似于某 种类型 的分 布,通常 是通 过 P-P概率 图 及非 参数 检验 法的
帮 助来鉴 别判定 的。此 处介绍 两个有 关正态 分布的 专用统 计指标 :偏度和 峰度。
(1)偏度(Ske
wne
ss):偏 度是用 来描述 变量取 值分布 形态的 统计量 ,指分布 不对称 的方 向和
程 度。样 本的偏 度系数 记为 α:


α= 6 (xi -珋
3 3
x) /s
n i=1
式中 s为样 本标准 差。这 是根据 矩法(详 见 4.
5.2节 )测定分 布偏度 的计算 公式。测 定分布
偏 度的其 他方法 还有分 位数 法和 Pear
son规 则等 ,这 里不 做 介绍,读 者可 以 参 考 有关 专 业 书籍 。
偏 度是与 正态分 布相比 较而言 的统计 量。α>0分 布为正 偏或右 偏,即 长 尾巴在 右边,峰 尖偏左 ;
α<0分 布为负 偏或左 偏,即 长尾巴 在左边 ,峰尖偏 右;α=0分 布为对 称。
需要 特别提 醒的是 ,偏态的 方向指 的应当 是长尾 的方 向,而不是 高 峰 的位 置。 和左 、右 偏态
的 称呼相 对应的 术语还 有正、负 偏态,这里的 正负是 指 资料 的 算术 均 数 与众 数 之差 的符 号,对于
右 偏态分 布的资 料,此时 算术均 数大于 众数,称之为 正 偏 态;同 理称 左 偏 态为 负 偏态。 国内 的不
少 统计书 籍对左 、右偏态 的理解 有误,往往正 好弄颠 倒。
(2)峰度(Kur
tos
is):峰度 是用来 描述 变 量取 值 分 布形态 陡缓 程 度 的统计 量,是指 分布 图形
的 尖峭程 度或峰 凸程度 。样本 的峰度 系数记 为 β:


n 6i=1
β= X)4 /
(Xi -珔 S4 -3

同样 ,式中 S为样本 标准差 。这也 是根据 矩法测 定 分布 峰 度的 计 算 公式 。测 定分 布峰 度的


方 法还有 分位数 法(略)。 峰度也 是与正 态分布 相比较 而言的 统计量 。β>0分布 为高峰 度的,即
比 正态分 布峰要 陡峭,峰 的形状 比较尖 ;β<0分布为 低 峰度的 ,即 形状 比正 态 分布 的峰 要平坦 ;
β=0则分 布为正 态峰。
Ex
plo
re过 程的结 果输出 中默认 就会给 出峰度 系数与 偏度系 数,这 在前 面的 分 析实 例中 已经
4.5 连 续变量 的参数 估计  93      

见 到过了 。

4.5.2 参数的 点 估计

在确 定了总 体的分 布类型 后,只需 要确定 总体分 布的几 个关键 参数,就可以 精确的对 其中心
位 置、集中 趋势等 进行描 述。但 是总体 参数一 般 都是 未 知的 ,需要 进 行 参数 估 计,也就 是要 用样
本 统计量 来估计 总体参 数(及其 估计误 差)。显 然,均数 、中位 数 、标准 误等 总体 参 数都 可以 进行
参 数估计 ,但平时 遇到的 主要是 用均数 进行参 数估计 。参数 估计分 为点估 计和区 间估计 ,这里先
来 讨论前 者。
参数 的点估 计就是 选定一 个适当 的样本 统计量 作 为 参数 的估计 量 ,并计 算 出估 计 值。 如选
样 本均数 作为总 体均数 的估计 量,将其 大小作 为总体 均 数的 点 估计 值 。对 于 所选 统计 量是 否适
于 作参数 估计量 ,有无偏 性、一 致性和 有效性 三个评 选标准 。无偏 性是指 虽然估 计量的值 不全等
于 参数,但 应当在 真实值 附近摆 动;一 致性是 指样本 量越大 ,估计值 离真实 值的差 异应当 越小;有
效 性则是 指如果 有两个 统计量 都符合 上述要 求,则应 当 选取 误 差更 小 的 一个 作 为估 计 值。 如前
述 的均数 和中位 数,两者 在反映 正态分 布的集 中 趋势 时,在 无 偏性 和 一 致性 方 面效 果都 较好,但
中 位数的 误差更 大,所以 前面会 有应当 尽量使 用样本 均数来 反映正 态分布 集中趋 势的结 论。
参数 点估计 时可用 的方法 有矩法 和极大 似然估 计法两 种,这里 分别介 绍一下 。

1.矩法

矩法 的名称 比较专 业,实际 上含义 非常简 单,它 指 的是 在 许多 情 况 下,样 本统 计量 本身 往往


就 是相应 的总体 参数的 最佳估 计值,此 时就可 以 直接 取相 应 的 样本统 计量 作 为总 体参 数的 点估
计 值。例 如,样本 均数、方差、标 准差都 是相应 总体均 数、方差 、标准 差 的 矩估 计 量。对 于常 用的
正 态分布 而言,矩 法几乎 可以满 足全部 参数的 点估计 需求,所以平 常教科 书上所 说的点估 计实际
上 就是用 的矩法 。

2.极大似 然估计 法

极大 似然估 计法是 另一种 更好的 参数估 计方法 ,其优点 在于估 计量常 能满足 一致性 、有效性
等 要求,且 具有不 变性,不变性 是指当 原始数 据进行 某 种函 数 变换 后 ,相应 估 计量 的同 一函 数变
换 值仍是 新样本 的极大 似然估 计量。
该方 法的原 理是在 已知总 体的分 布,但未 知其参 数值时 ,在待 估参数 的可能 取值范围 内进行
搜 索,使似 然函数 值(在参 数所确 定的总 体中获 得现有 样本 的 概率 )最 大的 那个 数 值即 为极 大似
然 估计值 。
因极 大似然 估计法 已超过 本书读 者需要 了解的 范畴,这 里将不 再深入 讨论,读者只需 要知道
还 有这样 一个点 估计的 方法即 可。

3.稳健估 计值

矩法 和极大 似然法 虽然能 够很好 的满足 点估计 的需要 ,但它们 也有很 明显的 缺陷,就 是估计
值 受异常 值的影 响十分 显著,或 因数据 分布 的 偏 离而 使 估计 值 产生 较 大 变化。 在 20世 纪 50年
        94 第 4章  连续 变量的 统计描 述与参 数估计

代 前后,基 于正态 分布理 论的统 计方法 的不稳 定性引 起了统 计 学家的 广 泛关 注。尤 伯(P.J
.Hu-
ber
)于 1964年 创立的 渐进极 小极 大 理 论,以 及汉 甫(F.R.Hampe
l)于 20世 纪 60年 代 末 提出 的
崩 溃点等 概念和 有界影 响方法 最终奠 定了稳 健统计 的理论 基础。
稳健 统计研 究的是 具有稳 定性的 统计方 法。即 当 观测 数 据符 合 假 定模 型 ,甚 至与 假定 模型
有 偏离时 ,性质都 较好或 至少性 质不会 很坏的 统计方 法。 而 稳 健估计 指的 就 是该 统计 量具 有稳
健 性,当数 据存在 异常值 时受影 响 较小 ,而 且对 大部 分 的 分 布而 言 都 很好 (当 然,这 同 时 意味 着
它 不会对 每个分 布都是 最佳的 )。
稳健 估计有 M估 计、R估计等 不同 方 法,前 者 是稳 健 估 计 常用 的方 法。 M 估计 最 早 是由 尤
伯 提出,其 实是“极 大似然 型估计 ”的简称 ,即该 方法的 核心仍 然 是极 大 似然估 计法,但 是在 估计
时 它首先 构 造一个 Ψ 函 数,该 函数能 够 减小异 常值的 影响,而 且对 所 考虑的 分 布集 合 中的 每个
分 布都是 好的估 计量。 随后再 对 Ψ 函数的 集中趋 势进行 参数的 极大 似 然估计 ,因 此相 应的 估计
值 受异常 值的影 响要小 得多。
SPSS的 Expl
ore过 程能 够 直 接输 出 M 估计 的结 果,在 St
ati
st
ic子 对话 框 中 选择 M-Es
ti
mat
or
复 选框,相 应的输 出如表 4.7所 示。
表 4.7  M-Es
ti
mat
ors

表 4.7即为 输 出的 M 估计 量 的结 果,SPSS中输 出 的 M 估 计 量 有 4种,它们 分 别 是 Hube


r、
Andr
ews、Ha
mpel和 Tuke
y所提出 的,实际 上就 是 所 用的 Ψ 函 数 不 同。 一 般 而 言 ,Huber法适 用
于 数据接 近正态 分布的 情况,另 外三种 则适用 于数据 中有许 多异 常 值的情 况。如 果 M 估计 量离
平 均数和 中位数 较远,则 数据中 可能 存 在 异常值 。 此时 ,应该 用 M 估 计 量替 代平均 数 以 反映 集
中 趋势。 从输出 结果可 见,男、女性的 4个 M估计 量离均 数都很 近,这 就可 以反 证 数据 中应 当不
存 在明显 的异常 值。

4.5.3 参数的 区 间估计

显然 ,仅仅有 参数的 点估计 是不够 的,比 如打靶 ,打了 2枪,平 均 9环 ;打了 100枪,平均 也是
9环,显 然人们 更相信 后者的 确是个 好的枪 手,而 对前者 的水平 却产生 很 大的怀 疑。这 就涉 及到
了 参数的 估计值 究竟有 多大的 误差的 问题。

1.标准误

标准 误就是 用来描 述参 数估 计值 可 能 离 真实 值究 竟有 多 远的 统 计 量。 先 考虑 这 样 一种 情

形 :假设现 在已知 一个正 态分布 的总体 N(μ,σ ),从中 进行抽 样 研究,每次 抽样 的 样本 量固 定为
4.5 连 续变量 的参数 估计  95      

n,这样对 每一个 样本均 可以计 算出其 均数 珔


X。由 于 这 种抽样 可以 进 行 无限多 次,这些 样本 均数

就 会构成 一个新 的分布 总体。 统 计学 家 发现,该 分布 正 好就 是正 态分 布 N((μ,σ /n)。也就 是
说 ,样本均 数所在 分布的 中心位 置和原 数据分 布中心 位置相 同,而 其标准 差(记为 σ珔X)则为 σ珔X =
σ/n。为了 区分样 本所在 总体的 标 准差,通常 称样 本均数 的标 准差 为 样本 均数 的标 准 误(简 称
均 数标准 误 ,有 的书 上也 称 之 为标 准 误差);而 且,即使 是 从 偏态 总体 随 机 抽 样,当 n足 够大 时
(如 n>50),X
珔也近似 正态分 布。这 一规律 就是数 理统计 中的中 心极限 定 理(Cent
ralLi
mitTheo


em)。

图 4.6  均数 的抽 样分 布 示意 图

图 4.6就是 从均数 为 0的 一个正 态分布 总体中 进 行抽 样 的示 意 图,可 见 样本 均数 的分 布仍


然 是以 0为均数 ,但是标 准差要 比原分 布小一 些。实 际上就 是一个 倍数关 系。
标准 误就是 一般用 来表示 参数估 计值准 确程度 的统计 量,标准 误越大 ,则说 明相应参 数的点
估 计值越 不可信 。

2.区间估 计的计 算

结合 样本统 计量和 标准误 可以确 定一个 具有较 大 的可 信 度(如 95% 或 99%)包含 总体 参数


的 区间,该 区间称 为总体 参数的 1-α可 信区间 或置信 区间(Conf
idenceI
nte
rva
l)。
下面 来看一 下可信 区间是 如何求 取的,显 然,由 于样本 均数 X
珔的 分布 规律 为 正态 分布 N(μ,

σ /n),现在 只需要 进行如 下的标 准化变 换:
X-μ

U=
σ/n

得到 的 U将服 从标准 正态分 布 N(0,
1)。也 就是说 ,若资料 服从正 态分布 N(μ,σ ),样 本含
量 为 n的 样本均 数 X
珔出现 在(μ±1.
96σ/n)之 中的概 率为 0.95,即按 照 95%的 可信度,应当有 :
X-μ

-1.96< <1.
96
S/n
对上 式进行 变换后 即得:

珔-1.96S/n<μ<珔
X+1.96S/n
        96 第 4章  连续 变量的 统计描 述与参 数估计

这就 是按照 95%可信 度计算 出 的总 体 均数 可 信 区间。 照此 类 推,对 于 任 意 可信 度 的 情况 ,


总 体均值 μ的 100(1-α)%可 信区间 为:

珔-uα/2 S/n<μ<珔
X+uα/2 S/n
α值一般 取 0.
05或 0.
01,故 1-α为 0.95或 0.99。 上面计 算的 是 双侧可 信区间,特殊 情况
下 还会使 用单侧 的可信 区间,这 里不再 详述。
非常 有 意思 的 是,可 信 度的 概 念 往往 会 引起 误 解,它 仅 仅 是大量 重复 抽 样时 的一 个渐 近概
念 。认为 “95%的 可信区 间包括 真实参 数值的 概 率为 0.95”是 个错 误 的 理解 。这 里得 到的 区间
是 固定的 ,而总体 参数值 也是固 定的。 因此只 有 两种 可 能:包 含或 者 不 包含,这当 中没 有任 何概
率 可言。95%的 可信度 只是说 如果能 够大量 重复试 验 的 话,则 平均 下 来 所计 算 的每 100个 可信
区 间中,会 有大约 95个 覆盖真 实值。
SPSS的 Expl
ore过程会 直接输 出标准 误 和可 信 区 间的 大 小,例 如 在上面 的 例子 中 男 生的 身
高 标准误 为 0.671cm,相应 的总体 均数 95% 可信区 间为 173.
37~176.05c
m。但 是,如果 大家直
接 按照上 面的公 式利用 标准误 来计算 区间的 话,会发 现和统 计软件 的结果 略有差 异,为什 么会这
样 呢?需 要特别 指出的 是,以 上 计 算 公式 实际 上 仅 仅适 用 于大 样本 ,或 者已 知 总体 标 准 差的 情
形 ,如果样 本量小 ,且只 知道样 本标准 差,则样 本均数 所在总 体服从 的 是 t分布 ,相 应的 可信 区间
计 算也应 当使用 t分 布来进 行,关于 t分 布的知 识将在 第 11章中继 续学习 。

思考与练习

1.请就 s
tudent
.sav数据 ,分析学 生的体 质量分 布情况 ,尝试 分性别 和合并 描述。
2.使用 Des
cri
pti
ve过 程,对 s
tudent
.sav中的身 高和年 龄变 量进 行标 准 正 态 变换 ,对 变换 后
的 变量进 行统计 描述。

参考文献

1 吴 喜之主 编.统 计学基 本概念 和方法 .北京:高等教 育出版 社,


2003
2 杨 树勤主 编.中 国医学 百科全 书・医 学统计 学分册 .上海:上海科 学技术 出版社,1982
3 杨 树勤主 编.卫 生统计 学.第三 版.北 京:人民 卫生出 版社,1995
4 方 积乾主 编.卫 生统计 学.第五 版.北 京:人民 卫生出 版社,2003
5 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002
5.1  分类变 量的统 计描述 概述  97      

第 章  类变量的统计描述与
参数估计
   在第 4章中 ,已经学 习了连 续变量 的统计 描述,本章将 继续学 习分类 变量的 统计描述 及参数
估 计方法 。
首先 复习一 下分类 变量的 概念。 统计学 上把取 值范围 是有限 个值或 者是一 个数列构 成的变
量 称为离 散变量 ,其中表 示分类 情况的 离散变 量又称 为分类 变量。 根据类 别的有 序性,分 类变量
又 可分为 有序分 类变量 (Or
dinalVar
iabl
e)和 无序分 类 变 量(Nomi
nalVar
iabl
e)两 类。但 是,这 两
类 变量在 统计描 述上几 乎没有 什么差 异,因此 本章将 它们放 在一起 讲解。

5.
1 分类变量的统计描述概述

5.1.1 分类变 量 的统计描 述指标体系

相对 于连续 变量而 言,分类 变量的 统计描 述 体系 非 常简 单 。由于 分类 变 量不 能进 行四 则运


算 ,因此对 变量中 包括的 几个类 型(调查 题目中 的选项 )进 行各 自 频数 的统 计以 及 它们 在所 有类
型 中所占 的比例 ,就变得 非常重 要了。

1.频数分 布情况 的描述

对于 分类变 量,首先 希望了 解各种 类别的 样本 数 有 多少 ,除此 之 外,还 会 对相 对数 量比 较感


兴 趣,如每 个类别 的人数 占总人 数的比 例各为 多少。 这些信 息往往 会被整 理在同 一张频 数表中 ,
各 个类别 的样本 数和所 占比例 分别被 称为频 数(绝对 频数)和 百分比 (构成比 ),前 者是 指本 类别
出 现的次 数,百分 比则是 指本类 别出现 的次数 占总次 数的 百分 比,即 本 类 别出 现 次数 /总次 数 ×
100%。如 在一项 “最受欢 迎的软 饮料是 什么”的 调查 中 ,调 查者 提 供了 5个答 案可供 选 择:Coke
Cl
assi
c,Di
etCoke,Dr
.Pe
pper
,Peps
i-Coke,Spr
it
e。50名被调 查 者 都会 给 出一 个 答 案,统 计 5种 软
饮 料的每 一种在 数据集 中出现 的次数 ,CokeCl
ass
ic出现 19次,即 19人 最喜 欢 Co
keCl
ass
ic;Di
et
Coke出 现 8次,即 8人最喜 欢 Di
etCoke;5人最 喜 欢 Dr.Pe
pper
;13人 最 喜 欢 Pe
psi
-Co
ke;5人 最
喜 欢 Spr
it
e。这些 数字即 为每一 种饮料 的频数 。但是 ,如果不 知道总 人数 为 50,或 者希 望和 其他
更大 /
更小 人群的 调查结 果相比 较时,就无法 确认 19这个数 字到底 有多大 ,因而 又提出了 百分比
这 个概念 。如 Co
keCl
ass
ic出 现 的比 例 为 38% (19/
50),即 38% 的 人最 喜 欢 CokeCl
assi
c;Di
et
Coke出 现的比 例为 16% (8/
50),即 16% 的人 最 喜欢 Di
etCoke;依此 类 推 ;10% 的 人 最 喜欢 Dr

Pepper
;26% 的人 最喜 欢 Pepsi
-Coke;10%的 人 最喜欢 Spr
it
e。 这 些百分 比数字 ,即为 每 一种 饮料
的 相对频 数(或称 百分比 )。从 38% 等这些 百分数 字,研究 者就可 以了解 到各种 饮料为 人们 所偏
        98 第 5章  分类 变量的 统计描 述与参 数估计

好 的程度 。
在对 有序分 类变量 进行描 述时,除 给出分 各个类 别的频 数和百 分比外 ,研究 者往往还 对累积
频 数和累 积频率 感兴趣 。累积 频数是 指本类 别及较 低 类别 出 现的 次 数 之和,累计 百分 比则 是指
本 类别及 较低类 别出现 的次数 之和占 总 次 数的 百分 比,即 (本类 别 出现 次数 +较低 类 别 出现 次
数 )/总次数 ×100%。比 如,在一 项 员工 学 历的 调 查 中,希 望了 解每 个员 工 的 文 化程 度 ,分别 为
1———高中 及以下 ,2——— 大 专,3———大 学,4——— 研究 生 及以 上。 此时,调 查 人 员 不 仅希 望 了 解
“高 中及以 下”、“大专 ”、“大学 ”、“研究生 及以 上 ”各类 别员 工 的人 数及 比例 ,还希 望 了 解“大专
及 以下”、“大 学及以 下”的人 数及所 占比例 ,此时 显然就 需要使 用累积 指标了 。
当然 ,出于一 些特殊 的分析 目的,累计频 数和累 积 百分 比 也可 能 被 用于 无 序分 类变 量,如希
望 知道各 少数民 族占总 人数的 比例情 况等。 但需要 注 意的 是 ,统计软 件一 般 都只 按类 别编 码从
小 到大进 行频数 和百分 比的累 计,如果 编码不 符合要 求,则 研究者 只能手 工加以 统计。

2.集中趋 势的描 述

除原 始频数 外 ,研究 者 如果希 望 哪一 个类 别 的频 数最 多,还 可 以使用 众 数(Mo


de)来描 述它
的 集中趋 势。所 谓众数 ,是指出 现次数 最多的 那个数 。显然 ,众数 有时可 以多于 一个。如 果只有
一 个众数 称为单 众数,多 于一个 的称为 复众数 。在实 际工作 中,有 时利用 众数来 说明社会 经济现
象 的一般 水平。 例如,为 了说明 职工的 技术等 级、商 品销售 中卖得 最多的 服装、鞋 的号码 等,都可
以 利用众 数来反 映其一 般水平 。但是 ,众数只 反映频 数最多 的类别 的情况 ,而浪 费了所有 其他信
息 ,如另一 个类别 的频数 仅少一 例,使 用众数 描述的 话就会 被完全 忽视掉 ,因此,只有集中 趋势显
著 时,才能用 众数作 为总体 的代表 值。实 际上,当 分类变 量的类 别数不 多时,原 始 频数 表的 观察
并 不复杂 ,此时众 数的使 用价值 并不高 。
可能 这里有 的朋友 会觉得 奇怪,为 什么本 章只提 到对分 类数据 描述其 集中趋 势,而忽 略掉了
离 散趋势 呢?这 是因为 对于分 类数据 而言,其 数据的 离散程 度实际 上是和 集中趋 势有关 联的,它
们 往往受 相同参 数的控 制,因此 不需要 分别描 述,对 此请参 见本章 最后一 节。

3.使用相 对数进 行深入 描述

除以 上比较 简单的 频数、比 例外,研究者 还经常 为分类 数据计 算一些 原始频 数的相对 指标用
于 统计描 述,这些 指标被 称为相 对数,这里简 单介绍 一下常 用的三 种相对 数:
(1)比(Ra
ti
o):比指的 是两个 有关指 标之比 A/
B,用 于反映 这 两个 指标 在 数量 /
频 数上 的大
小 关系。 其中 A、B可 以 是性质 相同的 两 个指 标,如两 个地区 相 同时期 内交通 事 故数之 比;也可
以 是性质 不相同 的两个 指标之 比,如某 地区一 周内交 通事故 数与交 通车辆 数之比 。事实 上,比还
可 以被拓 展到连 续变量 的范畴 内,如销 售人员 属于本 月销售 额之比 等。
(2)构成比 (Pr
opo
rti
on):分观 察对象 为 k个部 分(A1,A2,…,Ak ),其 中某 一个 /
多 个 部分 的
例 数占总 例数的 比例称 为构成 比,它描 述某个 事物内 部各构 成部分 所占的 比重,构成比的 计算公
式 为:
某一 组成部 分的样 本数
构成比 =
总样 本数
可见 构成比 的分子 必须是 分母的 一 部 分,所 以其 取 值 为 0~1。 实际 上 ,前 面提 到 的 百分 比
5.1  分类变 量的统 计描述 概述  99      

就 是一个 标准的 构成比 ,而累积 频率则 是构成 比概念 的直接 延伸。


(3)率(Ra
te):率是 一个具 有时间 概念,或者说 具有速 度、强度 含义的 指标,用于说明 某个时
期 内某个 事件发 生的频 率或强 度,其计 算公式 为:
观 察期内 发生某 事件的 对象数
某事件 的发生 率 =
该 时期开 始时的 观察对 象数
准确 的讲,率 应当是 一个时 间点上 的强度 测量,但 这在 实 际工 作 中 很难 做 到,因此 一般 都按
一 个时段 来进行 测量。 从而它 的分子 往往是 一个时 期的累 计数。
以上 相对数 在使用 时应当 注意适 用条件 ,如样本 量较大 时相对 数才会 比较稳 定,基数 不同的
相 对数不 能直接 相加求 和等。

5.1.2 分类变 量 的联合描 述

频数 表可以 描述一 个分类 变量的 数值分 布情况 ,但是 研 究 者往往 希望 对 两个 甚至 多个 分类


变 量的频 数分布 进行联 合观察 ,如希望 考察一 下不同 的血型 在各民 族间的 频数分 布,甚至 于构成
比 状况如 何。此 时就需 要将这 些分类 变量的 类别交 叉 起来,分 别统计 各种 类 别组 合下 的频 数大
小 。当一 共有两 个分类 变量时 ,这种因 分类变 量的 各 类别 交 叉 而成的 复合 频 数表 被称 为行 ×列
表 ,也称列 联表。 更多分 类变量 的交叉 表格和 两个变 量时的 交叉表 格其实 没有本 质区别 ,只是更
为 复杂而 已。在 多个分 类变量 的联合 分析中 ,列 联表 提 供了 清 楚明 白 的 分析 结 果,非常 直观,容
易 进行比 较。在 一般的 调查报 告中,经 常看到 作者应 用列联 表进行 变量的 交叉分 析,它也 是调查
报 告中显 示分析 结果的 主要方 式之一 。
以二 维的 r×c列 联表为 例。假 设有 n个 个体 根 据 两个 属 性 A和 B进 行分 类 。属 性 A有 r
类 :A1,A2 ,…,Ar,属性 B有 c类:B1,B2,…,Bc。n个个体 中既属 于 Ai 类 又属 于 Bj 类 的有 nij个 。
那 么可用 如表 5.1所示 的一个 二维的 r×c列联 表表示 。
表 5.1 二 维 的 r×c列联 表

B1 B2 … Bc 合 计

A1 n11 n12 … n1c n1・

A2 n21 n22 … n2c n2・

… … … … …

Ar nr1 nr2 … nrc nr・

合  计 n・ 1 n・ 2 … n・ c n

表 5.1中,除 合计栏 外的每 一个单 元格反 映了 A、B两 属性 在某 种类 别 交 叉 下的 频 数 情况 ,


而 合计栏 则分别 反映了 A、B两属 性各自 的类别 频数情 况,且表 格中的 数据有 如下的 换算关 系:
ni・ = 6 nij,n・ j = 6 nij,n= 6 ni・ = 6 n・ j
j i i j

除给 出原始 频数外 ,各单元 格内还 可能给 出行 百 分 比、列 百分 比 和 总百 分 比等,分 别用 于反


映 该单元 格频数 占所在 行、列、总样本 的构成 比情况 。
        
100 第 5章  分类 变量的 统计描 述与参 数估计

5.1.3 SPSS中 的相应 功能

作为 比较基 本的功 能,SPSS的 许多分 析 过 程均 可 完成 分 类变 量 统 计描 述 的 任务 ,但 专门 用


于 分类变 量统计 描述的 过程有 两个,它 们均集 中在 De
scr
ipt
iv
eSt
ati
st
ic
s子菜 单中。
(1)Fr
equenci
es过 程:在上 一章中 已经学 习过 了 ,它主要 针对 单 个 分类变 量输 出频 数 表,从
而 得到“频 数”、“百分 比”和“累 积百分 比”的统 计 量。 除原始 频数表 外 ,还 可 给出 描述 集中 趋势
的 众数,以 及直接 绘制用 于分类 变量的 条图和 饼图等 。
(2)Cr
oss
tabs过程 :其强项 在于两 个或多 个分类 变量的 联合描 述,可 以产生 二维至 n维 列联
表 ,并计算 相应的 行、列 、合计百 分比和 行、列 汇总指 标 等。 除 强大 的 描 述功 能 外,该过 程也 具备
了 完善的 分类资 料统计 推断功 能,详见 第 14章。
此外 ,针对比 较特殊 的多选 题统计 描述问 题,SPSS也 为其提 供了 专 门的模 块支持,详见 本章
第 3节。

5.
2 分类变量统计描述实例

这里 仍以上 一章中 使用过 的 s


tude
nt.s
av为 例 ,来学 习 一 下分 类 变量 的 统 计描 述 在 SPSS中
的 具体实 现方法 。

5.2.1 使用 Fr
equenci
es过程 输出频数 表

如果 研究者 希望了 解一下 共有多 少学生 ,男生 和 女 生各 自 为多 少 ;各种 血 型的 人数 有多少 ,


则 可以使 用 Fr
eque
nci
es过程 输出这 两个变 量的频 数表,具体操 作如下 :

Anal
yze→De
scr
ipt
iveSt
ati
st
ics
→ Fr
equenci
es
Va
riabl
es框 :s
ex、bl
ood_t
OK

相应 的分析 结果如 下:
表 5.
2 St
ati
st
ics

首先 给出的 是统计 量列表 (见表 5.


2),因这里 没有选 择输出 任何统 计量,所 以只会 给出 有效
样 本量。 可见一 共有 219名学 生的数 据。这 219名 学 生的性 别和 血 型 数据都 是完 整的 ,没 有缺
失 值。
5.2 分类 变量统 计描述 实例  
101     

表 5.3  性别

表 5.3给 出了 性别的 频数 表,Fr


eque
ncy为 频数,Per
cent为各 组 频 数占 总例数 的 百 分比 (包
括 缺失记 录在内 ),Va
li
dPer
cent为 各 组 频数 占总 例数 的 有效 百 分 比,Cumul
ati
vePer
cent为各 组
频 数占总 例数的 累积百 分比。 可见在 219人 中,男性 72人,女 性 147人两 类 人群 的累 积百 分比
正 好就是 100%。由 于不存 在缺失 值,因 此这里 的 Per
cent和 Va
li
dPe
rce
nt完全相 同。
表 5.4  血型

表 5.4给出 的是血 型的分 析结果 ,请读者 自行分 析,这 里不再 详述。

5.2.2 使用 Cr
oss
tabs过程 输出列联 表

如果 研 究者 希 望 知道 性 别和 血 型的 交 叉 频数 分 布,以及 各种 百 分 比的情 况,又该 如何 操作


呢 ?Cr
oss
tabs过 程可以 帮研究 者完成 这个任 务,具体 操作如 下:
Anal
yze→De
scr
ipt
iveSt
ati
st
ics
→ Cr
oss
tabs
Ro
w(s
)框 :s
ex|
Col
umn(s
)框 :bl
ood_t
Ce
lls:
 Per
cent
ages: Row、 Co
lumn、 Tot
al
  Co
nti
nue

OK

操作 中用到 的对话 框如图 5.1(a)所示 ,主 对话 框 中的 Ro


ws框 、Col
umns框分 别用 于选 择行
×列表 中的 行、列 变 量。 而 下 方的 La
yer框 组则 用 于选 入 更 多的 分 类 变 量 ,这里 被 称 为 层变 量
(详 见第 6章关于 表格结 构的介 绍)。如 图 5.
1(b)所 示的 Cel
l子 对话 框用 于定 义 列联 表单 元格
中 需要显 示的指 标。这 里要求 输出三 种百分 比。
本例 相应的 输出如 下:
        
102 第 5章  分类 变量的 统计描 述与参 数估计

      (a)                                           (b)

图 5.1  Cr
oss
tabs过程 的 对话 框

表 5.5 Cas
eProc
essi
ngSummar

首先是 处理记 录缺失 值情况 报告(见 表 5.5),可 见 219例均为 有效值 。


表 5.6  性别 * 血型 Cr
oss
tabul
ati
on
5.3  多选题 的统计 描述  
103     

表 5.6就是 性别和 血型的 交叉表 ,行变量 是性 别 ,列变 量 是血 型 ,由于 系 统默 认为 升序 排列


(As
cendi
ng)。 所以 4列血型 依次的 排列是 A、AB、B和 O。 可以 看 出,在 总 共 72名 男 性 被调 查
者 中,A型 血有 16名,AB型血 有 8名 ,B型 血有 17名,O型血 有 31名。同 样,在总 共 147名女性
被 调查者 中,A型血有 51名,AB型血 有 22名,B型血有 20名,O型血 有 54名。
然而 ,由于在 被调查 中男女 的数量 不同,调查者 很难从 表 5.6中看出 诸如某 一个血型 男女的
比 例是不 是一样 ,或有什 么差异 。不过 ,每个 单元格 内 已经 输 出了 行 百 分比、列百 分比 和合 计百
分 比。这 里以 A型 血和男 性交叉 的单元 格 为 例加 以 说明 ,该单 元格 内自 上 而 下 依次 为 :第一 个
数 16为该 单元格 的实际 频数。 第 二个 数 22.2%为 行百分 比,它与 它右边 的 男 性和 AB、B、O交
叉 的单元 格中的 相应 百分 比 11.1% 、23.6% 和 43.1% 相 加正好 为 100%;第三个 数 23.9% 为列
百 分比,它 与它下 边的 A型 血和女 性交叉 的单元 格中的 相应百 分比 76.1%相 加正好 为 100%;第
四 个数 7.3% 为合计 百分比 ,它是 该单元 格频数 16在所 有交叉 单元格 中 所占的 总百分 比。 与其
余 单元格 相应的 百分比 相加也 正好为 100%。
这样 就可以 进行一 些有意 义的比 较了。 比如,在 男性 被 调查者 中 ,A型 血的男 性占 22.2% 。
在 女性被 调查 者中 ,A型 血 的女 性 占 34.7% 。因此 调查者 会 考虑:是否男 性 A型血 的 人较 女性
A型血的 人少(假 设调查 是随机 抽样,总体男 女数量 相同)。 同样的 道理,男 性 AB型血 的人 较女
性 AB型血的 人少。 男性 B型 血的人 较女性 B型血的 人多。 男 性 O型血 的人 较女 性 O型 血的
人 多。不 过,这样 的结果 也可能 是由于 抽样的 偶 然误 差 导致 的 ,必 须 要 经过 假 设检 验,才能 对以
上 的猜测 加以确 定。

5.
3 多选题的统计描述

多 选 题 是 调 查 问 卷 中极 为 常 见 的 调 查 题 目 类 型 ,在 第 2章 中 已 对 其 录 入 方 式 进 行 了 讲
解 ,由 于 它 所 收 集 的 数 据 也属 于 分 类 数 据 ,因 此 本 章 将 继 续 讲 解 对 于 这 类 多 选 题 如 何 进 行
描 述 分析 。

5.3.1 多选题 的 描述指标 体系

如 何 对 多 选 题 进 行 分 析 呢? 当 然 ,可 以 对 每 一 个 单 独 的 题 项 来 进 行 统 计 描 述 ,但 这 样
做 是 不全 面 的 ,因 为 这 些 变量 实 际 上 回 答 的 是 一 个 大 问 题 ,将 问 题 割 裂 开 来 可 能 会 导 致 不
正 确 的分 析 结 果 ,而 且 无 法计 算 一 些 汇 总指 标 。 在 多 选 题 分 析 中 比 较 特 别 的 描 述 指 标 有 以
下 4个 :
(1)应答人 数:是指 选择了 本选项 的 人数 ,或 者说 就 是 原始 频数,比 如 说在 200人 中有 178
人 选择了 调理饮 食以控 制高血 压。
(2)应答人 数百分 比(Per
centofCas
es):选择 该项的 人占 总 人数的 比例,比 如 200个受 访者
中 共有 178人 选 择 了 调 理 饮 食 以 控 制 高 血 压,则 调 理 饮 食 的 应 答 人 数 百 分 比 为 178/
200=
89.
00%。应答人 数百分 比可以 反映该 选项在 人群中 的受欢 迎程度 。
(3)应 答 人 次 :是 指 选 择 本 选 项 的 人 次 ,一 般 情 况 下 ,应 答 人 次 和 应 答 人 数 是 相 同 的 ,
        
104 第 5章  分类 变量的 统计描 述与参 数估计

但 是 在有 的 时 候 是 不同 的 。 例 如 ,您 最 近 买 的 几 管 牙 膏 的 品 牌 各 是 什 么 ? 这 种 问 题 ,就 可
能 同 一个 人 回 答 同 一个 答 案 多 次 因为 同 一 个 品 牌 他 买 了 两 管 。 因 此 ,此 类 多 选 题 就 会 有 可
能 出 现选 择 某 答 案 的人 数 不 等 于 选择 某 答 案 的 次 数 的 情 况,因 而 Count与 Respons
e就 有 可
能 不 等。
(4)应答次 数百分 比(Per
centofRe
spons
es):在做 出的所 有选择 中 ,选 择 该项 的次 数占 总次
数 (总反应 数)的比 例,比如 200受 访者对 4种 高血压 控制方 式分别 选择了 178、120、134、160次 ,
则 总的应 答次数 为 178+120+134+160=592人 次,而调 理饮食 的应答 次数百 分比应 为 178/
592
=30.
07% 。应答 次数百 分比可 以用于 不同选 项受欢 迎程度 的比较 。
使用 以上几 种指标 ,就可以 对多选 题进行 比较完 善的描 述了。 和 录入 时 相同 ,SPSS的Ta
bles
模 块和 Mul
ti
pleRe
spons
e菜 单都可 以对多 选 题变 量 集 进行 统 计描 述 ,但前者 生 成的 是 标 准的 结
果 表格,可 以进行 各种复 杂编辑 ,而后 者生成 的是纯 文 本 表格 ,功能 上 也 要简 单 一些。 本章 将以
Bas
e模块中 的 Mul
ti
pleRes
pons
e菜单 为主加 以讲 述,Tabl
es模 块中 的相 应功 能请 参 见 第 6、7两
章。

5.3.2 分析实 例

这里 使 用的 是 一次 市 场 调查 的 具体 数 据 mul
ti
ple
cat
ego
ry.s
av,文件 中 性 别(d1)变 量的 代码
是 1男,2女。 其中的 第 7题 (q7)为多 项选择 题,具体 的题目 是:

   q7.请问促 使您买 保健品 的主要 原因是 (可多选 ):


1.广 告宣传    2.自己需 要    3.家人需 要
4.看 望亲友    5.朋友推 荐    6.其他(请 注明):

对 于 多 选 题 的 录 入 和在 SPSS中 多 选 题 的 定 义 ,在 第 2章 中 已 经 讲 过 了 ,本 题 是 采 用 多
重 分 类法 进 行 录 入 ,考 虑 到最 多 可 能 答 案为 6个 ,所 以 共 有 6个 变 量 (q7_1~q7_6)。 此 时
应 当 将这 6个 变 量 定 义 为 一 个 多 选 题,该 多 选 题 的 名 称 为 q7,标 签 为 “促 使 购 买 保 健品 的 主
要 原 因”。

1.多选题 的频数 列表

如果 希望给 出各答 案的频 数分布 情况,则 操作步 骤如下 :

Anal
yze→Mul
ti
pleRe
sponse→Fr
equenc
ies
Tabl
e(s)f
or框:促 使购买 保健品 的主要 原因[$q7]
OK

所使 用的 Mul
ti
pleRe
spons
eFr
equenci
es对话框 内容非 常简单 ,如图 5.2所 示,这里 不再 详细
解 释。只 是指出 下方的 Mi
ssi
ngVal
ues复选框 组用于 选择对 缺失值 的处理 方式,两个复选 框分别
对 应了两 种编码 的对应 方式,不 能交错 使用。
相应 的结果 输出如 下:
5.3  多选题 的统计 描述  
105     

图 5.
2 Mul
ti
pleRes
pons
e:Fr
equenc
ies过 程的对 话框

Gr
oup$q7 促 使购买 保健品 的主要 原因
Pcto
f Pctof
Cat
egor
ylabel Code Count Res
pons
es Ca
ses
广 告宣传 1 14 2.2 3.

自 己需要 2 299 47.6 66.

家 人需要 3 197 31.4 44.

看 望亲友 4 93 14.8 20.

朋 友推荐 5 17 2.7 3.

其他 6 8 1.3 1.

-- --- - --- -- -- ---
Tot
alr
espons
es 628 100.0 140.

0mi
ssi
ngc
ases
;448v
ali
dcas
es
上面 的结果 提供的 信息是 :在 448个有效 的 被调 查者中 ,各 种原 因 一 共被 选 择了 628次,其
中 “广告宣 传”被选 择了 14次,“自 己需要 ”被选择 了 299次,“家 人需要 ”被选择 了 197次,“看望
朋 友”被选 择了 93次,“朋 友推荐 ”被选择 了 17次 ,“其他 ”原因被 选择了 8次。
右边 的两个 百分数 是多项 选择题 比较重 要 的输 出 :Pc
tofRespo
nses计 算 的是 选择 次数 占总
选 择次数 的比例 ,比如,这 448位被调 查者一 共进行 了 628次 选择,其 中有 14人 选择 了“广 告宣
传 ”,该选择 次数所 占的比 例为 14/
628=2.2%;Pcto
fCas
es计 算的则 是所 有 被调 查者 中选 择相
应 分析方 法 者占 总 人 数的 比 例 ,例 如,有 14人 选 择了 “广告 宣 传”,他 们 占 总人 数 的 14/
448=
3.1%。在 调查报 告中,研 究人员 经常使 用的是 Pcto
fCa
ses栏中的 百分数 。它所 表 明的 意义 人们
比 较容易 理解,虽 然各个 百分数 的和大 于 100% 。

2.多选题 的列联 表分析

上面 直接给 出了多 选题的 频数表 ,但有的 时候还 希望能 够对不 同的人 群分别 描述,即 将多选
题 变量集 和其他 分类变 量进行 交叉描 述。如 在本例 中希望 分性别 进行考 察,则操 作如下 :
        
106 第 5章  分类 变量的 统计描 述与参 数估计

Anal
yze→Mul
ti
pleRe
sponse→Cr
oss
tabs
Ro
w(s
)框 :d1
选中 d1:Def
ineRang
es:
 Mi
nimum 框:
1|Max
imum 框:2
  Co
nti
nue
Col
umn(s
)框:促 使购买 保健品 的主要 原因[$q7]
OK

用到 的操作 界面如 图 5.3(a)所 示 ,可见 多 选 题的 Cr


oss
tabs主 对 话框 和 普通 Cr
oss
tabs过 程
的 主对话 框非常 相似,只 是下方 多了 De
fi
neRange
s钮,用 于为相 应的变 量设置 取值范 围。其 Op-

ions子对话 框(见图 5.3(b))中也 可以定 义输出 行百分 比、列百 分比 和 总百分 比指标,以及 控制
缺 失值的 处理方 式。

    (a
)                                              (b)

图 5.3 Mul
ti
pleRes
ponse:Cr
osst
abs过 程的 对话 框

本例 的分析 结果如 下页框 图所示 。


交叉 表中分 性别给 出了对 各种购 买原因 的选择 情 况。 在 男性 被 调 查者 中 ,购 买保 健品 的原
因 选择如 下:广告 宣传 3人,自 己需要 133人 ,家人 需 要 87人 ,看望亲 友 49人 ,朋 友推 荐 6人和
其 他 3人 。同样 ,在女性 被 调 查者 中,购买 保 健 品 的 原 因 选 择 如 下:广 告 宣 传 11人 ,自 己 需 要
166人 ,家人 需要 110人,看 望亲友 44人 ,朋友推 荐 11人和 其他 5人。 在 448位被 调查 者中,男
性 206人 ,占 46%,女性 242人,占 54%。
由于 设置的 关系,在 系统输 出的交 叉表的 单元 格 里,只 显 示了 频 数 的多 少 ,这 样看 起来 比较
清 楚,美观 。但是 由于在 被调查 者中男 性与女 性 的数 量 不同 ,仅仅 从 这 个交 叉 表中 的频 数中,很
难 看出性 别之间 的差异 ,在一些 指标上 缺乏可 比性。 如果在 本分析 过程 Opt
io
ns的 Cel
lPe
rce
nta

ges复选框 组中选 择显示 变量的 行百分 比、列 百分比 和 总百 分 比,就可 以更 详 细的 进行 性别 间的
比 较了,对 此请读 者朋友 们自行 操作,这里不 再详述 。
5.4 分 类变量 的参数 估计  
107     

5.
4 分类变量的参数估计

对于 分类变 量而言 ,由于只 能取若 干个离 散的值 ,因此 这里在 讨论参 数估计 时往往关 心的就
是 各类别 在总体 中的比 例是多 少,或者 当从中 进 行一 次 抽样 时 ,抽 得 相 应类 别 的概 率是 多少,且
对 于所有 可能的 类别,其 概率之 和应当 等于 1。

5.4.1 二项分 布 的参数估 计

二项 分布是 分类变 量最为 常见的 分布类 型,下面 将讨论 一下二 项分布 的参数 估计问 题。

1.Be
rnoul
li试验与 Bernoul
li试 验序列

在许 多问题 中,人们 仅对试 验中某 事件是 否发生 感兴 趣。 例如,掷 硬币 试 验中,关 心的 是出


现 正面还 是出现 反面;产 品抽样 检查中 ,注意 抽取的 产品是 好产品 还是废 品;射击 试验中 ,命中还
是 不命中 ;比赛中 ,胜还 是负… …在这 类问题 中,试验 的 可能 结果 只 有两 个,或 者事 件 A 发生,或
者 事件 A不 发生即 A
珚发生,这 种只有 两个可 能结果 的试验 称为贝 努利(Ber
noul
li
)试 验。
现在 开始重 复进行 n次独 立的贝 努利试 验。“重 复”的 意思 是指 各 次试验 的条件 是 相同的 ,
它 意味着 各次试 验中事 件 A发生 的概率 保持不 变,设都 是 p(从而 珚
A 的 概率也 保持不变 ,设 都是
q,q=1-p
);“独立 ”的意思 是指各 次试验 的结果 是相互 独立的 。 这种 试验 所对 应 的数 学模 型称
        
108 第 5章  分类 变量的 统计描 述与参 数估计

为 贝努利 概型,有 时为了 突出试 验次数 n,也称为 n次贝 努利概 型或 n重贝努 利试验 。
进行 n次独 立重复 的贝努 利试验 ,每次试 验事件 A发生的 概率为 p,若以 ξ表示 n次独 立重
复 的贝努 利试验 中事件 A发生的 次数,那 么容易 求得 ξ的分 布列是
k k n-k
Pn (ξ=k)=Cnpq  k=0,
1,2,…,n
其 中:P(A)=p,P(珚
A)=q=1-p
满足 以下三 个条件 的 n次 试验构 成的序 列被称 为是 Ber
noul
li试 验序列 。
(1)每次试 验结果 ,只能是 两个互 斥的结 果之一 (A或 非 A)。
(2)每次试 验的条 件不变 。即每 次试验 中,结果 A发生的 概率不 变,均 为 π。
(3)各次试 验独立 。即一 次试验 出现什 么样的 结果与 前面已 出现的 结果无 关。

2.二项分 布的函 数式

一般 地,在 Ber
noul
li试验序 列的 n次试验 中,事件 A出现的 次数 X具有概 率
n k n-k
P(X=k)=(k)π (1-π)   k=0,1,…,n
n k n-k n
由于 (k)π (1-π) 是二项 式[π+(1-π)] 展开 式 中的 各 项,故 称 此 分 布为 二 项 分布 。
显 然,对于 不同的 n,不同的 π有不同 的二项 分布。 因此,n、π是 二项分 布的两 个参数。
推而 广之,若 有一个 随机变 量 X,它的可 能取值 是 0,1,… ,n且 相应的 取值概 率是
n k n-k
P(X=k)=(k)π (1-π)
则 称此随 机变量 X服从以 n、π为参 数的二 项分布 ,记为 X~B(n,π)。 对于该 变量而 言 ,有 均数

μX =nπ,方差 σX =nπ(1-π),标 准差 σX = nπ(1-π)。 显然,对 于样本 量 n确 定的情 形,均数
和 标准差 间存在 着明确 的换算 关系,它 们都 只受 π 的影 响 ,这 也是 为什 么前 文 不对 离 散 趋势 加
以 描述的 理论依 据。

3.二项分 布与正 态分布 的关系

若已 知 n与 π,则按 上述二 项式可 计算不 同 X取 值时的 概率,然 后以 X为 横轴,概率 P为纵


轴 ,可绘制 二项分 布的图 形(参见 图 5.4)。 显然,二 项分布 图的形 状取决 于 n,π的 取值。 当 π=
0.5时 ,图形 对称;当 π≠0.5时,图形 呈偏态 ,但随 n的增 大,图形 逐渐对 称。
由数 理统计 学的中 心极限 定理可 得,当 n较大、π不接 近 0也不 接近 1时(一 般认 为这 个界
限 是 n>40,且 np和 nq均 大 于 5),二 项 分 布 B(n,π)已 经 非 常 近 似 于 正 态 分 布 N(nπ,
nπ(1-π))。正 态分布 是许多 统计方 法的应 用基础 ,二项分 布 的正 态近 似 拓宽 了二 项分 布的
应 用范围 。

4.二项分 布的参 数估计

在实 际问题 中,对于 一个二 项分布 的总体 而言,其试 验次 数 n是 可 以人 为 确定 和控 制的,因


此 只需要 对参数 π加以估 计,就可 以 明确 整个分 布的 情况 。前面 已经知 道,当 n较大、π也 不太
极 端时,二 项分布 B(n,π)近 似正态 分布,这样就 可以系 统的利 用 正态 分布 中的 相 应成 果来 进行
参 数估计 了。
一般 地,从一 个阳性 率为 π的 总体中 ,随机 抽取含 量为 n的样本 ,则样 本 中的 阳 性数 X服从
5.4 分 类变量 的参数 估计  
109     

n=10,π=0.3                n=30,π=0.

图 5.4  不 同参 数的 二项 分 布示 意图

二 项分布 B(n,π),且 样本阳 性率 p的概 率


n x n-x
P(X)=(x )π (1-π)
其 中,样本 率 p的 总体均 数 μp =π,总 体标 准 差 (也 就是 标准 误 )σp =σX /
n。 相 应的 样 本 率就 是
总 体均数 的点估 计值,如 果 样 本 足 够 大,则 可 以 利用 正 态 近 似 计 算 可 信 区 间 ,相 应 的 100(1-
α)% 可信区 间为:P±1.96 P(1-P)/
n。
当不 满足正 态近似 的条件 时,则可 以直接 利用 二 项分 布 的 概率分 布规 律 计算 相应 的可 信区
间 ,此处略 。

5.4.2 其他分 布 类型简介

除二 项分布 外,在 分 类 资 料 的 描 述 中 偶 尔 还 会 遇 到 一 些 其 他 的 分 布 类 型,这 里 简 单 介 绍


一 下。

1.多项分 布

二项 分布用 于描述 只有两 种可能 结局事 件的概 率分布 规律,对 于有多 种可能 结果的 事件,则
需 要使用 多项分 布(Mul
ti
nomi
alDi
st
ri
but
ion)加以 描 述。 比 如在 掷筛 子的 时 候,每个 面 都 会以 一
定 的概率 向上,假 定这些 概率为 p1 ~p6。显 然这些 概率的 和 为 1,而人 们关心 的 就是在 n次 试验
中 各种结 局分别 出现 k
1 ~k
6 次的 概率,
且 有 k1 +k
2 +k
3 +k4 +k5 +k6 =n。
如果 用 p(m1,…,mk )代表多 项分布 k种结 束在 n次 试 验中 分 别出 现 m1,m2 ,…,mk 次 的概
率 ,而 p1,p2,… ,pk 为一 次试验 时各种 可能结 束出现 的概率 。则应 当有:
n k k

p1 1p2 2…pkk,6 mi =n,6


m m m
p(m1,m2,…,mk)= pi =1
m1,m2,… ,mk i=1 i=1

① 本 部 分 内 容 属 拓展 知 识 面 ,难 度 较 高 ,跳 过此 节 ,不 会 影响 以 后 各 章 的 阅 读。
        
110 第 5章  分类 变量的 统计描 述与参 数估计

n n!
这里 = 为多 项 式系 数 ,整 个多 项分 布 可 以 用符 号 M(n;p1,
m1,m2,… ,mk m1!m2!… mk!
p2 ,…,pk)来表 示。

2.超几何 分布

在质 量检查 中,往往 一次抽 取若干 物品,每检查 一 个之 后 并不 放 回,这 时 一个 产品 不会 被重


复 检查。 而如果 发现次 品数超 过标准 ,就会将 整批产 品评价 为不合 格,那 么这种 结局的概 率是多
少 呢?
如果 是“放回 式抽样 ”,也就是 每检查 一个 就把 它放 回 。这 样再 抽取 时 ,检 查过 的 物 品还 有
可 能被抽 上。这 时每次 抽样时 得到次 品的概 率是服 从 二 项分 布的,概 率 等于 次 品的 比 例。 但是
在 上述问 题中,采 用 的 是“不 放 回 抽 样 ”,此 时 概 率 就 满足 超 几 何 分 布 (Hyper
geomet
ri
cDi
st
ri
bu-

ion)。
显然 ,超 几何 分布 和排 列 组合 密切相 关 ,仍以 质 量 检查 为 例,在 一 批 n个 产品中 ,如 果 有 m
个 不合格 产品(即 有 n-m个 合格 产 品 ),那 么 在 不放回 抽取 t个 产品 中 有 x个 不合 格 产 品的 概
率 为:
m n-m n
p(x)=   x=0,1,…,t
x t-x t

3.Poi
sson分布

Poi
sso
n分布也 是一种 离散随 机变量 的分布 ,主要用 于描述 在单位 时间(空 间)中某 种事 件的
发 生数。 如放射 性物质 在单位 时间内 的放射 次数;在 单位容 积充分 摇匀的 水中的 细菌数 ;野外单
位 空间中 的某种 昆虫数 等。
满足 以下三 个条件 的随机 变量服 从 Po
iss
on分 布:X的取 值 与观察 单 位的 位置 无关 ,只 与观
察 单位的 大小有 关;在某 个观察 单位上 X的取 值 与前 面 各 观察 单 位上 X的 取值独 立(无 关);在
充 分小的 观察单 位上 X的 取值最 多为 1。
X服 从以 μ为参数 的 Po
iss
on分 布可记 为 X~P(μ)。如果 随 机变 量 X服 从 Poi
sson分布,则
X的取值 范围为 非负整 数,而 每种情 形下相 应取值 概率为 :

μ -μ
P(X=k)= e
k!
式中 e为自 然对数 的底 2.7182;μ是 大于 0的常数 ,被称为 Poi
sso
n分布 的参 数 。Po
iss
on分
布 只有一 个参数 μ。 这个参 数既是 Po
iss
on分布 的 总体 均数 ,又 是分 布 的总 体方 差,不 同的 μ对
应 于不同 的 Po
iss
on分 布。

思考与练习

1.请就 SPSS自带 数据 Empl


oye
edat
a.sa
v,分 析员 工 的性别 、受教育 程度、少数民族 、职 位类
别 的分布 情况,并 尝试分 析这些 属性之 间的关 系以及 这些属 性和工 资之间 的关系 。
2.请就 SPSS自带 数据 1991U.S.Ge
ner
alSoci
alSur
vey.s
av,分 析 健康 问题 (对应 的变 量为
参考 文献  
111     

hl
th1~hl
th9,为多 选题)的 分布情 况。

参考文献

1 吴 喜之主 编.统 计学基 本概念 和方法 .北京:高等教 育出版 社,


2003
2 杨 树勤主 编.中 国医学 百科全 书・医 学统计 学分册 .上海:上海科 学技术 出版社,1982
3 杨 树勤主 编.卫 生统计 学.第三 版.北 京:人民 卫生出 版社,1995
4 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002

You might also like