You are on page 1of 29

第十章 简单相关与回归

第一节 相关和回归的意义

相关:研究两个或两个以上变数间的

相关变异(或变数间共同变化规律)为相

关。

回归:研究一个变数受另外一种或一

种以上变数的影响程度为回归。
相关和回归的类型可分为:
1. 按研究变数的数目分为简单相关回
归和多元相关回归。前者指研究两个变数
的关系;后者指研究两个以上变数间的关
系。
2. 按变数间关系的图形可分为线形与
非线性相关回归。
相关与回归的异同点:(以两个变数为例)
相同:都是研究两个变数间关系的。不同则
为: 相关
回归
1. 研究两个变数间的相关变 研究一个变数随另
外一个
变异(共同变化规律) 变数的变化而
变化的规律
2. 平行关系
依存关系
3. 两变数均含误差 依变数
含误差,自变数
第二节 直线相关
一、度量相关的基本公式
表示 x 和 y 两变数相关密切程度
及其性质的统计数叫相关系数。
∑ x∑ y
∑ xy −
n
r=

∑ x −
2
( ∑ x ) 2
 
 ∑ y −
2
( ∑ y ) 2


 n   n 
相关系数的特性:

1. 相关系数 r 是一个纯数,不带单
位。

2. 取值在 -1~ +1 之间。

3. 相关系数的正负号反映相关的性质
,其绝对值大小反映相关程度的高低

二、相关系数的计算:

主要掌握乘积和的计算

三、相关系数的假设测验:

1.t 测验法

2. 查表法
四、决定系数
决定系数是指在 x 或 y 的总变异中,可
以相互以直线关系说明的部分所占的比率。
即随 x 的改变而呈线性改变的平方和,对 y
总变异平方和的比率等于随 y 的改变而呈线
性改变的平方和占 x 变数总平方和的比率。

Uy Ux y
r =
2
2 x SP
= =
SS y SS x SS x ⋅ SS y
相关系数与决定系数的异同:

同:均可表示两变数间的线性相关程度

异: 1. r2 可以反映两变数间的线性比
例,意义比 r 更清楚。 2. 可避免相关系数
r 对相关程度的夸大表示。 3.r 可以反映相
关性质, r2 不可以。
第三节 线性回归
一、直线回归方程式

yˆ = a + bx
ŷ 是和 x 的量相对应的依变数 y 的点估
测值。 a 是 ŷx=0 时的 值 , 叫做回归截距。

b 是回归系数,表示 x 每增加一个单位,
平均将要增加 (b > 0) 或减少 (b<0) 的单
位数。
 an + b∑ x = ∑ y  (1)

a ∑ x + b∑ x = ∑ xy  (2)
2

∑ xy − ∑ x⋅∑ y
b= n =
∑ ( x − x)( y − y ) SP
=
∑ x 2

( ∑ x ) 2
∑ ( x − x)2
SS
x

n
a = y − bx
当x = x yˆ = y
时, ,回归直
x, (
线必通过点 y ) ,有:

yˆ = y − b x + bx = y + b( x − x)
二、回归方程式的求算及回归统计数的解释

回归系数与相关系数的异同:

同: 1. 正负号相同。

2. 均反映两个变数之间的相关关系。
异: 1. r 反映两变数间的相关变异(共同变
化规律), b 反映依变数随自变数的变化而
变化的规律。
2. r 的取值在 -1~+1 , b 的取值无限
制,范围很大。
3. r 不带单位, b 带单位。
三、离回归标准误

sy x =
Q
=
∑ ( y − ˆ
y ) 2

n−2 n−2

离回归标准误的作用是可反
映回归方程的估测精确度。
四、回归关系的显著性测验
(一) F 测验:对线性回归关系进行显著性
测验
MSU SP 2 SS x
F= =
MS Q Q n−2
(二) t 测验:对回归系数进行假设测验

b sy Q
t=
x
sb = =
SS x (n − 2) SS x
sb
在进行两个变数的相关回归研究中
,对相关系数、回归系数的 t 测验以及
回归关系的假设测验结果完全一致。
五、线性回归模型
(一)在可能取值区间内,任一 x 值上
都存在着一个 y 变数的正态分布总体。
x
(二)各 i µ σ 2
上的所有 y 总体都服从 y x y x )
N ( ,

的正态分布。
(三)各 y 总体的平均数随着自变数 x
的改变而作线性改变,而方差却不随着
x 的改变而改变。
(四)观察值的直线回归数学模型为

y i = µ y x + ε i = µ y + β ( xi − µ x ) + ε i

µ y x = α + βx
y i = α + βxi + ε i
六、直线回归的区间估计
(一)、回归截距和回归系数的置信区

2
1 x
sa = s y x +
n SS x

[ L1 = a − tα s a , L2 = a + tα s a ]
sy x Q
sb = =
SS x ( n − 2) SS x

L1 = b − tα sb , L2 = b + tα sb
xi
( 二 ) 、各 上的总体平均数的置信区

1 ( x − x) 2
s yˆ = s y x +
n SS x
L1 = yˆ − tα s yˆ , L2 = yˆ + tα s yˆ
yi
(三)、各xi 上的总体观察值 的预测区间

1 ( x − x) 2
s yˆ = s y x 1+ +
n SS x

L = yˆ − tα s y , L = yˆ + tα s y
'
1
'
2
第四节 非线性回归分

分析步骤:
1. 绘散点图;
2. 选择适应的曲线方程;
3. 线性化;
4. 建立非线性回归方程。
一、正态累积函数曲线
x − µx 1 µx
u= = ( )x − ( )
σx σx σx
令 P=u+5 ,
u p = α + βx
P 称概率单位,正态累积函数的回归
分析也称概率单位分析或 probit 分析。

ˆ
P = a + bx
P 值与累计频率对应值

P 值 u 值 累积频率 P值 累积频率
( y, ( y, %)
%)
4 -1 15.9 3.72 10.0
5 0 50.0 5.00 50.0
6 1 84.1 6.28 90.0
P 值 4 、 5 、 6 所对应的累积频率分别
代表器官生长过程或某害虫发生过程的三个
阶段(始盛、高峰和盛末期。这段时期为该
器官的主要生长时期或该种害虫的主要发生
期。
P 值 3.72 、 5 、 6.28 所对应的累积频
率则分别表示在研究药剂效应时的起始致死
剂量、半致死剂量、最大致死剂量。
二、 logistic 生长曲
线
K
yˆ = a −bx
1+ e
基本特征:
K
ˆ
y =
( 1 )当 x=0 时, a 表示时间为
1+ e
0 时的生长起始量 ;
( 2 )当x → ∞时,ŷ = K ,表示时
间无限延长时的终极量。
K
yˆ =
( 3 )当 x=a/b 时, ,此时的生
2
长量为极限生长量的 1/2 ,曲线在这时有一拐
点,这个拐点时的 x 值是生长方程中的一个十
分重要的统计数,因为它是生长或繁殖过程的
速率从愈来愈快转为愈来愈慢的转折点。
y = a − bx
'

K−y
y = ln(
'
)
y
y ( y1 + y 3 ) − 2 y1 y 2 y 3
2
K= 2

y 2 − y1 y 3
2
∑ ∑
x y '

∑ −
xy '

n
rxy ' =
(∑ x) 2 (∑ y ' ) 2
[∑ x 2 − ][∑ y '2 − ]
n n

∑∑
x y '

∑xy '

n
−b =
(∑x ) 2
∑ −
x 2

'
a = y + bx
本课程(上)部分讲授
内容到此结束,希望同学们认真
复习,巩固所学知识,做到学有
所用。祝同学们期末考试都有一
个好成绩。

谢谢同学们!

You might also like