Professional Documents
Culture Documents
第一节 相关和回归的意义
相关:研究两个或两个以上变数间的
相关变异(或变数间共同变化规律)为相
关。
回归:研究一个变数受另外一种或一
种以上变数的影响程度为回归。
相关和回归的类型可分为:
1. 按研究变数的数目分为简单相关回
归和多元相关回归。前者指研究两个变数
的关系;后者指研究两个以上变数间的关
系。
2. 按变数间关系的图形可分为线形与
非线性相关回归。
相关与回归的异同点:(以两个变数为例)
相同:都是研究两个变数间关系的。不同则
为: 相关
回归
1. 研究两个变数间的相关变 研究一个变数随另
外一个
变异(共同变化规律) 变数的变化而
变化的规律
2. 平行关系
依存关系
3. 两变数均含误差 依变数
含误差,自变数
第二节 直线相关
一、度量相关的基本公式
表示 x 和 y 两变数相关密切程度
及其性质的统计数叫相关系数。
∑ x∑ y
∑ xy −
n
r=
∑ x −
2
( ∑ x ) 2
∑ y −
2
( ∑ y ) 2
n n
相关系数的特性:
1. 相关系数 r 是一个纯数,不带单
位。
3. 相关系数的正负号反映相关的性质
,其绝对值大小反映相关程度的高低
。
二、相关系数的计算:
主要掌握乘积和的计算
。
三、相关系数的假设测验:
1.t 测验法
2. 查表法
四、决定系数
决定系数是指在 x 或 y 的总变异中,可
以相互以直线关系说明的部分所占的比率。
即随 x 的改变而呈线性改变的平方和,对 y
总变异平方和的比率等于随 y 的改变而呈线
性改变的平方和占 x 变数总平方和的比率。
Uy Ux y
r =
2
2 x SP
= =
SS y SS x SS x ⋅ SS y
相关系数与决定系数的异同:
同:均可表示两变数间的线性相关程度
。
异: 1. r2 可以反映两变数间的线性比
例,意义比 r 更清楚。 2. 可避免相关系数
r 对相关程度的夸大表示。 3.r 可以反映相
关性质, r2 不可以。
第三节 线性回归
一、直线回归方程式
yˆ = a + bx
ŷ 是和 x 的量相对应的依变数 y 的点估
测值。 a 是 ŷx=0 时的 值 , 叫做回归截距。
ŷ
b 是回归系数,表示 x 每增加一个单位,
平均将要增加 (b > 0) 或减少 (b<0) 的单
位数。
an + b∑ x = ∑ y (1)
a ∑ x + b∑ x = ∑ xy (2)
2
∑ xy − ∑ x⋅∑ y
b= n =
∑ ( x − x)( y − y ) SP
=
∑ x 2
−
( ∑ x ) 2
∑ ( x − x)2
SS
x
n
a = y − bx
当x = x yˆ = y
时, ,回归直
x, (
线必通过点 y ) ,有:
yˆ = y − b x + bx = y + b( x − x)
二、回归方程式的求算及回归统计数的解释
回归系数与相关系数的异同:
同: 1. 正负号相同。
2. 均反映两个变数之间的相关关系。
异: 1. r 反映两变数间的相关变异(共同变
化规律), b 反映依变数随自变数的变化而
变化的规律。
2. r 的取值在 -1~+1 , b 的取值无限
制,范围很大。
3. r 不带单位, b 带单位。
三、离回归标准误
sy x =
Q
=
∑ ( y − ˆ
y ) 2
n−2 n−2
离回归标准误的作用是可反
映回归方程的估测精确度。
四、回归关系的显著性测验
(一) F 测验:对线性回归关系进行显著性
测验
MSU SP 2 SS x
F= =
MS Q Q n−2
(二) t 测验:对回归系数进行假设测验
b sy Q
t=
x
sb = =
SS x (n − 2) SS x
sb
在进行两个变数的相关回归研究中
,对相关系数、回归系数的 t 测验以及
回归关系的假设测验结果完全一致。
五、线性回归模型
(一)在可能取值区间内,任一 x 值上
都存在着一个 y 变数的正态分布总体。
x
(二)各 i µ σ 2
上的所有 y 总体都服从 y x y x )
N ( ,
的正态分布。
(三)各 y 总体的平均数随着自变数 x
的改变而作线性改变,而方差却不随着
x 的改变而改变。
(四)观察值的直线回归数学模型为
:
y i = µ y x + ε i = µ y + β ( xi − µ x ) + ε i
µ y x = α + βx
y i = α + βxi + ε i
六、直线回归的区间估计
(一)、回归截距和回归系数的置信区
间
2
1 x
sa = s y x +
n SS x
[ L1 = a − tα s a , L2 = a + tα s a ]
sy x Q
sb = =
SS x ( n − 2) SS x
L1 = b − tα sb , L2 = b + tα sb
xi
( 二 ) 、各 上的总体平均数的置信区
间
1 ( x − x) 2
s yˆ = s y x +
n SS x
L1 = yˆ − tα s yˆ , L2 = yˆ + tα s yˆ
yi
(三)、各xi 上的总体观察值 的预测区间
1 ( x − x) 2
s yˆ = s y x 1+ +
n SS x
L = yˆ − tα s y , L = yˆ + tα s y
'
1
'
2
第四节 非线性回归分
析
分析步骤:
1. 绘散点图;
2. 选择适应的曲线方程;
3. 线性化;
4. 建立非线性回归方程。
一、正态累积函数曲线
x − µx 1 µx
u= = ( )x − ( )
σx σx σx
令 P=u+5 ,
u p = α + βx
P 称概率单位,正态累积函数的回归
分析也称概率单位分析或 probit 分析。
ˆ
P = a + bx
P 值与累计频率对应值
P 值 u 值 累积频率 P值 累积频率
( y, ( y, %)
%)
4 -1 15.9 3.72 10.0
5 0 50.0 5.00 50.0
6 1 84.1 6.28 90.0
P 值 4 、 5 、 6 所对应的累积频率分别
代表器官生长过程或某害虫发生过程的三个
阶段(始盛、高峰和盛末期。这段时期为该
器官的主要生长时期或该种害虫的主要发生
期。
P 值 3.72 、 5 、 6.28 所对应的累积频
率则分别表示在研究药剂效应时的起始致死
剂量、半致死剂量、最大致死剂量。
二、 logistic 生长曲
线
K
yˆ = a −bx
1+ e
基本特征:
K
ˆ
y =
( 1 )当 x=0 时, a 表示时间为
1+ e
0 时的生长起始量 ;
( 2 )当x → ∞时,ŷ = K ,表示时
间无限延长时的终极量。
K
yˆ =
( 3 )当 x=a/b 时, ,此时的生
2
长量为极限生长量的 1/2 ,曲线在这时有一拐
点,这个拐点时的 x 值是生长方程中的一个十
分重要的统计数,因为它是生长或繁殖过程的
速率从愈来愈快转为愈来愈慢的转折点。
y = a − bx
'
K−y
y = ln(
'
)
y
y ( y1 + y 3 ) − 2 y1 y 2 y 3
2
K= 2
y 2 − y1 y 3
2
∑ ∑
x y '
∑ −
xy '
n
rxy ' =
(∑ x) 2 (∑ y ' ) 2
[∑ x 2 − ][∑ y '2 − ]
n n
∑∑
x y '
∑xy '
−
n
−b =
(∑x ) 2
∑ −
x 2
'
a = y + bx
本课程(上)部分讲授
内容到此结束,希望同学们认真
复习,巩固所学知识,做到学有
所用。祝同学们期末考试都有一
个好成绩。
谢谢同学们!