Professional Documents
Culture Documents
REGRESIJA I KORELACIJA
Jednodimenzionalna analiza istraivanje jedne pojave
predoene statistikim nizom nezavisno od drugih statistikim
metodama (grafiko i tabelarno prikazivanje niza, izraunavanje
razliitih brojanih pokazatelja) kako bi se donijeli zakljuci o
svojstvima dane pojave
Mnotvo je sluajeva koji se odnose na istraivanje meusobnog
odnosa dviju ili vie pojava promjena jedne pojave uvjetovana
je promjenama druge ili drugih
Povezanost pojava moe biti:
funkcionalna veze se mogu predoiti izrazima na temelju
kojih se tono utvruje vrijednost jedne za danu vrijednost
druge (drugih) vrijednosti: Y = f (X )
statistika jednoj vrijednosti jedne pojave odgovara vie
vrijednosti druge (drugih) pojava
Istraivati se moe jakost statistikih veza stupanj statistike
povezanosti izmeu pojava mjeri se metodama koje ine podruje
korelacijske analize
Ako je svrha analitiki (jednadbom) izraziti odnos izmeu
pojava, primijenit e se regresijski modeli
Model koji sadri jednu zavisnu i jednu nezavisnu varijablu
naziva se modelom jednostavne regresije, a model sa dvije ili
vie nezavisnih varijabli model viestruke regresije
Regresijska i korelacijska analiza provode se na osnovi stvarnih
vrijednosti pojava (varijabli)
Za odreivanje oblika regresije kao vrlo prikladno, a jednostavno
sredstvo slui dijagram rasipanja
konstruira se tako da se u koordinatni sustav (najee se
koristi I. kvadrant ili dio njega) unose parovi vrijednosti
varijable X i Y, tj. on se sastoji od toaka (x
i
, y
i
)
iz rasporeda toaka zakljuujemo o obliku, smjeru i jakosti
veze
JEDNOSTAVNA LINEARNA REGRESIJA
Opisuje se odnos meu pojavama za koje je svojstveno da
svakome jedininom porastu vrijednosti jedne varijable odgovara
priblino jednaka linearna promjena druge varijable
Model jednostavne linearne regresije:
Y = a + bX + u
X = nezavisna varijabla
Y = zavisna varijabla
u = odstupanje od funkcionalnog odnosa
a, b = parametri
Regresijska analiza provodi se na temelju n parova vrijednosti
varijabli X i Y : (x
1
, y
1
), (x
2
, y
2
), ..., (x
n
, y
n
), pa se model
predouje sustavom od n jednadbi:
y
i
= a + bx
i
+ u
i
Kada bi odnos meu varijablama bio funkcionalan, svaka bi
vrijednost varijable u
i
bila jednaka nuli geometrijski, sve bi
toke s koordinatama (x
i
, y
i
), i = 1,2,...,n leale na istome pravcu
Kako su odnosi meu pojavama statistiki, treba odrediti kriterij
prema kojemu e se izabrati jednadba pravca = a + bx
koji e najbolje opisati odnos pojava na temelju njihovih
opaenih vrijednosti
u
i
su procjene nepoznatih vrijednost varijable u i nazivaju se
rezidualnim odstupanjima
a relativno izraena rezidualna odstupanja:
Jednadba pravca odreena je ako su poznati parametri a i b
i i i
u y y =
,
100
i i
i rel
i
y y
u
y
=
Do procjene parametara najee se dolazi metodom najmanjih
kvadrata sastoji se u odreivanju onih procjena parametara za
koje rezidualni zbroj kvadrata postie minimum
Veliina b je regresijski koeficijent pokazuje za koliko se u
prosjeku mijenja vrijednost zavisne varijable Y za jedininu
promjenu vrijednosti nezavisne varijable X
1
2
2
1
,
n
i i
i
n
i
i
x y n xy
b
x n x
=
=
=
a y b x =
Regresijska jednadba je analitiki izraz koji u smislu prosjeka
opisuje odnos meu pojavama osnova za mjerenje
reprezentativnosti disperzija oko regresije, koja se oituje na
rezidualnim odstupanjima (manja odstupanja empirijskih
vrijednosti zavisne varijable od regresijskih vrijednosti bolja
reprezentativnost regresije)
Varijanca regresije:
Standardna devijacija regresije:
Koeficijent varijacije regresije:
2 2
1 1 1
1
n n n
i i i i
y
i i i
y a y b x y
n
= = =
| |
o =
|
\ .
2
1 1 1
1
n n n
i i i i
y
i i i
y a y b x y
n
= = =
| |
o =
|
\ .
100
y
y
V
y
o
=
Specifian pokazatelj reprezentativnosti regresije jest koeficijent
determinacije:
Model je reprezentativniji to je koeficijent determinacije blii
jedinici
2
2 2
1 1
2
2
1
, 0 1
n n
i i i
i i
n
i
i
a y b x y n y
R R
y n y
= =
=
+
= s s
CHADOCKOVA LJESTVICA:
2
R
Tumaenje
0 odsutnost veze
0,00 0.25 slaba veza
0.25 0.64 veza srednje jakosti
0.64 1 vrsta veza
1 potpuna veza
PRIMJER 1. U tabeli 1. izloen je postupak raunanja parametara
linearne regresijske jednadbe i dane su regresijske vrijednosti.
Uzmimo, npr., da neko poduzee analizira podatke o ostvarenom
prometu i dobiti (oboje u mil. kn) u 8 uzastopnih godina:
Promet Dobit
Regresijske
vrijednosti
i
x
i
y
i
x
i
y
2
i
x
i
y
20 1 20 400 1.05
30 3 90 900 2.35
40 3.5 140 1600 3.65
50 5 250 2500 4.95
70 7 490 4900 7.55
80 8.5 680 6400 8.85
90 9 810 8100 10.15
100 13 1300 10000 11.45
480 50 3780 34800 50.00
Tabela 1.
Prikaimo prvo 8 parova vrijednosti prometa i dobiti na
dijagramu rasipanja:
Slika 1.
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
0 20 40 60 80 100 120
promet u mil. kn
dobit u mil. kn
Vidimo sa slike da su toke rasporeene priblino pravcu, a veza
je pozitivna, tj. porast vrijednosti jedne varijable prati rast druge
varijable
Veza je priline jakosti jer su toke blizu zamiljenog pravca koji
uvijek prolazi kroz toku
Napomena: ovdje se radi o kolskom primjeru, s malim brojem
parova vrijednosti statistiki utemeljeniji zakljuci dobivaju se
na osnovi dulje serije vrijednosti obiju varijabli
Ocijenimo parametre a i b linearne regresije:
480 50
60 , 6.25
8 8
i i
x y
x y
n n
= = = = = =
( ) y x ,
Regresija s ocijenjenim parametrima glasi:
Prema dobivenoj jednadbi, ako promet poraste za 1 mil. kn
moemo oekivati poveanje dobiti za 0.13 mil. kn
8
1
8 2
2
2
1
3780 8 60 6.25
0.13
34800 8 60
i i
i
i
i
x y n xy
x
b
n x
=
=
= = =
= s s
o o
Vrijednost koeficijenta jednaka nuli govori da ne postoji linearna
korelacija meu pojavama, vrijednost 1 da je potpuna i pozitivna
smjera, a vrijednost -1 da je potpuna i negativnog smjera. to je
koeficijent po apsolutnoj vrijednosti blii jedinici, veza je ua
Pearsonov koeficijent linearne korelacije mogue je pisati na vie
naina:
Kao produkt regresijskog koeficijenta b i omjera standardnih
devijacija obiju varijabli:
Putem koeficijenta determinacije:
ako se radi o negativnoj regresijskoj vezi treba ispred
korijena staviti negativni predznak
x
y
r b
o
=
o
2
r R =
KORELACIJA RANGA
Ispitivanje stupnja veze izmeu pojava danih u obliku modaliteta
redoslijedne (rang) varijable nije mogue na isti nain kao i za
one dane u obliku numerikih nizova, jer varijable ranga nemaju
za to potrebna metrika svojstva
Vrijednosti dviju varijabli se rangiraju po veliini, a povezanost
njihovih rangova se mjeri Spearmanovim koeficijentom
korelacije ranga:
2
1
3
6
1 , 1 1
n
i
i
s s
d
r r
n n
=
= s s
Sa d
i
su oznaene razlike izmeu rangovima pojedinih
vrijednosti varijable X i Y :
Vrijednostima pojedine varijable pridrueni su rangovi tako da je
najmanjoj vrijednosti pridruen rang 1, sljedeoj po veliini
vrijednosti iste varijable rang 2, ... Maksimalni mogui rang je n.
Ako se neka od vrijednosti ponavlja, onda se svakoj od njih
pridruuje aritmetika sredina pripadajuih rangova
( ) ( )
i i i
d r x r y =
PRIMJER 2. Novinari dvaju asopisa birali su menadera
godine. Desetorici kandidata novinari pojedinog asopisa su
davali bodove kojima je mjerena njihova uspjenost. Izraunat
emo stupanj korelacije kriterija ocjenjivanja obaju urednitava:
Bodovi dodijeljenih od
urednitva asopisa
Redni broj
kandidata
A B
Rang
vrijednosti
varijable
X
Rang
vrijednosti
varijable
Y
Razlike
rangova
Kvadrati
razlika
rangova
i
x
i
y
( )
i
r x
( )
i
r y
i
d
2
i
d
1 53 48 8 6 2 4
2 15 32 2 5 -3 9
3 30 62 6 7 -1 1
4 47 64 7 8 -1 1
5 60 70 9 10 -1 1
6 75 65 10 9 1 1
7 14 17 1 2 -1 1
8 25 28 4.5 3 1.5 2.25
9 25 30 4.5 4 0.5 0.25
10 19 16 3 1 2 4
Ukupno - - 55 55 0 24.5
Objanjenje rangova u 4. stupcu: najmanjoj vrijednosti varijable
X , 14, pridruen je rang 1. Sljedei su po veliini bodova 15 i 19,
pa su njima pridrueni rangovi 2 i 3. nakon toga slijede dva po
veliini jednaka broja bodova, 25, a kako su na redu rangovi 4 i
5, to je svakoj vrijednosti pridruena aritmetika sredina tih dvaju
rangova, tj. 4.5. Slijedi po veliini 30 bodova, kojima je pridruen
rang 6, ...
Spearmanov koeficijent korelacije ranga je dosta blizu jedinice,
to znai da je veza meu rangovima dviju varijabli pozitivna i
dosta jaka. Kandidat kojeg je jedno urednitvo ocijenilo dobro,
proao je dobro i kod drugog urednika i obrnuto. To upuuje na
dosta dobru usklaenost kriterija obaju urednitva
2
1
3 3
6
6 24.5
1 1 0.8515
10 10
n
i
i
s
d
r
n n
=
= = =