You are on page 1of 28

CORELAŢII ŞI REGRESII

Tudor Călinici
2011

1
Statistici descriptive în două dimensiuni
Glicemie X: X1, X2,..., Xn
TAS Y: Y1, Y2,..., Yn.
1. Să se stabilească dacă există o legătură între
variabilele X şi Y (cantitative continue) şi să se
determine o modalitate de a măsura intensitatea
acestei legături.
Coeficientul de corelaţie
2. Să se stabilească dacă Y depinde de X şi dacă da
în ce formă se realizează această dependenţă.
Funcţia de regresie
Legătura, dacă există, are semnificaţie
statistică? 2
Statistici descriptive în două dimensiuni.
Diagrama de dispersie

II I
*
* *
*
* *
*
*
* *
*
Y *
* * * *
*
* *
*
* * *
* III IV
*
X

3
Statistici descriptive în două dimensiuni.
Diagrama de dispersie

II I

* *
*
* *
*
* * *
* *
*
Y *
* * *
* * *
*
* *
* * *
*
III IV

4
Statistici descriptive în două dimensiuni.
Diagrama de dispersie

* II I

* *
*
* *
* *
* *
* *
* *
*
Y *
* * * *
* *
* * *
* *
* * * *
*
III IV

5
Indici de corelaţie

Suma produselor ecart SPE n ( X X )(Y Y )


(SPE) i 1 i i

n
Covarianţa COV(X,Y) 1
COV ( X , Y ) n (X X )( Y Y)
i 1 i i

Coeficientul de corelaţie r
COV ( X,Y )
al lui Pearson SX SY

Coeficientul de d = r2.
determinare

6
Corelaţii

Regula empirică a lui Colton (1974)


i) r între -0.25 şi 0,25 = nu există corelaţie
ii) r între 0.25 şi 0.50 (sau -0.50 si -0.25 -0.50) = un
nivel de asociere slab, spre acceptabil
iii) r între 0.5 şi 0.75 (sau -0.75 si -0.5) = un nivel de
asociere moderat către bun
iv) r între 0.75 şi 1 (sau –1 si -0.75) = un nivel de
asociere bun sau foarte bun

7
Interpretări ale coeficientului de
corelaţie
a) Coeficientul de corelaţie măsoară intensitatea relaţiei
dintre variabilele X şi Y şi valoarea sa r este cuprinsă între -1
şi 1.
b) Dacă r=1 punctele sunt situate pe o dreaptă de pantă
pozitivă (crescătoare).
c) Dacă 0 < r < 1, norul de puncte poate fi înlocuit (ajustat)
printr-o dreaptă de pantă pozitivă .
Dispersia punctelor în jurul dreptei de regresie va fi cu atât
mai mare cu cât r se apropie de 0 şi cu atât mai mică cu cât r se
apropie de 1.
d) Dacă -1 < r < 0 atunci norul de puncte poate fi aproximat
cu o dreaptă de pantă negativă. Dispersia punctelor faţă de
dreaptă va fi cu atât mai mică cu cât r este mai apropiat de -1.
e) dacă r=-1 atunci toate punctele sunt situate pe o dreaptă de
pantă negativă.
8
Calculul coeficientului de
corelaţie în Microsoft
Excel
Se utilizează funcţia CORREL sau
Data Analysis

9
Coeficientul de corelaţie al lui
Spearman

Descrie relaţia între două variabile ordinale sau una


ordinală si una cantitativă

10
Coeficientul de contingenta al lui
Ciuprov

Descrie gradul de asociere intre doua variabile


calitative avand p respectiv q valori observate pe un
esantion de dimensiune N

11
Drepte de regresie pentru variabile
cantitative continue

Dreapta de regresie Y(X):


y=a+bx

12
Seria statistică
Inaltime Greutate Inaltime Greutate Inaltime Greutate Inaltime Greutate
150 46 167 97 185 111 181 68
150 51 168 100 185 119 158 87
150 50 173 96 166 76 158 85
165 82.5 175 58 188 82 167 107
165 81 175 75 157 82.5 167 102
175 86 175 79 160 75 158 60
158 76 174 73 162 62 158 68
160 61 174 69 153 89 152 92.5
157 69 185 79 153 86 152 92
160 98 163 59 153 86 164 40
160 104 163 60 175 83 164 58
162 54 151 77 161 69 172 63
180 106 176 68 161 69 179 82.5
178 105 176 76 161 53 160 82
178 101 159 63 170 72 172 95
156 63 159 62 165 100 154 75.5
165 121.5 159 58 160 65.5 162 65
154 84 165 78 160 66 160 68
175 68 172 86 168 59 160 66
160 115 158 91 167 54.2 172 125
158 78 156 48 167 60 156 84
165 74.5 156 40 167 59 184 110
182 79 160 51.5 167 59 175 86
182 83 160 45.5 170 81 175 74.5
182 83 160 46.5 170 86 173 90
172 72 160 47 177 84.5 173 98
155 73 160 51 177 84.5 173 90
173 71 160 46 157 72.5 173 92
170 90 160 46.5 160 60 160 72
167 98 185 97 181 53 160 73

13
Reprezentare grafică

Corelaţie între greutate şi


înălţime
140
120
100
Greutate

80
60
40
20
0
0 50 100 150 200
Înalţime

14
Dreapta de regresie

Corelaţie între greutate şi înălţime


140

120

100

80
Greutate

60

40

20

0
0 20 40 60 80 100 120 140 160 180 200
Înalţime

15
Coeficienţii dreptei de regresie

Dreapta de regresie Y(X)


n
min ( a bXi Yi )2
a, b R
i 1

Valorile lui a şi b pentru care este atins minimul


sumei precedente sunt date prin formulele:
COV ( X, Y )
b .
SX

a Y b X

16
Graficul de corelaţie

Corelaţie între greutate şi înălţime


140

120

100
y = 0,7387x - 46,334
R² = 0,1369
Greutate

80

60

40

20

0
0 50 100 150 200
Înalţime

17
Realizarea graficului de
corelaţie în Microsoft
Excel

18
Graficul de corelaţie în
Excel

Este de tip scatter (nor de puncte)


Tot timpul, prima variabilă (cea din
stânga) va fi reprezentată pe axa OX
Nu are NICIODATĂ legendă!
Nu este complet până când nu este
trasată dreapta de regresie
Conţine ecuaţia dreptei de regresie
precum şi coeficientul de determinare
19
Variaţia reziduală
Variaţia reziduală asociată dreptei de regresie Y(X)
este egală cu media aritmetică a pătratelor abaterilor
reziduale punctuale (abaterilor punctelor diagramei de
dispersie de la dreapta de regresie), adică
n
2 1 ^
S R (Yi Yi ) 2 ,
n i 1
^
unde Yi a bXi , i=1,2,…,n.
Variaţia reziduală S R2 reprezintă o măsură a
dispersiei norului de puncte în jurul dreptei de regresie.

20
Semnificaţia statistică

Se utilizează un test de semnificaţie

Rezultatul este o valoare p între 0 şi 1

Dacă p < 0,05 atunci spunem că corelaţia


are semnificaţie statistică

21
Interpretare
Valoarea r p > 0,05 p < 0,05
-0.25 la 0,25 corelaţie slabă sau corelaţie slabă sau
nulă nulă
0.25 la 0.50 Nu are semnificatie un grad de asociere
(-0.25 la -0.50) statistica acceptabil

0.5 la 0.75 Nu are semnificatie o corelaţie moderată


(-0.5 la -0.75) statistica spre bună

0.75 (sau mai mic Nu are semnificatie o foarte bună asociere


decât -0.75) statistica sau corelaţie

r < -1; r > 1 Eroare Eroare


22
Corelaţie
În primul rând se verifică tipul variabilelor

Dacă variabilele sunt cantitative se verifică


daca corelaţia este posibilă la nivel logic

Se calculează puterea relaţiei

Dacă corelaţia există, se interpretează


sensul şi semnificaţia statistică 23
Întrebări

Cum apreciaţi corelaţia dacă coeficientul


de corelaţie între TAS şi TAD este de 0,73
şi p=0,02

24
Întrebări

Cum apreciaţi corelaţia dacă coeficientul


de determinare între TAS şi CNP este de
0,84 iar p = 0,12

25
Întrebări

Cum apreciaţi corelaţia dacă coeficientul


de corelaţie între vârstă şi înălţime este de
0,98 iar dreapta de regresie are ecuaţia
y=-3x+110

26
Întrebări

Cum apreciaţi corelaţia dacă coeficientul


de determinare între vârstă şi înălţime
este de 0,98 iar dreapta de regresie are
ecuaţia y=3x+110, la un p=0,1

27
Vă mulţumesc pentru
atenţie

28

You might also like