Professional Documents
Culture Documents
TESTARI DE IPOTEZE
Problema 1
Patronul unei firme de prestri servicii dorete s fluidizeze servirea clienilor i, pn n prezent,
el presupunea c timpul de servire a clienilor este normal distribuit, de medie 130 de minute i abatere
medie ptratic 15 minute. El este de acord cu abaterea medie ptratic, dar se ndoiete de faptul c
durata medie de servire a unui client este 130 minute. Pentru a studia aceast problem, nregistreaz
timpii de servire pentru 100 de clieni. Timpul mediu obinut n eantion este 120 minute. Poate
patronul s concluzioneze, la o probabilitate de 99%, c timpul mediu este diferit de 130 minute.
n aceast problem, parametrul ce ne intereseaz este timpul mediu n colectivitatea general i
ipotezele de testat sunt:
H 0 : 130,
H1 : 130.
Trebuie, aadar, s rspundem la ntrebarea: Este media de 120 minute suficient de diferit de
valoarea 130, pentru a ne permite s concluzionm c media populaiei nu este egal cu 130 minute?
Vom putea s respingem ipoteza nul dac media eantionului este suficient de diferit, relativ la
valoarea 130. Dar, interpretrile nu sunt evidente. Dac n eantion obineam media 1300 sau 1,3
atunci diferenele erau clare. De asemenea, dac media eantionului era 130,1 atunci egalitatea era i
ea evident.
Distribuia de eantionare a mediei x este normal sau aproximativ normal, cu media i
abaterea
medie
ptratic
s/ n .
Ca
rezultat,
putem
standardiza
calcula
x 130 x 130
.
1,5
15 / 100
Regiunea de respingere (critic) o putem specifica astfel:
Se respinge H0, dac z z 0.005 sau z z 0.005 .
n exemplul nostru, z / 2 z 0.005 2,575
z
120 130
6,67 .
1,5
Cum z 6,67 2,575 z 0.005 , rezult c sunt suficiente dovezi pentru a respinge ipoteza
nul H0 i a accepta ipoteza alternativ, aceea c timpul mediu de servire a unui client este diferit de
130 minute.
Problema 2
Conducerea unei companii apeleaz la 5 experi pentru a previziona profitul companiei n anul curent.
Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (miliarde lei, preurile anului anterior).
tiind c profitul companiei n anul anterior a fost de 2,01 mld. lei, sunt suficiente dovezi pentru a
concluziona c media previziunilor experilor este semnificativ mai mare dect cifra anului anterior
(pentru = 0,05)?
Media previziunilor experilor este x 2,63 mld. lei, cu dispersia:
2
x
n 1
2,203
0,5507 i abaterea medie ptratic: s x s x2 0,74 mld. lei.
4
x
x
2,63 2,01
1,874 .
sx
sx n
0,74 / 5
n scopul folosirii statisticii t, vom face presupunerea c populaia general din care s-a extras
eantionul este normal distribuit. Cum t,n-1 = t0,05;4 = 2,132, regiunea critic este dat de t>t,n-1. Cum
t=1,874< t0,05;4=2,132, nu putem trage concluzia c media profitului previzionat de cei 5 experi pentru
anul curent este semnificativ mai mare dect profitul anului trecut, de 2,01 mld. lei.
Problema 3
Presupunem c pentru 100 de observaii asupra unei variabile aleatoare X s-a obinut media x 110 i
abaterea standard 60.
a) Testai ipoteza nul c =100, cu alternativa >100, utiliznd = 0,05.
b) Testai ipoteza nul c = 100, cu alternativa 100, utiliznd = 0,05. Comparai rezultatele
celor dou teste.
Rezolvare:
a) n = 100;
x 110 ;
sx = 60;
= 0,05.
Considerm:
H0: = 0=100,
H1: > 0=100.
Se aplic testul z unilateral dreapta:
x 0
P
z 1
s / n
sx
x 0 z
z 0,05 1,645
0 z
sx
n
100
60
100
1,645 109,870
Cum x 110 > 109,870, suntem n regiunea critic deci se respinge H0.
b) H0: = 100;
H1: 100.
Se aplic testul z bilateral.
x 0
P z
z 1 ;
2
2 sx / n
z 0, 05 1,96 .
2
0 z
2
sx
n
z
2
sx
n
x 0 z
60
100
sx
1,96 11,76 ;
Testul statistic: z
x 0
x 0 11,85 12
3,0 .
sx
0,5 / 10
sx / n
Problema 5
ntr-o cercetare prin sondaj aleator privitoare la transportul n comun, au fost selectate 100 de persoane
pentru care s-a calculat valoarea medie a biletelor cumprate ntr-o lun pentru transport n comun
urban de 110 u.m, cu o abatere medie ptratic de 60 u.m.
a) Testai ipoteza nul, aceea conform creia valoarea medie a biletelor cumprate ntr-o lun, n
colectivitatea general, este 0 100 u.m, cu ipoteza alternativ 0 100 u.m, utiliznd un
nivel de ncredere 1 - = 0,95 (probabilitatea (1-)100 = 95%).
b) Testai ipoteza nul 0 100 u.m, cu ipoteza alternativ 0 100 u.m, cu aceeai
probabilitate. Interpretai rezultatele.
Rezolvare:
a) H0: 0 100 u.m
H1: 0 100 u.m.
Testul statistic: z
x 0
x 0 110 100
1,67
sx
60 / 10
sx / n
Cum z calc z , rezult c ipoteza nul este respins ( 0 100 u.m.) i se accept ipoteza
alternativ ( 0 100 u.m.).
b) H0: 0 100 u.m.;
x 0
x 0 110 100
1,67 .
sx
60 / 10
sx / n
Cum z calc z / 2 , (1,67 < 1,96), rezult c se accept ipoteza nul (valoarea medie a biletelor
cumprate nu este semnificativ diferit de 100 u.m.).
Un productor de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou produs are
urmtoarele avantaje fa de vechiul produs: este mai practic de utilizat, are o calitate cel puin la fel
de bun i cost semnificativ mai mic.
Pentru a decide pe care dintre cele trei avantaje s-i axeze strategia de marketing, directorul
acestui departament a realizat un studiu n trei orae. n oraul A campania de publicitate s-a axat pe
uurina de utilizare a noului produs. n oraul B campania de publicitate s-a axat pe calitatea noului
produs. n oraul C campania de publicitate s-a axat pe preul mai mic al noului produs. n toate cele 3
orae s-a nregistrat numrul de buci vndute n 20 de sptmni.
Directorul de marketing ar dori s tie dac exist diferene semnificative ntre numrul de buci
vndute, n medie pe sptmn, n cele trei orae dup terminarea campaniei de publicitate.
In urma prelucrarii datelor si a aplicarii metodei analizei dispersionale, s-au obtinut urmatoarele rezultate:
ANOVA
Source of Variation
Between Groups
Within Groups
SS
57512.23
506983.5
df
2
57
Total
564495.7
59
MS
28756.12
8894.447
F
3.233
P-value
0.047
F crit
3.159
Identificarea metodei: Datele sunt cantitative i problema revine la a compara mediile celor trei
populaii. Ipotezele ce trebuie testate sunt: H0: 1 = 2 = 3 cu alternativa H1: cel puin dou medii sunt
diferite.
MSB=28756,12
SSW=506983,5
Completarea coloanei Df:
r-1=3-1=2
n-r=60-3=57
n-1=60-1=59
Completarea coloanei SS:
Stim ca MSB=SSB/(r-1), de unde derulta ca: SSB=MSB * (r-1) =28756,12 * 2 = 57512,23
Problema 1.
O firm de asigurri vrea s gseasc o legtur ntre valoarea prejudiciului provocat de incediul unei locuine i
distana dintre locul incendiului i cea mai apropiat staie de pompieri. Pentru aceasta, realizeaz un studiu, ntro anumit regiune, lund n considerare cele mai recente 15 incendii. Sunt nregistrate date referitoare la
valoarea prejudiciului (mii Euro) i distana dintre incendiu i cea mai apropiat staie de pompieri (zeci km). In
urma prelucrarii datelor cu programul EXCEL, s-au obtinut urmatoarele rezultate:
Regression Statistics
Multiple R
R = 0,9609
R Square
R2 = 0,9234
Adjusted R Square
0,9175
Se=
Standard Error
Observations
raportul de corelaie
coeficientul de determinaie
volumul eantionului
ANOVA
Regression
Residual
Total
df
k=1
n-k-1 = 13
n-1 = 14
Coefficients
Intercept
Distanta
(zeci km)
a = 10,2779
b = 4,9193
SS
SSR = 841,7664
SSE = 69,7509
SST = 911,5173
Standard
Error
sa =
1,4202
sb =
0,3927
MS
MSR = 841,7664
MSE = 5,3654
t Stat
F
Fcalc = 156,8861
P-value
Significance F
0,000000012
Lower 95%
Upper 95%
tcalc() = 7,2365
0,000007
Lim_inf() = 7,2096
Lim_sup() = 13,3462
tcalc() = 12,5254
0,000000012
Lim_inf() = 4,0708
Lim_sup() = 5,7678
X variabila care arat distana dintre incendiu i cea mai apropiat staie de pompieri, exprimat n zeci
de km
(variabila independent sau variabila explicativ sau variabila exogen)
Y variabila care arat valoarea prejudiciului, exprimat n mii Euro
(variabila dependent sau variabila explicat sau variabila endogen)
Exist o funcie f astfel nct variabila X explic variabila Y prin funcia f, Y f X , o funcie liniar
a 10,2779
b 4,9193
(se preiau don coloana Coefficients a ultimului tabel), sau cu functiile Excel:
intercept(valorile lui Y; valorile lui X), ce returneaza valoarea lui a.
slope(valorile lui Y; valorile lui X) ce returneaza valoarea lui b.
prin urmare dreapta de regresie este de ecuaie y a b x 10,2779 4,9193 x ,
ecuaia de regresie liniar n eantion este
iar valorile ajustate ale observaiilor
Statistica utilizat pentru a decide care dintre ipoteze se accept este Statistica F.
Pentru calculul statisticii Fcalc folosim tabelul ANOVA:
ANOVA
Regression
Residual
Total
df
k=1
n-k-1 = 13
n-1 = 14
SS
SSR = 841,7664
SSE = 69,7509
SST = 911,5173
MS
MSR = 841,7664
MSE = 5,3654
F
Fcalc = 156,8861
Significance F
0,000000012
Fcalc Fcritic F ';k ,nk 1 , adic Fcalc se gsete n regiunea critic, atunci
c) Testarea
semnificatiei
Y X :
parametrului
al
modelului
linear
de
regresie
t calc
a0 a
, deci t calc 7,237 , cu s =1,42. (t se gaseste in coloana t Stat
a
calc
sa
sa
Testarea
semnificaiei
Y X :
parametrului
al
modelului
linear
de
regresie
t calc
b0 b
b 4,9193
tcalc
12,56 , cu s =0,39. (t se gaseste in
,
deci
b
calc
sb
0,39
sb
sb
a t '
sa
;n k 1
2
a t '
sa
;n k 1
2
n cazul nostru, a=10,2779, sa=1,42, =0,05, t ' ;n k 1 t 0, 05 ;13 2,16 , deci intervalul
2
[7,2; 13,3] acoper valoarea adevrat a parametrului cu probabilitatea 0,95, adic intervalul
de valori [7,2; 13,3] mii Eur acoper nivelul prejudiciului provocat de incendiu, dac acesta se
produce chiar lng staia de pompieri.
Cum intervalul de ncredere 95% determinat pentru parametrul nu acoper valoarea
0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i
valoarea 0, atunci concluzionam c parametrul este nesemnificativ statistic (nu este
semnificativ diferit de 0).
Intervalul de ncredere (1-)100% = 95% pentru parametrul al modelului linear de
regresie Y X , determinat pe baza eantionului observat, este:
b t '
sb
;n k 1
2
b t '
sb
;n k 1
2
n cazul nostru, b=4,9193, sb=0,39, =0,05, t ' ;n k 1 t 0, 05 ;13 2,16 , deci intervalul [4,07; 5,76]
2
acoper valoarea adevrat a parametrului cu probabilitatea 0,95. Cu alte cuvinte, dac distana devine mai
mare cu o unitate (10 km), nivelul prejudiciului crete cu o valoare acoperit de intervalul [4,07; 5,76] mii Eur,
cu o probabilitate de 0,95.
f). Intensitatea legturii dintre cele dou variabile folosind raportul de corelaie.
R 0,96097772
Indicatorul ia valori in intervalul [0;1] si se gaseste in primul tabel Excel sub denumirea de Multiple R.
Se observa ca raportul de corelatie este egal cu coeficientul de corelatie liniara Pearson, asadar legatura
dintre cele doua variabile este liniara, iar legatura este puternica deoarece R are o valoare apropiata de 1.
In plus, in cazul legaturii liniare, este adevarata relatia:
R rxy
Unde rxy este coeficientul de corelatie liniara Pearson.
g). n modelul de regresie liniar