You are on page 1of 9

Statistika saetak i popis formula

1. Deskriptivna statistika
Aritmetika sredina brojeva x1, x2,...,xn : x + x 2 + ... + x n x= 1 n Na primjer, aritmetika sredina brojeva 1,2,3,4,5 je broj

1 + 2 + 3 + 4 + 5 15 = = 3. 5 5

Frekvencija nekog podatka je broj pojavljivanja tog podatka. Na primjer, za podatke 1,1,2,2,2,3,4 broj 1 ima frekvencioju 2, broj 2 frekvenciju 3, a brojevi 3 i 4 po frekvenciju 1.

Ako podatke grupiramo u razrede, onda slino definiramo frekvencije razreda. Relativna frekvencija (podatka ili razreda), po definiciji je kvocijent obine frekvencije i ukupnog broja podataka. Zato je zbroj relativnih frekvencija jednak 1.
Medijan skupa podataka je srednji podatak ako je broj podataka neparan, a aritmetika sredina dvaju srednjih ako je broj podataka paran.

Na primjer, za podake 1,2, 4, 11, 13 medijan je 4 (srednji podatak), 4+7 a za podatke 1,2,4,7,11,13 medijan je = 5.5 (aritmetika sredina 3. i 4. podatka) 2
Raspon podataka x1, x2,...,xn poredanih prema veliini je razlika xn-x1 najveeg i najmanjeg podatka.

Na primjer, raspon podataka 1,1,2,2,3,11,64 je 64-1=63


Kvartili dijele podatke u etiri jednakobrojne skupine. Prvi ili donji kvartil je broj od kojega je 25% podataka manje ili je njemu jednako. Drugi je kvartil medijan. Trei ili gornji kvartil je broj od kojega je 75% podataka manje ili je njemu jednako. Mjere rasipanja (disperzije) podataka. 1. Suma apsulutnih vrijednosti odstupanja podataka od aritmetike sredine:

SAO:= |x1- x |+|x2- x |+...+|xn- x |.


2. Prosjeno apsolutno odstupanje od aritmetike sredine:

PAO:=

| x1 x | + | x 2 x | +...+ | x n x | n

3. Varijanca uzorka ( s ' ) 2 definira se kao prosjeno kvadratno odstupanje od prosjeka:

( s ' ) 2 :=

( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2 n

4. Standardna devijacija uzorka s' je drugi korijen iz varijance uzorka: s':=

( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2 n

5. Korigirana varijanca (nepristrana procjena varijance populacije)

s2 : =

( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2 n 1

(razlikuje se po tome to u nazivniku, umjesto n ima n-1, a u oznaci to nema crtice). 6. korigirana standardna devijacija uzorka s, kojom se procjenjuje standardna devijacija populacije:

s:=

( x1 x ) 2 + ( x 2 x ) 2 + ... + ( x n x ) 2 . n 1

Dosadanje pojmove ilustriramo Primjerom 9. iz lekcije: Deskriptivna statistika.


Primjer 9. Mjerenjem vremena izmeu dviju uzastopnih poruka pristiglih na neku adresu dobiveni su sljedei podatci (u sekundama): 12, 8, 1, 7, 24, 4, 4, 6, 20, 10, 3, 2, 22, 23, 8, 6, 5, 25, 16, 3, 1, 14, 15, 18, 2, 6, 27, 19, 12, 4, 20, 14, 3, 13, 8, 15, 30, 5, 7, 16.

(I) Prebrojimo podatke. Vidimo da ih ima 40, dakle n = 40. (II) Poredajmo podatke prema veliini (od manjeg prema veem): 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6,6,6, 7, 7, 8, 8, 8, 10, 12, 12, 13, 14, 14, 15, 15, 16, 16, 18, 19, 20, 20, 22, 23, 25, 27, 30. (III) Napravimo tablicu frekvencija: 1 2 3 4 5 6 7 8 10 12 13 14 15 16 18 19 20 22 23 24 25 27 30 2 2 3 3 2 3 2 3 1 2 1 2 2 2 1 1 2 1 1 1 1 1 1

Vidimo da frekvencije variraju iako imaju i opi trend prema opadanju. To bi jo izrazitije bilo da smo stavili frekvencije 0 za brojeve od 1 do 30 koji se ne pojavljuju. (IV) Grupirajmo podatke u razrede duljine 5: 0.5 - 5.5 5.5 10.5 10.5 15.5 15.5 20.5 20.5 25.5 25.5 30.5

11

Vidimo da, nakon ovakvog grupiranja, frekvencije razreda opadaju, to se dobro vidi i iz histograma. To je jedan od najvanijih razloga grupiranja. (V) Odredimo, najmanji podatak, najvei podatak i raspon: min = 1 max = 30 raspon = max min = 30-1 = 29. (VI) Odredimo medijan i aritmetiku sredinu i unaprijed procijenimo njihov odnos. Odredimo kvartile. S obzirom da su podatci vie grupirani na poetak, medijan je manji od aritmetike sredine. Kako je n = 40, medijan je aritmetika sredina 20-og i 21-og podatka. Dakle: 8 + 10 =9 Medijan = 2 458 = 11.45 (zaista je medijan manji). Aritmetika sredina, x = 40 Prvi kvartil: q1 = 4.5 Drugi kvartil (medijan): q2 = 9 Trei kvartil: q3 = 17 (VII) Odredimo varijancu i standardnu devijaciju te korigiranu varijancu i korigiranu standardnu devijaciju uzorka. Varijanca: (s')2 = 63.1975 Standardna devijacija: s' = 7.9497 (na 4 decimale) Korigirana varijanca: s2 = 64.8179 (na 4 decimale) Korigirana standardna devijacija: s = 8.0510 (na 4 decimale).

Empirijsko pravilo za zvonolike distribucije frekvencija.

Kaemo da podatci imaju zvonoliku distribuciju ako za histogram frekvencija (ili relativnih frekvencija, svejedno) vrijedi: (N1) Povrina je koncentrirana oko aritmetike sredine. (N2) Povrina je priblino simetrino rasporeena lijevo i desno od aritmetike sredine (N3) Povrine rastu odprilike do aritmetike sredine, potom padaju. Uz ove uvjete histogram (odnosno pripadna krivulja) ima zvonolik oblik. Praksa pokazuje da takav oblik imaju histogrami distribucija kod velikih uzoraka, pri mjerenju mnogih statistikih fenomena (statistikih obiljeja), poput mase, visine, postotka elementa koji se moe nekom tehnolokom metodom izdvojiti iz neke rudae, grjeaka pri mjerenju, kvocijenta inteligencije itd. Za takva statistika obiljeja uoeno je sljedee empirijsko pravilo:

U intervalu < x - s', x + s' > ima oko 68% podataka, tj. oko 2/3 podataka (povrine histograma) U intervalu < x - 2s', x + 2s' > ima oko 95% podataka (povrine histograma) U intervalu < x - 3s', x + 3s' > su gotovo svi podatci (gotovo itava povrina).

2. Procjenjivanje.
Neka je X sluajna varijabla. Oekivanje E(X) procjenjujemo aritmetikom sredinom podataka
x= x1 + x 2 + ... + x n n

Varijancu V(X) procjenjujemo izrazom


s2 =

( x1 x ) 2 + ... + ( x n x ) 2 , n 1

(u nazivniku je n-1, a ne n)

Standardnu devijaciju s(X) procjenjujemo izrazom s =

( x1 x ) 2 + ... + ( x n x ) 2 . n 1

2. Interval pouzdanosti za oekivanje prava vrijednost mjerene veliine.


Oznaimo E(X)= i V(X) = 2 , bez obzira je li X normalno distribuirana. Oekivanje procjenjujemo aritmetikom sredinom podataka, ali aritmetika sredina ne mora biti (i u pravilu nije) jednaka (nepoznatom) oekivanju. Zato nas zanima interval oko x unutar kojega e, uz odreenu sigurnost, biti oekivanje . To je interval pouzdanosti.

Postupak odreivanja intervala pouzdanosti.


1. Ako je X normalno distribuirana i ako je poznata standardna devijacija . Tada je, uz 95% vjerojatnost, interval pouzdanosti (odprilike) > n n Smisao intervala pouzdanosti nije da se oekivanje u njemu nalazi s vjerojatnou 0.95 (naime nije sluajna veliina i nalazi se ili ne nalazi u tom intervalu). Taj se smisao moe interpretirati na primjer tako da bi se odprilike u 95 od 100 ponavljanja ovih n mjerenja, aritmetika sredina x nala u intervalu <x2

,x+2

> (to bismo mogli provjeriti da znamo i ), n n a to je isto kao da kaemo da bi se odprilike u 95 od 100 ponavljanja, oekivanje nalo u > (to bismo opet mogli provjeriti da znamo i ). n n Umjesto broja 2, za vjerojatnost 0.95, mogli bismo u tablici jedinine normalne razdiobe T (ili odgovarajuoj proceduri u Excelu ili Mathematici) nai precizniji podatak: 1.96. Naime, P(|T|<1.96) = 0.95 Slino bismo mogli odrediti simetrine intervale oko aritmetike sredine za druge vjerojatnosti, a ne samo za 0.95 . Openito je interval pouzdanosti za vjerojatnost 1-2p, jednak intervalu < x 2 ,x+2 > n n gdje je zp takav realni broj, za kojega vrijedi P(T>zp) = p, zj. broj iza kojega je povrina ispod grafa funkcije gustoe jedinine normalne razdiobe jednaka p. Veliina x = koja se tu pojavljuje zove se standardna grjeka, gdje je n broj n mjerenja (duljina uzorka). 2. Ako je n velik (obino se uzima ako je n>30), i ako je poznata standardna devijacija , a X ne mora biti normalno distribuirana. Tada moemo postupiti kao u 1. Treba napomenuti da je predpostavka da znamo (a da procijenjujemo iz n mjerenja) nerealna, iako nije nemogua. U praksi smo gotovo uvijek prisiljeni procijeniti pomou s. Tada se situacija uslonjava, medjutim za parametre normalne razdiobe, tj. ako predpostavimo da je X normalno distribuirana, problem se moe rijeiti. 3. n<30, X je normalno distribuirana, a nepoznat procjenjujemo ga pomou s (postupak korektan za sve n) Tada je interval pouzdanosti, uz vjerojatnost 1-2p: s s < x t p (k ) , x + t p (k ) >. n n gdje je t(n-1) Studentova razdioba s k=n-1 stupnjeva slobode, a znaenje broja tp(k) je sljedee: P(|t(k)| > tp(k) ) = 2p, tj. P(t(k) > tp(k) ) = p
Ako je n dovoljno velik, recimo oko 30, onda je t(n-1) praktino jednaka jedininoj normalnoj razdiobi, pa moemo umjesto Studentove razdiobe koristiti jedininu normalnu. Naravno, ako se sluimo odreenim statistikim paketom, to je nepotrebno. Takodjer, tada interval pouzdanosti dobijemo izravno.

<2

,+2

< x zp

, x + zp

Testiranje hipoteze

= 0

(t-test)
5

Predpostavimo da je X normalno distribuirana sluajna veliina s oekivanjem i varijancom 2 . Neka smo na osnovi n mjerenja dobili procjene: x za njeno oekivanje , s 2 za njenu varijancu 2 . Testiramo hipotezu: H0: = 0 , gdje je 0 neka deklarirana vrijednost. Napominjemo da bismo prije toga trebali provjeriti hipotezu o bliskosti varijanca (koju treba formulirati), a nakon to testiranje varijanaca pozitivno proe, moemo pristupiti testiranju oekivanja. Testiranje se zasniva na injenici da broj
x 0 moemo interpretirati kao sluajnu s

n vrijednost sluajne varijable t(n-1) (ta se razdioba zove test-statistika). Postupak opisujemo uz kontrahipotezu 0 , dakle imamo:

(I) H0: = 0 Ha: 0 1. Raunamo t exp =


x 0 . s

n 2. Biramo nivo signifikantnosti (razinu znaajnosti) to je obino 0.05 Znaenje nivoa signifikantnosti je : = P(H0 odbacujemo| H0 je istinita). Taj se broj zove i pogrjeka prve vrste.

3. U tablici t-razdiobe odreujemo kritinu vrijednost t0 (ovisno o broju stupnjeva slobode k=n-1, i kontrahipotezi koja je, ako drukije ne specificiramo 0 ). Znaenje kritine vrijednosti: t0 = t (k), tj. P(|t(k)|>t0) = .
2

4. Ako je je |texp| < t0 hipotezu prihvaamo, inae je odbacujemo. Podruje izmeu kritine vrijednosti i njoj suprotne <-t0, t0> zovemo podrujem prihvaanja (kritino podruje), ostatak je podruje odbacivanja. Smisao je u tome, to hipotezu prihvaamo ako texp upadne u podruje prihvaanja, inae je odbacujemo. Ovaj test zovemo dvostrukim, naziv moemo tumaiti tako to se podruje odbacivanja od dvaju simetrinih dijelova. Naime, tu podruje odbacivanja ima dva simetrina dijela, svaki povrine , gdje je nivo signifikntnosti . To je zato to je kontrahipoteza oblika 0 , 2 pa se doputaju otkloni na obje strane. Dakle, u sluaju =0.05, broj t0, oznaava broj iza kojega je ispod grafa t-razdiobe povrina jednaka 0.025.

Kontrahipotezu 0 koristimo u pravilu onda ako su neki podatci iz uzorka manji, a neki vei od deklarirane vrijednosti 0 . (II). H0: = 0 Ha: > 0 Tu hipotezu koristimo u pravilu onda ako ako su svi podatci iz uzorka (ili veina od njih) vei od 0 . 1. korak je kao i u (I). kao u (I)): 2 3. Ako je texp < t0 , hipotezu prihvaamo, inae je odbacujemo. Dakle, podruje prihvaanja je < , t 0 >, a odbacivanja < t 0 , + >. Ovo je primjer jednostrukog testa (podruje odbacivanja je od jednoga dijela). (III). H0: = 0 Ha: < 0 Tu hipotezu koristimo u pravilu onda ako ako su svi podatci iz uzorka (ili veina od njih) manji od 0 . Postupak je slian onome iz (II), samo to je podruje prihvaanja <- t 0 , + >. 2. Tu je t0 = t (k) , P( t(k) > t0) = (a ne

Testiranje hipoteze

1 = 2

(t-test).

Tom testu u pravilu predhodi F-test. Nakon to taj proe nastavlja se s t-testom (testiranju oekivanja), tj. s testiranjem hipoteze: H0: 1 = 2 (nulta hipoteza) Hipoteza se, primjenom t-testa, provodi se slino kao kod = 0 (razlika je samo u prvom koraku). 1. Izrauna se:
t exp = x1 x 2
2 (n1 1) s12 + (n 2 1) s 2 n1 + n 2 2

n1 + n 2 n1 n 2

gdje obino oznaavamo: s d =

2 (n1 1) s12 + (n 2 1) s 2 n1 + n2 2

n1 + n 2 n1 n2

2. Odredi se broj stupnjeva slobode k=n1+n2-2.

3. Prihvati se neki nivo signifikantnosti (obino =0.05, ali moe i =0.01 ili =0.1) Smisao nivoa signifikantnosti u testiranju je, kao i inae, sljedei: P(Postavljena se hipoteza odbacuje| postavljena je hipoteza istinita) = . 4. Iz tablica t-razdiobe izrauna se kritina vrijednost pomou koje odredjujemo upada li izraunata vrijednost texp u kritino podruje. Kritina vrijednost ovisi o nivou signifikantnosti , o broju stupnjeva slobode (dakle o broju mjerenja), ali i o naoj kontrahipotezi koja moe biti: a) 1 2 (kad testiramo jesu li te dvije veliine jednake ili razliite). Tada kritina vrijednost t0 ima znaenje: P(|t|>t0) = , gdje t oznaava Studentovu (t-razdiobu). Hipotezu prihvaamo ako je |texp|<t0 (inae je odbacujemo). Ako izriito drukije ne kaemo uvijek smatramo da je kontrahipoteza takva. b) 1 > 2 (koja ima smisla samo ako je x1 > x 2 , iako se moe provoditi i inae) . Tada kritina vrijednost t0 ima znaenje: P(t>t0) = (t0 je drukiji od onog iz a)). Hipotezu prihvaamo ako je texp<t0, inae je odbacujemo. c) 1 < 2 (koja ima smisla samo ako je x1 < x 2 , iako se moe provoditi i inae) . Tada kritina vrijednost t0 takodjer ima znaenje: P(t>t0) = . Hipotezu prihvaamo ako je texp > - t0, inae je odbacujemo.

2 - test.
Rezultate mjerenja sluajne varijable zapiemo u tablicu tako da u gornji redak stavljamo postignute rezultate podijeljene u L razreda: nulti, prvi,...,(L-1)-ti , a u donji frekvencije fi tih razreda. Iz predpostavke o teoretskoj distribuciji izraunaju se pripadne teoretske frekvencije (u lekciji je to pokazano za Poissonovu distribuciju). Hipoteza je da se podatci ravnaju prema teoretskoj distribuciji. Postupak se provodi ovako: 1. Raunanje broja hikvadrat eksperimentalno koji je mjera udaljenosti eksperimentalnih i teoretskih frekvencija. ( f L 1 f t , L 1 ) 2 ( f 0 f t 0 ) 2 ( f 1 f t1 ) 2 2 exp := + + ... + ft0 f t1 f t , L 1 2. Odreivanje broja stupnjeva slobode: k=L-1-l gdje je l broj parametara teoretske razdiobe (za Poissonovu i eksponencijalnu l=1, za normalnu i binomnu l=2), i nivoa signifikantnosti (u pravilu =0.05).
2 3. Odreivanje kritine vrijednosti (k ) koja ima znaenje
2 P( 2 (k ) > (k ) ) = ,

gdje je 2 (k ) hikvadrat razdioba s k stupnjeva slobode (to je test-statistika).


2 2 4. Hipotezu prihvaamo ako je exp < (k )

(tada smatramo da udaljenost izmeu eksperimentalnih i teoretskih podataka nije prevelika), inae je odbacujemo. 2 Dakle podruje prihvaanja (kritino podruje) je <0, (k ) >, a podruje odbacivanja
2 < (k ) , + >.

Openito kod testiranja imamo ove nazive

Pogrjeka prve vrste: : = P(Hipotezu odbacujemo| Hipoteza je istinita). Pogrjeke druge vrste: := P(Hipotezu prihvaamo| Hipoteza je lana). Jakost testa: 1- .

Metoda najmanjih kvadrata i koeficijent regresije


Ako smo mjerenjem dviju zavisnih veliina, za prvu od njih veliinu x, dobili podatke x1, x2,..., xn , a za drugu, veliinu y, korespondirajue podatke y1, y2,..., yn, onda te podatke moemo shvatiti kao n ureenih parova: (x1,y1), (x2,y2), ... (xn,yn) koje geometrijski moemo predoiti kao n toaka ravnine. Tada meu svim pravcima s jednadbom y = ax+b, najbolje ovim podatcima odgovara onaj s parametrima a= n xi y i xi y i n x ( xi )
2 i 2

x y x x y b= n x ( x )
2 i

2 i

Dobiveni pravac s jednadbom y = ax+b zove se regresijski pravac. Geometrijski to znai da regresijski pravac najmanje odstupa od poetnih toaka. Ti su se parametri dobili metodom najmanjih kvadrata koja se zasniva na naelu da suma kvadrata razlika eksperimentalnih i teoretskih podataka bude minimalna. Vie o tome ima u lekciji. Ako su toke (x1,y1), (x2,y2), ... (xn,yn) grupirane oko regresijskog pravca, onda govorimo da su podatci korelirani (linearno korelirani). Na osnovi toga govori se da su pripadne veliine x,y korelirane. Razina koreliranosti mjeri se koeficijentom korelacije r := n xi y i xi y i

n xi2 ( xi ) 2 n y i2 ( yi ) 2

Taj je broj izmeu -1 i 1. Ako je r blizu 1, to je visoka pozitivna, a ako je blizu -1 to je visoka negativna koreliranost. Ako je, pak, r blizu nule koreliranost je vrlo niska.

You might also like