Professional Documents
Culture Documents
Gabriel DIMITRIU
Mihaela MOSCALU
ELEMENTE DE BIOSTATISTICĂ
ANALIZA STATISTICĂ A DATELOR BIOLOGICE
EDITURA PIM
IAŞI, 2007
Referent ştiinţific: Prof. univ. dr. Ilie Burdujan
Universitatea de Ştiinţe Agricole şi
Medicină Veterinară "Ion Ionescu de la Brad” – Iaşi
ISBN: 978-973-716-523-7
Autorii
Contribuţia pe capitole a autorilor:
Capitolul 2 – BIOSTATISTICA
Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu
Produsele Windows XP, MS Excel sunt mărci înregistrate sub licenţă Microsoft.
Programul de analiză statistică SPSS (Statistical Package for the Social Sciences)
este dezvoltat de Fundaţia software Apache şi este sub licenţa SPSS Inc. Produsul
EpiInfo este destinat analizei statistice pentru sănătate publică şi este sub licenţa
Centrului de Prevenire şi Control al Maladiilor (CDC) SUA.
Acestea sunt protejate de legile şi tratatele internaţionale asupra dreptului de
autor.
CUPRINS
1. TEORIA PROBABILITĂŢILOR
1
Carl Friederich Gauss - Britannica Encyclopedia ; Karl Friederich Gauss – The American
Heritage Dictionaries
8
TEORIA PROBABILITĂŢILOR
Există multe situaţii în domeniul biologic sau medical în care trebuie să aflăm
probabilităţile de producere a anumitor fenomene. În cele ce urmează, prezentările şi
demonstraţiile vor fi făcute pe exemplele clasice ale urnelor cu bile sau ale jocului de
zaruri, deoarece acestea permit o înţelegere mai rapidă a fenomenelor.
În teoria probabilităţilor se operează cu o serie de noţiuni, care vor fi descrise în
continuare:
Experimentul (sau experienţa) reprezintă realizarea unui ansamblu de condiţii,
conform unui anumit obiectiv de studiu dorit. În vederea atingerii scopului urmărit, el
poate fi realizat prin provocarea intenţionată a unor fenomene. Prin experienţă
aleatoare2 se înţelege o experienţă al cărei rezultat este supus întâmplării, rezultat ce
poate lua forme diferite, dar nu poate fi anticipat.
Exemple de experienţe aleatoare: aruncarea unei monede, aruncarea unui zar,
extragerea unei bile dintr-o urnă ce conţine bile de mai multe culori, observarea duratei
de viaţă a unui individ dintr-o populaţie biologică, observarea numărului de atomi
obţinuţi prin dezintegrarea unui element radioactiv într-un interval de timp.
Realizarea unei experienţe aleatoare duce la obţinerea unei probe.
Evenimentul este rezultatul unui experiment sau fenomen care se cercetează. Se
numeşte eveniment elementar orice rezultat posibil al unei experienţe aleatoare. Cu alte
cuvinte evenimentul elementar este rezultatul unei probe.
Evenimentul aleator, sau întâmplător, se poate produce sau nu în cadrul realizării
experienţei doar o singură dată. Atributul aleator arată natura incertă aprioric care
devine certitudine după terminarea experienţei. Practic înainte de experienţă noi
cunoaştem doar mulţimea tuturor evenimentelor elementare asociate acesteia, mulţime
numită şi spaţiul de selecţie al experienţei.
Exemplu. Fie experienţa aleatoare constând în aruncarea pe o masă, simultan, a
două zaruri. Dacă apariţia feţei cu i puncte la unul din zaruri şi a feţei cu j puncte la
celălalt zar îi punem în corespondenţă perechea ordonată de numere ( i, j ), atunci
spaţiul evenimentelor elementare este {(i, j ) : 1 i, j 6} . Legat de această
experienţă, considerăm propoziţia logică: „Numărul de puncte apărute la unul din
zaruri este egal cu numărul de puncte apărute la celălalt zar”. Această propoziţie este
adevărată pentru mulţimea de evenimente elementare
2
Cuvântul „aleator” are sens de întâmplător şi provine de la latinescul „alea” (zar).
9
TEORIA PROBABILITĂŢILOR
A {(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)},
care este o submulţime a lui şi constituie evenimentul aleator A .
Orice eveniment elementar care intră în componenţa evenimentului aleator A
se numeşte eveniment elementar favorabil lui A .
10
TEORIA PROBABILITĂŢILOR
Observaţii.
Reuniunea a două evenimente complementare este evenimentul sigur, iar
intersecţia a două evenimente incompatibile (care în particular pot fi şi complementare)
este evenimentul imposibil.
Evenimentele complementare sunt incompatibile, dar evenimentele incompatibile
nu sunt obligatoriu complementare (pot fi sau nu).
Evenimentele sigur şi imposibil sunt complementare şi nu sunt compatibile.
Dacă A implică B, atunci A şi B sunt compatibile şi sigur nu sunt complementare.
12
TEORIA PROBABILITĂŢILOR
Exemple
Considerăm următoarele evenimente care se pot realiza la aruncarea unui zar:
A: Apariţia unui număr mai mic sau egal cu 3.
B: Apariţia unui număr par.
C: Apariţia unui număr impar.
D: Apariţia feţelor 1 sau 2.
E: Apariţia unui număr mai mare sau egal cu 4.
F: Apariţia feţei 3.
Evenimentele incompatibile sunt: B şi C; A şi E; D şi F; D şi E; E şi F. Dacă se
realizează B, nu se poate realiza şi C. Mai mult chiar, B şi C sunt complementare –
dacă nu se obţine un număr par, atunci se obţine în mod sigur un număr impar. Astfel
avem B C , C B , B C .
Se observă că şi perechea de evenimente A şi E sunt complementare, deoarece
dacă nu obţinem un număr 3, atunci el este sigur 4. Avem A E , E A .
Evenimentele D şi E sunt incompatibile, dar nu complementare. Dacă nu se
realizează evenimentul D, se poate realiza sau nu evenimentul E (deoarece 3D şi
3E). Faţa cu numărul 3 aparţine sigur complementarului lui D, dar nu aparţine şi lui
E. Intersecţia dintre E şi D este evenimentul imposibil.
Evenimentele A şi D sunt compatibile (deoarece au în comun numerele 1 şi 2);
mai mult chiar, evenimentul D implică evenimentul A (DA). Realizarea
evenimentului D atrage după sine realizarea evenimentului A.
Evenimentele A, E şi B sunt incompatibile, deoarece nu se pot realiza simultan.
Observaţie Dacă avem două evenimente incompatibile (care pot fi şi
complementare), atunci orice mulţime de evenimente adăugată la cele două evenimente
incompatibile va forma o mulţime de evenimente incompatibile.
Reuniunea evenimentelor D şi F conduce la realizarea evenimentului A (D F =
A).
Evenimentele B, C formează o partiţie a evenimentului sigur , adică reprezintă
un sistem complet de evenimente. Un alt exemplu de sistem complet de evenimente
este:
A1={1,2}; A2={3}; A3={4,5}, A4={6}. Într-adevăr A1 A2 A3 A4 = şi
se respectă proprietatea de incompatibilitate a evenimentelor două câte două adică i,j
{1,2,3,4} cu i j, avem Aj Aj = Ø .
Proprietăţile probabilităţilor
În continuare vom nota cu A, un eveniment generic care poate avea loc cu
probabilitatea P(A) la realizarea unei experienţe.
Pentru orice eveniment A, probabilitatea sa este un număr cuprins în intervalul
[0,1], 0 P(A) 1. Probabilitatea evenimentului cert este 1, P() = 1.
Probabilitatea evenimentului imposibil este 0, P( Ø ) = 0.
P(A sau B) = P(A) + P(B) – P(A şi B). Această regulă poate fi scrisă şi astfel:
P(AB) = P(A) + P(B) – P(A B).
13
TEORIA PROBABILITĂŢILOR
A B
A B
Figura 1.2 3.
A - B
B
Figura 1.2 4.
Aceste proprietăţi ne ajută să calculăm probabilitatea necunoscută a unui
eveniment în cazul cunoaşterii altor probabilităţi.
14
TEORIA PROBABILITĂŢILOR
15
TEORIA PROBABILITĂŢILOR
n! n
Cnk . Se foloseşte şi notaţia: C nk .
k! (n k )! k
Exemplu Considerăm 4 cărţi de joc, notate A, B, C, D. Numărul total de
combinaţii ale acestora luate câte două este prezentat în continuare.
AB BC CD
AC BD
AD
În concluzie, sunt 6 variante (ordinea de aranjare nu contează – dacă avem AB sau
BA este acelaşi lucru).
Rezultatul este acelaşi folosind formula combinărilor:
4 4! 1 2 3 4
C42 6.
2 2 ! (4 2) ! 1 2 1 2
Considerând aceeaşi situaţie ca în cazul combinărilor, dar în care ordinea de
apariţie a elementelor contează, obţinem o altă mărime matematică numită
aranjamente de n luate câte k a cărei valoare se calculează cu formula:
n! n!
Ank Cnk k ! k! n (n 1) ... (n k 1) .
k! (n k )! (n k )!
Exemplu Presupunem că avem 3 cărţi notate A, B, C. Prezentăm numărul de
aranjamente luate câte două.
AB AC BC
BA CA CB
3!
În total sunt 6 variante, ceea ce rezultă şi din calculul: A32 6.
(3 2) !
În definirea noţiunilor de permutări, combinări şi aranjamente nu există
posibilitatea (din definiţie) de a se repeta un element în cadrul unei variante. Spre
exemplu, în cazul permutărilor nu avem elementul AAA, în cazul combinărilor nu avem
BB şi nici CC în cazul aranjamentelor.
Dacă considerăm un număr de k cifre (în baza 10), numărul maxim obţinut este
10k-1. Numărul maxim de variante (obţinute prin numărare efectivă) este însă 10k,
deoarece se numără şi valoarea 0. Generalizăm această observaţie: Dacă avem k
poziţii şi pe fiecare poziţie avem p elemente posibile, atunci numărul maxim de
variante este pk.
Exemplu
Presupunem că avem două poziţii şi pe fiecare se pot afişa numerele 1, 2 sau 3.
Numărul total de variante este:
11 21 31
12 22 32
13 23 33
Sunt 9 variante şi conform cu formula: 32 = 9. Se observă că în această situaţie se
pot repeta elemente în cadrul variantelor (11, 22, 33).
16
TEORIA PROBABILITĂŢILOR
Probleme
I
Avem un pachet de 10 cărţi notate de la 1 la 10. Se amestecă pachetul şi se cere
probabilitatea ca prima carte să fie cea cu numărul 7.
Rezolvare
Metoda 1. Pe prima poziţie se poate afla una dintre cele 10 cărţi. Doar una este cea
dorită. Astfel, probabilitatea este independentă de numărul dorit şi este P=1/10.
Metoda 2. Numărul total de variante de aranjare a celor 10 cărţi este 10!.
Variantele favorabile se caracterizează prin aceea că prima poziţie este ocupată cu
valoarea dorită. Rămân doar 9 poziţii în care se pot aranja restul cărţilor. Avem 9!
cazuri favorabile. Probabilitatea este:
P=9!/10!=1/10 (aceeaşi ca la metoda 1).
Putem acum generaliza problema în felul următor. Presupunem că avem un pachet
de n cărţi, notate 1, …, n. Care este probabilitatea ca un număr de p cărţi să iasă într-o
ordine (spre exemplu 1,2, … ,p) definită la o extragere de p cărţi.
Rezolvare
Numărul total de aranjări a celor n cărţi este n!. Cazurile favorabile se
caracterizează cu primele p cărţi aranjate în ordinea dorită. Restul cărţilor pot fi
aranjate oricum, deci într-un număr de (n-p)! variante. Probabilitatea va fi P=(n-p)!/n!.
Rezolvare
Dacă avem 2 zaruri, atunci numărul total de variante care se pot obţine este 6 2=36.
Dacă aruncăm de 24 de ori cele 2 zaruri, obţinem în total 3624 variante.
Pentru a nu avea dubla 6-6 la nici o aruncare cu zarurile, atunci cu două zaruri
obţinem 36-1 variante (s-a scăzut dubla 6-6). Din 24 de aruncări vom avea 35 24
posibilităţi.
Probabilitatea de a nu nimeri dubla 6-6 este P’=3524/3624. Probabilitatea
evenimentului contrar, de a nimeri 6-6 este P=1-P’=1-3524/3624=1-0,508=0,492.
IV
Într-o urnă sunt 95 bile albe şi 5 bile roşii. Se extrag la întâmplare 5 bile. Care este
probabilitatea ca măcar una din cele 5 bile să fie roşie?
Rezolvare
Observăm că la extragere nu ne interesează ordinea de apariţie a bilelor. Astfel
variantele posibile se vor calcula cu ajutorul formulei combinărilor.
Definim două evenimente complementare:
Evenimentul 1 – nici o bilă extrasă din cele 5 nu este roşie.
Evenimentul 2 – măcar o bilă extrasă din cele 5 este roşie.
Deoarece evenimentele sunt complementare, P(ev.2)=1-P(ev.1). Calculăm în
continuare probabilitatea evenimentului 1. Pentru a nu extrage nici o bilă roşie din cele
cinci extrageri, înseamnă că lucrăm doar cu cele 95 de bile albe. Numărul de variante
5
extrase de câte 5 bile este C95 . Numărul de variante de câte 5 bile extrase din totalul
5
de 100 bile este C100 . Acum putem afla probabilitatea evenimentului 1, P(ev.1)=
5 5
C95 C100 . Evenimentul 2 fiind complementar, probabilitatea sa va fi P(ev.2)=
1 C95
5 5
C100 =0,2304.
B V
Se alege la întâmplare o coardă a unui cerc.
Care este probabilitatea ca aceasta să fie mai mare
ca latura triunghiului echilateral înscris în cerc ?
D Problema prezintă din start o incertitudine.
d Aceasta constă în lipsa de informare asupra
600 metodei de alegere la întâmplare a coardei
O cercului.
0
R 30 Rezolvarea 1
A Un triunghi echilateral înscris într-un cerc
împarte razele perpendiculare pe laturi în părţi
egale.
S-a notat cu R raza cercului şi d=OD.
Figura 1.3 1. În triunghiul ODA avem unghiul OAD=300
şi sin(OAD)=1/2=d/R => d = R/2.
Prin alegere la întâmplare, putem înţelege
determinarea unui punct din domeniul [0, R], punct ce reprezintă mijlocul coardei.
18
TEORIA PROBABILITĂŢILOR
Dacă coarda este mai mare ca latura triunghiului echilateral, atunci punctul ales trebuie
să cadă în domeniul [0, R/2] (în prima jumătate). Probabilitatea căutată este:
R
nr. cazurilor favorabile 2 1
P 0,50 .
nr. total de cazuri R 2
Rezolvarea 2
Alegerea la întâmplare poate fi înţeleasă ca
R determinarea suprafeţei pe care poate fi ales mijlocul
coardei. În figura 1.3 2 sunt prezentate două cercuri
concentrice de raze R, respectiv R/2. Probabilitatea
de a obţine o coardă de lungime mai mare ca latura
R/2 triunghiului echilateral înscris este raportul celor
două arii:
S cerc R / 2 R / 2
2
1
P 0,25 .
S cerc R R 2
4
Figura 1.3 2.
Rezolvarea 3
19
TEORIA PROBABILITĂŢILOR
echilateral înscris în cerc este: L 2 R sin(60o ) , după cum se observă din figura
2 R 2 R sin(60) 3 2 3
1.3 1. Avem astfel: P 1 0,133 .
2R 2 2
20
TEORIA PROBABILITĂŢILOR
p
P( A B)
P( B / A) n - Formula probabilităţii condiţionate.
m P( A)
n
Exemplul 1
Notăm cu A evenimentul naşterii unui băiat şi cu B evenimentul ca la naştere
copilul să aibă peste 3 Kg. Presupunem că avem n naşteri din care p sunt băieţi, m au
peste 3 Kg şi q băieţi au peste 3 Kg.
Dacă ştim că cel născut este băiat, care este probabilitatea evenimentului ca acesta
să aibă peste 3 Kg ?
Rezolvare
p
Probabilitatea naşterii unui băiat va fi: P( A) .
n
m
Probabilitatea naşterii unui copil de peste 3 Kg va fi: P( B) .
n
q
Probabilitatea naşterii unui băiat de peste 3 Kg va fi: P( A B) .
n
Dacă este băiat, atunci toate cazurile favorabile sunt p. Ca să aibă peste 3 Kg doar
q respectă condiţia. În concluzie, probabilitatea este:
q q / n P( A B)
P( B / A) .
p p/n P( A)
Exemplul 2
Într-o urnă avem 5 bile albe şi 6 bile negre. Din cele 5 albe două sunt numerotate
cu 1 şi restul de trei cu 2. Din cele 6 bile negre două sunt numerotate cu 1 şi patru cu 2.
Se extrage la întâmplare o bilă. Dacă se cunoaşte că bila extrasă este albă, care este
probabilitatea ca ea să fie notată cu 1?
Rezolvare
Notăm evenimentele: A – bila este albă.
B – bila are numărul 1 .
P( A B)
Probabilitatea căutată este P( B / A) .
P( A)
În total avem : 5 + 6 = 11 bile (cazuri în total).
5
Probabilitatea evenimentului A este: P( A) .
11
2
Probabilitatea intersecţiei evenimentelor A şi B este: P( A B) .
11
21
TEORIA PROBABILITĂŢILOR
P( A B) 2 / 11 2
În final obţinem: P( B / A) .
P( A) 5 / 11 5
Putem gândi şi astfel: Dacă s-a extras o bilă albă, înseamnă că nu poate fi decât
una din cele 5 . Dacă numărul este 1, atunci nu sunt decât 2 cazuri din cele 5 albe.
Astfel probabilitatea căutată este P=2/5.
Probabilitatea intersecţiei a n evenimente
Folosind formula de calcul a probabilităţilor condiţionate se poate deduce regula
de calcul a probabilităţilor intersecţiei a n evenimente, sau regula de înmulţire a
probabilităţilor.
Presupunem că avem n evenimente notate Ai cu i={1,2,…,n}. Vom demonstra
formula:
P( A1 A2 ... An ) P( A1 ) P( A2 / A1 ) P( A3 / A1 A2 ) .....
(1)
..... P( An / A1 A2 ... An 1 ).
Avem formula probabilităţii condiţionate:
P( X Y )
P( X / Y ) P( X Y ) P( X / Y ) P(Y ) . (2)
P(Y )
Putem inversa ordinea termenilor în intersecţia din formula 1.
P( A1 A2 ... An ) P( An An1 ... A1 ) . (3)
Notăm B An1 ... A1 şi formula 3 devine:
P( An B) P( An / B) P( B) . (4)
În formula 4 s-a aplicat şi regula din formula 2. Formula 4 este de fapt:
P( An An 1 ... A1 ) P( An / An 1 ... A1 )
(1’)
P( An 1 ... A1 ).
Ultimul termen din această formulă poate fi exprimat în continuare astfel:
P( An 1 ... A1 ) P( An 1 / An 2 ... A1 )
(2’)
P( An 2 ... A1 ).
………………………………….
P( A2 A1 ) P( A2 / A1 ) P( A1 ) . (n’-1)
În final, înlocuind ultimul termen din formula k-1 cu cel din formula k se obţine
formula de înmulţire a probabilităţilor (k de la formula 1’ până la formula n’-1).
Formula probabilităţii totale
Considerăm un sistem complet de evenimente notate A1, A2, …, An. Avem
A1 A2 ... An şi Ai A j , i, j 1, n , i j . Presupunem că
avem un eveniment X care se realizează numai împreună cu evenimente oarecare Ai.
Atunci, probabilitatea realizării evenimentului X se calculează prin:
22
TEORIA PROBABILITĂŢILOR
n
P( X ) P( Ai ) P( X / Ai ) - Formula probabilităţii totale.
i 1
Demonstraţie
Exprimăm evenimentul X funcţie de evenimentele Ai:
n
X X A1 X A2 ... X An X Ai .
i 1
Evenimentele Ai fiind incompatibile atunci şi evenimentele X Ai vor fi tot
incompatibile. Astfel, probabilitatea reuniunii va fi suma probabilităţilor:
n
P( X ) P X Ai .
i 1
Folosind formula probabilităţilor condiţionate exprimăm probabilitatea intersecţiei
evenimentelor.
P( X A j ) P( A j ) P( X / A j ) .
P( X ) P( A1 ) P( X / A1 ) P( A2 ) P( X / A2 ) .... P( An ) P( X / An )
n
P( X ) P( Ai ) P( X / Ai ).
i 1
Exemplu
Considerăm că avem trei urne. Prima conţine 2 bile albe şi 3 bile negre, a doua
conţine 4 bile albe şi 2 negre, iar a treia conţine 3 bile albe şi 3 bile negre. Din una din
urne, aleasă la întâmplare, se extrage o bilă. Care este probabilitatea ca bila extrasă să
fie albă ?
Rezolvare
Bila extrasă poate face parte din prima, a doua sau a treia urnă. Definim trei
evenimente ce formează un sistem complet:
Bila extrasă este din urna 1 (A1).
Bila extrasă este din urna 2 (A2).
Bila extrasă este din urna 3 (A3).
Evenimentul (X): bila extrasă este albă şi poate să se realizeze împreună cu unul
din cele Ai evenimente, i 1,2,3. Folosind formula probabilităţii totale avem:
P( X ) P( A1 ) P( X / A1 ) P( A2 ) P( X / A2 ) P( A3 ) P( X / A3 ) .
Cele 3 evenimente Ai au probabilităţi egale: P(A1)=P(A2)=P(A3)=1/3. Cu alte
cuvinte, şansa de a alege una din cele 3 urne este aceeaşi.
23
TEORIA PROBABILITĂŢILOR
Demonstraţie
Exprimăm intersecţia a două evenimente folosind formula probabilităţilor
condiţionate în două moduri:
P( X Ai ) P( X Ai )
P( Ai / X ) , P( X / Ai ) .
P( X ) P( Ai )
Din aceste două formule deducem probabilitatea intersecţiei:
P( X Ai ) P( Ai / X ) P( X ) P( X / Ai ) P( Ai ) .
Din ultima egalitate avem:
P( X / Ai ) P( Ai )
P( Ai / X ) .
P( X )
Folosind formula probabilităţii totale,
n
P( X ) P( A j ) P( X / A j ) avem:
j 1
P( X / Ai ) P( Ai )
P( Ai / X ) n
. Formula lui Bayes sau teorema ipotezelor.
P( A ) P( X / A )
j 1
j j
Exemplu
Presupunem că avem un lot format din 10000 persoane de sex feminin,
participante la un test screening pentru determinarea prezenţei cancerului de sân.
Dintre acestea, la un număr de 120 de persoane a fost depistată şi confirmată prezenţa
maladiei. Prin a doua metodă - mamografie (cunoscută ca nefiind o metodă perfectă),
s-au obţinut 95 de persoane pozitive din cele 120. Dintre femeile sănătoase, deci în
număr de 9880, au avut mamografie pozitivă 880 (falşi pozitivi).
Care este probabilitatea ca o persoană la care mamografia a ieşit pozitivă să aibă
într-adevăr cancer de sân ?
25
TEORIA PROBABILITĂŢILOR
3
Etimologic cuvântul este de origine greacă (stochos) – întâmplător, aleator.
26
TEORIA PROBABILITĂŢILOR
Este cunoscut faptul că în cadrul unui experiment, oricâte precauţii s-ar lua pentru
a controla diferiţi factori, rezultatele obţinute vor prezenta o anumită variabilitate.
Această variabilitate se manifestă în aproape toate domeniile de lucru, obligându-ne să
lucrăm cu intervale ale parametrilor de studiu în loc de valori fixe.
Variabila aleatoare este o noţiune fundamentală din domeniul statisticii,
reprezentând acea mărime de interes ce poate lua în cadrul realizării experimentului o
valoare oarecare, necunoscută aprioric.
Există două tipuri de variabile aleatoare, anume discrete şi continue. Variabilele
discrete iau valori izolate, cum ar fi numărul de băieţi dintr-o şcoală sau numărul de
studenţi care au nota 10 la biostatistică. Variabilele continue pot lua orice valoare
într-un interval finit sau infinit. Spre exemplu, temperatura corpului uman poate lua
orice valoare dintr-un anumit interval (chiar dacă sunt mici, aceste variaţii există).
De obicei, variabilele aleatoare se notează cu litere mari A, B, C…X, Y. Valorile
corespunzătoare se notează cu litere mici: a1, a2, …an sau x1, x2, …xn, iar probabilităţile
acestora se notează cu pa1, pa2,…pan.
f (ai ) P( A ai ) P(ai ) pi .
27
TEORIA PROBABILITĂŢILOR
7
f(x)=P(a)
6 f ( x) P( a ) .
5
4
3
2
1
0
x
Figura 1.5 1 - Funcţia de probabilitate.
60
F(x)=P(A a)
150
40
F ( x ) P( A a ) .
30
20
10
0
X
Figura 1.5 2 - Funcţia de repartiţie.
k k
Este demonstrată relaţia: F (a k ) P( A a k ) P( A ai ) pi .
i 1 i 1
Acestea sunt caracterizate prin faptul că valorile atribuite se află într-un interval
continuu şi nu discret. Rezultă că reprezentarea prin tabelare a tuturor valorilor este
imposibilă, deoarece ar însemna realizarea unui tabel infinit ca dimensiune. Aşadar, se
impune utilizarea probabilităţii evenimentului A < a şi în concluzie, se va lucra pe
intervale de valori şi nu cu valori fixe. Funcţia de probabilitate este înlocuită la
variabile aleatoare continue cu funcţia densitate de probabilitate. Graficul densităţii de
probabilitate este prezentat mai jos pe un exemplu generic. S-a utilizat notaţia:
f(a) – funcţie densitate de probabilitate, a2 – a1 = a.
Funcţia de repartiţie se notează cu F(a) şi se calculează cu formula:
28
TEORIA PROBABILITĂŢILOR
a a
F (a) P( A a) f (a) da F
'
(a) da .
Suprafaţa totală cuprinsă între curbă şi axa xx’ este egală cu 1 şi reprezintă
probabilitatea ca x să se afle în intervalul ( , ) .
P ( A ) f (a) da 1 .
f(a)
Densitatea de probabilitate
a
a1 a2
1 a
29
TEORIA PROBABILITĂŢILOR
Funcţia de repartiţie
20 F(a)
1
15
10
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45
a
Figura 1.5 4.
Media (, x )
Este cel mai reprezentativ indicator şi se mai numeşte şi speranţă matematică,
valoare adevărată sau medie teoretică.
Dacă avem un şir discret de date, formula de calcul a valorii medii va fi:
x1 f1 x2 f 2 .... xn f n n
M [ x] xi f i .
f1 f 2 ... f n i 1
Numitorul este suma tuturor frecvenţelor relative şi este egal cu 1.
30
TEORIA PROBABILITĂŢILOR
Mediana (Me)
Reprezintă valoarea tipică ce împarte densitatea de probabilitate în două suprafeţe
egale. Putem spune cu alte cuvinte că probabilitatea ca X < Me este egală cu
probabilitatea ca X > Me şi are valoarea 0,5 sau altfel spus 50 %.
1
P( X Me) P( X Me) 0,5 .
2
Ştiind că valoarea acestei probabilităţi reprezintă valoarea integralei definite din
funcţia densitate de probabilitate putem scrie:
Me
1
f ( x) dx f ( x) dx
2
.
Me
Dacă avem patru suprafeţe, deci n=4, avem trei cuantile care, în acest caz, se
numesc cuartile. În figura 1.5 5 este realizată reprezentarea grafică a cuartilelor.
Reprezentarea cuartilelor
f(x)
1 Q1 Q2 Q3 x
Figura 1.5 5.
31
TEORIA PROBABILITĂŢILOR
Observaţie
Mediana este cuartila a doua sau cuantila de ordin 2 (adică împarte în două
părţi egale suprafaţa densităţii de probabilitate). Me = Q2.
Modul (Mo)
Modul reprezintă valoarea de pe abscisă corespunzătoare probabilităţii maxime
(valoare dominantă). Modul se calculează impunând condiţia ca derivata funcţiei
densitate de repartiţie în punctul x să fie zero: f ( x) 0 .
x
n
Pentru variabilă discretă: ''k M x k k
i pi .
i 1
Pentru variabilă continuă: '
'k x
k
f ( x) dx M x k .
M x k - reprezintă media variabilei aleatoare xk.
Observaţie
Pentru k=1 momentul iniţial de ordin 1 este tocmai media variabilei aleatoare.
n
k M x M [ x]k ( xi ) k pi , unde s-a folosit ca referinţă
i 1
media a populaţiei.
k M x M [ x]k ( x ) k f ( x) dx .
Observaţie
Dispersia este tocmai momentul centrat de ordin 2.
32
TEORIA PROBABILITĂŢILOR
n
D[ x] 2 M x xi pi .
2 2
i 1
Pentru cazul continuu avem:
x f ( x) dx .
D[ x] M x
2 2 2
Abaterea standard
Prin definiţie este rădăcina pătrată din dispersie, D[x] .
n n
xi p i x pi 2 .
2 2
Cazul discret: i
i 1 i 1
x f ( x) dx x f ( x) dx .
2 2 2
Cazul continuu:
33
TEORIA PROBABILITĂŢILOR
Demonstraţie
n
Dacă avem a+b bile în total, numărul combinaţiilor de câte n bile este Ca b .
Acesta este numărul total al posibilităţilor de a alege n bile, indiferent de culoare şi de
ordinea lor de apariţie.
Din a bile albe, pot fi combinate în C a variante.
Din b bile negre, bile pot fi combinate în C b variante.
Numărul total de variante a câte bile albe şi bile negre este C a Cb .
Acum putem calcula probabilitatea ca la extragerea simultană a n bile, să obţinem
Ca Cb Ca Cbn
bile albe şi bile negre (unde +=n): P .
Canb Canb
În cazul general, presupunem că avem m culori şi dorim să extragem 1, 2, 3,
… , m bile, corespunzătoare celor m culori (1 + 2 + 3 + … + m = n numărul de
extrageri). Avem în total a1 bile de culoare 1, ... , am bile de culoare m.
34
TEORIA PROBABILITĂŢILOR
35
TEORIA PROBABILITĂŢILOR
Repartiţia Poisson
Considerăm că avem n experienţe caracterizate de evenimentele independente A1,
A2, … , An cu probabilităţile cunoscute: P(A1)=p1, …, P(An)=pn. Oricare eveniment se
poate produce cu probabilitatea pi, iar evenimentul contrar A se realizează cu
probabilitatea qi = 1-pi. Probabilitatea ca din cele n evenimente să se producă k la
realizarea celor n experienţe, este egală cu valoarea coeficientului lui xk din
dezvoltarea polinomului:
p1 x q1 p2 x q2 ..... pn x qn .
Exemplu
Presupunem că avem 3 urne cu bile albe şi roşii. Prima urnă conţine 3 bile albe şi
două roşii, a doua urnă conţine 4 bile albe şi 6 roşii, iar urna a treia conţine 2 bile albe
şi 3 roşii. Se extrage câte o bilă din fiecare urnă. Care este probabilitatea de a se obţine
2 bile albe din cele 3 extrase ?
Rezolvare
Definim evenimentele independente:
A1 - bila extrasă din urna 1 este albă;
A2 - bila extrasă din urna 2 este albă;
A3 - bila extrasă din urna 3 este albă.
Calculăm probabilităţile evenimentelor Ai şi ale evenimentelor contrare Ai :
3 3 2
P( A1 ) , P( A1 ) 1 .
5 5 5
4 4 6
P( A2 ) , P( A2 ) 1 .
10 10 10
2 2 3
P( A3 ) , P( A3 ) 1 .
5 5 5
Pentru a determina probabilitatea de obţinere a 2 bile albe din cele 3 extrase,
calculăm coeficientul lui x2 din cadrul polinomului:
3 2 4 6 2 3
x x x .
5 5 10 10 5 5
36
TEORIA PROBABILITĂŢILOR
Funcţia de repartiţie :
F(x).
Figura 1.7 1.
Densitatea de probabilitate:
f(x).
Figura 1.7 2.
37
TEORIA PROBABILITĂŢILOR
0 , pentru x a,
x a
F ( x) , pentru a x b,
b a
1 , pentru x b.
Funcţia F(x) se poate determina după cum urmează.
Ecuaţia dreptei este : y=F(x)=mx+n. Trebuie determinaţi m, respectiv n. Pentru
aceasta cunoaştem două puncte prin care trece dreapta. Acestea sunt:
x=a cu valoarea F(a)=0, de unde deducem prima ecuaţie: ma+n=0.
x=b cu valoarea F(b)=1, de unde avem a doua ecuaţie : mb+n=1.
Rezolvăm sistemul de ecuaţii:
m a n 0,
Scădem cele două ecuaţii şi aflăm valoarea lui m.
m b n 1.
1
m (b a) 1 m .
ba
a
Înlocuim în una din ecuaţii pe m şi aflăm valoarea lui n: n .
ba
Funcţia F(x) este astfel determinată.
1
b a
2 2
b a b a b a .
ba 2 2 b a 2
ab
Media repartiţiei uniforme pe intervalul (a,b) este : .
2
Dispersia repartiţiei uniforme
Conform definiţiei avem formula de calcul a dispersiei:
b
f ( x) x dx b a x dx
1
D[ x]
2 2 2
a
38
TEORIA PROBABILITĂŢILOR
b b b
1 y3
x 2 dx
1 1
y 2 dy .
b a b a a
b a 3
a a
2 D[ x]
b a 2 .
12
Repartiţia exponenţială
Densitatea de probabilitate pentru o variabilă aleatoare X repartizată exponenţial
cu coeficient negativ este definită de funcţia:
e x , pentru 0 si x 0,
f ( x)
0 , pentru x 0.
39
TEORIA PROBABILITĂŢILOR
Pe grafice sunt indicate câteva puncte de referinţă. Dacă x=0, atunci f(x)= (din
figura 1.7 3).
Panta funcţiei densitate de repartiţie în punctul x=0 este :
f ( x) x 0 2 e x x 0
2 .
Pentru a afla punctul de intersecţie al dreptei cu axa xx’, punem condiţia ca y=0 şi
obţinem x=1/. Această valoare 1/, vom vedea că este tocmai media repartiţiei
exponenţiale.
Proprietatea 1
Tangenta la curba densităţii de probabilitate a repartiţiei exponenţiale în punctul
x=0, f(0)= (punctul de intersecţie cu axa yy’) intersectează axa xx’ în punctul de
abscisă egală cu media, adică cu 1/ (figura 2.7 3).
Corespunzător valorii x=1/ avem f(1/)=e-1=0,368.
Analog se poate deduce şi proprietatea următoare.
Proprietatea 2
Tangenta la curba funcţiei de repartiţie exponenţiale în origine intersectează
dreapta paralelă cu xx’ de ordonată 1, în punctul de abscisă 1/, egală cu media
repartiţiei (figura 1.7 4).
40
TEORIA PROBABILITĂŢILOR
Media
Conform formulei de calcul obţinem:
x f ( x) dx x e dx .
x
M [ x]
0
Dar ( f g )' f 'g f g '
x e
x
e x
xe x
xe x
e x x e x .
Aceasta o înlocuim în prima formulă, deci avem:
M [ x]
e x x e x dx
1
e x
x e x
0
0 0
1
M [ x] 1 / 0 .
Dispersia
Calculând valoarea dispersiei se ajunge la :
x
2
D[ x] f ( x) dx
2
.
Ca observaţie finală menţionăm că repartiţia exponenţială reprezintă un caz
particular al repartiţiilor Poisson şi Weibull.
41
TEORIA PROBABILITĂŢILOR
0.45 f(x)
0.4
0.35
0.3
0.25 0,682
0.2
0.15
0.1 0,954
0.05
0 0,997
3 2 2 3
Valoarea 0,682 din figura 1.7 5 reprezintă suprafaţa cuprinsă între curba densităţii
de probabilitate şi axa xx’ pentru intervalul x , . Aceasta este de
importanţă majoră, deoarece semnifică probabilitatea de apartenenţă la intervalul
specificat pe axa xx’ al valorilor variabilei aleatoare studiate - va fi discutat pe larg
într-un subcapitol următor.
42
TEORIA PROBABILITĂŢILOR
P1. Distribuţia admite un singur maxim, fiind astfel unimodală. Maximul se atinge
1
în punctul x= şi are valoarea f ( ) (în acest punct x= derivata este
2
zero df/dx=0).
P2. Distribuţia este simetrică în raport cu dreapta x=. În orice repartiţie normală
media, mediana şi modul coincid. Datorită simetriei, suprafaţa cuprinsă între curba
densităţii de probabilitate şi axa xx’ pe intervalul , este egală cu cea din
intervalul , şi are valoarea 1/2. Evident, suprafaţa totală are valoarea 1,
reprezentând probabilitatea evenimentului sigur.
P3. În cazul oricărei curbe de distribuţie, mărimea suprafeţei corespunzătoare unui
anumit interval are semnificaţie de valoare a probabilităţii de apartenenţă a variabilei X
la acel interval.
Specific curbei Gauss, suprafaţa cuprinsă între dreptele x=-, x=+, y=0 şi
curba densităţii de probabilitate este egală cu 0,682 (sau 68,2%). Adică, 68,2% din
suprafaţa totală este cuprinsă în acest interval. Altfel spus, intervalul [ , ] se
numeşte interval de încredere cu o probabilitate de 68,2% - în sensul că există o
probabilitate de 68,2% ca o valoare observată dintr-o distribuţie normală să aparţină
acestui interval.
Conform calculelor şi reprezentării grafice, majoritatea cazurilor în proporţie de
peste 95% (0,954) se află în intervalul (-2 , +2 ), iar 99,7% în intervalul (-3 ,
+3 ).
Figura 2.7 5 reprezintă valorile probabilităţilor corespunzătoare domeniului pe
axa xx’.
P4. Punctele de pe abscisă de valoare +, respectiv de valoare -, sunt puncte
de inflexiune. În aceste puncte, curba densităţii de probabilitate îşi modifică
d 2 f ( x)
convexitatea. Aşadar, derivata de ordinul doi este zero: 0.
d 2x x
P5. În punctele x şi x funcţia f(x) tinde la zero.
P6. Densitatea de probabilitate are formă de clopot, de unde şi denumirea sa de
clopotul lui Gauss.
P7. Coeficienţii de asimetrie şi aplatizare pentru o repartiţie normală au valoarea
0. De asemenea, momentele centrate de ordin impar sunt nule pentru o astfel de
repartiţie.
P8. Modificarea mediei duce la o translare a curbei pe direcţia axei xx’. Iată un
exemplu realizat în graficul următor.
43
TEORIA PROBABILITĂŢILOR
1.8
f1
1.6 1
1.4
1.2 f2
1 2
f(x)
0.8
0.6
0.4
f3 3
0.2
0
1 X
Figura 1.7 8 - Densităţile de probabilitate pentru medii egale dar dispersii
diferite.
P9. Curba densităţii de probabilitate este cu atât mai ascuţită cu cât valoarea
dispersiei este mai mică. Modificarea parametrului dispersie duce la variaţii invers
proporţionale ale valorii punctului de maxim (formula prezentată la P1) al funcţiei
densitate de probabilitate.
Iată mai jos un exemplu grafic ce respectă relaţia:
1 2 3 f1 f 2 f 3 .
44
TEORIA PROBABILITĂŢILOR
1
e 2
2
F ( y ) P( x y ) dx .
2
x
Notăm z dx dz .
Facem schimbarea de variabilă xz în funcţia de repartiţie:
y
z2
1
F ( y) e 2 dz .
2
Functia Laplace
1/2 z
f(z)
1 3 5 7 9 11 13 15 17 019 21 23 25 27z 29 31 33 35 37 39
b a
P x a, b F F .
46
TEORIA PROBABILITĂŢILOR
x
Facem normalizarea prin schimbarea de variabilă z pentru a folosi
valorile tabelate ale funcţiei Laplace.
Exemplu de calcul
Să presupunem că ne interesează să caracterizăm calitatea studenţilor din anul 3
de studiu la facultatea de medicină, prin determinarea probabilităţii pe grupele de
calificative folosite. Probabilitatea va reflecta practic frecvenţa de apariţie a unei grupe
din cadrul calificativelor. Tabelul următor defineşte legătura între aprecierea calitativă
şi notele obţinute în sistem zecimal:
Tabelul 1.7 1 – Echivalare notă calificativ.
Notă obţinută Calificativ
8,5 - 10 A
6,5 – 8,4 B
5,5 – 6,4 C
5 – 5,4 D
Sub 5 E
inclusiv în jos, rezultă că diferenţa, adică 81-5,2=75,8% din studenţi, vor obţine
calificativul B.
Se continuă în acest fel pentru celelalte praguri, iar rezultatele obţinute pas cu pas
sunt prezentate în tabelul următor.
Tabelul 1.7 2.
Calificativ Prag Z(echivalent) (Z ) Probabilitatea sau
procentul
A 8,5 0,875 0,81 1-0,81=19%
B 6,5 -1,625 0,052 0,81-0,052=75,8%
C 5,5 -2,875 0,003 0,052-0,003=4,9%
D 5 -3,5 0,0002 0,003-0,0002=0,28%
E Sub 5 0,02%
Este util să se repete exemplul pentru o medie mai mică, de exemplu 7,2 iar
dispersia la o valoare mai mare, 0,9 .
Se poate anticipa rezultatul ?
Cum se vor modifica procentele din ultima coloană a tabelului ?
0 , pentru x 0,
n x
f ( x) 1 1
n/2 x 2 e , pentru x 0.
2
2 n / 2
48
TEORIA PROBABILITĂŢILOR
Teoremă
Dacă avem k variabile independente, notate z1, z2, z3, …zk care sunt repartizate
k
normal N(0,1), atunci suma pătratelor variabilelor zi2 formează o variabilă
i 1
aleatoare repartizată 2 cu n=k-1 grade de libertate.
Proprietatea de aditivitate
Dacă avem două variabile aleatoare independente repartizate 2 cu n1, respectiv n2
grade de libertate atunci prin însumare se obţine o variabilă aleatoare repartizată de
asemenea 2 cu n=n1+n2 grade de libertate.
Cazul n=1
1 x
1 x
n 1 f1 ( x) x 2 e 2 1
2 1 / 2 f1 ( x) e 2 , cu x 0.
2 x
Dar 1 / 2
Cazul n=4
x
x
Prin calcul se obţine: f 4 ( x) e 2
, x 0.
8
Cazul n=12
x
x5
Se deduce formula : f12 x 6 e 2
, x 0.
2 6!
În cărţile de specialitate valorile funcţiei de probabilitate de distribuţie 2 sunt
tabelate în funcţie de gradele de libertate şi evident în funcţie de valoarea probabilităţii.
49
TEORIA PROBABILITĂŢILOR
Proprietăţi
Această repartiţie este simetrică (f(t) = f(-t)), are media 0 (M[t]=0) şi dispersia
n
D[t ] , pentru numărul de grade de libertate n>2. (Deoarece prescurtat se
n2
numeşte şi repartiţia ,,t”, se obişnuieşte ca variabila x să se noteze cu t).
Pentru valori mari ale lui n (n>30), repartiţia Student tinde către repartiţia normală
redusă N(0,1). În cazurile practice, pentru n>30 diferenţele dintre repartiţia ,,t” şi cea
normală sunt neglijabile.
Reprezentarea grafică a densităţii de probabilitate este indicată mai jos.
Observaţie
Dacă avem o variabilă F(1,2), atunci variabila aleatoare obţinută de forma
1/F este tot de tip Fisher-Snedecor cu 2, respectiv 1 grade de libertate F(2,1).
51
BIOSTATISTICA
2. BIOSTATISTICA
2.1. INTRODUCERE
52
BIOSTATISTICA
4
Modul este valoarea din şir de frecvenţă maximă (sau valoarea întâlnită cel mai des).
53
BIOSTATISTICA
măsură. Acesta a fost ales doar arbitrar, după o anumită logică empirică. De exemplu,
în scala Celsius de temperatură, nivelul de 0 a fost definit empiric, ca punctul de îngheţ
al apei pure. Şi scala Fahrenheit de măsură este un bun exemplu. Dacă temperaturile
măsurate sunt 300C, respectiv 600C nu putem afirma că temperatura de 60 este dublul
celei de 30. Raportul nu poate fi corect interpretat. Iată, 300C înseamnă 860F, iar 600C
înseamnă 1400F. Raportul de 1 2 nu se menţine şi în scara Fahrenheit, cu toate că
temperaturile sunt aceleaşi (amintim formula: Fahrenheit=Celsius*9/5+32).
Scala de tip raport are în plus faţă de scala interval, definirea concretă a originii
sistemului de măsură, astfel încât raportul are sens şi se poate interpreta. Scara Kelvin
este un exemplu corect în acest sens (Kelvin=273.15+Celsius).
Dacă este să reprezentăm grafic tipurile de scale de măsură, acestea ar arăta ca în
figura 2.2 1.
Prin natura lor datele medicale prezintă o variaţie intrinsecă, biologică ce implică
pentru analiză un studiu specific care face apel la teoria probabilităţilor. Pe lângă
această variaţie există şi modificări ale valorilor reale măsurate, datorate erorilor
generate de metoda metrologică aplicată, cât şi a impreciziei observatorilor.
54
BIOSTATISTICA
Variaţia biologică prezintă interes şi este studiată, iar celelalte variaţii sunt erori ce
trebuie minimizate.
Datorită legăturilor interne şi externe, există în continuare variaţii de tip intra-
respectiv inter- grupuri.
Variabilitate
totală
datelor, prezentarea lor sub formă de tabele, întocmirea unor reprezentări grafice şi
calculul indicatorilor statistici (astfel se extrag primele informaţii). Crearea tabelelor şi
a graficelor ajută la o interpretare mai uşoară a datelor.
Presupunem că avem şirul de date notat: x1, x2, …, xn. Acestea sunt culese în
ordinea realizării experimentale. Tabelul datelor primare reprezintă aceste date în
ordinea culegerii lor.
Este evident că acest tabel conţine o masă dezordonată de valori. Interpretarea lor
este greoaie, de aceea se creează al doilea tip de tabel, anume, tabelul datelor ordonate.
Acesta din urmă oferă mai multă informaţie, mai ales prin ordonarea datelor, dar este
încă greu de interpretat, în special la cantităţi mari de date. O nouă îmbunătăţire este
necesară.
Pentru a evidenţia caracteristicile variabilelor de studiu, se creează un alt tip de
tabel, cu datele grupate în intervale de clasă.
Gruparea termenilor
Pentru a reprezenta datele sub o formă mai restrânsă se foloseşte gruparea
acestora. Aceasta înseamnă crearea unui tabel cu două coloane pentru fiecare variabilă
de interes. În prima coloană se trece intervalul variabilei de studiu, iar în a doua se
trece numărul de apariţii în acel interval.
Intervalele trebuie să fie disjuncte şi consecutive, astfel încât de la valoarea
minimă până la valoarea maximă să fie acoperită toată plaja de valori.
Numărul indivizilor ce aparţin unui anumit interval (sau clasă) formează frecvenţa
absolută a intervalului, notată a1, a2, …, am (unde m este numărul de clase care nu
poate fi decât mai mic sau egal cu n, numărul de indivizi).
m
Avem relaţia: a j n , unde :
j 1
aj – frecvenţa absolută a clasei j.
m – numărul de clase.
n – numărul de indivizi.
56
BIOSTATISTICA
Histograma
Este reprezentarea sub formă grafică, a unor dreptunghiuri cu înălţimea
proporţională cu frecvenţa, iar cu baza egală cu dimensiunea intervalului de grupare.
Există histograme ale frecvenţelor absolute, relative şi cumulate.
57
BIOSTATISTICA
Exemplu
Diagrama cu linii
În locul barelor folosite la histogramă se pot trasa linii verticale ce trec prin
punctele definite de valoarea frecvenţelor reprezentate.
Poligonul frecvenţelor
Este asemănător histogramei. Se trasează punctele corespunzătoare centrului
intervalului şi frecvenţei dorite, apoi se unesc prin linii aceste puncte.
58
BIOSTATISTICA
Exemple
Exemplu
Presupunem că avem de reprezentat diagrama Tukey pentru setul de date grupate
pe clase:
Tabelul 2.4 3 - Diagrama Tukey
Clasa Valori Frecvenţă Diagrama Tukey
1 10; 10; 10,6 3 10. 006
2 11; 11,3; 11,3; 11,5 4 11. 0335
3 12; 12,2; 12,3; 12,3; 12,8; 12,8 6 12. 023388
4 13,3; 13,7 2 13. 37
5 14,5 1 14. 5
Este o metodă ce prezintă în mod compact forma distribuţiei unui set de date. Se
foloseşte cu succes în compararea şi determinarea simetriei repartiţiei definite de un lot
de date (box – cutie, whiskers – mustăţi).
Variabila
studiată 1
2
3
4
5
Figura 2.4 5.
Pentru realizarea graficului se calculează anumiţi indicatori statistici ce reprezintă
cele 5 limite ale figurii din dreapta (folosim noţiunile de mediană, cuartile şi cuantile
definite pentru cazul discret în capitolul următor).
Mediana este valoarea din cadrul şirului ordonat care se află la jumătatea acestuia.
Aceasta împarte setul de date in două grupe egale şi este reprezentată în grafic de linia
notată cu 3.
Limitele 2, respectiv 4 reprezintă valorile cuartilelor. Acestea împart distribuţia
de frecvenţă în patru părţi egale. Astfel în total sunt 3 ca număr. Cuartila a doua este
chiar mediana. Intervalul intercuartilic este definit de distanţa dintre limitele 2 şi 4.
Între acestea se află 50% din setul de date.
Extremele 1, respectiv 5 sunt determinate de - cuantile. De obicei se alege
10% (decile). Astfel, nivelul 5 din grafic va prezenta cuantila pentru care 10%
din date sunt sub această valoare, iar nivelul 1 din grafic va reprezenta valoarea pentru
care 90% din date sunt sub acesta.
Graficul este relevant prin faptul că scoate în evidenţă nivelul de simetrie al
distribuţiei. Dacă distribuţia nu este simetrică, mediana nu se va afla la mijlocul
dreptunghiului (în cele mai multe cazuri). Mai mult, laturile din afara dreptunghiului
nu vor fi de dimensiuni egale.
60
BIOSTATISTICA
Această simetrie este bine să fie verificată, chiar prin teste specifice, deoarece
dacă setul de date este provenit dintr-o distribuţie normală (Gauss-Laplace), atunci
proprietăţi şi metode statistice proprii pot fi utilizate în analiza datelor.
Diagrame de structură
Reprezintă forme grafice construite cu ajutorul dreptunghiurilor sau al sectoarelor
de cerc, care arată proporţia în cadrul eşantionului a anumitor variabile.
100%
Dreptunghi de structura Cerc de structura
90% 15
80% 18 15 13
70%
19 18 17
60%
50% 25
40%
30% 20 20
20% 19
17
10% 25
15
0%
Sunt situaţii în care se doreşte reprezentarea grafică a unui eşantion după mai
multe caracteristici. Se poate apela la spaţiul tridimensional (dacă avem doar trei
dimensiuni) şi prin proiecţia în spaţiul bidimensional se obţine graficul dorit.
Iată un exemplu în care în spaţiul bidimensional se reprezintă mai mult de două
informaţii pe acelaşi grafic. Piramida vârstelor este reprezentarea grafică a distribuţiei
populaţiei pe vârstă, sex şi de asemenea se reprezintă şi proporţia populaţiei active.
Piramida varstelor
populatie
activa
1924
1936
An nastere
1948
1960
1972
1984
-30 -20 -10 0 10 20 30
Femei Barbati mii persoane
61
BIOSTATISTICA
x x 2 ... x n
xi
i 1
Formula de calcul: x 1 .
n n
Media aritmetică ponderată
Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare valorilor x1, x2,
…., xm), atunci media se poate calcula conform formulei:
m
a j x j
a x a 2 x2 ..... a m xm j 1
x 1 1 ,
a1 a 2 ... a m n
sau, folosind frecvenţele relative fj,
m
aj xj m aj m
j 1
x
n
n
xj f j xj.
j 1 j 1
62
BIOSTATISTICA
Exemplu
Mortalitatea în 5 localităţi este de 8‰, 9‰, 9,5‰, 10‰, respectiv 7‰. Numărul
de locuitori este 4000, 6000, 4300, 5000, respectiv 6340.
63
BIOSTATISTICA
Media cronologică
Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale sau anuale).
X1 Xn
X 2 ... X n 1
Formula de calcul: M C 2 2 .
n 1
Exemplu Numărul de gravide aflate în evidenţă la început de an a fost de 106. La
sfârşitul celor 4 trimestre au fost 111, 125, 131 şi 84. O aproximare mai bună a mediei
106 111 125 131 84
pe trimestre este: M C 2 2 115 .
5 1
Media geometrică
Se utilizează în calculul coeficienţilor de creştere medie a valorilor unei serii
cronologice logaritmice, sau a seriilor cu creştere progresivă cu raţie crescătoare. De
exemplu, se foloseşte în calculul ritmului mediu de creştere anuală sau în dinamica
sporului natural al populaţiei.
Media geometrică a unui şir de valori x1, x2, … , xn se notează de obicei cu MG şi
se calculează cu formula:
n
M G n x1 x2 x3 ... xn n xi .
i 1
Prin înmulţirea numerelor se poate ajunge uşor la valori foarte mari. Pentru a nu
depăşi valoarea maximă admisă de computer, se poate folosi următorul artificiu
matematic:
lg x1 lg x2 ...... lg xn 1 n
lg M G lg xi lg xi se calculează media
n n i 1
logaritmului de xi.
Reamintim şi formula de trecere dintr-o bază a logaritmului în alta:
log bc
log ba (ce este utilă în astfel de calcule).
log ca
Media pătratică
Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se calculează
cu formula:
64
BIOSTATISTICA
n
xi 2
i 1
MP x 2 , radicalul din media pătratelor valorilor.
n
Mediana
Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir trebuie să fie
ordonat. Valoarea ce ocupă locul central (independentă de tipul de ordonare
crescătoare sau descrescătoare) se numeşte mediană şi se notează cu Me. Dacă şirul are
un număr impar de valori, adică n = 2k+1, avem :
Me xk 1 x n1 .
2
Dacă şirul are un număr par de valori, deci n=2k, calculăm mediana cu formula:
xk xk 1 xn / 2 xn / 2 1
Me .
2 2
Mediana (indicator robust) este mai puţin influenţată de valorile extreme decât
media şi este mai stabilă la fluctuaţiile de selecţie.
Se utilizează în serii de date de volum mare cu valori apropiate, deci colectivităţi
omogene.
Bimodală Multimodală
Unimodală
a b
f B F C
f1 f2
A E
D
L
0
L1 L2 M0 L3 L4 X
Figura 2.5 2 - Metoda deducerii modului.
Deoarece frecvenţa intervalului determinat de L1, L2 este mai mare decât frecvenţa
intervalului determinat de L3, L4 este normal ca poziţia modului să fie mai apropiată de
primul interval. Evident, intervalul modal este L2, L3. M0 se află la intersecţia dreptelor
BD şi AC.
Triunghiul CEF este asemenea cu triunghiul CAB (deoarece FE este paralelă
cu BA şi vârful C este comun). Avem raportul de asemănare:
f1 a b f b
ab 1 . (1)
FE b FE
Valoarea centrală
Indicatori de variaţie
Valorile medii descriu informaţia într-o formă integrată, exprimând tendinţa de
localizare a datelor prin neprezentarea cunoştinţelor înglobate în lot despre variaţia
existentă. Indicatorii de localizare redau doar o singură trăsătură comună întregii
colectivităţi. Se simte nevoia definirii unor noi indicatori statistici care să evidenţieze şi
alte aspecte ale populaţiei studiate.
Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare numerică a
împrăştierii datelor. Variaţia luată în considerare se poate raporta chiar la valoarea
medie calculată.
Dispersia (varianţa)
Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor faţă de
valoarea medie a şirului de date. Se notează cu 2 sau D[x]. Are următoarea formulă
de calcul (pentru volumul n al eşantionului de valori mari, n>30):
n
x1 x 2
x2 x ..... xn x
2 2 xi x 2
i 1
2 .
n n
67
BIOSTATISTICA
Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …, am, atunci
formula de calcul devine:
a1 x1 x 2 a2 x2 x 2 ..... am xm x 2
2
a1 a2 .... am
m m
ai xi x 2 ai xi x 2
i 1 m
i 1 .
n
ai
i 1
Considerând frecvenţele relative fi, obţinem:
m
ai xi x 2 m m
xi x 2 f i xi x 2 .
ai
2 i 1
n i 1 n i 1
Sunt cazuri în care dispersia trebuie estimată dintr-un eşantion de date. Dacă
volumul eşantionului este mai mic decât 30, atunci se aplică o corecţie formulei de
calcul. În acest caz ajustarea este în sensul că nu se împarte la n ci la n-1 (numit şi
numărul gradelor de libertate).
n n
xi x 2 xi x 2 n n
2 estimat i 1 i 1 2 .
n 1 n n 1 n 1
n
xi x 2
i 1
D[ x] .
n
Ţinând cont de frecvenţele absolute şi relative pe intervale avem:
m
ai xi x 2 m m
ni xi x 2 f i xi x 2 .
i 1 a
n i 1 i 1
68
BIOSTATISTICA
n n n n
xi x 2 xi 2 2 xi x x2
i 1 i 1 i 1
i 1
n n n n
n n
1 n 2
xi x2
xi 2 i 1 x i 1 .
n i 1 n n
n n
xi x2
1 n 2 i 1 i 1 1
Ştiind că xi M P2 , x , n x2 x2,
n i 1 n n n
dispersia devine:
M P2 2 x 2 x 2 M P2 x 2 .
Abaterea pătratică este rădăcina pătratică din diferenţa dintre pătratul mediei
pătratice şi pătratul mediei aritmetice.
Amplitudinea
Este definită ca diferenţa valorilor extreme ale şirului de date studiat şi se notează
cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .
În cazul grupării datelor pe clase se defineşte şi noţiunea de amplitudine a clasei,
notată cu wi (corespunzător clasei i). Această mărime este egală cu diferenţa dintre
valorile extreme ale clasei respective. Cu cât este mai mică valoarea sa cu atât lotul
este mai omogen.
Aspecte negative ale amplitudinii :
- depinde de eşantion, având variaţii pentru fiecare eşantion în parte ,
- nu ţine seama de tipul repartiţie.
Intervalul intercuartilic
Cuartilele (sau cvartilele) împart datele în 4 clase de frecvenţe egale cu 25%.
Astfel, sunt necesare 3 valori Q1, Q2, Q3 care reprezintă cuartilele. Presupunem că
avem o distribuţie a frecvenţelor parametrului x (discret), conform graficului din figura
2.5 3.
Suma frecvenţelor până la limita determinată de Q1 este egală cu suma
frecvenţelor dintre Q1 şi Q2, de asemenea egală cu suma frecvenţelor dintre Q2 şi Q3 şi
în final, egală cu suma frecvenţelor de după Q3. Dacă repartiţia ar fi fost de tip
continuu, această sumă ar fi integrala determinată de limitele notate Qi.
Observaţie
Cuartila Q2 este tocmai mediana Me.
Coeficientul de variaţie
Abaterea pătratică medie se interpretează prin compararea cu media valorilor
studiate. Dacă avem o medie de 100 şi o abatere pătratică standard 5 , atunci avem
mici variaţii, dar dacă avem aceeaşi abatere la o medie de 10, atunci variaţia este foarte
mare. În concluzie, este necesară raportarea abaterii pătratice la valoarea mediei, pentru
a exprima corect împrăştierea datelor. Se defineşte coeficientul de variaţie:
Cx .
x
Acest coeficient este o măsură relativă a variaţiei datelor faţă de medie. Astfel,
indiferent de medie, seturile de date, chiar de natură diferită, pot fi comparate folosind
coeficientul de variaţie.
70
BIOSTATISTICA
Momente
Momentele ajută la determinarea anumitor caracteristici legate de forma (alură)
repartiţiilor, care nu pot fi determinate doar cu indicatorii statistici de localizare sau
variaţie.
Momentele centrate de ordin k (k1):
Se definesc momentele centrate de ordin k în raport cu originea arbitrară A, ca
1 n
mkA x i A .
k
fiind exprimate prin formula:
n i 1
Exprimăm formula în funcţie de frecvenţele absolute ai, respectiv frecvenţele
relative fi şi obţinem:
m m
a j xi Ak a j xi Ak m
f j xi Ak .
j 1 j 1
mkA m
n
a j j 1
j 1
Dacă originea aleasă este tocmai media aritmetică, atunci momentul centrat de
ordin k se va calcula cu formula :
1 n
mk xi x k - momentul centrat de ordin k în raport cu media
n i 1
aritmetică.
În cazul notaţiei momentelor centrate în raport cu media aritmetică nu se mai
afişează în partea superioară a lui m originea de centrare.
Momentul centrat de ordin 2 în raport cu media aritmetică este tocmai dispersia:
1 n
m2 xi x 2 2 .
n i 1
Momentul absolut de ordin k (k1):
Din formula momentului centrat de ordin k în raport cu referinţa A se poate
deduce momentul absolut. Dacă A=0 se obţine momentul absolut:
1 n k 1 m m
mk` xi a j x kj f j x kj , unde:
n i 1 n j 1 j 1
71
BIOSTATISTICA
Demonstraţie
Metoda 1:
1 n 1 n 1 n 1
m1 ( xi x ) xi x x n x x x 0 .
n i 1 n i 1 n i 1 n
Demonstraţie
1 n
Momentul centrat de ordin doi este : m2A ( xi A) 2 .
n i 1
Facem un artificiu de calcul, adăugând şi scăzând valoarea medie.
1 n 1 n
m2A [( xi x ) ( A x )]2 ( xi x ) 2
n i 1 n i 1
2 ( A x) n 1 n
( xi x ) ( A x ) 2 .
n i 1 n i 1
1 n
Conform proprietăţii (1) avem: ( xi x ) m1 0 . Astfel, paranteza a
n i 1
doua are valoarea 0. În continuare obţinem:
1 n 1 n 1 n
m2A ( xi x ) 2 ( A x ) 2 m2 ( A x ) 2
n i 1 n i 1 n i 1
m2 (termen pozitiv ) .
Din ultima formulă tragem concluzia că oricare ar fi A, momentul centrat de ordin
2 cu originea în A este egal cu momentul centrat cu originea în media aritmetică, la
care se adaugă un termen pozitiv. De aici deducem că momentul centrat de ordin 2 cu
originea în media aritmetică este minimul momentului centrat de ordin 2.
Se pot stabili diferite relaţii între momentele absolute şi cele centrate în raport cu
media aritmetică. Iată un exemplu:
m m m m
m2 f i ( xi x ) 2 f i xi 2 2 x f i xi f i x 2
i 1 i 1 i 1 i 1
72
BIOSTATISTICA
2 n
m2` 2 m1` m1` m1` f i
n
i 1
2
m2 m2` m1` .
Dar f i 1
i 1
Asimetrie (skewness)
O distribuţie este considerată simetrică, dacă de o parte şi de alta a mediei,
frecvenţele au aceleaşi valori.
Notăm cu f(xi) – frecvenţa; m – media
Simetria în raport cu media există, dacă pentru oricare R avem
relaţia: f (m ) f (m ) .
În continuare, putem caracteriza asimetria în funcţie de poziţionarea mediei faţă
de modul:
1 – Avem asimetrie la dreapta, dacă x Mo (figura 2.5 4).
2 – Avem asimetrie la stânga, dacă x Mo (figura 2.5 5).
Asimetrie la dreapta
Mo M(x)
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52
Figura 2.5 4.
Pentru a obţine o măsură a asimetriei, statisticianul englez Karl Pearson a definit
indicatorul relativ de asimetrie (acest indicator este adimensional, fiind astfel util
x Mo
pentru a compara distribuţiile între ele): Sk .
xi x
n 2
i 1
O altă formulă echivalentă de calcul este: S k pentru n mare.
n
2
n
x x
i
Dacă n are valori mici se corectează formula astfel: S k i 1 .
n 1
73
BIOSTATISTICA
Asimetrie la stânga
M(x) Mo
1 4 7 10 13 16 19 22 25 28 31 34 37 40
Figura 2.5 5.
Cazuri posibile:
1 – Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta.
2 – Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga.
3 – Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).
În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult de ±1,
denotă o diferenţă semnificativă faţă de distribuţia normală.
În limba engleză cuvântul consacrat este skewness, folosit în programele de
statistică medicală.
2 3 .
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Figura 2.5 6.
74
BIOSTATISTICA
2 3 .
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Figura 2.5 7.
2 3 .
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Figura 2.5 8.
m 4 xi x 2
2 2 3 3 , echivalentă cu: 2 i 1 3 . Pentru valori
4
n 4
mici ale volumului eşantionului se împarte la n-1 în loc de n.
Avem următoarele modalităţi de caracterizare a distribuţiilor:
Mezocurtică 2 3 , 2 0.
Leptocurtică 2 3 , 2 0 .
Platicurtică 2 3 , 2 0 .
75
BIOSTATISTICA
76
BIOSTATISTICA
x2
P Probabilit atea ( x1 X x2 ) f ( x) dx , unde f(x) - este densitatea
x1
de probabilitate (cazul continuu).
x1 , x2 - sunt limitele intervalului ca variabila aleatoare X să ia valori în
intervalul astfel definit, cu o anumită probabilitate.
Reprezentând grafic funcţia densitate de probabilitate obţinem intervalul de
încredere cu nivelul de semnificaţie , desenat în figura 2.6 1.
f(x)
0.45
0.4
0.35
0.3
0.25
0.2
1 0.15 2
0.1
Intervalul
0.05
de încredere
0
-4 -3 x1
-2 -1 0 1 x2
2 3 4
Figura 2.6 1 - Interval de încredere.
77
BIOSTATISTICA
Graficul de mai jos exprimă vizual ideea demonstrată prin teorema limită centrală.
Populaţia de
studiu
Lot Medie
Li 1 M1 Distribuţia mediilor este
2 M2 de tip (Gauss Laplace)
Ln
L1 3 M3
…. …
L7 L2 45 M45
46 M46
….. ….
Eşantion (lot)
extras
n Mn
160 140
147
130 128
140 121 117 121 121 124
113
120
100
80
60
40
20
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More
e
0.
0.
0.
0.
0.
0.
0.
0.
0.
or
M
65
95
2
8
5
5
0.
0.
0.
12
27
42
57
72
87
0.
0.
0.
0.
0.
0.
0.
0.
0.
Observaţii
1 – Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia
mediilor eşantioanelor este normală şi pentru valori mici ale eşantionului.
2 – Media valorilor medii ale eşantioanelor este media populaţie. Aceasta arată că
nu există eroare de deplasare. Matematic putem scrie: M ( X 1 , X 2 ,... X n ) .
3 – Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai mică
decât deviaţia standard a întregii populaţii. Avem astfel: X , n reprezintă
n
volumul eşantionului.
Funcţie de ipoteza pe care o avem de verificat, metoda de calcul se modifică,
fiind dedicată naturii experimentului. Din acest motiv, intervalul de încredere pentru
medie este tratat pe cazuri diferite, în funcţie de informaţia deţinută. Pentru valori mici
ale eşantionului cât şi pentru situaţia în care nu se cunoaşte dispersia, o aproximare de
tip Student a distribuţiei este mai bună.
Cazul 1 – Valoarea dispersiei este cunoscută.
Considerăm o variabilă aleatoare repartizată normal N(,2) pentru care dorim să
estimăm intervalul de încredere pentru valoarea mediei. Avem un set de date de volum
n şi notăm media calculată din datele eşantionului cu X , iar media populaţiei (de
obicei necunoscută) cu .
Evident, dacă am putea analiza întreaga populaţie, atunci media calculată ar avea
valoarea de încredere 100% iar calculul intervalului de variaţie nu ar avea sens,
X .
Vom considera ca eficientă probabilitatea de estimare de 95%, ceea ce înseamnă
pentru o repartiţie normală redusă un interval simetric cuprins între Z1 1,96 ,
respectiv Z 2 1,96 (conform figurii 2.6 7 şi a valorilor tabelate în anexa A ).
Din formula de calcul a probabilităţii avem:
P 1,96 Z 1,96 0,95 1 . (1)
Se poate demonstra (după cum am amintit deja) că dacă avem mai multe
eşantioane dintr-o populaţie normală, media de selecţie este o variabilă aleatoare
repartizată normal N(, 2/n). Pentru a o centra şi normaliza vom aplica formula (se
scade media şi se raportează la dispersie):
x
z . (2)
/ n
Din prima şi a doua formulă putem scrie:
x
1,96 1,96 . (3)
/ n
Dezvoltând în continuare formula 3 obţinem:
x 1,96 x 1,96
n n
80
BIOSTATISTICA
x 1,96 . (4)
n
- se numeşte eroare standard (de eşantion de volum n).
n
P Z1 Z Z 2 1 Z 1
x
Z 2
n
x Z 1 x Z 2 . (6)
n n
Graficul intervalului de încredere pentru repartiţie normală este prezentat mai jos.
81
BIOSTATISTICA
P x Z 1 .
n
Z M[z]=0
t
X , cu n 1 grade de libertate.
S2
n
S - reprezintă dispersia corectată şi se calculează cu formula:
x
n
2
i x
S2 i 1
.
n 1
Asemănător cazului anterior, pentru risc bilateral simetric avem formula de calcul:
x
P t , / 2 t , / 2 1
S n
S S
x t , / 2 x t , / 2 . (7)
n n
S
O scriere compactă a formulei (7) este următoarea : x t , / 2 .
n
82
BIOSTATISTICA
Exemplu
Presupunem ca generăm 120 eşantioane şi ne interesează intervalul de confidenţă
90% pentru medie. Primii trei paşi prezentaţi se realizează relativ uşor, după care
determinăm ordinea din cadrul şirului pentru limitele minimă, respectiv maximă a
intervalului.
Pentru 90% confidenţă rezultă elementele de pe poziţia 5%, respectiv 95%. Pentru
un volum de dimensiune n, calculăm n*5/100, respectiv n*95/100.
În cazul nostru avem: 120*5/100=6, respectiv 120*95/100=114.
Astfel, din şirul ordonat crescător se citesc limita inferioară de pe poziţia 6,
respectiv limita superioară de pe poziţia 114.
Z
1 2 x 1 x2 cu repartiţia N(0,1).
12 22
n1 n2
Din formula de calcul a probabilităţii obţinem:
1 2 x1 x 2
P Z / 2 Z Z / 2 1 Z / 2 Z
/2.
12 22
n1 n2
Sub formă compactă, putem scrie:
1 2 x 1 x 2 Z / 2
12
n1
22
n2
.
t
1 2 x 1 x2 , cu S i2 i2
ni
şi n1 n2 2 grade
S12 S 22 ni 1
n1 n2
de libertate. În final diferenţa mediilor estimată este :
1 2 x 1 x 2 t , / 2
S12 S 22
n1 n2
.
84
BIOSTATISTICA
Observaţie
Determinarea intervalului prin metoda Wald este acceptabilă doar în situaţia în
care este îndeplinită condiţia: n p 1 p 10 .
Dacă ţinem cont de faptul că produsul p 1 p , pentru p reprezentând un
număr pozitiv subunitar, este maxim dacă p=0,5, deducem volumul minim al
eşantionului de lucru.
Avem astfel: n 0,25 10 n 40 .
85
BIOSTATISTICA
86
BIOSTATISTICA
87
BIOSTATISTICA
0,14994
Eroarea standard este tocmai 0,016977 .
n 78
Căutând în tabelul distribuţiei de tip t, pentru un număr de grade de libertate de
78-1=77 şi pentru 95% încredere simetrică avem: t (77;0,05/ 2) 1,9912 .
Avem astfel: t (77;0,05 / 2) 0,033806 .
78
Formula de calcul a limitelor este: X t (77;0,05 / 2) .
n
Obţinem în final: Xmin= 0,926764 respectiv Xmax= 0,994376.
Nivelul de confidenţă, deci valoarea t (ce este x ), poate fi calculat şi
n
folosind funcţia: CONFIDENCE(alfa, deviaţia standard, volum eşantion).
89
BIOSTATISTICA
Test Value = 0
Mean 95% Confidence Interval
t df Sig. (2-tailed) Difference of the Difference
Lower Upper
V1 56.579 77 .000 .960570 .92676 .99438
90
BIOSTATISTICA
Studiile din domeniul medical (şi nu numai) se referă la populaţii de pacienţi sau
cazuri care au anumite caracteristici comune. De obicei elementul colectiv este
determinat de maladia de care suferă persoanele în studiu. Ne interesează să aflăm
valoarea anumitor indicatori statistici cum ar fi media, dispersia sau proporţia
existentă.
Pentru a extrage informaţii despre cazurile cercetate, avem la îndemână
posibilitatea de a trata exhaustiv problema şi a măsura pentru toţi pacienţii parametrii
de interes, sau varianta a doua, să determinăm un lot format dintr-un număr cât mai
mic de cazuri, care să prezinte trăsăturile populaţiei. Lotul astfel definit se numeşte
eşantion de studiu şi trebuie să respecte condiţia de a fi reprezentativ statistic prin
reflectarea proprietăţilor populaţiei sursă.
De obicei, utilizarea întregului volum al populaţiei pentru cercetare este greu sau
chiar imposibil de realizat. Tehnica exhaustivă este mare consumatoare de timp, bani şi
energie. Astfel, necesitatea determinării de metode statistice ce să definească mărimea
cât şi tehnica de alegere a elementelor unui eşantion reprezentativ a devenit de
importanţă capitală.
În statistică sunt dezvoltate metode eficiente de determinare a volumului
eşantionului (numărul de elemente componente) în moduri specifice pentru a obţine
rezultate cât mai reale, de fidelitate cât mai mare.
Iată un exemplu în care putem greşi prin alegerea neatentă a unui eşantion.
91
BIOSTATISTICA
Exemplu
Un exemplu practic poate fi realizat folosind Microsoft Excel. În cadrul acestui
soft avem funcţia RAND(). Aceasta returnează un număr de tip aleator, cuprins între 0
şi 1. Distribuţia este de tip liniar, deci păstrează o probabilitate egală de apariţie pentru
orice valoare din domeniu.
Folosim această funcţie pentru a genera numere aleatoare în domeniul 1,…,N.
Pentru aceasta vom înmulţi funcţia RAND() cu N şi vom alege doar partea întreagă a
rezultatului. Tot în MS Excel avem funcţia INT() care extrage partea întreagă a unui
număr pozitiv prin pierderea zecimalei. Astfel, vom fi nevoiţi să înmulţim cu N+1
pentru a genera numere între 1 şi N.
În figura de mai jos este exemplificată metoda de generare a numărului de ordine
pentru un eşantion de 123 de elemente.
92
BIOSTATISTICA
Exemplu
Folosind programul MS Excel, alegem funcţia MOD(N1, N2). Numărul N1 este
deîmparţitul iar N2 este împărţitorul. Funcţia modulo determină restul împărţirii lui N1
la N2. Dacă N2 este multiplu de N1 atunci restul este 0. Prin urmare, se aleg elementele
pentru care funcţia modulo returnează valoarea 0.
Astfel dacă alegem perioada de 35, atunci N2=35 iar N1 este numărul de ordine din
cadrul listei totale. Elementele din coloana funcţiei modulo de valoare 0 vor fi cele
alese. Acestea pot fi uşor determinate prin ordonare.
Fiecare eşantion al unui subgrup este determinat prin metoda de eşantionare aleatoare
simplă. Volumul fiecărui subgrup este stabilit prin tehnici ce vor fi prezentate în
capitolele următoare.
Şi în această situaţie statistica matematică poate demonstra lipsa erorii de
deplasare în eşantionarea stratificată aleatorie. Chiar mai mult, precizia în determinarea
valorii medie este mai bună decât cea din metoda aleatorie simplă. Tocmai păstrarea
proporţiei aduce această îmbunătăţire a preciziei.
Eşantionarea în ciorchine (cluster – grup, ciorchine)
Elementul selectat în acest caz este un grup. Pentru a realiza un astfel de studiu, de
exemplu într-un oraş, se pot alege prin tehnici aleatorii diferite, blocuri de persoane,
pentru ca apoi pe familii să se completeze chestionarele în cauză.
Avantajul acestei metode rezidă în partea materială, studiul de acest fel fiind
economic. Metoda dă rezultate bune dacă se aplică corect alegerea aleatorie a
ciorchinelor ce definesc eşantionul.
Eşantionarea convenabilă (convenience – avantaj, comoditate)
Eşantionul este ales în acest caz după o metodă arbitrată, uşoară de aplicat,
accesibilă, convenabilă şi rapidă. Se doreşte ca lotul determinat să păstreze proprietatea
de reprezentativitate dar însăşi metoda în sine nu ne garantează acest lucru.
În majoritatea cazurilor aceste loturi ajută doar la crearea unei prime imagini
asupra problemei analizate. Estimările făcute pot prezenta erori mari de deplasare, de
aceea datele astfel culese sunt folosite doar ca studii pilot ce ajută apoi la schiţarea de
noi direcţii de cercetare.
Exemplu
Dacă dorim să intervievăm turiştii dintr-o anumită zonă geografică, vom aplica
chestionare în diferite puncte de atracţie. Dacă limba de comunicare este engleza,
atunci din start am ales doar pe cei anglofoni. Deja o eroare este inclusă în eşantion.
Un alt punct de vedere prezintă problema ţinând cont de puterea financiară a
turiştilor. Dacă punctele de atracţie sunt foarte scumpe, evident doar persoanele cu
putere financiară vor avea acces. Astfel, numărul de chestionare trebuie să fie în
echilibru cu proporţia pe subgrupe a populaţiei.
Chiar şi momentul ales din timpul zilei este important. Ziua anumite centre de
atracţie au căutare iar spre seară, evident, apar alte priorităţi în programul turiştilor.
Eşantionarea prin autogenerare (bootstrap – autogenerator)
Permite crearea de eşantioane din elementele unui lot de studiu. Mai mult chiar,
elementele se pot repeta în cadrul eşantionului. Cerinţa de bază este ca eşantionul sursă
utilizat să fie reprezentativ pentru populaţia analizată.
94
BIOSTATISTICA
Eşantioanele astfel create pot forma o bază de date de studiu, iar tehnicile aplicate
trebuie să fie de tip neparametric, deoarece nu se cunoaşte tipul de distribuţie din care
sunt culese datele.
Exemplu
Presupunem că dorim să producem prin metoda de eşantionare cu autogenerare un
număr de 100 eşantioane de 10 elemente dintr-un lot de 30 de date.
Vom lucra tot în MS Excel, deoarece este un program ce prezintă multiple
facilităţi şi este foarte popular.
95
BIOSTATISTICA
respectiv Z 2 Z 1 .
2
96
BIOSTATISTICA
97
BIOSTATISTICA
Se observă că, faţă de valoarea medie eroarea este simetrică, ducând la atingerea
valorii Xmax, respectiv valorii Xmin, ca limite ale variaţiei posibile.
Din formulele prezentate anterior (formula 1), deducem că valoarea Z
1 n
2
trebuie să fie mai mică decât d (valoare maximă admisă a erorii).
Din această condiţie se poate afla numărul minim n ce defineşte volumul
eşantionului semnificativ statistic:
2
2
Z d , rezultă n Z 2 .
1 n 1 2 d
2
Avem astfel o metodă de calcul al volumului minim necesar eşantionului de
studiu.
Valoarea Z o citim din tabelele statistice, funcţie de nivelul de semnificaţie.
Aceasta este uşor de determinat. Valoarea erorii admise d poate fi decisă de
investigatori în funcţie de cerinţele problemei.
Pentru valoarea dispersiei apar situaţii când aceasta nu se cunoaşte. Dacă avem
studii realizate sau informaţii din tabele medicale putem afla valoarea dispersiei. În
situaţii contrare se realizează mai întâi un studiu pilot pentru determinarea indicatorilor
statistici elementari necesari.
Pentru a avea o imagine asupra numărului de date necesare în cadrul unui eşantion
putem analiza tabelul de mai jos:
1.5 0.107 0.427 0.96 1.707 3.842 6.83 10.67 15.37 20.92 27.32 34.57 42.68
2 0.06 0.24 0.54 0.96 2.161 3.842 6.003 8.644 11.76 15.37 19.45 24.01
2.5 0.038 0.154 0.346 0.615 1.383 2.459 3.842 5.532 7.53 9.834 12.45 15.37
3 0.027 0.107 0.24 0.427 0.96 1.707 2.668 3.842 5.229 6.83 8.644 10.67
3.5 0.02 0.078 0.176 0.314 0.706 1.254 1.96 2.822 3.842 5.018 6.35 7.84
4 0.015 0.06 0.135 0.24 0.54 0.96 1.501 2.161 2.941 3.842 4.862 6.003
4.5 0.012 0.047 0.107 0.19 0.427 0.759 1.186 1.707 2.324 3.035 3.842 4.743
5 0.01 0.038 0.086 0.154 0.346 0.615 0.96 1.383 1.882 2.459 3.112 3.842
98
BIOSTATISTICA
Se poate observa că odată cu creşterea erorii admise d scade valoarea lui n. Cu alte
cuvinte, privind pe coloane de sus în jos volumul scade.
Dacă eroarea admisă este de două ori mai mare decât deviaţia standard, atunci
eşantionul este de volum 1 (0,96). Este si normal, deoarece în intervalul medie
plus/minus de două ori deviaţia standard, se găsesc peste 95% din date pentru
distribuţia de tip Gauss-Laplace. Practic, datele din tabel pentru peste două deviaţii
standard eroare admisă nu-şi au sensul pentru un nivel de încredere de 95%.
Exemplu
Presupunem că dorim să determinăm greutatea la naştere a copiilor dintr-o
anumită comunitate ce prezintă caracteristici specifice (tradiţii, zonă geografică).
Se cunoaşte deviaţia standard dintr-un studiu pilot ca fiind 0,7 . Nivelul de
semnificaţie acceptat este 95%, iar eroarea admisă pentru a putea compara cu valoarea
normală este dedusă de investigatori d 0,2 Kg (ceea ce înseamnă că amplitudinea
Xmax-Xmin=0,4Kg admis).
Pentru 95% încredere, avem 1 0,95 0,05 . Astfel 1 0,975 şi
2
deducem Z (0.975) 1,96 (din tabelul distribuţiei Gauss normalizate).
0,7 2
Putem calcula acum valoarea minimă n 1,96 2 . Obţinem n 47,059 şi
0,2 2
alegem nminim=48.
de proporţia p. Dacă nu cunoaştem această proporţie, atunci ar trebui mai întâi estimată
într-o formă, poate aplicând un studiu pilot pentru a avea o informaţie minimă asupra
ei.
Această formulă de calcul este valabilă pentru o populaţie infinită sau de volum
foarte mare (pentru estimarea corectă a proporţiilor). În realitate, populaţiile au volum
finit. Este normal să se aplice o corecţie matematică în situaţiile finite.
n
Formula corectată a determinării volumului eşantionului: ncorectat ,
n 1
1
pop
unde pop reprezintă volumul populaţiei de studiu (atenţie: populaţie şi nu eşantion).
Putem gândi de exemplu, problema pentru estimarea unei proporţii de bolnavi în
populaţia judeţului Iaşi (care evident este finită). Va trebui să aplicăm corecţia
prezentată pentru volumul eşantionului (se cunoaşte populaţia judeţului Iaşi ca fiind
814 mii de locuitori la 1 iunie 2005).
Ca observaţie, valoarea proporţiei p poate să nu fie cunoscută. S-a menţionat deja
posibilitatea efectuării unui studiu pilot pentru determinarea valorii p. Totuşi p variază
între 0 şi 1, iar produsul p(1-p) are o proprietate remarcabilă.
Figura alăturată prezintă variaţia produsului p(1-p) pe intervalul [0, 1]. Maximul
este pentru p=0,5 şi are valoarea 0,25. Iată o proprietate ce ne ajută foarte mult. Chiar
dacă nu cunoaştem valoarea proporţiei noi putem impune condiţia ca volumul
eşantionului să fie de o anumită dimensiune. Chiar dacă această dimensiune nu este
optimizată, ea este foarte utilă deoarece numărul de date fiind mărit şi încrederea la
rândul ei va fi mai mare.
p(1-p)
0.3
0.25
0.2
0.15
0.1
0.05
0
0 0.125 0.25 0.375 0.5 0.625 0.75 0.875 1
p
100
BIOSTATISTICA
0.2 8.64 15.37 20.17 23.05 24.01 23.05 20.17 15.37 8.64 0
0.3 3.84 6.83 8.96 10.24 10.67 10.24 8.96 6.83 3.84 0
0.4 2.16 3.84 5.04 5.76 6.00 5.76 5.04 3.84 2.16 0
0.5 1.38 2.46 3.23 3.69 3.84 3.69 3.23 2.46 1.38 0
0.6 0.96 1.71 2.24 2.56 2.67 2.56 2.24 1.71 0.96 0
0.7 0.71 1.25 1.65 1.88 1.96 1.88 1.65 1.25 0.71 0
0.8 0.54 0.96 1.26 1.44 1.50 1.44 1.26 0.96 0.54 0
0.9 0.43 0.76 1.00 1.14 1.19 1.14 1.00 0.76 0.43 0
1 0.35 0.61 0.81 0.92 0.96 0.92 0.81 0.61 0.35 0
Exemplu
Presupunem că avem de determinat o proporţie a cărei valori este aproximativ
cunoscută p 0,80 . Cu încredere de 95% să se deducă numărul de date necesare
pentru a nu se efectua o eroare mai mare de 10% în estimarea proporţiei.
Pentru 95% încredere, avem 1 0,95 0,05 . Astfel 1 0,975 şi
2
deducem Z (0,975) 1,96 (din tabelul distribuţiei Gauss normalizate).
Dacă eroarea este de maxim 10% avem d= 0,8 0,1 0,08 (atenţie în definirea
erorii).
2
p 1 p
Calculăm volumul minim al eşantionului de studiu: n Z ,
1 2 d2
2 0,8 1 0,8
n 1,96 , obţinem n=96,04. Alegem astfel n=97 pacienţi.
0,082
Menţionăm că şi softul EpiInfo 3.3.2 2005, poate determina volumul eşantionului
urmând paşii: Utility + StatCalc + Sample Size &Power + Population Survey.
Dacă în studiu am fi avut informaţii despre volumul populaţiei, de exemplu
pop=7600 persoane, atunci valoarea n ar fi trebuit corectată cu formula:
n 96,04
ncorectat 90,13 . Prin aproximare cu majorare la prima
n 1 96,04 1
1 1
pop 1450
valoare întreagă se deduce n=91.
101
BIOSTATISTICA
Observaţie
Dacă nu cunoşteam valoarea aproximativă a proporţiei atunci aproximăm
prin adaos p(1-p)=0,25 şi obţineam n=150,06 ce ajustat ar fi n=151. Astfel, numărul
de pacienţi ar fi fost crescut.
Exemplu
Dorim să determinăm volumul necesar eşantionului pentru a verifica dacă
corelaţia cunoscută c are valoarea 0,7. Se va face apel la valorile standard pentru
nivelul de semnificaţie, respectiv puterea testului.
Avem aşadar 0,05 şi 0,1. Citim din tabelul statistic Z 1 1,65 ,
respectiv Z 1 1,28 .
1 1 0,7
Calculăm F ( c ) ln 0,602 şi în continuare:
2 1 0,7
2
1,65 1,28
n 3 26,68 .
0,602
Aproximăm la primul întreg mai mare şi avem astfel n=27 de date (pentru
corelaţie sunt utilizate perechi de date).
102
BIOSTATISTICA
103
BIOSTATISTICA
104
BIOSTATISTICA
populaţii, atunci în mod generic, putem produce un număr mare de eşantioane iar
diferenţa mediilor acestora va defini statistica de lucru. Avem practic un nou set de
date care respectă o anumită lege de distribuţie ce ne ajută în determinarea
semnificaţiei statistice căutate.
Testele de ipoteză sunt foarte importante deoarece reprezintă o metodă statistică
de decizie bazată pe „cântărirea” cunoştinţelor obiective, prin estimări probabilistice
asupra setului de valori determinate practic.
Erori posibile
După cum s-a prezentat deja, există două ipoteze în testele statistice şi anume
ipoteza nulă notată H0, respectiv cea alternativă notată H1.
Se pot comite în această situaţie două erori :
Eroare de tip I – să se accepte în mod greşit ipoteza alternativă H1, când în
realitate H0 este adevărată.
Eroare de tip II – să se accepte în mod greşit ipoteza nulă H0, când în realitate
H1 este adevărată.
Situaţiile posibile sunt prezentate în tabelul de mai jos.
Tabelul 2.8 1.
Situaţie adevărată
Sistem decizional cu prag Ipoteza H0 este Ipoteza H0 este
adevărată falsă
Acceptare Eroare tip II
Nu există eroare
prin test
Decizie
ipoteză H0
Respingere Eroare tip I
Nu există eroare
ipoteză H0
Este de dorit ca aceste erori să fie cât mai mici posibil. Se cunoaşte că există o
legătură invers proporţională între ele. Putem micşora eroarea dar drept consecinţă,
eroarea de tip II se va mări într-o anumită măsură (fig. 2.8 1). Încercând să scădem
valoarea obţinem o creştere a erorii de tip I. Este clar că efectele sunt contradictorii
şi un compromis trebuie acceptat, funcţie de scopul urmărit.
Parametrii distribuţiilor estimate depind de volumul eşantioanelor cercetate. În
concluzie, pentru a micşora ambele erori şi a elimina pe cât posibil efectul nedorit al
lipsei de informaţie vom folosi volume mari de date care vor duce la scăderea în
special a erorii de tip II. Astfel, vom putea modifica pragul notat d pentru a micşora şi
eroarea de tip I.
Grafic, putem reprezenta problema prin două curbe Gauss-Laplace care se
suprapun pe o anumită porţiune (fig. 2.8 1).
Avem două distribuţii conform celor două ipoteze posibile. Pragul decizional (d)
poate fi ales funcţie de dorinţe. Se observă cu claritate dependenţa invers proporţională
între cele două erori materializate prin suprafeţele respectiv ce reprezintă în fapt
probabilităţi. Dacă deplasăm dreapta de decizie d în stânga, atunci micşorăm suprafaţa
notată , dar mărim suprafaţa ce defineşte eroarea de tip I.
106
BIOSTATISTICA
Cu cât cele două distribuţii se suprapun mai puţin cu atât erorile de decizie sunt
mai mici.
0.05
0
0
9
0.5
1.5
2.5
3.5
4.5
5.5
6.5
7.5
8.5
9.5
10
Figura 2.8 1 – Distribuţiile pentru cele două ipoteze. A este distribuţia ce
susţine H0, B este distribuţia ce susţine H1.
Regiunea de
Regiunea de Regiunea de
acceptare a H0
respingere a H0 respingere a H0
Z
Z
2 Statistica calculată
Praguri corespunzătoare a 2 (t, Z, F, etc.)
95% încredere
Figura 2.8 2 - Regiunea de acceptare/respingere pentru încredere bilaterală
107
BIOSTATISTICA
Funcţia densitate
de probabilitate
Regiunea de
acceptare a H0 Regiunea de
respingere a H0
m1 Z
Statistica calculată
Pragul corespunzător a (t, Z, F, etc.)
95% încredere
1 – Ipoteza H0: media populaţiei este mai mică decât valoarea 0, 0 .
2 – Ipoteza H1: media populaţiei este mai mare decât valoarea 0, 0 .
X 0
Conform formulei probabilităţii avem de verificat: P Z 1 .
n
109
BIOSTATISTICA
X 0
Dacă Z c ( , Z ] , atunci ipoteza H0 se acceptă cu nivel de
n
semnificaţie , sau risc , sau încredere 1-.
În caz contrar, se acceptă ipoteza H1 în defavoarea ipotezei H0.
110
BIOSTATISTICA
Exemplu
Vom folosi un set de date create cu ajutorul computerului şi rezolvăm problema la
modul generic. Considerăm că în cadrul experimentului realizat am obţinut următorul
set de valori:
Tabelul 2.8 2. 12 1,43
Parametrul 13 1,87
analizat (X) 14 1,57
1 1,83 15 1,64
2 1,60 16 1,44
3 1,74 17 1,57
4 1,84 18 1,44
5 1,26 19 1,74
6 1,44 20 1,42
7 1,43 21 1,24
8 1,43 22 1,32
9 1,50 23 1,22
10 1,72
11 1,33
Valoarea calculată 7,90 este mai mare faţă de cea tabelată 2,074 şi decidem că
ipoteza H0 nu este acceptabilă. În concluzie, decidem că există diferenţă semnificativă
statistic între datele experimentale şi valoarea standard normală cunoscută.
112
BIOSTATISTICA
113
BIOSTATISTICA
114
BIOSTATISTICA
Z
V V
X Y x y
.Variabila Z este repartizată normal
V x2 y2
nx ny
N(0,1). Pentru specificaţie bilaterală simetrică regiunea de acceptare va fi:
P Z 2 Zc Z 2 1 , cu nivelul de semnificaţie.
X Y
Pentru medii egale se determină: Zc .
x2 y2
nx ny
Atunci când se calculează Zc şi se respectă relaţia Zc Z 2 , se va accepta
ipoteza H0 cu încrederea P = 1 - . Astfel, putem considera că mediile sunt egale.
Dacă relaţia: Zc Z 2 este respectată, atunci nu putem accepta ipoteza H0 şi în
schimb vom considera mediile ca fiind diferite.
Cazul 3 – Dispersiile x2 , y2 sunt egale de valori necunoscute.
În această situaţie statistica discriminantă urmează o repartiţie Student de forma:
tc
X Y , S x2
x2
nx , S y2
y2
n.
n x 1 S x2 n 1 S y2 1 1 nx 1 ny 1
y
nx ny nx n y
Valoarea calculată se compară cu valoarea tabelată t , 2 , unde:
1 2 n1 n2 2 .
Dacă se respectă relaţia t c t , 2 , vom accepta ipoteza H0, deci mediile se pot
considera a fi egale.
tc
X Y . Această variabilă aleatoare aproximează o lege de distribuţie
S2
S y2
x
nx ny
de tip Student.
115
BIOSTATISTICA
Observaţie
Metodele prezentate reprezintă tehnici statistice matematice optime pentru a
obţine un rezultat cât mai corect. Nu este greşit dacă se aplică cazul general pentru
compararea datelor, de exemplu nu se cunoaşte nimic despre aceste valori (sunt sau nu
perechi, au varianţele egale, sunt normal distribuite). Rezultatul însă va fi determinat
într-o formă aproximativă prezentând lipsă de semnificaţie în anumite situaţii limită,
tocmai prin lipsa de informaţie cuprinsă.
Exemplu
Presupunem că avem două seturi de date înainte şi după tratament iar parametrul
de studiu este glicemia. Dorim să analizăm dacă există diferenţă semnificativă statistic,
ceea ce ar confirma sau infirma eficienţa tratamentului.
Tabelul 2.8 5.
înainte după 12 1.43 1.35
1 1.83 1.34 13 1.87 1.13
2 1.60 1.63 14 1.57 1.27
3 1.74 1.00 15 1.64 1.01
4 1.84 1.45 16 1.44 1.46
5 1.26 1.13 17 1.57 1.01
6 1.44 1.28 18 1.44 1.04
7 1.43 1.08 19 1.74 1.31
8 1.43 1.48 20 1.42 1.11
9 1.50 1.12 21 1.24 1.57
10 1.72 1.53 22 1.32 1.15
11 1.33 1.42 23 1.22 1.30
Este uşor de observat că datele sunt perechi, deci vom aplica testul specific acestei
situaţii.
116
BIOSTATISTICA
Folosind MsExcel
Pentru lansarea testului urmăm paşii : Tools + Data Analysis + t-Test: Paired Two
Sample for Means.
Se completează interactiv datele din figura alăturată.
117
BIOSTATISTICA
Folosind SPSS
Şi în acest program avem posibilitatea de a alege dintre mai multe variante ale
testului t pentru compararea mediilor pe cea convenabilă studiului. În situaţia în care
datele sunt perechi, acestea se introduc pe două coloane conform figurii alăturate.
Pentru lansare se urmează calea: Analyze + Compare Means + Paired Samples T-
Test
118
BIOSTATISTICA
Paired Differences
95%
Confidence
Std. Interval of the Sig. (2-
Pair 1 Std. Error Difference t df tailed)
Mean Deviation Mean
Lower Upper
Înainte -
.25435 .28195 .05879 .13242 .37627 4.326 22 .000
După
Observaţie
Testele de comparaţie au valoare practică în situaţia în care se specifică în mod
direct, diferenţa necesară pentru a accepta ca util procesul de modificare a valorilor
datelor. De exemplu, tratamentul este considerat eficient dacă mediile celor două
populaţii diferă cu cel puţin 0,4 în valoare absolută. Iată Ms Excel are această
posibilitate de a impune verificarea diferenţei minime necesare în calcul.
Verificarea semnificaţiei statistice în cadrul impunerii unei anumite diferenţe între
mediile populaţiilor studiate se poate realiza şi prin studiul intervalului de confidenţă a
diferenţei. Dacă valoarea impusă este cuprinsă în interiorul intervalului, atunci nu
există diferenţă semnificativă statistic.
119
BIOSTATISTICA
testul t). Dacă am avea 10 loturi atunci numărul de teste ar fi combinări de 10 luate câte
10 10!
2, adică C10 2
45 . Un număr destul de mare de variante.
2 (10 2)!2!
Ţinând cont de performanţele actuale ale sistemelor informatice, nu aceasta ar fi
problema. Dacă privim tema în discuţie, în termeni ai probabilităţii de a avea o eroare,
atunci iată că procentul de 5% ar însemna în cazul nostru aproximativ 2 teste greşite
din cele 45 (aşa zisa eroare de tip I este prezentă aici şi constă în a accepta greşit
existenţa diferenţei semnificative între două grupe, când în realitate aceasta nu există).
Ideea de a elimina această posibilă eroare se bazează pe crearea unui singur test
pentru a compara cele m grupe de date simultan.
Prin analiza varianţei numită ANOVA (analysis of variances) se aplică un singur
test, ce respectă o statistică de tip Fisher pentru determinarea semnificaţiei diferenţei
dintre mediile eşantioanelor.
Presupunem că avem m grupe de date, fiecare grup j având nj elemente. Notăm un
element din întregul set de valori cu xij, unde i reprezintă poziţia elementului din grupul
j. Astfel i variază de la 1 la nj, iar j de la 1 la m.
Ipoteza H0 este: 1 2 ... j ... m , iar alternativa,
H1: Există cel puţin două grupe de medii diferite. k, l pentru care k l .
În figura alăturată este prezentată componenţa loturilor de studiu.
x1 x1 x1
x2 x2 x2
… … …
xn1 xnj xnm
Ca ipoteză de lucru, se presupune că fiecare grup de date este distribuit normal iar
dispersiile sunt egale între grupuri. Aceste presupuneri trebuie verificate, altfel testul
ANOVA nu poate fi aplicat.
Numărul total de elemente n poate fi calculat cu formula următoare ţinând cont de
m
cele m grupe : n n j (j este numărul de grupe).
j 1
xij
i, j
Media totală a tuturor valorilor este : x , deci suma tuturor elementelor
n
raportată la numărul total de elemente.
120
BIOSTATISTICA
Putem calcula media totală şi ţinem cont de valoarea mediei fiecărui grup astfel:
Notăm media grupului j cu x j . Acest grup are nj elemente.
nj xj
j
Avem în final media totală: x .
n
Variaţia variabilei aleatoare X de interes este măsurată convenţial în termeni ai
deviaţiei faţă de valoarea medie ( xij x ).
Suma totală a pătratelor deviaţiilor este (total sum of square):
SST xij x 2 .
i, j
Putem scrie suma deviaţiei astfel (adăugăm şi scădem x j ):
xij x xij x j x j x .
Folosind teorema lui Cochran se poate demonstra că prin sumare şi ridicare la
pătrat se păstrează egalitatea: xij x 2 xij x j 2 x j x 2 .
i, j i, j i, j
Ţinând cont că ultima sumă depinde numai de numărul de grupe de comparat (j):
xij x 2 xij x j 2 n j x j x 2 .
i, j i, j j
121
BIOSTATISTICA
SSB SSW
Putem calcula mediile: MSSB , respectiv MSSW .
m 1 nm
MSSB
Statistica Fisher se obţine prin raportul F . Aceasta va avea m-1
MSSW
respectiv n-m grade de libertate.
Pentru interpretare se calculează valoarea F prin raportul prezentat şi se compară
cu valoarea tabelată corespunzătoare gradelor de libertate determinate şi unui nivel de
semnificaţie standard de 5% (0,05). Dacă valoarea calculată este mai mare decât cea
tabelată, rezultă că mediile nu sunt egale şi există cel puţin două grupe cu diferenţă
semnificativă statistic.
122
BIOSTATISTICA
Total 2.096666667 11
Valoarea calculată fiind mai mare decât cea tabelată, deducem că mediile diferă
semnificativ, dar nu cunoaştem efectiv care dintre acestea sunt diferite.
Programele de calcul şi analiză statistică determină şi valoarea semnificaţiei,
notată cu p. Dacă valoarea acesteia este mai mică de 0,05, atunci mediile diferă
semnificativ.
Pentru studiu este indicat a se analiza şi exemplul din capitolul EpiInfo 3.3.2.
123
BIOSTATISTICA
124
BIOSTATISTICA
Acesta este un mod de aplicare a statisticii Chi pătrat. Există şi alte metode de
comparare a frecvenţelor, folosind chiar toate variantele posibile de a combina funcţie
de categorii, variabilele de interes.
125
BIOSTATISTICA
126
BIOSTATISTICA
O E 2
Astfel, valoarea statisticii Chi pătrat devine: calculat
2
E
calculat
2
a E (1,1)2 b E (1,0)2
c E (0,1)2 d E (0,0)2 .
E (1,1) E (1,0) E (0,1) E (0,0)
a d b c N 2 2 N
calculat
2
.
a b c d a c b d
Această corecţie duce la o estimare mai apropiată faţă de valoarea corectă a
statisticii calculate pentru cazul particular al tabelului cu două rânduri şi două coloane.
Menţionăm că pentru df=1 şi semnificaţie standard p=0,05 avem
2 (1 ; 0,05) 3,84 (standard pentru tabele 2x2).
În situaţia în care numărul de date este mic, altfel spus volumul eşantionul este
mic, putem avea valori sub 5 a frecvenţelor aşteptate. Acesta este un prag care arată că
eroarea introdusă în calcul creşte simţitor. În astfel de situaţii se poate aplica testul
127
BIOSTATISTICA
exact Fisher pentru a obţine un rezultat util. Acesta aplică o formulă recurentă care
determină şi valoarea semnificaţiei corespunzătoare, deci pcalculat. În final, comparaţia
se face tot cu 0,05, acceptând sau nu ipoteza testată.
Se pune evident problema dimensiunii eşantionului de studiu. Aceasta se poate
deduce conform metodelor prezentate în capitolul dedicat calculului volumului
necesar. Totuşi în anumite situaţii, pe care noi nu le putem anticipa, se întâmplă ca şi
valorile aşteptate (expected) să se apropie de 0. Studii laborioase au arătat că atât timp
cât valorile frecvenţelor aşteptate sunt mai mari ca 1, testele exacte dau rezultate
corecte (Larntz K, Small-sample comparisons of exact levels for chi-squared goodness-
of-fit statistics. Journal of the American Statistical Association 73, 253-263, 1978.)
V2
categorii 1 2 … q Total
q
1 O(1,1) O(1,2) O(1, j )
j 1
2
V1
… O(i,1) O(i,j)
q
P O(p,q) O ( p, j )
j 1
p p p
128
BIOSTATISTICA
În ambele tabele procentul de supravieţuire este mai bun pentru tratamentul T1,
comparativ cu T2. Mai mult chiar, în stadiul 1 testul este şi semnificativ.
Se observă totuşi că proporţiile de supravieţuire diferă puternic între cele două
stadii. În stadiul 1 proporţia de supravieţuire este peste 50%, iar în stadiul 2 mult sub
50%.
S-a obţinut astfel un rezultat contrar celui obţinut prin compunerea tabelelor.
Situaţia prezintă un caz extrem, rar întâlnit în practică.
Concluzia este clară: Tabelele pot fi sumate într-o formă globală dacă
caracteristicile individuale sunt aceleaşi şi în proporţii asemănătoare.
Trebuie să reţinem că sumarea datelor din tabele individuale pentru o analiză
globală poate anula sau chiar modifica caracteristicile prezente ale populaţiilor.
Riscul, Cota şi Valorile relative
În cadrul studiilor epidemiologice este nevoie să se determine influenţa factorilor
de risc în cadrul anumitor maladii. Testul Chi pătrat prezintă rezultatul verificării
prezenţei dependenţei sau independenţei între două variabile. Acesta nu ne dă
informaţie asupra puterii legăturii, într-o măsură numerică.
Riscul se defineşte ca fiind numărul de cazuri raportate la numărul total de
elemente studiate. Dacă avem un eşantion de 250 de pacienţi, din care 64 s-au
îmbolnăvit pe perioada studiată, putem determina riscul ca fiind 64/250=25,6% (este o
noţiune similară incidenţei dacă sunt implicate cazuri noi).
Putem crea două populaţii, în sensul grupării după criteriul factor de risc prezent,
respectiv factor de risc absent. Avem astfel posibilitatea de a determina frecvenţele
absolute prezentate în tabelul următor.
Tabelul 2.9 8.
Maladie
Prezentă Absentă Total
Prezent a b a+b
Factor
Absent c d c+d
Total a+c b+d n
Riscul relativ este utilizat în studii de cohortă, în care persoanele care sunt expuse
sau nu unui factor de risc sunt urmărite în timp (studiu prospectiv) pentru a vedea care
este legătura cu maladia studiată. Acest indicator reprezintă o măsură a asocierii dintre
factorul de risc şi afecţiunea analizată.
130
BIOSTATISTICA
Riscul relativ, notat de obicei cu RR, este raportul între frecvenţa de apariţie a
cazurilor în cadrul populaţiei supusă factorului şi frecvenţa de apariţie a maladiei în
populaţia în care factorul de risc nu este prezent.
a
( a b)
RR . După formula de calcul, observăm că domeniul de variaţie este
c
c d
cuprins între 0 şi valori pozitive foarte mari (acceptăm că valorile a,b,c,d sunt diferite
de 0).
În situaţia în care riscul relativ este 1, putem afirma că factorul luat în considerare
nu are efect asupra frecvenţei de apariţie a maladiei. Deci nu există legătură între
variabilele studiate.
Valori mai mari ca 1 indică o creştere a frecvenţei pentru cazurile cu factor
prezent, ceea ce generează un efect negativ. Factorul implicat conduce la creşterea
frecvenţei de îmbolnăvire.
Valori mai mici decât 1 arată că factorul are efect pozitiv, benefic, ducând la
scăderea frecvenţei de apariţie a maladiei.
Fiind determinat din eşantioane de analiză, riscul relativ prezintă o incertitudine în
măsurarea punctuală. Pentru a avea o anumită încredere în studiu, este nevoie să se
lucreze cu o anumită probabilitate. În forma standard de 95% încredere (deci
semnificaţie de 5%), se poate determina intervalul de variaţie al riscului. Semnificaţia
legăturii posibile între factor şi maladie este legată de prezenţa în intervalul calculat a
valorii 1, valoare ce arată că factorul nu are efect asupra frecvenţei de apariţie a
maladiei.
În concluzie, factorul are influenţă asupra prezenţei maladiei doar dacă intervalul
de confidenţă a riscului relativ nu cuprinde valoarea 1. Astfel, testul este considerat
semnificativ statistic. Menţionăm că valoarea riscului relativ poate fi sau nu mai mare
ca 1. Valoarea 1 este considerată de referinţă, deoarece funcţie de aceasta se deduce
semnificaţia statistică a legăturii posibile între variabile.
Iată avem un exemplu generic de determinare a riscului relativ, în situaţia
îmbolnăvirilor de cancer de plămân, raportat la factorul de risc, cunoscut ca fiind
fumatul.
Tabelul 2.9 9.
Cancer plămân
Prezent Absent Total
Da 121 243 364
Fumător
Nu 41 727 768
Total 162 970 1132
121
(121 243)
Conform formulei de calcul avem: RR , RR=6,23.
41
41 727
Calculând şi intervalul de confidenţă obţinem: 4,47 <RR< 8,67.
131
BIOSTATISTICA
20
15
10
0
0 0.2 0.4 0.6 0.8 1
Probabilitatea P(e)
Figura 2.9 1.
Putem reprezenta grafic cota şi observăm o variaţie de la 0 până la valori foarte
mari, funcţie de probabilitatea P(e).
Pentru tabelul iniţial avem formulele de calcul:
Cota 1 (factor prezent) = a/b ; Cota 2 (factor absent) = c/d (folosind tabelul 2.9 8).
ad
Raportul cotelor (odd ratio) OR . Ca şi riscul relativ, acest raport poate
bc
varia între 0 şi valori foarte mari.
Asemănător cazului precedent, intervalul de confidenţă pentru raportul cotelor
este caracterizat de prezenţa sau nu a valorii 1. Există semnificaţie statistică şi prin
urmare, legătură între proporţiile determinate de factorul de risc, dacă acest interval de
confidenţă nu conţine valoarea 1. În caz contrar, înseamnă că proporţiile sunt egale şi
factorul studiat nu are efect asupra proporţiilor îmbolnăvirilor.
Dacă tabelul precedent cu valori numerice ar reprezenta date culese dintr-un
studiu caz-martor, atunci raportul cotelor ar fi util de determinat.
132
BIOSTATISTICA
a d 121 727
OR 8,82 .
bc 243 41
Interpretarea este formulată astfel: şansele de a se îmbolnăvi de cancer la plămâni
sunt de 8,82 ori mai mari la fumători faţă de nefumători.
Ca observaţie generală, atât riscul relativ cât şi raportul cotelor exprimă în esenţă
aceeaşi caracteristică a datelor. Dacă riscul relativ prezintă semnificaţie statistică este
de aşteptat ca şi raportul cotelor să respecte aceeaşi regulă. Dacă riscul relativ este
supraunitar (sau subunitar), la fel va fi si raportul cotelor. Practic sunt două forme ce
prin calcul aduc în atenţia noastră valori numerice ce arată proporţional intensitatea
asocierii existente.
Exemplu de calcul folosind programul SPSS
Presupunem că dorim să realizăm un studiu de verificare a existenţei diferenţei
semnificative între două tratamente (T1, T2) din punct de vedere a frecvenţei de deces.
Creăm două variabile numite Tratament, respectiv Deces. Codificăm cu 1,
respectiv cu 2 cele două tratamente, apoi cu 1 decesul iar cu 2 supravieţuirea.
Codificarea este la liberă alegere, totuşi datele în tabelul de contingenţă sunt ordonate
după valoarea numerică utilizată. Astfel, este bine să codificăm evenimentele în
ordinea în care dorim să fie afişate.
După introducerea datelor, alegem pentru analiză Analyze + Descriptive Statistics
+ Crosstabs….
133
BIOSTATISTICA
Pentru a realiza calculul semnificaţiei prin metoda Fisher vom bifa opţiunea Exact
+ Monte Carlo. Aceasta este utilă în situaţia în care o valoare aşteptată calculată este
mai mică decât 5. Metoda Fisher calculează exact valoarea nivelului de semnificaţie.
Putem impune atât afişarea valorilor aşteptate cât şi a procentelor pe linii sau
coloane.
SPSS este un program de statistică performant, permiţând setarea din grupul
Statistics… a diferite teste suplimentare care evaluează şi puterea legăturii dintre cele
două variabile.
Obţinem astfel tabelul de contingenţă prezentat mai jos, cât şi tabelul cu valorile
statisticilor calculate.
În cazul nostru, toate valorile de semnificaţie sunt mai mari ca 0,05, de unde
deducem că ipoteza nulă este adevărată, deci nu există legătură sau relaţie între
frecvenţele de deces şi tratamente. Putem spune că tratamentele nu diferă semnificativ
din punct de vedere al decesului.
134
BIOSTATISTICA
În situaţia în care am studia riscul sau cota, în cadrul programului SPSS s-ar fi
calculat atât riscul relativ, cota relativă, cât şi intervalele de confidenţă pentru corecta
interpretare şi comparare faţă de valoarea 1.
135
BIOSTATISTICA
Analiza datelor este prezentată în tabelul 2.9 13. EpiInfo calculează raportul
cotelor (Odds Ratio) cât şi limitele de confidenţă (cu 95% încredere), riscul relativ
(Risk Ratio) şi limitele de confidenţă ale acestuia iar în final, valoarea statisticii Chi
pătrat prin diferite metode şi corespunzător nivelul de semnificaţie.
Limitele intervalului de confidenţă ale raportului cotelor cât şi ale riscului relativ
cuprind valoarea 1 (acestea sunt calculate prin diferite metode cum ar fi seriile Taylor
sau metoda Fisher). Putem astfel decide că nu există asociere între tratament şi numărul
de decese. Tratamentele pot fi considerate asemănătoare.
Era şi de aşteptat, atât prin analiza riscului relativ a raportului cotelor cât şi prin
utilizarea statisticii Chi pătrat se obţine acelaşi rezultat.
136
BIOSTATISTICA
Regresia liniară
Tabelul 2.10 1.
X: x1 x2 …. xn
Y: y1 y2 … yn
137
BIOSTATISTICA
138
BIOSTATISTICA
n
n yi b xi
n a b x y 0 a i 1
Y b X , (1)
i 1
i i
n
n
(a xi b xi2 xi yi ) 0. (2)
i 1
Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.
Y b X xi b xi2 xi yi
n n n
0 . (3)
i 1 i 1 i 1
n
n xi
i 1
Ne folosim de formula: xi
n
n X n. (4)
i 1
Înlocuim (4) în (3) şi avem:
n n
Y n X b n X 2 b xi2 xi yi 0 .
i 1 i 1
n
n X Y xi y i
i 1
Extrăgând pe b obţinem: b . (5)
n
n X 2
xi2
i 1
Valoarea lui a se calculează conform celor demonstrate cu formula:
a Y b X . (6)
În concluzie s-au dedus parametrii dreptei: y = a + bx.
139
BIOSTATISTICA
Dacă valoarea lui b este pozitivă atunci dependenţa între cele două variabile
aleatoare este direct proporţională. Astfel, o creştere a variabilei x va duce la o creştere
a variabilei y, respectiv o scădere a variabilei x va duce la o scădere a variabilei y.
Dacă valoarea parametrului b este negativă atunci dependenţa între cele două
variabile aleatoare este invers proporţională. Variaţia într-un anume sens a variabilei x
va duce la o variaţie în sens contrar a variabilei y.
Cazul în care nu există dependenţă între cele două variabile x, respectiv y se
obţine pentru b=0. Oricât am modifica variabila x, atunci y va rămâne constant y = a.
Panta dreptei reprezintă variaţia variabilei dependente y, pentru o creştere sau
descreştere a predictorului (x) cu o unitate.
Avem formula dreptei de regresie: y = a + bx.
Creştem valoarea lui x cu o unitate, x x 1 .
Noul y va fi y1 = a + b (x+1) = a + bx + b.
Se observă că diferenţa dintre y şi y1 este egală cu b.
i i
Y Yˆ reprezintă
2
Primul termen: i i variaţia datelor în jurul dreptei de
i
regresie. Această variaţie nu este dorită fiind considerată o eroare. Este notată SSE
(Error Sum of Square).
Yˆ Y
2
Al doilea termen, i exprimă deviaţiile faţă de medie ale valorilor
i
estimate. Este suma diferenţelor faţă de medie ale valorilor determinate prin regresie.
140
BIOSTATISTICA
Acestea sunt exprimate de modelul creat. Este notat prescurtat SSR (Regression Sum of
Square).
Obţinem astfel: SST = SSE + SSR.
SSR
Raportul notat r 2 se numeşte coeficient de determinare şi reprezintă
SST
pătratul coeficientului de corelaţie ce va fi discutat într-un capitol următor.
Definirea mediilor sumelor pătratelor diferenţelor ce exprimă eroarea şi regresia
se realizează prin determinarea gradelor de libertate.
Gradele de libertate notate df (degree of freedom) exprimă dimensiunea necesară
unui spaţiu de lucru. Este numărul de date independente. De exemplu, daca avem o
condiţie de minimizare a erorii, atunci din numărul total de date n, condiţia de minim
va scădea gradele de libertate cu 1. Gradele de libertate definesc un parametru
aparţinând unei statistici (statistica Fisher de exemplu).
Avem astfel: SSR este caracterizată de df=1, SSE de df=n-2 şi SST de df=n-1.
Putem calcula mediile:
SSR SSE
MSR , MSE . (8)
1 n2
MSR
Raportul notat F este o statistică de tip Fisher care prin nivelul de
MSE
semnificaţie determinat (notat p), ne dă informaţia cheie asupra modelului regresional
determinat. Dacă valoarea semnificaţiei este p<0,05 deci sub 5%, atunci modelul liniar
dezvoltat este util in predicţie.
Iată un exemplu în care tabelul de analiză a varianţei în situaţia regresiei liniare
este realizat prin softul de statistică (poate fi SPSS, Statistica sau în Ms Excel).
141
BIOSTATISTICA
Pe rândul următor sunt datele cu privire la suma erorilor (reziduu), SSE, MSE. Cu
cât acestea sunt mai mici cu atât şi erorile sistemului sunt mai mici iar modelul prezintă
un grad mai mare de încredere.
În continuare se prezintă valoarea statisticii Fisher şi corespunzător nivelul de
semnificaţie. Dacă avem p sub 0,05 deducem că dreapta de regresie aproximează bine
datele noastre. Dacă avem p calculat peste 0,05 dar sub 0,1 (10%), putem deduce că
variabila independentă are o anumită influenţă asupra celei dependente dar nu în
totalitate. Putem adăuga date noi sau cerceta şi influenţa altor variabile în sistem.
În final avem datele necesare modelului deci constanta a = Yintercept şi panta b, ce
are valoarea 0,157 pentru datele prezente studiate.
Aşa cum am calculat şi utilizat statistica F şi nivelul de semnificaţie corespunzător
întregului sistem, putem calcula pentru coeficienţii dreptei de regresie a şi b statistica t
şi nivelul de semnificaţie. Acestea ne ajută la verificarea diferenţei faţă de valoarea
nulă. De asemenea, sunt prezente limitele minimă şi maximă de variaţie a acestor
coeficienţi cu încredere de 95%. Dacă aceste limite cuprind valoarea 0 (zero), atunci nu
există semnificaţie statistică şi ipoteza nulă este acceptată.
Observaţii
1 – În cazurile practice variabilele x şi y pot să nu fie distribuite normal. Acest
neajuns poate fi corectat prin aplicarea unor transformări cum ar fi logaritmarea pentru
a transforma distribuţia în forma gausiană. Evident, vom avea grijă la interpretarea
corectă a rezultatelor (deci a pantei şi a termenului liber).
2 – Atât a cât şi b sunt deduse din eşantioane. Aceşti parametri aşadar, reprezintă
variabile aleatoare. Astfel se poate construi un interval de încredere pentru cele două
necunoscute a şi b.
Y y=a+bx
amax
1
amin
2 X
Figura 2.10 2 - Reprezentarea grafică a suprafeţei de regresie.
142
BIOSTATISTICA
143
BIOSTATISTICA
Y Y
X X
x i x yi y
r i 1
.
n n
x x yi y
2 2
i
i 1 i 1
Această formulă de calcul poate fi aplicată doar în cazul a două variabile aleatoare
repartizate normal.
Testarea coeficientului de corelaţie
Este important să putem afla dacă variaţia cu încredere de 95% a acestui
coeficient cuprinde sau nu valoarea nulă. Cu alte cuvinte trebuie să răspundem la
întrebarea privind diferenţa semnificativă a coeficientului de corelaţie faţă de valoarea
nulă.
Ştim că în orice experiment sau proces intervine factorul de tip aleator ce implică
existenţa unei variaţii în valoarea indicatorilor statistici. Dorim să vedem dacă această
144
BIOSTATISTICA
variaţie implicită este depăşită în cazul nostru, ceea ce ar indica existenţa reală a unui
efect pe care de fapt îl căutăm şi îl studiem.
Se demonstrează că următoarea funcţie respectă o distribuţie de tip t (Student):
n2
t r . (10)
1 r2
Verificăm ipoteza nulă H0: 0 prin distribuţia menţionată ştiind că este
caracterizată de n-2 grade de libertate (n este numărul de date din eşantion – volumul
eşantionului).
Dacă valoarea calculată pcalculat este mai mică decât 5%, avem semnificaţie
statistică, deci coeficientul de corelaţie este diferit de 0 antrenând existenţa unei
anumite relaţii între variabile.
A doua metodă de interpretare face apel efectiv la valoarea statisticii t calculate cu
formula 10. Dacă această valoare este mai mare ca cea tabelată corespunzătoare unui
număr de grade de libertate n-1 şi unei încrederi bilaterale de 95%, atunci avem
semnificaţie statistică.
Exemplu
Pentru datele a căror analiză ANOVA a fost prezentată anterior se obţine
r = 0,441 iar volumul eşantionului este n=16 valori.
16 2
Calculăm valoarea statisticii t , t 0,441 1,838 .
1 0,1945
Din datele tabelate ale statisticii t, pentru încredere bilaterală 95%, deci risc
5% şi n-2=14 grade de libertate obţinem valoarea t 0,05 2,145 .
, 14
2
Valoarea calculată 1,838 este mai mică decât cea tabelată 2,145 ceea ce denotă că
variaţia întâlnită se încadrează în domeniul acceptat, deci nu există diferenţă
semnificativă statistic. Cu alte cuvinte putem afirma cu încredere de 95% că valoarea
coeficientului de corelaţie poate fi nulă. Aceasta înseamnă că relaţia exprimată prin
valoarea punctuală r = 0,441 este rezultatul hazardului.
145
BIOSTATISTICA
A,B
A B
1
A,B
A B
1
Dacă valoarea coeficientului de corelaţie este 0, atunci cele două drepte fac un
unghi de 900 (sunt perpendiculare).
146
BIOSTATISTICA
Modele parabolice
Parabola este exprimarea variabilei dependente faţă de variabila x la puterea a
doua, conţinând eventual un termen liber şi eventual un termen x la puterea întâi.
Expresia matematică este: y = a + b x + c x2 .
Folosind forma logaritmică putem avea următoarele exprimări :
y = a + b lg(x) + c (lg(x))2,
lg(y) = a + b x + c x2,
lg(y) = a + b lg(x) + c (lg(x))2.
Forma grafică a parabolei y = a + b x + c x2 este prezentată în figura următoare.
Y
M
C>0
m C<0
X
0
Figura 2.11 1 - Regresii parabolice
147
BIOSTATISTICA
Modele hiperbolice
Există modele în cadrul fenomenelor reale biologice care pot lua o formă
b
hiperbolică. Exprimarea matematică este: y a , pentru x > 0.
x
Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte cazuri).
Pentru b < 0 avem dependenţă crescătoare, curba tinzând asimptotic la valoarea a
(y = a ) pentru x tinzând la infinit. Pentru b > 0 avem dependenţă descrescătoare şi
curba tinde asimptotic tot la valoarea a pentru x tinzând la infinit.
Reprezentarea grafică a hiperbolei este realizată în figura următoare:
Y
b>0
b<0
X
0
Figura 2.11 2 – Regresii hiperbolice
Există mai multe modele hiperbolice, dintre care menţionăm:
1 1 ax b
y , y , y .
a b x b x
a
x
Model exponenţial
Funcţia de tip exponenţial are forma matematică următoare:
y a e bx , cu x , .
Pentru x = 0 se obţine y = a, iar toate curbele au un punct comun anume A (0, a).
Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficientul b < 0
se obţine o curbă descrescătoare.
Y
b<0 b>0
A(0,a)
X
0
Şi în acest caz pentru aflarea coeficienţilor ,,ai” se aplică metoda celor mai mici
pătrate (descrisă la regresia liniară cu o singură variabilă).
149
BIOSTATISTICA
Exemplu
Se prezentă în continuare o metodă liniară de estimare (predicţie) a indicelui de
rezistenţă a muşchiului respirator PEmax (cm H2O) în funcţie de variabilele
independente (predictoare), înălţime (cm, notată H) şi greutate (kg, notată G).
PE max = a0 + a1 H + a2 G.
Prin calculul coeficienţilor ,,ai” se obţine:
PE max = 47,36 + 0,146 H + 1,025 G.
Având această relaţie prin măsurarea înălţimii şi greutăţii unei persoane putem
estima valoarea PE max cu o eroare acceptabilă.
Astfel, efectul pe care îl are variabila x1 depinde de prezenţa variabilei x2. Evident,
interpretarea coeficienţilor de regresie este diferită tocmai datorită modificărilor
existente (cunoscută în literatură cu numele de effect modifications – un factor
influenţează efectul altora).
Tabelul 2.11 1.
Sursa de Suma Gradele de Media Statistica Valoarea
variaţie pătratelor libertate (df) pătratelor Fisher semnificaţiei
SS p
Regresie SSR n (nr. de variabile MSR = SSR / n F = MSR/MSE p
independente)
Eroare SSE m–n–1 MSE = SSE /
(reziduu) ( m – n – 1)
Total SST m – 1 (m volumul
eşantionului)
SSR
Se poate calcula de asemenea coeficientul de determinate R 2 . Acesta
SST
înmulţit cu 100 arată procentul din variaţia variabilei dependente explicat de factorii ce
au fost incluşi în calcul.
Cu cât valoarea SSR este mai mare cu atât modelul „explică” mai bine variaţiile
ieşirii.
Cu cât SSE este mai mic cu atât erorile sunt mai mici şi modelul propus este cu
atât mai bun.
Se pune problema verificării influenţei asupra întregului model a unui nou factor
adăugat. Dacă efectul este semnificativ statistic în predicţia variabilei dependente, acest
nou element va fi acceptat în formula de calcul.
Ipoteza nulă este: Noul factor xi , nu are efect asupra variabilei dependente faţă
de modelul fără xi.
Astfel, coeficientul ai poate fi considerat nul, deci ipoteza nulă devine Ho: ai = 0.
aˆ i
Pentru aceasta se foloseşte statistica t . Aceasta este de tip Student iar
SE aˆ i
prin SE înţelegem eroarea standard (notarea â i se foloseşte pentru a specifica că
variabila sau parametrul este dedus din datele experimentale deci conţine o eroare).
Numărul de grade de libertate este df = m – n – 1 (m – volumul eşantionului, n –
numărul de variabile din model).
151
BIOSTATISTICA
Calculăm astfel suma pătratelor deviaţiilor de regresie SSR1, respectiv SSR2 pentru
modelul 2.
Media diferenţei va fi : MDR = (SSR1-SSR2)/k.
Statistica Fisher se calculează prin: F = MDR / MSE, unde MSE este media
sumelor pătratelor deviaţiilor pentru sistemul 1 (sistemul „mare”, cu toate variabilele).
Numărul de grade de libertate este n respectiv m – k – 1, F (k , m n 1).
S-a respectat notaţia: n este numărul total de variabile, k este numărul de variabile
din grupul de test, m este volumul eşantionului.
Interpretarea se face la fel ca în exemplele precedente, ţinând cont de nivelul de
semnificaţie calculat, p.
Dacă p < 0,05, atunci setul de k variabile testate este util în sistem.
Pentru a alege din totalul variabilelor pe cele semnificative, se poate aplica testul t
(sau Student - descris anterior) de verificare a diferenţei faţă de 0 a coeficientului de
regresie corespunzător. Se calculează pentru fiecare factor implicat în studiu nivelul de
semnificaţie şi se selectează variabila cu cea mai mare influenţă.
În continuare se verifică întregul model cu noua variabilă, comparativ cu modelul
precedent prin analiza varianţei (testul Fisher – deja prezentat).
Mai există şi procedeul regresiei folosind paşii inteligenţi (stepwise regression
procedure), ce permite reevaluarea modelului la fiecare pas şi adăugarea sau
eliminarea factorilor ce devin nesemnificativi.
Programele dedicate de statistică au aceşti algoritmi implementaţi (SPSS, SAS,
STATISTICA).
153
BIOSTATISTICA
Regresia logistică
Până în acest moment regresia a fost aplicată variabilelor cantitative care puteau
lua valori reale într-un anumit interval (de exemplu, înălţimea poate fi cuprinsă între
1,55 m şi 1,95 m în majoritatea cazurilor).
Există multe situaţii în medicină, farmacie în care variabila de interes nu mai este
continuă şi prezintă doar două valori atributive (este deci binară sau dicotomică).
Acestea sunt de obicei răspunsuri de genul ,,da” sau ,,nu”; ,,adevărat” sau ,,fals”.
Pentru a lucra cu variabile de acest fel se foloseşte o metodă matematică specifică
numită regresie logistică. Aceasta ne ajută în estimarea proporţiei indivizilor cu o
anumită caracteristică dintr-o anumită populaţie. Astfel, vom căuta să determinăm
probabilitatea de a avea evenimentul notat ,,da” sau evenimentul notat ,,nu”.
Raportul dintre probabilitatea de a observa un fapt şi cea de a nu-l observa se
p
numeşte cotă (odds), cota . Logaritmul natural din această cotă defineşte
1 p
funcţia numită logit, folosită în regresie logistică.
În regresia multiplă liniară rezultatul final este o mărime continuă pe un anumit
interval, funcţie de domeniile de definiţie ale variabilelor ,,xi”. Proporţia subiecţilor cu
o anumită caracteristică este o valoare cuprinsă între 0 şi 1. În concluzie ne trebuie o
funcţie matematică care să realizeze conversia din domeniul [0,1], într-un interval de
lungime maximă, în general de la (-, +). Aceasta este motivaţia folosirii funcţiei
logit.
p
Formula de calcul este următoarea: logit(p) ln , unde:
1 p
p reprezintă probabilitatea realizării evenimentului de interes.
1-p reprezintă probabilitatea realizării evenimentului opus.
Probabilitatea p, variază între 0 şi 1 iar funcţia logit are codomeniul (- , + ).
Regresia logistică se bazează pe formula:
p
logit ( p) ln a0 a1 x1 .... a n xn .
1 p
Coeficienţii ao,…,an se deduc prin metode matematice specifice folosind un calcul
laborios care se realizează doar cu ajutorul computerului.
Dacă exprimăm probabilitatea p funcţie de factorii xi, atunci avem:
1
p f(x 0 , x1 ,...x n ) , aceasta este numită funcţia logistică
1 exp - ai xi
i
şi este diferită în mod evident de funcţia logit.
Funcţia logistică face conversia din domeniul (- ,+), ca posibil de variaţie
pentru variabilele xi, în domeniul probabilităţii unui eveniment, deci [0,1].
154
BIOSTATISTICA
Prob(Y)=
1
0 X
Variabila Y poate avea numai două valori acceptate, „Adevărat” sau „Fals”, „Da”
sau „Nu”, „Prezent” sau „Absent”, „Sănătos” sau „Bolnav”, „Pozitiv” sau „Negativ”.
Aceasta este caracterizată de probabilitatea de realizare a unor asemenea evenimente
modelate matematic prin funcţia logistică.
155
BIOSTATISTICA
m m
Pr(Y j ) p j 1 p m j , unde Cmj sunt combinări de m luate
j j
m m!
câte j: ; p este probabilitatea de realizare a evenimentului (este ).
j j!m j !
Aceasta se numeşte funcţia probabilitate de masă (probability mass function).
Variabila Y este caracterizată de medie şi varianţă. Pentru cazul binomial avem:
media= E (Y ) m iar varianţa este Var (Y ) m 1 .
Pentru determinarea coeficienţilor se aplică metoda verosimilităţii maxime
(prezentată detaliat în anexă).
Funcţia de verosimilitate (notată L) este produsul probabilităţilor pentru toate
elementele din eşantion.
n
L Pr( yi ) . Probabilitatea se calculează cu funcţia probabilitate de masă în
i 1
care p este funcţia logistică. Se pune condiţia de maxim (derivata de ordinul întâi egală
cu 0) pentru verosimilitate maximă şi se ajunge la un sistem având ca necunoscute
coeficienţii de regresie a0, a1, …,an.
Programele actuale de statistică deduc aceşti coeficienţi ce exprimă legătura
căutată.
156
BIOSTATISTICA
'
C
Obţinem: 1 exp( a1 ) . Interpretarea este evidentă. Exponenţiala unui coeficient
C1
al regresiei logistice reprezintă raportul cotelor pentru creştere cu o unitate a valorii
variabilei independente.
Exemplu
Se studiază influenţa fumatului, a obezităţii şi a sforăitului asupra hipertensiunii.
Practic, problema se rezumă la a estima în prima etapă prin regresie multiplă logistică
influenţa asupra cotei logaritmate (ln(C)) realizată de factorii fumat, obezitate şi
sforăit.
Se deduc coeficienţii de regresie conform formulei:
p
Logit (p) = ln = – 2,379 + 0,685 F + 0,694 O + 0,871 S , unde:
1 p
F - reprezintă faptul că persoana fumează sau nu (poate fi 0 sau 1).
O - indică prezenţa obezităţii (este variabilă binară, poate fi 0 sau 1).
S - reprezintă prezenţa sforăitului (variabilă binară, poate avea valorile 0 sau 1).
157
BIOSTATISTICA
Introducere
Dacă avem de studiat eficienţa unui tratament asupra unei maladii în fază
terminală, variabila de interes este perioada de supravieţuire a pacientului. În principiu
se pot folosi metodele statistice standard de calcul şi estimare a mediei de
supravieţuire, a medianei sau se pot realiza comparaţii între aceşti indicatori pentru
diferite loturi studiate.
Apar totuşi unele aspecte specifice procesului de analiză în timp a datelor.
1 – O parte din pacienţii care iniţial au fost incluşi în studiu vor fi pierduţi pe
parcurs datorită cauzelor obiective (pierderea contactului cu persoana prin diferite
forme: schimbarea adresei, abandon; deces din alte cauze sau terminarea studiului şi
neapariţia evenimentului analizat). Acestea sunt cunoscute drept date cenzurate (sau
eliminate) şi sunt utile până în momentul înlăturării din studiu.
2 – Putem înrola în cercetare noi pacienţi ce apar pe perioada definită de analiză.
Aceştia la rândul lor aduc un aport de informaţie care ajută la eliminarea indeciziilor
existente.
Metodă
Analiza supravieţuirii trebuie interpretată în mod corect ca o analiză în timp a
realizării evenimentului. Funcţia de supravieţuire este descrisă de probabilitatea ca la
momentul ti pacienţii să se afle în viaţă. Vom vedea cum se poate deduce această
probabilitate cunoscând numărul de decese şi numărul de cazuri cenzurate în fiecare
interval de studiu.
158
BIOSTATISTICA
Eveniment de studiu
realizat
Pacienţi
P1
Cenzură
P2
Sfârşit studiu
timp (calendaristic)
159
BIOSTATISTICA
Pacienţi
P1
P2
Sfârşit studiu
T0 T1 T2 T3 Ti
Timp (ca dimensiune)
Reperul T0 este determinat
Evenimentele au loc la momentele notate: T1, T2, … Ti, … Tn. Între acestea se
respectă relaţia: T1 < T2 < … < Ti < … < Tn. Momentul de start este T0 definit de
scopul studiului. Aici trebuie să se acorde o atenţie deosebită, deoarece poate exista o
mare relativitate în stabilirea momentului de start (de exemplu în cancerul de sân, care
este momentul de determinare a prezenţei neoplaziei?). Toate cazurile luate în studiu
trebuie să fie tratate unitar pentru a nu introduce erori.
La momentul iniţial toţi pacienţii luaţi în studiu sunt în viaţă, deci pentru t=0,
S(0)=1.
S(t)
50%
Q1 Me Q3 Timp
161
BIOSTATISTICA
Timp (t)
Figura 2.12 4 – Funcţia densitate de probabilitate.
162
BIOSTATISTICA
3
1
h(t) 4
Timp (t)
Figura 2.12 5 – Funcţia hazard – posibile forme.
Există relaţii de legătură între cele trei funcţii astfel încât având una din ele, putem
să le deducem pe celelalte două. Aşadar este suficient doar una din aceste trei funcţii să
o cunoaştem sau să o deducem din date experimentale.
F (t ) 1 S (t ) S (t )
d d
2. f (t ) - densitate de probabilitate şi
dt dt
supravieţuire.
f (t ) f (t )
3. h(t ) sau h(t ) - legătura dintre hazard şi probabilitate.
S (t ) 1 F (t )
f (t ) S (t )
logS (t ) - legătura dintre hazard şi supravieţuire.
d
4. h(t )
S (t ) S (t ) dt
5. f (t ) h(t ) exp H (t ) - densitatea de probabilitate funcţie de hazard.
Pentru amănunte în demonstraţie se poate studia „Statistical Methods for Survival
Data Analysis” – Elisa T. Lee, John Wenyu Wang ; A John Wiley &Sons. Inc.,
Publication 2003.
163
BIOSTATISTICA
164
BIOSTATISTICA
P(T Ti )
În acest caz avem: P(T Ti T Ti 1 ) . Obţinem probabilitatea de
P(T Ti 1 )
supravieţuire pentru intervalul de rang i ca un produs de forma:
Ps (T Ti ) Ps (T Ti T Ti 1 ) Ps (T Ti 1 ) .
Înlocuind în continuare probabilitatea de supravieţuire de la momentul Ti-1 cu o
formulă asemănătoare celei de sus, obţinem un produs al probabilităţilor condiţionate.
În final, ultima valoare va fi probabilitatea de supravieţuire la momentul 0 (aceasta este
considerata iniţial de valoare egală cu 1, Ps (T T0 ) 1 ).
Este justificat astfel şi pseudonimul: „product limit estimate”.
Ps (T Ti ) Ps (T Ti T Ti 1 ) ..... Ps (T T2 T T1 ) Ps (T T0 ) .
Fiind un produs de probabilităţi putem uşor observa că în timp forma grafică va fi
descrescătoare.
Practic, vom determina pe fiecare interval numărul de pacienţi la risc (Ni),
numărul de decese (Di) şi numărul de pacienţi eliminaţi (sau cenzuraţi, Ci). Se poate
calcula apoi probabilitatea condiţionată şi în final prin produsul acestora se exprimă
funcţia de supravieţuire în fiecare moment de timp în care se produc evenimente.
Exemplu de calcul
Presupunem că avem în cadrul unui studiu tabelul 2.12 1 cu datele pe zile despre
evenimentele cenzurate şi cele urmărite. Examinările sunt desfăşurate pe o durată de 14
zile iar datele culese sunt prezentate mai jos.
165
BIOSTATISTICA
Numărul total de pacienţi din studiu este suma celor două coloane şi are valoarea
45 pentru exemplul prezent.
Tabelul 2.12 2 – Etape de calcul – Funcţia de supravieţuire
Probabilitatea de
Eveniment
Probabilitatea
Pacienţi la supravieţuire
Cenzuri
urmărit
condiţionată pe
risc (produsul prob.
Ziua
interval
condiţionale)
1 7 2 45 1-2/45=0.955 0.955
2 4 1 45-7-2=36 1-1/36=0.972 0.955*0,972=0.929
3 2 2 36-4-1=31 1-2/31=0.935 0,929*0,935=0.869
4 3 3 31-2-2=27 1-3/27=0.888 0.869*0.888=0.772
6 1 2 27-3-3=21 1-2/21=0.904 0.772*0.904=0.698
8 3 4 21-1-2=18 1-4/18=0.777 0.698*0.777=0.543
10 2 1 18-3-4=11 1-1/11=0.909 0.543*0.90=0.494
11 2 2 11-2-1=8 1-2/8=0.75 0.494*0.75=0.370
13 1 2 8-2-2=4 1-2/4=0.5 0.370*0.5=0.185
14 0 1 4-1-2=1 0 0
total 25 20
Etapele de calcul sunt detaliate în tabelul 2.12 2. Se vor determina mai întâi pentru
fiecare interval pacienţii la risc. Pentru primul interval numărul pacienţilor la risc este
egal cu suma tuturor pacienţilor luaţi în calcul. Pentru celelalte intervale se scade în
mod repetat atât numărul de cenzuri cât şi numărul de evenimente urmărite realizate.
Forma grafică este reprezentată în figura 2.12 6. Alura este în formă de scară cu
trepte de diferite lungimi şi înălţimi. Aceste caracteristici sunt date de numărul de
evenimente consumate în fiecare interval de timp.
166
BIOSTATISTICA
167
BIOSTATISTICA
calculat
2
O
total Etotal
grup1
O
2
total Etotal
grup2
2
. Valorile total sunt
grup1 2 grup2 2
Etotal Etotal
calculate ca sume ale valorilor parţiale.
Observaţii
168
BIOSTATISTICA
170
BIOSTATISTICA
Interpretarea rezultatelor
În SPSS rezultatele analizelor sunt salvate într-un fişier de ieşire (extensia „spo”).
Pentru analiza cerută va fi prezentat un tabel de supravieţuire conţinând pentru fiecare
caz în parte momentul de timp al evenimentului realizat, valorile funcţiei de
supravieţuire şi a erorii standard, numărul de evenimente cumulative şi cele rămase.
Dacă s-a cerut calculul anumitor indicatori statistici (medie, mediană, cuartile)
aceştia sunt prezentaţi într-un tabel separat, fiind calculat şi intervalul de confidenţă.
Acestea pot fi folosite pentru verificarea într-o primă formă a suprapunerii intervalelor
de confidenţă pentru compararea diferitelor curbe. Dacă există o suprapunere a
intervalelor atunci şansa de a diferi semnificativ este minimă.
Tabelul 2.12 3.
Means and Medians for Survival Time
Mean(a) Median
95% Confidence 95% Confidence
Tratament Std. Interval Std. Interval
Estimate Error Lower Upper Estimate Error Lower Upper
Bound Bound Bound Bound
1 9.205 .779 7.677 10.732 10.000 1.480 7.099 12.901
2 8.377 .645 7.114 9.641 8.000 1.063 5.917 10.083
Overall 8.717 .494 7.749 9.685 8.000 1.019 6.003 9.997
(1 – tratament clasic , 2 – tratament nou)
171
BIOSTATISTICA
Tabelul 2.12 4.
Percentiles
Tratament 25.0% 50.0% 75.0%
Estimate Std. Error Estimate Std. Error Estimate Std. Error
1 13.000 1.149 10.000 1.480 6.000 1.442
2 13.000 1.045 8.000 1.063 4.000 .696
Overall 13.000 .818 8.000 1.019 5.000 .727
Iată în exemplul nostru intervalele pentru medii cât şi pentru mediane se suprapun,
chiar mai mult, intervalul de confidenţă pentru grupul format de tratamentul 1 cuprinde
valoarea punctuală calculată a indicatorului studiat (medie, respectiv mediană) pentru
celălalt grup.
172
BIOSTATISTICA
Folosind softul EpiInfo versiunea 3.3.2 din februarie 2005 se pot reprezenta grafic
datele şi se efectuează testul Log Rank pentru comparaţie. Evident, rezultatele sunt
aceleaşi atât timp cât datele de intrare coincid.
La sfârşitul capitolului EpiInfo este prezentat acelaşi exemplu de supravieţuire.
173
BIOSTATISTICA
Dacă facem raportul celor două funcţii hazard obţinem o valoare constantă ce
depinde doar de starea iniţială a pacienţilor. În concluzie, pentru două cazuri, raportul
funcţiilor hazard este constant în timp – modelul hazardului proporţional.
n
exp b j x ja
j 0
h A (t )
raport ce este constant în timp.
hB (t ) n
exp b j x jb
j 0
Determinarea coeficienţilor bj reprezintă o problemă de analiză matematică şi se
bazează pe estimarea acestora prin metoda verosimilităţii maxime (maximum
likelihood estimator).
Variabilele x1,….xn pot fi de tip continuu, discret sau categorial. Acesta reprezintă
un avantaj ce dă generalitate maximă modelului regresional utilizat.
Metoda Cox este extinsă şi pentru covariabile xj ce depind de timp – acestea se
introduc într-o manieră specială ca o funcţie de timp. De exemplu, în loc de x4 putem
scrie t x4 sau exp(t+2)x4. Trebuie însă să avem cunoştinţe despre presupusa relaţie
între timp şi covariabila implicată.
Există legătură între hazard şi funcţia de supravieţuire după cum a fost prezentată
anterior:
175
BIOSTATISTICA
t n
S A (t ) exp ho (t ) exp b j x ja dt este deci o legătură exponenţială
o j 0
negativă.
Nu pare foarte intuitivă acesta formulă însă exponentul negativ arată că legătura
este invers proporţională (dependenţă care era aşteptată între supravieţuire şi rata
condiţionată de deces).
176
BIOSTATISTICA
aceste exemple sunt preluate din studiul doctoral “Hipertensiunea arterială secundară la
copil” cu permisiunea autoarei Dr. Cristina Gavrilovici.
177
BIOSTATISTICA
Timpul este măsurat în luni şi reprezintă durata din momentul diagnosticării până
la atingerea insuficienţei renale terminate.
Statusul este exprimat (după cum s-a menţionat deja) de variabila ce defineşte
evenimentul cenzură, respectiv evenimentul studiat. Codificarea este 0 pentru cenzură,
respectiv 1 pentru evenimentul ClCr≤15.
Covariabilele propuse şi utilizate în acest fişier sunt: Vârsta (de tip numeric
discret), Diag_c (diagnosticul codificat 0,1), Afect_card (afectarea cardiacă de tip
dicotomic) şi Durata_HTA (discretă exprimată în luni).
Interpretarea rezultatelor.
Primul tabel prezintă informaţii despre componenţa lotului sau eşantionului de
studiu.
Tabelul 2.12 6 – Case Processing Summary
N Percent
Cases available in Event(a) 300 57.1%
analysis Censored 225 42.9%
Total 525 100.0%
Cases dropped Cases with missing values 0 .0%
Cases with negative time 0 .0%
Censored cases before the
0 .0%
earliest event in a stratum
Total 0 .0%
Total 525 100.0%
În total avem 525 de cazuri, din care 225 sunt cenzuri iar restul de 300 sunt
pacienţi ce au evenimentul studiat realizat. Cazurile cenzurate nu au ajuns în
insuficienţă renală terminală în perioada de timp cât au fost studiate. Nu există
elemente eliminate din studiu. Dorim să amintim, cazurile cenzurate se folosesc doar la
determinarea funcţiei hazard de bază.
Tabelul 2.12 7 – Categorical Variable Codings(b,c)
Frequency (1)
Afect_Card(a) da 285 1
nu 240 0
Diag_c(a) 1=GNC 330 1
2=malf R 195 0
a Indicator Parameter Coding
b Category variable: Afect_Card (Afectare Cardiaca)
c Category variable: Diag_c (Diagnostic codificat)
Variabilele categoriale sunt codificate iar corespondenţa codurilor este prezentată
în tabelul alăturat. Este foarte importantă această codificare deoarece reprezintă baza
179
BIOSTATISTICA
180
BIOSTATISTICA
În concluzie, fiecare coeficient are o valoare ce descrie relaţia dintre hazard sau
supravieţuire şi covariabila respectivă.
Se prezintă de asemenea intervalele de confidenţă. Dacă aceste au limitele
apropiate de valoarea 1, atunci influenţa lor în model este mică. Poate un număr mai
mare de date ar aduce informaţie suplimentară utilă în dezvoltarea cât mai performantă
a sistemului de regresie pentru supravieţuire.
În final se prezintă atât graficele funcţiei de supravieţuire cât şi a hazardului.
182
BIOSTATISTICA
Introducere
Un examen diagnostic are drept scop determinarea stării de sănătate a unui pacient
prin indicarea cu o probabilitate cât mai mare a prezenţei sau absenţei unei anumite
maladii. Se calculează astfel probabilitatea post-test de existenţă a bolii, care depinde
de anumiţi parametri ce definesc calitatea examenului diagnostic.
Sensibilitatea şi specificitatea caracterizează calitatea examenului diagnostic.
Legătura prezentă între sensibilitate şi specificitate este materializată prin curba ROC,
ce permite compararea testelor dar şi determinarea optimului examenului diagnostic.
Funcţie de pragul ales în sistemul de decizie se deduc valorile sensibilităţii şi
specificităţii. Acest prag poate fi modificat şi se acceptă un compromis între cei doi
indicatori, datorită legăturii invers proporţionale existente.
Valorile predictive pozitive şi negative ne dau informaţii despre eficienţa
semnului ca element de decizie. Sunt descrise legăturile existente între aceşti
indicatori, avantajele, dezavantajele cât şi compromisul acceptat în alegerea pragului
testului.
Sensibilitate, Specificitate
Pentru estimarea calităţii unui test diagnostic, acesta se compară de obicei cu un
etalon sau standard de aur în vederea determinării prezenţei maladiei. Se realizează
astfel tabelul de contingenţă cu cele 4 situaţii posibile ale examenului diagnostic.
Tabelul 2.13 1 – Tabelul de contingenţă : test diagnostic/maladie prezentă
Maladie
Prezentă ( M ) Absentă ( M ) Total
Pozitiv Adevărat Pozitiv Fals Pozitiv a+b
diagnostic
S (a) (b)
Test
a
Formula de calcul este : Se . Aceasta este o estimare punctuală a
ac
indicatorului de sensibilitate (se mai numeşte şi rata de pozitivi adevăraţi, True
Positive Rate - TPR).
Există situaţii în care testul diagnostic se rezumă doar la existenţa sau nu a unui
semn (notat S). Putem face apel la teoria probabilităţii pentru a exprima sensibilitatea.
Avem astfel: Se TPR PS / M - probabilitatea de a avea semnul S în condiţia
existenţei maladiei M, sau probabilitatea lui S condiţională de M. Sensibilitatea arată
capacitatea testului de a identifica prezenţa maladiei.
Rata de falşi negativi (False Negative Rate) se calculează cu formula:
FNR P S / M . Aceasta exprimă probabilitatea de a nu avea semnul S (deci
existenţa negaţiei notată S ) în condiţia existenţei maladiei M. Raportul c/(a+c) va
tinde către P S / M pentru un număr de bolnavi suficient de mare.
Se respectă condiţia TPR+FNR=1. Acestea au fost deduse făcând analiza pe
coloana 1 a tabelului.
Specificitatea testului tinde către probabilitatea de a avea testul negativ atunci
d
când maladia este absentă. Formula de calcul este: Sp .
bd
Sp reprezintă o estimare a probabilităţii ce exprimă absenţa semnului S la
populaţia sănătoasă. Se mai numeşte şi rata de negativi adevăraţi (True Negative Rate
- TNR). Este probabilitatea lui S condiţionată de M . Avem astfel:
Sp TNR P S / M .
Specificitatea măsoară capacitatea testului de a determina lipsa maladiei.
Rata de falşi pozitivi (False Positive Rate) este FPR=b/(b+d). Astfel suma
Sp+FPR este egală cu 1.
Sensibilitatea cât şi specificitatea depind de calitatea testului şi îl caracterizează.
Se şi Sp depind de puterea de discriminare a acestuia. Cu toate că în formula de calcul
apare condiţia de existenţă (M) sau de inexistenţă a bolii ( M ), Se şi Sp nu depind de
prevalenţa maladiei P(M).
De dorit este ca aceşti indicatori (Se, Sp) să atingă valori cât mai mari, ideal ar fi
valoarea 1. Dacă Sp=1, semnul (testul în forma cea mai simplă) este denumit
patognomonic. În această situaţie nu există falşi pozitivi, deci semnul nu este observat
la persoanele sănătoase sau mai bine zis la persoanele ce nu suferă de maladia studiată.
184
BIOSTATISTICA
185
BIOSTATISTICA
0.4 B
0.3
0.2
0.1
0
0 P2 P P1
Figura 2.13 1 – Pragul de decizie pentru cele două distribuţii de tip Gauss.
Valoare predictivă
Odată cunoscut rezultatul testului, este util să se calculeze probabilitatea
aposterioară (post-test) a maladiei. Prin realizarea testului se câştigă informaţie ce are
influenţă asupra detecţiei bolii respective.
Probabilitatea ca un individ care prezintă semnul S să fie afectat de maladie este
a
valoarea diagnostică sau valoarea predictivă pozitivă (VPP), VPP (estimare
ab
P( M S )
punctuală). VPP P( M / S ) . (1)
P( S )
Conform teoremei probabilităţii totale putem exprima probabilitatea semnului S
funcţie de prezenţa evenimentului M astfel:
P(S ) P(M ) P(S / M ) P(M ) P(S / M ) . (2)
Probabilitatea intersecţiei evenimentelor S şi M poate fi exprimată prin:
P( S M )
P( S / M ) P( S M ) P( S / M ) P( M ) . (3)
P( M )
187
BIOSTATISTICA
188
BIOSTATISTICA
189
EPIINFO 3.3.2 - 2005
Lansarea în execuţie se poate face fie prin butonul Make View sau din meniul
principal urmând calea:
Programs + Make View (Questionnaire), ce este prezentată în figura de mai jos.
Prin această comandă se poate crea o nouă bază de date sau se poate deschide o
bază deja existentă. În cadrul acesteia se pot face modificări asupra chestionarelor
existente sau se pot crea noi tabele. Astfel, comanda MakeView este privită ca o
metodă de a defini sau edita baza de date dar şi de a crea sau edita fereastra de
190
EPIINFO 3.3.2 - 2005
Butonul Delete permite (aşa cum indică şi numele) ştergerea unei coloane din
cadrul tabelului creat.
193
EPIINFO 3.3.2 - 2005
Figura 3.2 1.
194
EPIINFO 3.3.2 - 2005
Logic (Yes/No)
Este câmpul de tip logic ce acceptă doar două valori, după cum este şi
definit(Yes/No). Un exemplu clasic de utilizare constă în a marca dacă persoana
respectivă este sau nu căsătorită. Valoarea Yes este memorată cu 1 iar No cu 0. Atunci
când se creează coduri de control (check codes) se foloseşte codificarea „+” pentru Yes
respectiv „ – ” pentru No. Dacă nu se introduce un răspuns din cele două atunci se
interpretează ca valoare lipsă (missing).
Buton Opţiune (Option)
Prezintă mai multe opţiuni ce pot fi selectate de utilizator. Acestea se exclud
reciproc, astfel încât în orice moment poate fi marcată doar o singură opţiune dintr-un
grup definit. Exemplu de butoane opţiune:
Figura 3.2 2.
195
EPIINFO 3.3.2 - 2005
196
EPIINFO 3.3.2 - 2005
SEX – este variabilă de tip caracter sau text. Are o caracteristică specială şi anume
poate lua doar două valori: Masculin (M), respectiv Feminin (F). Pentru a restrânge
numărul de variante posibile vom activa butonul Legal Values şi vom defini prescurtat
M pentru masculin, respectiv F pentru feminin.
DATA NAŞTERII – este clar variabilă de tip dată calendaristică. Aici menţionăm
formatul american de afişare care începe cu luna, ziua şi apoi anul.
STAREA CIVILĂ – este tot variabilă de tip text, este de tip categorial având
valorile: căsătorit, divorţat, necăsătorit. Pentru a elimina din erori se va introduce în
aceeaşi manieră ca variabila SEX.
RECIDIVĂ – acest câmp sau variabilă este de tip dicotomic, având valorile
DA/NU. Pentru acesta este util a se folosi tipul căsuţă de marcaj (checkbox).
Write (Export)
Putem salva o parte sau toată baza de date într-un nou fişier diferit ca tip de
fişierul EpiInfo. Formatul fişierului salvat poate fi : Access 97 sau Epi2000; dBase III,
IV, V; Paradox3,4; FoxPro2.6; Excel 3,4; Epi 6 sau Text. Este de dorit să avem această
facilitate de export deoarece datele pot fi prelucrate pentru alte scopuri prin programe
diferite ce au facilităţi superioare programului EpiInfo.
197
EPIINFO 3.3.2 - 2005
Define
Putem defini trei tipuri de variabile: standard, globale şi permanente. Acestea vor
fi ataşate bazei de date ca noi coloane. Perioada lor de valabilitate depinde de tipul
ales.
Tipul standard există şi îşi menţine valoarea atât timp cât baza de date a fost
deschisă. Cu alte cuvinte, putem spune că deschidem tabelul, definim variabilele, le
încărcăm cu valorile necesare calculate după diferite formule, facem analiza statistică
şi apoi după închiderea bazei de date pierdem conţinutul variabilelor standard definite.
Acestea au avut valori temporare care ne-au ajutat în studiul realizat.
Variabilele de tip permanent sunt memorate în fişierul EpiInfo.ini şi îşi menţin
conţinutul atât timp cât nu sunt şterse prin comanda undefine. În concluzie, acestea pot
fi folosite între baze de date pentru transmiterea informaţiei şi există chiar dacă
programul EpiInfo a fost închis.
Tipul global este valabil doar atât timp cât programul EpiInfo este deschis. Aceste
variabile pot fi folosite atât la modulul de analiză între mai multe tabele dar odată
închis programul sau computerul acestea îşi pierd conţinutul şi practic definiţia.
Undefine este comanda care şterge variabila din memorie, evident şi conţinutul ei
va fi şters.
Assign permite calculul unei coloane întregi a unui tabel după o anume formulă.
Iată în figura următoare avem calculat pentru variabila definită IMC, indicele de
greutatea
masă corporală pentru pacienţii de studiu. Formula de calcul este IMC
inaltimea 2
(greutatea exprimată în Kg iar înălţimea în metri).
200
EPIINFO 3.3.2 - 2005
If
Funcţia este folosită tot pentru modificarea valorii unei variabile în situaţia în care
anumite condiţii sunt îndeplinite.
Sort
Permite prezentarea ordonată a datelor după mai multe criterii (variabile sau
coloane ale tabelului) în formă descendentă sau ascendentă.
Frecvenţe (Frequencies)
Comanda produce tabele cu frecvenţele absolute, procentuale şi cumulate
procentual pentru coloanele selectate. De asemenea, se reprezintă grafic în partea
dreaptă a tabelului sub formă de bare orizontale de culoare galbenă, frecvenţa
procentuală a variabilei de interes. In figura 3.3 6 este reprezentată fereastra de setare a
comenzii FREQuencies.
202
EPIINFO 3.3.2 - 2005
Exemplu
Dorim să realizăm tabelul de frecvenţă a variabilei vârsta ponderată de variabila
cazuri. Pentru realizarea tabelului final se vor suma toate valorile din coloana cazuri
pentru valori egale ale vârstei.
Tabelul 3.3 1. Tabelul 3.3 2.
Vârsta Cazuri Vârsta Cazuri
5 2 Tabel obţinut după 5 6
7 3 aplicarea comenzii 6 11
5 4 7 3
6 11
Pentru a putea introduce uşor două valori de adevăr este indicat să se realizeze o
bază de date ce să conţină coloane de tip logic (Yes/No). Chestionarul va conţine două
coloane numite Expunere, respectiv Maladie în care datele pot fi şi de tip numeric şi
chiar de tip text. În exemplul realizat am preferat folosirea tipului logic (ce poate fi
creat şi prin valori numerice 0 şi 1).
203
EPIINFO 3.3.2 - 2005
MALADIE
EXPUNERE
PARAMETERS: Risk-based
Risk Ratio (RR) 0.5455 0.2054 1.4485 (T)
Risk Difference (RD) -18.5185 -45.2090 8.1720 (T)
(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher
Exact)
206
EPIINFO 3.3.2 - 2005
În cazul studiat OR=0.41 cu limitele pentru încredere de 95% (0.107, 1.6041) prin
metoda seriilor Taylor. Există mai multe metode de calcul, rezultatele fiind apropiate.
Raportul de risc (Risk Ratio) se calculează cu formula:
a
a n0 n R
RR 1 e , unde:
n1 c c Ru
n0
RR – raportul de risc, Re – riscul celor expuşi, Ru – riscul celor neexpuşi.
Interpretare: Riscul celor expuşi este de RR ori mai mare faţă de cei neexpuşi.
207
EPIINFO 3.3.2 - 2005
Lot
Glicemie
208
EPIINFO 3.3.2 - 2005
Valorile obţinute în urma lansării comenzii pot fi memorate într-un tabel creat şi
identificat prin variabila tabel (Output to table).
209
EPIINFO 3.3.2 - 2005
În cazul în care dorim să comparăm două loturi din punct de vedere cantitativ
(valori numerice), vom verifica dacă mediile lor diferă sau nu semnificativ. Astfel,
pentru cazul nostru vom aplica comanda: MEANS Glicemie Lot (Means <variabila se
studiu> <variabilă de grupare>).
Media glicemiei din lotul 0 (netratat) va fi comparată cu cea a lotului 1(după
aplicarea unui tratament). Se va obţine un tabel cu frecvenţele absolute grupate după
variabila lot, valorile descriptive (medie, dispersie, deviaţie standard, etc.) deja
prezentate şi apoi testul ANOVA.
210
EPIINFO 3.3.2 - 2005
Compararea mediilor se poate realiza pentru cazul general (a n loturi) prin analiza
varianţei ANOVA (ANalisys Of VAriance). În tabelul următor sunt prezentate valorile
obţinute în cadrul testului de analiză.
2 .
k ni k ni
BSS yi y . WSS yij yi
2
i 1 j 1 i 1 j 1
k – reprezintă numărul de loturi sau grupuri.
ni – reprezintă numărul de cazuri în grupul i.
yij – este elementul j din grupul i.
yi – reprezintă media pe grupul i.
y – este media pe toate grupurile.
211
EPIINFO 3.3.2 - 2005
Dacă valoarea lui p este mai mare ca 0,05 atunci se consideră ipoteza nulă
adevărată, deci nu există diferenţă semnificativă între medii, acestea putându-se
considera egale.
Testul nu este terminat în acest moment, deoarece în crearea statisticii F s-a făcut
presupunerea că dispersiile celor două loturi sunt identice. Această afirmaţie trebuie
verificată prin testul Bartlett a cărui rezultat este prezentat în tabelul 3.3 10.
Ca observaţie testul ANOVA atrage din start verificarea egalităţii dispersiilor,
adică executarea a două teste în cascadă.
Statistica creată prin testul Bartlett respectă o distribuţie de tip Chi pătrat.
Interpretarea este asemănătoare testului precedent. Dacă valoarea de semnificaţie
p este mai mare ca 0,05, atunci dispersiile se pot considera ca fiind egale, deci ipoteza
nulă se acceptă cu încredere de 95%.
În cazul nostru p=0,44 ce este mai mare ca 0,05, astfel putem considera egale
dispersiile şi în concluzie se acceptă rezultatul testului ANOVA realizat. Valoarea
p=0,0015 din testul ANOVA este mai mică ca 0,05 şi decidem că mediile glicemiilor
diferă semnificativ. Astfel lotul tratat are o glicemie mai mică decât lotul netratat
(concluzie aşteptată !).
În cazul în care testul Bartlett ne arată o diferenţă semnificativă între dispersiile
celor două loturi se aplică testul cunoscut şi cu numele Kruskal-Wallis. În această
situaţie nu putem accepta ca adevărat rezultatul dedus cu testul ANOVA, deoarece
ipoteza de lucru nu este satisfăcută (dispersiile sunt egale).
Dacă valoarea calculată p este mai mică ca nivelul de semnificaţie acceptat (poate
fi 0.05), atunci există diferenţă semnificativă între mediile celor două populaţii.
Pentru cazul nostru p=0,0039 ce este mai mic ca 0,05 deci şi prin testul Bartlett se
verifică diferenţa semnificativă existentă între cele două loturi.
Observaţie 1
Dacă avem de comparat mai multe loturi atât testul ANOVA cât şi testul Bartlett
ne dau diferenţă semnificativă dacă doar unul dintre loturi diferă semnificativ, în ciuda
faptului că toate celelalte pot fi considerate egale. Nu ni se indică însă care este acest
lot.
Observaţie 2
În cazul comparării a două loturi, valoarea F dedusă prin testul ANOVA este
pătratul valorii statisticii t pentru n1+n2-2 grade de libertate. Nivelul de semnificaţie p
prezentat în cadrul testului ANOVA este acelaşi atât pentru F cât şi pentru t. Evident,
interpretarea este identică şi răspunsurile finale coincid.
Atât regresia cât şi corelaţia pot fi deduse prin lansarea comenzii Regress. Se pot
calcula coeficienţii dreptei de regresie liniară simplă, multiplă şi coeficientul de
corelaţie.
Formula regresiei multiple liniare este:
Y a0 a1 x1 a2 x2 ...... an xn .
Pentru regresia liniară simplă:
Y a0 a1 x1 .
213
EPIINFO 3.3.2 - 2005
Coeficientul de corelaţie r (al lui Pearson) are valoarea la pătrat egală cu 0,37 deci
r=0,608. Această valoare indică o legătură medie ca putere între cele două variabile
aleatoare. Este prezentată valoarea la pătrat deoarece calculul este reprezentat de
raportul dintre suma pătratelor de regresie şi totalul sumei pătratelor.
248,421
În cazul prezentat avem: r 0,37 .
2
676,968
Interpretarea constă în faptul că 37% din variaţiile în greutate la naştere a copiilor
este determinată de variaţia nivelului de estriol al mamelor.
Se prezintă statistica F care pentru cazul nostru are valoarea 16,881. Aceasta ajută
la determinarea diferenţei semnificative faţă de zero a pantei dreptei de regresie. În
tabel se va căuta valoarea statisticii F corespunzătoare, adică F(1;29;p=0,05) ce are
valoarea 4,18 (amintim că statistica F are două grade de libertate în cazul nostru 1 şi
29). Dacă valoarea este mai mică decât cea calculată (16,881) atunci cele două
variabile depind semnificativ una de alta, adică panta diferă semnificativ faţă de 0, a1
0.
214
EPIINFO 3.3.2 - 2005
Putem scrie dependenţa prin regresie liniară astfel (atenţie la unitatea de măsură !):
Panta a1=0,606.
Limita minimă este: a1(min) = a1 – t(0,05;29)StdErr = 0,606 – 2,0450,148= 0,303.
Limita maximă este: a1(max) = a1 + t(0,05;29)StdErr = 0,606 + 2,0450,148= 0,908.
Deoarece în intervalul dedus de limitele de variaţie a pantei nu este cuprinsă
valoarea 0, deducem existenţa semnificaţiei statistice (o altă metodă de a confirma
existenţa diferenţelor statistice).
Analog se deduce intervalul de variaţie cu încredere de 95% a coeficientului a 0.
În acest soft de analiză statistică a datelor este prezent şi studiul supravieţuirii prin
metoda Kaplan Meier (K-M). Ar fi fost de aşteptat ca pentru un singur set de date să se
prezinte măcar indicatorii de tip cuartile deci şi mediana pentru a avea o estimare a
timpilor de supravieţuire. Nu este posibilă o astfel de prezentare a supravieţuirii prin
metoda K-M în EpiInfo pentru un singur set de date. Poate versiunile următoare vor fi
îmbunătăţite vor aduce şi această facilitate.
Tehnica K-M este folosită pentru a reprezenta grafic datele din loturi diferite şi
pentru a realiza comparaţii prin testele Log-Rank şi Wilcoxon.
Am folosit pentru exemplificare datele prezente în Anexa F iar teoria este
dezvoltată în capitolul Analiza Supravieţuirii.
Iată mai jos un fragment din tabelul cu date pentru a înţelege regula de introducere
a acestora.
215
EPIINFO 3.3.2 - 2005
Avem coloana cu informaţia despre timp (denumită Zi) în care unitatea de măsură
este ziua. În anumite zile avem pacienţi pentru care evenimentul studiat se realizează,
deci dacă studiem decesul acesta trebuie marcat. Al doilea eveniment posibil este
cenzura, deci pierderea din studiu a anumitor persoane. Avem astfel o coloană specială
în care este introdusă informaţia despre deces, respectiv cenzură (codificate conform
tabelului).
Pentru a realiza compararea mai avem nevoie de o informaţie care în cazul nostru
este tratamentul urmat. Acesta este codificat cu 1, respectiv 2. Se vor crea grafic
curbele de supravieţuire şi se vor aplica testele de comparaţie.
Se va deschide baza de date cu tabelul introdus (sau se va importa din diferite
formate – Excel de exemplu) şi se va lansa în execuţie din grupul Analyze Data
comanda Kaplan Meier Survival.
Figura 3.3 10 – Graficul supravieţuirii prin metoda K-M pentru cele două
loturi.
217
ANEXE
ANEXA A - Distribuţia Normală redusă
Valorile tabelate reprezintă valoarea
probabilităţii notată F z . Astfel, în Z=0 avem
datorită simetriei probabilitatea 0,5.
Valoarea Z se citeşte mai întâi pe coloana 1
iar precizia se completează de pe rândul 1.
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
218
ANEXE
Probabilitate
0.75 0.8 0.85 0.9 0.95 0.975 0.99 0.995
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
50 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678
60 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660
70 0.678 0.847 1.044 1.294 1.667 1.994 2.381 2.648
80 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639
90 0.677 0.846 1.042 1.291 1.662 1.987 2.368 2.632
100 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626
110 0.677 0.845 1.041 1.289 1.659 1.982 2.361 2.621
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
300 0.675 0.843 1.038 1.284 1.650 1.968 2.339 2.592
220
ANEXE
221
ANEXE
222
ANEXE
223
ANEXE
224
ANEXE
Această metodă este considerată ca fiind una dintre tehnicile cele mai robuste de
estimare a parametrilor unei distribuţii.
Ideea de bază constă în a obţine valorile cele mai probabile pentru parametrii unei
distribuţii prin maximizarea unei funcţii numită funcţie de verosimilitate.
Notăm densitatea de probabilitate (PDF) f ( x, p1 , p2 ,... pk ). Aici x este variabila
aleatoare iar p1, p2, …pk sunt parametrii ce trebuie determinaţi. Presupunem că avem un
eşantion de n valori x1, x2, … xn.
Funcţia de verosimilitate este egală cu produsul tuturor valorilor individuale ale
densităţii de probabilitate calculate în punctele xi:
n
L( p1 , p2 ,... p k , x1 , x2 ,...xn ) f ( xi ; p1 , p 2 ,... p k ) .
i 1
Această funcţie măsoară probabilitatea de a observa un set de date dependente
care sunt cuprinse în eşantion.
Funcţia logaritmică y=ln(x) este o funcţie crescătoare, deci putem să o aplicăm
asupra funcţiei de verosimilitate căci valorile optime ale parametrilor vor rămâne
neschimbate.
n
Obţinem astfel: ln L ln f ( xi ; p1 , p 2 ,... p k ) .
i 1
Valorile parametrilor se obţin prin maximizarea funcţiei . Astfel, derivata de
ordinul întâi în raport cu p1,…pk se egalează cu zero: 0 , j 1,2,...k . Se obţine
p j
un sistem de j ecuaţii cu j necunoscute.
Proprietăţi ale metodei verosimilităţii maxime
Este asimptotic consistentă: cu cât eşantionul conţine mai multe date cu atât
parametrii converg spre valoarea adevărată.
Este asimptotic eficientă: cu cât eşantionul conţine mai multe date cu atât
parametrii sunt estimaţi mai precis.
Este asimptotic nedeplasată: valorile medii nu sunt deplasate.
Distribuţia estimatorilor este normală pentru volum mare al eşantionului.
225
ANEXE
1 xi
2
n
1
Funcţia de verosimilitate este: L( , , xi ) e 2 ,
i 1 2
xi
n 2
2
n 1
1
L( , , xi ) e i1 .
2
Logaritmând obţinem:
1 n x
2
ln L( , , xi ) n ln ln 2 i
n
.
2 2 i 1
Derivăm funcţie de medie şi apoi funcţie de dispersie:
1 2 n
xi 0,
2 2 i 1
Sistem de două ecuaţii cu două necunoscute
n 13 xi 0.
n
i 1
de unde se obţin:
1 n
X xi .
n i1
n
, aceste valori estimate tind către valorile , respectiv
xi .
ˆ 1 2
n i1
, pentru valori mari ale lui n.
226
ANEXE
35. 8 1 1 72. 6 0 2
Cenzura(0) /
Tratament 8 1 1 6 1 2
Deces(1)
36. 73.
Pacient
37. 10 0 1 74. 6 1 2
Zi
38. 10 0 1 75. 8 0 2
39. 10 1 1 76. 8 0 2
40. 11 0 1 77. 8 0 2
3. 1 0 1
41. 11 0 1 78. 8 1 2
4. 1 0 1
42. 11 1 1 79. 8 0 2
5. 1 0 1
43. 11 1 1 80. 8 1 2
6. 1 0 1
44. 13 0 1 81. 8 1 2
7. 1 0 1
45. 13 1 1 82. 10 0 2
8. 1 0 1
46. 13 1 1 83. 10 0 2
9. 1 0 1
47. 14 1 1 84. 10 1 2
10. 1 1 1
48. 1 0 2 85. 11 0 2
11. 1 1 1
49. 1 1 2 86. 11 0 2
12. 2 0 1
50. 1 0 2 87. 11 1 2
13. 2 0 1
51. 1 0 2 88. 11 1 2
14. 2 0 1
52. 1 0 2 89. 13 0 2
15. 2 0 1
53. 1 0 2 90. 13 1 2
16. 2 1 1
54. 1 0 2 91. 13 1 2
17. 3 0 1
55. 1 1 2 92. 14 1 2
18. 3 0 1
56. 1 1 2 93. 5 1 2
19. 3 1 1
57. 2 0 2 94. 9 0 2
20. 3 1 1
58. 2 0 2 95. 9 1 2
21. 4 0 1
59. 2 1 2 96. 4 0 2
22. 4 0 1
60. 2 0 2 97. 4 0 2
23. 4 0 1
61. 2 1 2 98. 4 1 2
24. 4 1 1
62. 3 0 2 99. 4 1 2
25. 4 1 1
63. 3 0 2 100. 4 1 2
26. 4 1 1
64. 3 1 2 101. 5 1 2
27. 6 0 1
65. 3 1 2 102. 8 1 2
28. 6 1 1
66. 4 0 2 103. 8 1 2
29. 6 1 1
67. 4 0 2 104. 8 1 2
30. 8 0 1
68. 4 0 2 105. 8 1 2
31. 8 0 1
69. 4 1 2
32. 8 0 1
70. 4 1 2
33. 8 1 1
71. 4 1 2
34. 8 1 1
227
ANEXE
3. Care din următoarele variante sunt estimaţii ale variabilităţii sau ``împrăştierii''
unei distribuţii de frecvenţe?
a) media
b) mediana
c) modul
d) toate variantele de mai sus sunt corecte
e) nici una din variantele de mai sus nu este corectă
5. Aria totală de sub graficul curbei normale are o probabilitate egală cu:
a) Z
b) n
c) 1
d) t
e) 0
228
ANEXE
x x2
98,9 9781,21
95,7 9158,49
99,1 9820,81
98,9 9781,21
229
ANEXE
12. Care este eroarea standard a mediei, s x , pentru valorile de greutate ale
tabletelor de ibuprofen?
a) 1,070
b) 0,957
c) 0,818
d) 1,047
e) 1,447
13. Care este intervalul de încredere (cu pragul de semnificaţie =95%) pentru
media de greutate a tabletei de ibuprofen? (pentru p 0,05 , df 4 ,
t 2,776 )
a) (96, 104) mg
b) (95,87 , 100,42) mg
c) (87,4 , 92,7) mg
d) (96,4 , 101,7) mg
e) (96,2 ,101,4) mg
231
Bibliografie
Altman D.G., [1991], Practical Statistics for Medical Research. Chapman and
Hall, London.
Andrei T., Stelian Stancu [1995], Statistica – teorie şi aplicaţii, Ed. All.
Azoicăi D., Boiculese L, Pisică-Donose G.[2001], Analiza statistică a datelor
medicale. In: Noţiuni de Metodologie Epidemiologică şi Statistică Medicală.
Iaşi: Edit Dan.
Beaglehole R., Bonita R., Kjellstrom T. [1993], Basic Epidemiology, World
Health Organisation.
Bemmel JH., Musen MA. [2000], Methods for decision support. In Bemmel JH,
Musen MA, editori Handbook of Medical Informatics. Heidelberg: Springer,
233-260.
Bland M. [1996], Medical Statistics, Oxford University Press Inc.
Bland M. [2000], An Introduction to Medical Statistics, Third Edition. Oxford
University Press.
Boiculese V.L., Dascălu C. [2001], Informatică Medicală. Casa de Editură
Venus, Iaşi.
Box G.E.P., Hunter W.G., Hunter J.S. [1978]. Statistics for Experiments. Wiley,
New York.
Chernick M.R. [1999], Bootstrap Methods: A Practitioner’s Guide. Wiley, New
York.
Chernick M.R., Friis R.H. [2003], Introductory Biostatistics for Health Sciences,
John Wiley & Sons, Inc.
Degoulet P, Fieschi M.[1999], Date medicale şi semiologie. În: Informatică
Medicală. Bucureşti: Editura Medicală, 1999,57-72.
Dimitriu G., Adrian Doloca [2004], Informatica – Teorie şi aplicaţii, Ed.
CERMI, Iaşi.
Dugaciu N., Gh. Moise, S. Doroftei [1997], Elemente de Biostatistică, Ed.
Vasile Golgiş , Arad.
Echochard R., Landrivon G (traducere Carmen Vulpoi, Teodor D).[1995]
Studiile de strategii diagnostice. In: Landrivon G, Delahaye F (coordonarea
ediţiei în limba română Doina Azoicăi, Carmen Dinescu) editori. Cercetare
Clinică de la Idee la Publicare. Paris: Masson, 101-116.
Feinstein A.R., [2002], Principle of Medical Statistics. Chapman & Hall / CRC
Boca Raton, London, New York, Washington D.C.
Friis R.H., Sellers T.A. [1999], Epidemiology for Public Health Practice.
Second Edition. Aspen Publishers, Inc. Gaithersburg, Maryland.
232
BIBLIOGRAFIE
233
BIBLIOGRAFIE
234
INDEX
INDEX
Eroare de tip I, 106
Eroare de tip II, 106
A Eroarea standard, 88, 210
Abaterea pătratică medie, 68, 70 Eşantionarea, 83, 92, 93, 94
Abaterea standard, 33 Estimarea, 76, 184, 188
Amplitudinea, 69 Evenimentul, 9, 10, 11, 18, 23, 164, 177
Analiza supravieţuirii, 158, 164, 174, 215 Excesul, 74
ANOVA, 119, 137, 140, 141, 145, 150, 208, Experimentul, 9
210, 211, 212, 213
Aranjamente, 15 F
Asimetrie, 73
Formula lui Bayes, 24
Formula probabilităţii totale, 22, 23
B Fractile, 31
Bartlett, 212, 213 Frecvenţa absolută, 57, 58
Biostatistica, 52 Frecvenţa cumulată, 57
Boltirea, 74 Frecvenţa relativă, 56, 57, 126
Bootstrap, 83, 94 Funcţia de supravieţuire, 158, 160, 161, 164,
166, 167, 182
Funcţia hazard, 162, 163, 174, 182
C
Calitatea examenului diagnostic, 183 G
Câmpul de evenimente, 10
Câmpul de probabilitate, 10 Graficul de tip Box-and-Whiskers, 60
Chi pătrat, 124, 168, 203, 212, 221 Gruparea termenilor, 56
Cochran, 121
Coeficientul de variaţie, 70 H
Combinări, 15
Corelaţie, 213 Hazard. Vezi Funcţia hazard
Cota, 124, 130, 132, 154, 206 Histograma, 57, 58, 59
Cox, 167, 172, 174, 175, 176, 177, 178, 179
Cuantile, 31
Cuartilele, 69, 70, 210
I
Curba ROC, 187 Indicatori de localizare, 62
Indicatori de variaţie, 67
D Indicatori statistici, 62
Interacţiuni între variabile, 150
Date cenzurate, 158 Intervale de încredere, 76
Deviaţia standard, 80, 98, 210 Intervalul intercuartilic, 69
Diagrama cu linii, 58 Ipoteza alternativă, 102, 104, 110, 114
Diagrama Tukey, 59 Ipoteza nulă, 104, 151
Diagrame de structură, 61 Ipoteza statistică, 102, 104
Dimensiunea eşantionului, 103, 109
Dispersia, 32, 38, 41, 67, 82
K
E Kaplan Meier, 164, 169, 173, 174, 215, 216,
227
EpiInfo, 6, 52, 101, 129, 173, 190, 197, 199, Kruskal-Wallis, 212
215
235
INDEX
236