You are on page 1of 372

STATISTIC APLICAT N TIINELE SOCIO-UMANE

Analiza asocierilor i a diferenelor statistice

Cristian Opariuc-Dan

Constana, august 2011

Cristian Opariuc-Dan

Fiicei mele, Riana-Ingrid

Statistic aplicat n tiinele socio-umane

Cuprins
Cuprins ............................................................................................................. 4 Prefa .............................................................................................................. 7 Cuvntul autorului ......................................................................................... 11 I. Relaii ntre variabile ............................................................................. 13 I.1 Coeficieni de corelaie neparametrici ............................................ 18 Coeficientul de corelaie a rangurilor (rho) Spearman ......... 19 Coeficientul de corelaie a rangurilor (tau) Kendall ............. 26 Coeficientul de contingen 2 (chi ptrat) .............................. 36 I.1.1 I.1.2 I.1.3

I.1.4 Coeficientul de asociere (phi), coeficientul V Cramer i coeficientul de contingen (cc), derivai din 2 .................................... 42 I.1.5 I.1.6 I.1.7 I.1.8 I.1.9 I.2 I.2.1 I.2.2 I.2.3 I.3 I.3.1 I.3.2 I.3.3 I.4 Coeficientul de asociere (lambda) Goodman i Kruskal ...... 48 Coeficientul de asociere (gamma) ........................................ 53 Coeficientul tetrachoric i polichoric....................................... 56 Coeficientul de concordan W Kendall .................................. 58 Coeficientul de corelaie rang biserial ................................... 62 Coeficientul de corelaie r Bravais-Pearson ............................ 64 Coeficientul de corelaie biserial, punct biserial i triserial ..... 78 Coeficientul de corelaie eneahoric ......................................... 87 Corelaii semi-pariale ............................................................. 95 Corelaii pariale pentru date neparametrice ............................ 96 Semnificaia corelaiilor pariale............................................ 100

Coeficieni de corelaie parametrici ................................................ 64

Corelaii pariale .............................................................................. 90

Interpretarea coeficienilor de corelaie ........................................ 102 4

Cristian Opariuc-Dan I.4.1 I.4.2 I.4.3 I.5 I.5.1 I.5.2 I.5.3 II. II.1 Grade de libertate ................................................................... 106 Efecte exercitate i varian ................................................... 107 Strategii de analiz i interpretare a corelaiilor .................... 109 Coeficieni de corelaie bazai pe date parametrice ............... 117 Coeficieni de corelaie bazai pe date neparametrice ........... 134 Raportarea studiilor corelaionale .......................................... 155

Obinerea coeficienilor de corelaie n SPSS ............................... 117

Diferene statistice bivariate ................................................................ 160 Planuri de cercetare ....................................................................... 161 Planuri de cercetare de baz .................................................. 165 Planuri de cercetare complexe ............................................... 174 Diferena dintre frecvene. Testul 2 ...................................... 182 Teste pentru eantioane independente ................................... 188 Teste pentru eantioane dependente ...................................... 200 Teste pentru un singur eantion ............................................. 206 Teste pentru dou eantioane independente .......................... 212 Teste pentru dou eantioane perechi .................................... 216 Teste pentru valori aberante................................................... 221 Teste de normalitate ............................................................... 226 Puterea testului i mrimea efectului ..................................... 238 Procedee neparametrice ......................................................... 254 II.1.1 II.1.2 II.2 II.2.1 II.2.2 II.2.3 II.3 II.3.1 II.3.2 II.3.3 II.4 II.4.1 II.4.2 II.5 II.6 II.5.1 II.6.1

Teste statistice pentru date neparametrice .................................... 182

Teste statistice pentru date parametrice ........................................ 205

Teste statistice de normalitate i teste pentru valori aberante ....... 220

Interpretarea testelor statistice ...................................................... 234 Realizarea testelor statistice n SPSS ............................................ 253

Statistic aplicat n tiinele socio-umane

II.6.2 II.6.3 III. III.1 III.1.1 III.1.2 III.1.3 III.1.4 III.1.5 III.1.6 III.2 III.2.1 III.2.2 III.2.3 III.2.4 III.2.5 III.2.6

Procedee parametrice ............................................................. 267 Analiza normalitii i a scorurilor aberante .......................... 274 Metode de analiz a fidelitii ................................................... 288 Metoda test-retest................................................................... 290 Metoda njumtirii .............................................................. 291 Metoda consistenei interne ................................................... 298 Metoda formelor paralele ...................................................... 306 Metoda acordului ntre evaluatori .......................................... 307 Interpretarea coeficienilor de fidelitate................................. 310 Analiza fidelitii n SPSS for Windows ................................... 312 Analiza consistenei interne ................................................... 318 Analiza fidelitii prin metoda njumtirii .......................... 337 Analiza fidelitii prin metoda formelor paralele .................. 341 Analiza fidelitii inter-evaluatori.......................................... 343 Analiza fidelitii test-retest (stabilitii) ............................... 346 Consideraii finale .................................................................. 347

Analiza fidelitii .............................................................................. 283

Bibliografie .................................................................................................. 350 Anexe ........................................................................................................... 352

Cristian Opariuc-Dan

Prefa
Cartea domnului Cristian Opariuc-Dan, intitulat Statistic aplicat n tiinele socio-umane. Analiza asocierilor i diferenelor statistice este o continuare fireasc a primului volum aprut, nu cu mult timp n urm, la ed itura ASCR din Cluj-Napoca. Continuarea realizat n lucrarea de fa este semnului unei perseverene ludabile, dovad a pasiunii domniei sale fa de coninutul acestei onorabile discipline. Continuitatea se manifest i n partea stilului nvalnic, care parc vrea s spun totul dintr-o suflare, care vrea s epuizeze ultimele rezerve fa de disciplina statisticii din sufletul cititorului dornic de iniiere. Ca atare, exemplele sunt foarte numeroase i ct se poate de adecvate. Nu sunt aa de ndeprtate vremurile n care cunotinele statistice erau o raritate n arealul specialitilor din domeniul tiinelor socio-umane. n rndul psihologilor, acestea erau pstrate i rspndite de o elit intelectual, din care amintim numele lui Nicolae Mrgineanu ca fiind cel mai reprezentativ. ntre 1950 i 1989, pregtirea n sfera metodelor cantitative din domeniul psihologiei era destul de sumar, delimitat strict la prezentarea ctorva noiuni fundamentale i, mai ales, a distribuiei normale Gauss Laplace, n aspectul figurativ, nu de coninut. O bun parte dintre psihologii practicieni nu au terminat sau aprofundat studii de psihologie, ca atare, chiar construcia etaloanelor li se prea o tain de neptruns. Analizele multivariate preau realiti galactice, greu accesibile pentru psihologul practician care nu avea o ambian profesional de pregtire continu. ncercarea de lichidare a psih ologiei din ultimii ani ai dictaturii comuniste prea s extind ignorana n privina metodelor tiinifice de abordare a acestui domeniu. Dup anul de cotitur 1989, nvmntul romnesc de psihologie s-a revigorat i a evoluat rapid, cred eu mai mult extensiv, situaie care s -a reper7

Statistic aplicat n tiinele socio-umane

cutat i asupra domeniul statisticii aplicate. Au aprut o serie de autori co mpeteni, cu deosebit potenial, cu stagii de pregtire n strintate, care au elaborat lucrri n domeniu comparabile cu cele din rile cu tradiie n cercet area psihologic. Dintre aceti autori amintim pe Ilie Puiu Vasilescu, practic un deschiztor de drumuri n domeniu, dup 1989, Florin Sava, Mihai Hohn, Filaret Sntion, regretatul coleg Horia Pitariu, Drago Iliescu, Marian Popa, Adrian Viceniu Labr, Monica Albu. n acest cerc select cred c a reuit s intre i Cristian Opariuc-Dan. Ne putem ntreba: care este motivul pentru care autorul d dovad de pedantism n cursul lucrrii, care face coninutul comprehensibil i pentru persoane cu o slab pregtire academic? Pentru cineva care nu lucreaz n domeniul pe care l-a mbriat autorul crii, suprasaturarea cu explicaii pare de neneles. Adevrul este c statistica se prezint ca o disciplin greu asimilabil de ctre studenii de la psihologie. Venind s studieze psihologia, o disciplin prin excelen umanist, o parte dintre ei cred c au scpat definitiv de tabelele, ecuaiile i demonstraiile din anii de liceu, dar, constat c, chiar din primul an, rencep o disciplin matematizat pentru care nu au pas iune i nclinaii. n rile cu tradiie n studiul psihologiei au aprut articole care explic de ce studenii au aversiune fa de statistic i tratamente matematice. Strict vorbind, statistica nu este chiar matematic, ci mai mult o colecie de metode i teorii care vizeaz modul de gestionare a ansamblurilor de date rezultate din cercetarea i practica profesional, care implic parial tratament matematic. n plus, s nu uitm, exist n psihologie i n varii domenii un curent de gndire anti-statistic care exagereaz n ideea inadecvrii metodelor cantitative n abordarea unor areale ale preocuprilor academice caracterizate de hiper-complexitate structural i suplee funcional. Un exponent al unui astfel de mod de gndire este cuprins n bestsellerul libanez ului Nassim Nicholas Taleb, intitulat Lebda Neagr. Impactul foarte puin probabilului, aprut la Curtea Veche Publishing n 2010. La pagina 265 a acestei cri, el spune: Uitai tot ce ai auzit n facultate despre statistic sau 8

Cristian Opariuc-Dan teoria probabilitilor. Dac nu ai urmat niciodat astfel de cursuri, e foarte bine. Ce putem s spunem despre astfel de reacii? A constata inadecvarea modelului gaussian, cum a fcut-o Taleb, nu i d dreptul s negi importana unei discipline tiinifice aflat n extindere rapid n aproape toate ndeletnicirile omeneti. Pentru psihologi, absena disciplinei Statistic din programul de pregtire universitar de baz ar nseamn lipsirea de un instrument absolut n ecesar de comunicare i de verificare a cercetrilor tiinifice. Contientiznd importana predrii acestei discipline pentru viitorul cercettor sau profesi onist practician, cei care au proiectat curriculumul facultilor de psihologie au nregistrat statistica n rndul disciplinelor fundamentale, alturi de introducere n psihologie, psihologia dezvoltrii, psihologia social, fundamentele tiinifice ale psihoterapiei, psihodiagnostic, metodele de cercetare i psihologia diferenial. O anchet efectuat n Statele Unite ale Americii n rndul fotilor absolveni de psihologie, referitoare la importana disciplinelor tiinifice predate n facultate asupra succesului profesional, indic statistica pe locul al treilea, dup psihologia social i psihoterapie. Lucrarea domnului Opariuc-Dan are ca baz de pornire dificultile ntmpinate de studeni n nelegerea statisticii. Experiena n predarea disciplinei Statistic aplicat n psihologie, m-a ajutat s detectez dou puncte eseniale ale acestor dificulti: clara nelegere a noiunilor predate i aplicarea robotic a unor formule pentru a evidenia semnificaia rezultatelor cercetrii. Insuficienta insistare asupra acestor dou aspecte duce la formarea unor deprinderi procustiene, care vor avea drept consecin simplismul interpretativ. La aceiai concluzie pare s fi ajuns i autorul crii atunci cnd insist, precum Cato n senatul Romei, asupra combaterii proastelor deprinderi n practicarea statisticii. Imensa mainrie statistic numit SPSS este o invenie minunat, care ajut studenii, cercettorii i practicienii s scurteze la minimum timpul 9

Statistic aplicat n tiinele socio-umane

acordat pentru realizarea unor activiti rutiniere, ns care nu poate fi utilizat fr cunoaterea suficient specificului aplicativ al unor proceduri. Nu ntmpltor, autorul insist att de mult pe corectitudinea unor aplicaii statistice i pe oportunitatea lor. n aplicarea unor tipuri de analize factoriale, real izatorii unor studii trebuie s cunoasc bine exigene referitoare dimensiunea scalar a datelor, la liniaritatea relaiilor ntre variabile i la numrul minim de subieci care trebuie s fie prezeni n cercetare. Dac nu suntem ateni la astfel de aspecte, riscm s fim catalogai drept creatori de artefacte n activitatea tiinific i de folosire abuziv, incompetent a unor creaii tehnice de excepie. Cristian Opariuc-Dan a relevat bine deficienele de nelegere ale statisticii de ctre studeni, i ne ofer o lucrare de un impresionant efort analitic i sintetic.

Conf. univ. dr. Aurel Stan Universitatea Al. I. Cuza Iai Facultatea de Psihologie i tiine ale Educaiei

10

Cristian Opariuc-Dan

Cuvntul autorului
Bine v-am regsit! Dup ce am aprofundat aspectele referitoare la analiza unei singure variabile statistici pe care le-am numit statistici univariate , a venit timpul s ne concentrm asupra analizei relaiilor dintre dou sau mai multe variabile. Lucrurile nu sunt deloc complicate, n comparaie cu cele prezentate n prima lucrare. Avem i aici algoritmi clari de lucru, i ne ajut acelai pachet binecunoscut de programe, SPSS. De data aceasta, nu vom mai analiza n detaliu o singur variabil, ci ne vom concentra asupra legturilor care exist ntre variabile. Vom ncerca s aflm care este legtura dintre lungimea prului i coeficientul de inteligen, sau dac pletoii sunt, ori nu sunt, mai inteligeni n comparaie cu cei care au prul scurt. De asemenea, vom ncerca s vedem n ce mod o variabil poate fi influenat de alte variabile; dac inteligena unui copil poate fi apreciat n baza notelor pe care acesta le are la matematic, fizic, chimie, limba romn ori alte discipline. Pornind tot de la relaiile dintre variabile, vom ncerca s aflm dac din rspunsurile la ntrebrile unui chestionar putem afla un element comun, i ct de precis este acesta. n limbaj tehnic, vom studia elemente legate de corelaii, diferene i studiul fidelitii, toate cu referire la date parametrice i neparametrice. Unii vor spune c analiza fidelitii prezint un grad mai ridicat de dificultate, iar aceste elemente nu trebuie tratate mpreun. S vedem dac este chiar aa. Nu-i voi uita pe cei care m-au ajutat s scriu acest volum i care au contribuit, ntr-o form sau alta, la apariia crii. i mulumesc soiei mele, Iulia-Laura, pentru rbdarea pe care a avut-o cu mine, n lungile zile n care nu m-am desprit de computer, scriind aceste 11

Statistic aplicat n tiinele socio-umane

rnduri. Scutindu-m, de multe ori, de treburile casnice, ncurajndu-m s scriu, soia mea a accelerat n mod semnificativ apariia acestui volum. Recunotina mea se ndreapt ctre profesorul universitar Ilie Puiu Vasilescu de la universitatea Wise din Virginia, Statele Unite, din ale crui cri am nvat statistic, i care a binevoit s analizeze critic documentul, corectndu-m atunci cnd am greit. De asemenea, profesorul universitar Corneliu Eugen Havrneanu i-a adus o important contribuie, fiind att cel de la care am nvat elementele de baz ale analizei de date, ct i cel care a avut rbdarea de a citi documentul, a-mi face observaii pertinente i a furniza impresiile sale referitoare la carte. Ca ntotdeauna, profesorul Aurel Stan s-a ocupat i de aceast carte, de la impresii i corectur la procesul redacional, lucru pentru care i sunt profund recunosctor. De asemenea, in s aduc mulumiri profesorului Filaret Sntion, de la universitatea Ovidius Constana, pentru numeroasele seri petrecute mpreun, momente n care discuiile noastre pe aceast tem au contribuit la consolidarea i sistematizarea acestui volum. Mulumiri speciale a dori s aduc doamnei profesor Monica Albu. Observaiile i criticile constructive aduse de domnia sa au contribuit, sper, la o calitate superioar a acestei lucrri. Exigena de care a dat dovad m ajut s m perfecionez i s pot, la un m oment dat, s ating standardele la care doamna profesor se raporteaz. Nu n ultimul rnd, v mulumesc dumneavoastr, celor care ai cumprat aceast carte, onorndu-m astfel cu dorina de a nva. V-am promis n primul volum c v voi scoate la lumin, n ceea ce privete metoda statistic, aplicat n tiinele socio-umane. Consider c am fcut-o. Acum haidei s schimbm becul de 60 de wai, pe care l-am aprins n primul volum, cu un bec de 100 de wai, i s facem i mai mult lumin Constana, 9 august 2011 12

Cristian Opariuc-Dan

I. RELAII NTRE VARIABILE


n acest capitol se va discuta despre: Conceptul de covarian i corelaie; Calculul coeficienilor de corelaie parametrici i neparametrici; Analiza i interpretarea coeficienilor de corelaie; Reprezentarea grafic i analiza graficelor corelaiilor; Dup parcurgerea capitolului, cititorii vor fi capabili s: neleag diferena dintre covarian i corelaie; Calculeze coeficienii de corelaie parametrici i neparametrici; Analizeze i s interpreteze coeficienii de corelaie; Utilizeze SPSS n calculul coeficienilor de corelaie.

n general, ntr-o cercetare tiinific, nu ne putem rezuma doar la studiul unei singure variabile, dei acest pas este important pentru stabilirea normalitii distribuiei. Faptul c notele obinute de ctre candidai la un examen de admitere la facultate sunt sau nu sunt distribuite normal, este de mare importan, att pentru aflarea nivelului candidailor respectivi, ct i n vederea stabilirii procedurilor ulterioare de analiz. Nu ne putem, ns, rezuma doar la acest lucru. Ne-ar interesa, poate, s aflm dac exist vreo legtur ntre aceste note i coeficientul de inteligen, s vedem dac, ntr-adevr, cei cu medii mari la admitere au i un coeficient de inteligen ridicat, sau din contra. Aceasta este o problem specific, ce poate fi abordat printr-un studiu corelaional. Ca n orice studiu tiinific, ncepem de la un fapt de observaie. De exemplu, constatm n ultimii ani o reducere a calitii sistemului de nvmnt universitar. Problema poate fi la nivelul cadrelor didactice, al 13

Statistic aplicat n tiinele socio-umane

studenilor, sau poate reprezenta o combinaie a acestor elemente. Dup ce am citit o sut de articole referitoare la aceast tem, dup ce am studiat cercetrile existente, putem ajunge la concluzia investigrii relaiei dintre mediile anilor de studiu din liceu, media de la bacalaureat i coeficientul de inteligen. Putem, aadar, formula obiectivul studiului: investigarea relaiei dintre media de admitere la universitate i coeficientul de inteligen. n mod cert, dup stabilirea obiectivului, va trebui s formulm ipoteza sau ipotezele cercetrii. n cazul nostru, ipoteza de cercetare devine: H1: Exist o relaie ntre nivelul de inteligen i media de admitere a candidailor n nvmntul superior. Aceast ipotez este evident o ipotez bidirecional, i ne duce cu gndul la un studiu corelaional. Dup cum tim, ipoteza de cercetare nu poate fi confirmat sau infirmat. Toate analizele se fac pe baza ipotezei nule. n situaia de fa, ipoteza nul va fi: H0: Nu exist nicio relaie ntre nivelul de inteligen i media de admitere a candidailor n nvmntul superior. Din simpla parcurgere a ipotezei, putem identifica foarte uor att planul de cercetare evident un plan corelaional cu dou variabile continui ct i variabilele coeficientul de inteligen i media de admitere. Nu ne rmne dect s colectm datele prin administrarea unui test de inteligen i prin nregistrarea mediilor de admitere ale candidailor i astfel obinem baza de date a cercetrii noastre. Ambele variabile fiind scalare, n urmtoarea etap vom proceda la analiza normalitii distribuiei acestora. Dar dup aceea, ce facem? Bineneles, intenionm s studiem relaia dintre aceste dou variabile. Relaiile stabilite din analiza a dou variabile se numesc analize bivariate, deoarece este posibil s studiem relaiile dintre mai multe variabile,

14

Cristian Opariuc-Dan metode reunite sub numele de analize multivariate. Ai observat c prefer folosirea termenului de relaie i nu a celui de corelaie. Care ar fi diferena? ntregul concept al investigrii gradului de asociere ntre dou variabile se bazeaz pe covarian. Ce este, ns, covariana? V mai amintii de termenul de varian folosit n prima lucrare? Am definit atunci acest element ca fiind media abaterilor scorurilor fa de tendina central (Opariuc-Dan, 2009). Lucram atunci doar cu o singur variabil. Dac am include nc o variabil, am spune c cele dou covariaz dac scorurile celei de-a doua se abat n acelai sens de la medie, chiar dac magnitudinile abaterilor pot fi altele.
+1,4 +0,4 +0,4 Var. X -0,6

-1,6

+0,8 +0,5 +2,3

Var Y -0,2

-0,6 Figura 1.1 Diferenele dintre scorul observat i medie pentru dou variabile, n cazul unui singur subiect examinat

15

Statistic aplicat n tiinele socio-umane

Urmrii figura 1.1. Am reprezentat aici dou variabile, variabila X i variabila Y. Observm c scorurile primei variabile se abat negativ fa de medie n primele dou cazuri i pozitiv fa de medie n ultimele trei cazuri. Acelai model este urmat i de cea de-a doua variabil, dei magnitudinea abaterilor este diferit. Putem suspecta faptul c cele dou variabile covariaz, adic subiecii care au scoruri mici la prima variabil, au scoruri mici i la a doua variabil. Cei care au scoruri mari la prima variabil, au scoruri mari i la a doua variabil. Acesta este principiul covarianei. Problema care se pune este s stabilim magnitudinea acestei covariane, n acelai mod n care am aflat magnitudinea varianei pentru fiecare variabil luat separat. Cu alte cuvinte, se poate da un indicator unic, numeric, al covarianei, n mod similar coeficientului de varian (s2)? Rspunsul este, din fericire, pozitiv. V aducei aminte c, n cazul calculrii varianei unei singure variabile, am ridicat la ptrat fiecare abatere de la medie, pentru a compensa problemele legate de semn. Este necesar s facem acest lucru i aici? Gndii-v nainte de a rspunde! Ei bine, nu. Fiind dou variabile, nmulind, pentru fiecare subiect, abaterile de la medie ale fiecrei variabile, rezolvm aceast problem. Dac ambele abateri sunt ori pozitive, ori negative, vom obine un produs pozitiv, artnd faptul c variabilele covariaz n acelai sens (se abate pozitiv de la medie una, se abate pozitiv de la medie i cealalt; se abate negativ una, se abate negativ i cealalt). Dac o abatere este pozitiv i cealalt este negativ, vom obine un produs negativ, artnd faptul c variabilele covariaz invers (dac una se abate pozitiv de la medie, cealalt se abate negativ). Mai simplu nici nu se putea. Cum obinem ns o valoare numeric unic a acestor abateri? Nu este deloc complicat. Adunm toate produsele i mprim la numrul de cazuri minus unu (efectund corecia cunoscut pentru lucrul cu eantioane). Iat ce greu e:

16

Cristian Opariuc-Dan

(formula 1.1)

Am obinut, astfel, formula covarianei pe care o putem acum aplica datelor noastre.

Cele dou variabile din exemplul de mai sus covariaz pozitiv (adic dac scorul la o variabil se afl peste medie, scorul la cealalt variabil se afl i el peste medie i invers), valoarea acestei covariaii fiind de 1,20. Marea problem a covarianei este aceea c relaiile dintre cele dou variabile depind de scala de msur. Dac avem dou instrumente ce msoar, fiecare, o singur variabil, unul cu 100 de itemi i unul cu 10 itemi, n condiiile n care itemii sunt cotai la fel, modul n care se vor abate scorurile individuale de la medie difer extrem de mult, coeficientul de covarian fiind foarte mare n comparaie cu situaia analog n care cele dou instrumente ar avea, fiecare, 10 itemi. n realitate acest coeficient nu ne spune, practic, nimic. Avem nevoie, aadar, de o msur standardizat a covarianei, iar aceast msur o regsim sub denumirea de corelaie. Corelaia exprim, practic, sub form numeric, gradul de asociere dintre variabile. Dou variabile sunt asociate, n situaia n care comportamentul uneia este legat de comportamentul celeilalte, cu alte cuvinte, dac nu sunt independente. Dou variabile independente arat c modificarea valorilor ntr-o variabil nu are niciun efect asupra valorilor din cealalt variabil. (Gibbons, 1993). n teorie e simplu. n practica tiinific din domeniul socio-uman, am artat c variabilele pot fi dificil msurate la un nivel de interval, majoritatea lor fiind, strict vorbind, la o scal de msur ordinal. Este greu s gsim o 17

Statistic aplicat n tiinele socio-umane

relaie matematic ntre dou variabile. Ar fi mai degrab vorba de covariane dect de corelaii. Un alt aspect important, pe care muli l ignor, este acela c nu putem stabili legturi cauzale n urma studiilor corelaionale. Din corelaii nu se pot face inferene cauzale, nu putem stabili care este cauza i care este efectul. Dac n urma unui studiu ajungem la concluzia c exist o legtur puternic ntre anxietate i depresie, care este cauza i care este efectul? Anxietatea determin depresia sau depresia produce anxietate? Studiile corelaionale permit stabilirea intensitii i a sensului unei legturi ntre variabile, nu i stabilirea relaiei cauz-efect. Accentuez asupra acestui aspect, deoarece am ntlnit multe asemenea confuzii n care se vorbea despre relaii cauzale, fapt complet eronat din punct de vedere tiinific. Relaiile dintre dou variabile se studiaz n baza a dou categorii de indici de corelaie. Vorbim de indici de corelaie parametrici i indici de corelaie neparametrici, n funcie de condiiile ndeplinite de variabile i anume dac ndeplinesc sau nu cerinele de administrare ale statisticilor parametrice.

I.1 Coeficieni de corelaie neparametrici


Aceti coeficieni de corelaie se utilizeaz n cazul n care cel puin una dintre cele dou variabile nu ndeplinete condiiile unei distribuii normale, fie din cauza specificului datelor, fie din aceea a nivelului de msur la care se situeaz. Numii i coeficieni de asociere pentru distribuii libere, coeficienii de corelaie neparametrici pot fi folosii att n cazul n care distribuia este cunoscut, de obicei normal, dar mai ales n cazul n care distribuia nu se cunoate, nu este normal sau datele nu pot fi asociate unui nivel de msur cel puin de interval. Motivul este acela c, datele aflate la un nivel de interval ori de raport, pot fi uor convertite n ranguri sau n frecvene (la nivel ordinal ori nominal). Invers nu este, ns, posibil.

18

Cristian Opariuc-Dan n acest sens, exist mai muli indici ai relaiilor dintre variabile, utilizabili n funcie de tipul variabilelor.

I.1.1 Coeficientul de corelaie a rangurilor (rho) Spearman


Este un coeficient bazat pe ranguri, nu este influenat de reprezentativitatea mediei i se utilizeaz, n general, Tabelul 1.1 Rezultate obinute atunci cnd lotul de cercetare are dimensiuni de 10 elevi la matematic i fizic mici (sub 30 de cazuri), sau cnd cel puin Nr. Matematic Fizic 1 2 3 una dintre variabile nu ndeplinete condiiile 2 3 4 de administrare ale testelor parametrice. A 3 4 4 fost dezvoltat de psihologul englez Charles 4 5 5 5 6 6 Spearman i, datorit similaritii sale cu coe6 6 7 ficientul r Bravais-Pearson, acest indicator 7 7 7 este frecvent utilizat n tiinele socio-umane. 8 8 7 9 9 8 De fiecare dat cnd avei de calculat coefici10 10 9 entul de corelaie bivariat, iar datele dumneavoastr nu se distribuie normal pentru cel puin una dintre variabile, apelai cu ncredere la acest coeficient. Coeficientul nu face altceva dect s transforme scorurile originale n ranguri i s analizeze relaia dintre acestea. Formula de calcul nu este complicat i poate fi rezumat la:

(formula 1.2)

unde d reprezint diferena dintre rangurile valorilor msurate la un subiect, iar n se refer la numrul de subieci S considerm un exemplu n care avem un numr de 10 elevi de clasa a XI-a care obin urmtoarele rezultate la matematic i la fizic (tabelul 1.1).

19

Statistic aplicat n tiinele socio-umane

Dup cum observm, cele dou variabile se afl la un nivel de msur scalar, ns numrul mic de subieci (n=10) nu permite analiza distribuiei rezultatelor, fiind sub 30 de cazuri. n aceast situaie, nu putem folosi coeficieni de corelaie parametrici. Pentru a uura lucrurile, notele la matematic i la fizic au fost ordonate astfel nct s putei nelege mai uor algoritmul. Vom decide s folosim coeficientul de corelaie a rangurilor Spearman. Evident, primul pas este acela al calculrii rangurilor. Nu intram n amnunte asupra acestei proceduri, deoarece a fost tratat n lucrarea anterioar, capitolul referitor la median i ranguri.
Nr. 1 2 3 4 5 6 7 8 9 10 Tabelul 1.2 Calculul coeficientului de corelaie Spearman Matematic Fizic Rang Matematic Rang Fizic d 2 3 1 1 0 3 4 2 2,5 -0,5 4 4 3 2,5 0,5 5 5 4 4 0 6 6 5,5 5 0,5 6 7 5,5 6 -0,5 7 7 7 6 1 8 7 8 6 2 9 8 9 9 0 10 9 10 10 0 d2 d2 0 0,25 0,25 0 0,25 0,25 1 4 0 0 6

Dup calculul rangurilor, facem diferena dintre rangul primei variabile (matematic) i rangul celei de-a doua variabile (fizic). Valoarea d va fi, aadar, d=RangMatematic RangFizic. n urmtoarea etap, ridicm la ptrat diferena rangurilor, pentru a elimina problemele generate de semnul diferenelor, i facem suma ptratelor diferenelor. Rezultatele acestor etape sunt prezentate n tabelul 1.2. Avem acum toate datele necesare nlocuirii n formul.

20

Cristian Opariuc-Dan Iat i coeficientul de corelaie a rangurilor, n valoare de 0,96. Am obinut o corelaie pozitiv i puternic ntre notele obinute de ctre cei 10 elevi la matematic i fizic. Putem spune c cei care obin note mari la matematic, obin note mari i la fizic; cei cu note mici la matematic au note mici i la fizic. Calculul dup aceast formul poate fi efectuat numai n situaia n care nu exist ranguri egale. Atunci cnd apar ranguri egale (cum se poate observa i n cazul nostru), se folosete o formul uor diferit, formul de corecie pentru ranguri egale. Aceast formul se aplic n cazul n care a mbele variabile au ranguri egale, sau atunci cnd ntlnim ranguri egale doar n situaia unei singure variabile.
( )

(formula 1.3)

unde rx i ry reprezint rangurile celor dou variabile Revenind la exemplul nostru, vom avea un alt tip de tabel, ceva mai complex.
Nr. 1 2 3 4 5 6 7 8 9 10 Mate 2 3 4 5 6 6 7 8 9 10 Tabelul 1.3 Calculul coeficientului de corelaie Spearman Fizic Rang Mate Rang Fizic RMxRF R M2 3 1 1 1 1 4 2 2,5 5 4 4 3 2,5 7,5 9 5 4 4 16 16 6 5,5 5 27,5 30,25 7 5,5 6 33 30,25 7 7 6 42 49 7 8 6 48 64 8 9 9 81 81 9 10 10 100 100 =55 =52 =361 =384,5 R F2 1 6,25 6,25 16 25 36 36 36 81 100 =343,5

21

Statistic aplicat n tiinele socio-umane

Dup calculul rangurilor, am efectuat produsul rangurilor i ridicarea la ptrat a fiecrui rang. Apoi, am calculat sumele necesare. Nu rmne, n final, dect nlocuirea n formul. Rezultatul va fi, n acest caz, foarte apropiat cu cel de mai sus. Evident, numrul foarte mic de cazuri, face ca efectul coreciei pentru ranguri egale s fie, i el, foarte mic.
( )

Acest coeficient de corelaie, foarte uor de calculat, are, ns, o problem. Ai observat c cele dou variabile utilizate se situeaz la un nivel scalar de msur. Dup unii autori (Vasilescu, 1992, apud Yule i Kendall, 1969; Lohse, Kudwig i Rohr, 1986), acest coeficient de corelaie este inadecvat pentru ranguri, deoarece presupune c datele au, toate, proprietile necesare pentru calcularea coeficienilor parametrici. Indicatorul reduce, de fapt, datele de la un nivel scalar la un nivel ordinal. n acest sens, mai adecvat ar fi calcularea altor coeficieni, specifici pentru rang (Vasilescu, 1992). Totui, datorit uurinei calculrii acestui coeficient i a faptului c poate fi folosit pentru date parametrice care nu ndeplinesc condiiile aplicrii de teste parametrice, coeficientul Spearman are o larg utilizare. n general, folosim acest coeficient de corelaie atunci cnd ambele variabile se afl la un nivel de msur ordinal, cnd o variabil se afl la un nivel ordinal, iar cealalt la un nivel scalar, ori cnd ambele se afl la nivel scalar, dar cel puin una dintre ele nu prezint o distribuie normal.

I.1.1.1 Semnificaia coeficientului de corelaie Spearman


n cazul studiilor corelaionale, i nu numai, nu este suficient obinerea coeficientului de corelaie pentru a respinge sau nu ipoteza nul. tim foarte bine c avem nevoie i de pragul de semnificaie care ne arat, practic,

22

Cristian Opariuc-Dan ce anse avem ca indicatorul obinut s rezulte n urma unor erori de eantionare. Putem accepta semnificaia acestui indicator i respinge ipoteza nul, doar dac aceast ans este mai mic de 5%, cu alte cuvinte, dac ne situm la un prag de semnificaie mai mic de 0,05. Cea mai simpl metod de a determina semnificaia coeficientului de corelaie a rangurilor este aceea n care putem compara valoarea acestuia cu valoarea de referin pentru nivelul de semnificaie dorit, valoare publicat n tabele speciale. Stabilirea modului n care au fost construite aceste tabele nu face obiectul prezentei lucrri, deoarece calculele sunt mai complicate i s-au realizat n decursul anilor pe eantioane de diferite dimensiuni, folosindu-se distribuii teoretice de probabiliti. n anexa 1 am furnizat un asemenea tabel. Dac relum exemplul nostru, am obinut un coeficient de corelaie a rangurilor de 0,96, studiind un lot de cercetare de 10 elevi. n prima coloan avem mrimea eantionului. Dac nu gsim numrul exact de cazuri, vom lua valoarea inferioar cea mai apropiat. n situaia noastr, avem 10 subieci, iar rndul care ne intereseaz este al aselea rnd din acel tabel, unde avem numrul 10 pe coloana n. Observm c pentru a fi semnificativ la un prag de semnificaie mai mic de 0,05, coeficientul trebuie s aib cel puin valoarea 0,64. Dac dorim s fim mai riguroi, la un prag de semnificaie mai mic de 0,02, valoarea acestui coeficient trebuie s fie mai mare de 0,74 iar la un prag mai mic de 0,01, coeficientul trebuie s depeasc valoarea 0,794. Coeficientul nostru de corelaie a rangurilor este de 0,96 i constatm c ne aflm la un prag de semnificaie mai mic de 0,01. Putem spune c exist o legtur puternic ntre cele dou variabile, la un prag de semnificaie mai mic de 0,01. n condiiile n care numrul de subieci este mai mare de 10, putem testa semnificaia coeficientului de corelaie a rangurilor Spearman i n alt mod, folosind distribuia t, deoarece am artat faptul c acest coeficient nu

23

Statistic aplicat n tiinele socio-umane

este altceva dect o variant ordinal a coeficientului r Bravais-Pearson, despre care vom discuta mai trziu. (formula 1.4)

n situaia noastr, am obinut un coeficient de corelaie a rangurilor de 0,96 pentru un numr de 10 subieci. Valoarea testului t va fi:

n tabelul din anexa 4 referitor la distribuia t, vom cuta semnificaia valorii testului t pentru un numr de 10-2=8 grade de libertate. La un numr de 8 grade de libertate, pentru a fi semnificativ corelaia, valoarea testului t trebuie s depeasc 1,86 la un prag de semnificaie mai mic de 0,05 i 2,89 la un prag de semnificaie mai mic de 0,01. Rezultatul obinut, 9,60, este mai mare de 2,89, rezultnd c acest coeficient de corelaie = 0,96 este semnificativ la un prag de semnificaie p < 0,01. O alt variant prin care putem testa semnificaia acestui coeficient de corelaie, are n vedere faptul c pentru eantioane mari, distribuia se apropie de o distribuie normal i putem calcula statistica z, dup formula: (formula 1.5)

n situaia noastr, statistica z va fi 2,88. Raportat la distribuia z, coeficientul arat o valoare puternic semnificativ a corelaiei, la un prag de semnificaie mai mic de 0,01.

Coeficientul de corelaie a rangurilor Spearman este un coeficient de corelaie direcional i poate avea valori cuprinse ntre -1 i +1. Valorile apropiate de +1 indic existena unei asocieri directe (pozitive) ntre cele do24

Cristian Opariuc-Dan u variabile, n timp ce valorile apropiate de -1 indic existena unei asocieri inverse (negative). Cu ct valorile se apropie mai mult de 1 (indiferent de semn), cu att asocierea este mai puternic, variabilele fiind mai legate ntre ele. Un coeficient de corelaie care are exact valoarea +1 arat c n cele dou variabile exist exact aceleai ranguri ale scorurilor. Dac Ionel obine rangul 5 la matematic, obine tot rangul 5 i la fizic; Viorel are rangul 7 la matematic i rangul 7 la fizic; Viorica are rangul 3 la matematic i rangul 3 la fizic i aa mai departe. Un coeficient de corelaie care are exact valoarea -1 arat c rangurile dintr-o variabil sunt inversul perfect al rangurilor din cealalt variabil. Dac Dan are rangul 8 la matematic, are rangul 3 la fizic; Mioara are rangul 6 la matematic i rangul 4 la fizic; Costel are rangul 9 la matematic i rangul 2 la fizic. Un coeficient de corelaie cu valoarea 0 semnific lipsa oricrei legturi ntre cele dou variabile i spunem c cele dou variabile sunt necorelate liniar ntre ele.

n practic nu gsim aproape niciodat aceste extreme (-1; 0; +1), dect n cazul n care copiem, pur i simplu, datele dintr-o variabil ntr-o alt variabil i apoi calculm coeficientul de corelaie, ceea ce, fiind vorba ntre noi, s-a mai vzut pe la unii studeni n lucrrile lor tiinifice. Cu ct valorile coeficientului de corelaie se apropie mai mult de zero, cu att variabilele sunt necorelate, fr legtur ntre ele; cu ct sunt mai apropiate de 1, cu att sunt mai asociate, mai strns legate, au elemente comune. ntre aceste dou extreme, independen i covarian, se situeaz ntreaga filozofie i ntreaga putere a coeficienilor de corelaie.

25

Statistic aplicat n tiinele socio-umane

Exist o legtur logic ntre mrimea coeficientului ce corelaie i semnificaia acestuia. Nu trebuie demonstrat faptul c n cazul n care coef icienii de corelaie se apropie de valoarea 1, deci variabilele sunt puternic asociate, aceast asociere este i semnificativ, pragul de semnificaie apropiindu-se de zero, n timp ce la apropierea coeficientului de corelaie de valoarea zero, pragul de semnificaie se apropie i el de 1, legtura nefiind semnificativ. Am fcut aceste precizri n cadrul primului coeficient de corelaie studiat, coeficientul de corelaie Spearman. Informaiile prezentate mai sus se aplic tuturor coeficienilor direcionali, astfel nct nu le vom mai repeta n cazul altor coeficieni de corelaie, ci ne vom axa doar asupra posibilelor completri i proceduri speciale de calcul. Un ultim aspect care merit a fi menionat: coeficientul de corelaie al rangurilor Spearman este, alturi de marea majoritate a coeficienilor de acest tip, adimensional i situat la un nivel ordinal. Adic nu are o unitate de msur i permite comparaii directe. Putem compara un coeficient cu un alt coeficient de corelaie, putem lucra cu mediana coeficienilor de corelaie, etc. Bineneles, fiind situat la un nivel de msur ordinal, nu putem calcula statistici metrice, nu putem vorbi de media coeficienilor de corelaie.

I.1.2 Coeficientul de corelaie a rangurilor (tau) Kendall


Tabelul 1.4 Rezultate obinute de 4 elevi la romn i chimie Nr. Romn Chimie 1 Satisfctor Nesatisfctor (2) (1) 2 Bine Foarte bine (3) (4) 3 Nesatisfctor Bine (1) (3) 4 Foarte bine Satisfctor (4) (2)

Este un alt coeficient de corelaie pentru date neparametrice, dezvoltat de statisticianul englez Maurice Kendall n anul 1938, fiind mai precis dect Spearman n cazul variabilelor ce se situeaz ntr-un mod real la un nivel pur ordinal. Procedurile de calcul ale acestui coeficient difer ntre ele, ns toate se

26

Cristian Opariuc-Dan bazeaz pe numrarea inversiunilor (cazul n care un element care are un rang mai mare pentru o variabil, se situeaz n faa unui element cu un rang mai mic, datele fiind ordonate dup cealalt variabil) i a opusului acestora, numit i proversiuni (Vasilescu, 1992). Ca s nelegem mai bine cum stau lucrurile, s lum un exemplu. S presupunem c ntr-o clas au fost evaluai un numr de patru elevi la limba romn i la chimie, obinndu-se rezultatele din tabelul 1.4. Aceste date nu pot fi asociate unor date la un nivel scalar, fiind n mod cert date ordinale. Dac notm calificativul nesatisfctor cu 1, satisfctor cu 2, bine cu 3, foarte bine cu 4 i excepional cu 5, putem obine expresia numeric a acestor evaluri. V reamintesc faptul c aceste cifre nu reprezint dect nite coduri asociate calificativelor i nu au valoare n sine. La acest nivel putem doar ordona elevii n funcie de calificative (de la nesatisfctor la excepional) i nu putem preciza cu ct un elev este mai bun dect cellalt (vezi referinele la scale de msur din lucrarea anterioar). Calcularea numrului de inversiuni se face prin ordonarea datelor dup prima variabil. Ordonnd datele, tabelul se prezint n felul urmtor (tabelul 1.5). Tabelul 1.5 Ordonarea dup variabiInversiunile vor fi calculate n baNr. Romn Chimie Nesatisfctor Bine za celei de-a doua variabile (chimie) 3 (1) (3) urmrindu-se, pe rnd, ordinea natural a Satisfctor Nesatisfctor 1 rangurilor. Pentru prima linie, subiectul (2) (1) Bine Foarte bine are rangul 3 la chimie. Acest rang este 2 (3) (4) mai mare dect rangul la chimie pentru a Foarte bine Satisfctor 4 (4) (2) doua linie (1), deci avem de-a face cu o inversiune. Prima inversiune gsit este (3 1). Comparnd prima linie cu a treia (rangul 3 cu rangul 4, tot pe coloana chimie), observm c cele dou ranguri sunt n ordine natural, deci nu apare o inversiune n acest caz. O alt inversiune apare la compararea primei linii cu ultima (inversiunea 3 2). 27
la Romn

Statistic aplicat n tiinele socio-umane

A doua linie nu presupune inversiuni, toate comparaiile fiind n ordinea natural (att comparaia rangului 1 cu rangului 4 ct i comparaia rangului 1 cu rangului 2), lucru evident, deoarece rangul acestei linii este 1 i nu exist nici un rang mai mic dect 1. A treia linie presupune compararea rangului 4 cu rangul 2 (liniile 3 i 4). Observm, n sfrit, o ultim inversiune sub forma perechii 4 2. Aadar, n irul determinat de variabila chimie, avem un numr de 3 inversiuni (perechile 3 1, 3 2 i 4 2) i un numr de 3 proversiuni (perechile 3 4, 1 4 i 1 2). Calculul coeficientului Kendall se face diferit, n funcie de existena sau inexistena elementelor cu acelai rang. n cazul nostru, observm c nu exist elemente cu acelai rang, situaie n care putem aplica prima formul de calcul a coeficientului Kendall: (formula 1.6) unde I reprezint numrul de inversiuni, iar n numrul de subieci nlocuind n formula noastr, unde au fost 3 inversiuni i 4 subieci, obinem urmtorul coeficient de corelaie a rangurilor:
Tabelul 1.6 Ordonarea dup variabila Romn Nr. Romn Chimie 1 Nesatisfctor Bine (1) (3) 2 Satisfctor Nesatisfctor (2) (1) 3 Bine Foarte bine (3) (4,5) 4 Foarte bine Satisfctor (4) (2) 5 Excepional Foarte bine (5) (4,5)

Iat o prim situaie n care nu exist nici o legtur ntre cele dou variabile. Acest lucru se datoreaz, evident, numrului extrem de mic de subieci luai n calcul, faptului c informaia este insuficient pentru a ne permite formularea unor concluzii utile. Acest coeficient de corelaie se mai numete coeficientul de corelaie a. Exist i alte variante ale acestui coeficient, avnd exact aceeai semnificaie, (b i c), 28

Cristian Opariuc-Dan pe care nu le vom discuta aici. Menionm numai ca b se folosete n cazul variabilelor cu un numr egal de modaliti de realizare (tabele ptratice), iar c se folosete n cazul variabilelor cu un numr inegal de modaliti de realizare (tabele rectangulare). Dac exist elemente cu acelai rang n cazul celei de-a doua variabile, lucrurile se complic puin. Vom relua exemplul anterior pentru 5 subieci, la aceleai discipline (tabelul 1.6). Observm c n cazul primei variabile nu avem ranguri care se repet, n timp ce pentru variabila chimie avem dou cazuri n care se repet calific ativul foarte bine. n aceste situaii, ordonm datele dup variabila care nu are elemente cu acelai rang n cazul nostru, dup variabila romn. tim c dac dou sau mai multe elemente ocup aceeai poziie, rangul lor devine media poziiilor pe care se afl. Cele dou elemente cu calificativul foarte bine ocup poziiile 4 i 5, rangul lor fiind acelai, 4,5. Aceste elemente poart numele de ambiversiuni i reprezint un nou concept n calculul coeficientului de corelaie, alturi de inversiuni i proversiuni. n condiiile n care nu sunt elemente cu ranguri egale, atunci putem spune c numrul inversiunilor i cel al proversiunilor este egal cu suma primelor n-1 numere naturale. Adic se definete dup formula . Din acest lucru putem de. Dac nu ar exista inversiuni, duce un alt element, numit suma lui Kendall i notat cu S. Suma lui Kendall adic I=0, atunci s-ar obine valoarea maxim a acestei sume, astfel nct

n baza acestor sume, formula generalizat a coeficientului de corelaie a rangurilor Kendall devine: (formula 1.7)

29

Statistic aplicat n tiinele socio-umane

Practic nu am fcut dect s generalizm formula anterioar de calcul a acestui coeficient, pentru a include un alt element i anume cel de corecie a ambiversiunilor. Dac apar ambiversiuni, suma maxim se reduce cu acest element de corecie, dup formula urmtoare: (formula 1.8)

unde fp este numrul de asocieri de p elemente i p se refer la numrul elementelor. n exemplul nostru, avem o singur pereche de elemente, i anume cele cu rangurile 4,5. Astfel, valoarea A devine . Pentru o clarificare mai bun a modalitii de calcul al acestui element, s lum un alt exemplu de ranguri: Note: Poziie: Rang 2; 3; 5; 5; 5; 6; 7; 1; 2; 3; 4; 5; 6; 7; 7; 8; 9; 10; 10; 11; 12

8; 9; 10; 11; 12; 13; 14

1; 2; 4; 4; 4; 6; 7,5; 7,5, 9; 10; 11,5; 11,5; 13; 14

Observm c avem dou perechi de elemente (7 cu rangurile 7,5 i 10 cu rangurile 11,5) i o asociere cu 3 elemente (5 cu rangurile 4). Aplicnd formula pentru ambiversiune, obinem . Existena acestor ambiversiuni reduce att numrul maxim de legturi ierarhice, ct i suma lui Kendall, cu valoarea inversiunilor (Vasilescu, 1992). Astfel, i, de asemenea, ( ) . Cunoscnd acum aceste date i formula generalizat pentru coeficientul Kendall de corelaie a rangurilor, putem deduce cu uurin noua formul pentru cazul n care una dintre variabile are elemente de acelai rang. ( ) ( )

30

Cristian Opariuc-Dan
( )

(formula 1.9)

Relund exemplul de mai sus, avem un numr de 3 inversiuni (3 1; 3 2; 4,5 2) i o ambiversiune (4,5 4,5). Toate datele sunt cunoscute i nu ne rmne dect s nlocuim n formul, obinnd coeficientul Kendall de 0,55.

Tabelul 1.7 Calificativele obinute la limba romn i la chimie Nr. Romn Chimie 1 Satisfctor Bine (2) (3) 2 Satisfctor Nesatisfctor (2) (1) 3 Bine Bine (3) (3) 4 Foarte bine Satisfctor (4) (2) 5 Excepional Foarte bine (5) (4) 6 Foarte bine Bine (4) (3) 7 Nesatisfctor Satisfctor (1) (2) 8 Bine Foarte bine (3) (4)

Dei este puin mai complicat i presupune calculul unui indicator suplimentar, algoritmul nu pune probleme deosebite. S vedem n continuare modul de calcul al acestui coeficient n condiiile n care ambele variabile au elemente de acelai rang. De data aceasta, algoritmul implic mai multe etape, deoarece avem ambiversiuni att n cazul primei variabile, ct i n cazul celei de-a doua variabile. Suma Kendall va deveni iar suma maxim se calculeaz n baza formulei ), unde Ax i Ay sunt ambiversiunile din

)(

cele dou variabile, iar S- i S+ sunt sumele calculate numai din rangurile ce-

31

Statistic aplicat n tiinele socio-umane

lei de-a doua variabile. Nu va speriai. Clarificm imediat aceste concepte abstracte. Avnd n vedere formula generalizat pentru coeficientul de corelaie Kendall i cunoscnd sumele, putem da expresia formulei de calcul a coeficientului, n condiiile n care gsim ambiversiuni att n prima, ct i n a doua variabil: (formula 1.10)
)( )

Pentru a nu intra n detalii teoretice inutile, s considerm c un numr de 8 elevi au obinut urmtoarele calificative la limba romn i la chimie (tabelul 1.7). Datele din tabelul 1.7 nu sunt ordonate dup nicio variabil i putem observa cu uurin c att calificativele la limba romn, ct i cele de la chimie, vor conine elemente cu ranguri egale. Pentru a calcula S+, se ordoneaz cresctor elementele dup prima variabil (romn). n cazul n care ntlnim ranguri egale ale primei variabile (romn), elementele vor fi aranjate cresctor, n funcie de a doua variabil (chimie). Obinem, astfel, un nou ir numit n termeni de specialitate Y+, pe baza cruia calculm ambiversiunile Ay i inversiunile, dup care putem afla suma S+, n mod similar sumei prezentate n capitolul anterior. Vom rearanja tabelul de mai sus pentru a putea calcula mai uor aceste elemente.
Tabelul 1.8 Rearanjarea rangurilor n vederea calculului S+ Numr elev 7 2 1 3 8 4 6 Calificativ romn 1 NS 2S 2S 3B 3B 4 FB 4 FB Poziie 1 2 3 4 5 6 7 Rang romn 1 2,5 2,5 4,5 4,5 6,5 6,5 Calificativ chimie 2S 1 NS 3B 3B 4 FB 2S 3B Rang chimie 2,5 1 5 5 7,5 2,5 5 5 5E 8 8 4 FB 7,5

32

Cristian Opariuc-Dan Suma S+ se va calcula innd cont doar de rangurile celei de-a doua variabile, n cazul nostru, chimia. Din tabelul 1.8 observm c apare de dou ori rangul 2,5, de trei ori rangul 5 i de 2 ori rangul 7,5. Numrul de legturi ambiverte (Ay) va fi, prin urmare, ( ) ( )

, deoarece avem dou legturi cu 2 elemente i o singur

legtur cu 3 elemente. Perechile de inversiuni n variabila chimie vor fi (2,5 1), (5 2,5), (5 2,5), (7,5 2,5), (7,5 5), (5 7,5), vorbind, astfel, de un numr de 6 inversiuni. Cu toate aceste elemente putem acum calcula suma S+, aplicnd formula de mai sus i obinem valoarea 11.
( ) ( )

Tabelul 1.9 Rearanjarea rangurilor n vederea calculului SNumr elev 7 1 2 8 3 6 7 Calificativ romn 1 NS 2S 2S 3B 3B 4 FB 4 FB Poziie 1 2 3 4 5 6 7 Rang romn 1 2,5 2,5 4,5 4,5 6,5 6,5 Calificativ chimie 2S 3B 1 NS 4 FB 3B 3B 2S Rang chimie 2,5 5 1 7,5 5 5 2,5

5 5E 8 8 4 FB 7,5

Calcului sumei S- se face n mod similar, singura diferen este c la ranguri egale ale primei variabile, elementele celei de-a doua variabile se ordoneaz descresctor, obinndu-se irul Y-, restul algoritmului rmnnd neschimbat. Fiind acelai numr de ranguri egale n cea de-a doua variabil, indicele legturilor ambiverte nu se schimb. Se modific doar numrul de inversiuni n acest caz, astfel (2,5 1), (5 1), (5 2,5), (7,5 5), (7,5 5), (7,5 2,5), (5 2,5), (5 2,5), rezultnd un numr de 8 inversiuni. nlocuind n formul, vom avea S- n valoare de 7. 33

Statistic aplicat n tiinele socio-umane

Avnd valorile pentru S+ i S-, putem acum calcula suma lui Kendall

Pentru a putea calcula Smax ,va trebui s aflm doar numrul de legturi ambiverte din prima variabil (Ax), n cazul nostru limba romn. Avem trei legturi de cte 2 elemente, 2,5 4,5 i 6,5. tim acum formula de calcul i putem afla uor aceast valoare. ( ) Nu ne rmne dect s completm formula de calcul i obinem valoarea 23,97.
( )( ) ( )( )

Coeficientul de corelaie Kendall, n acest caz ca raport al celor dou sume, devine .

Se pare c v-ai obinuit cu mai puine calcule n lucrarea anterioar. Aceasta este situaia. n definitiv, am trecut la stabilirea relaiilor dintre variabile, nu mai lucrm cu una, ci cu dou variabile n acelai timp i este normal s se complice puin i calculele. Din fericire, avei ceva mai mult de adunat, sczut sau nmulit iar formulele v pot speria doar la prima vedere. n definitiv, algoritmii de calcul sunt destul de simpli. Singura problem este aceea c la un numr mare de subieci trebuie s fii extrem de ateni, altfel v putei ncurca uor. Bine c avem, ns, computerele care ne scot din impas. Imaginai-v doar cum lucrau cercettorii prin anii `30 ai secolului XX i vei putea nelege ce norocoi suntem noi acum.

34

Cristian Opariuc-Dan Acest coeficient de corelaie se poate utiliza n condiiile n care ambele variabile sunt ordinale sau o variabil este ordinal, iar cealalt este scalar.

I.1.2.1 Semnificaia coeficientului Kendall


Care este semnificaia coeficientului de corelaie Kendall? Deoarece acest coeficient se bazeaz practic pe numrarea perechilor diferite provenite din dou iruri ordonate de date, ea nu reprezint altceva dect o diferen dintre probabilitatea elementelor de a fi n aceeai ordine i probabilitatea elementelor de a fi ntr-o alt ordine (Kenny, 1987). Coeficientul Kendall este un coeficient direcional, avnd aceeai semnificaie interpretativ ca i coeficientul Spearman. n anexa 2 am furnizat tabelele de referin ale valorilor acestui coeficient pentru diferite praguri de semnificaie. Deoarece la valori mari ale numrului de subieci, distribuia Kendall se apropie de distribuia normal, este posibil, atunci cnd numrul de subieci este mai mare de 30, s se calculeze statistica z pentru coeficientul de corelaie Kendall, dup formula urmtoare:

(formula 1.11)

Dac am obine un coeficient de corelaie Kendall de 0,42 pe un numr de 34 de subieci, atunci statistica z a acestui coeficient devine 5,25, valoare puternic semnificativ ce indic legtura dintre cele dou variabil e analizate.

35

Statistic aplicat n tiinele socio-umane

Statistica z a coeficientului de corelaie Kendall se raporteaz la distribuia z, pe baza tabelelor de distribuie z prezentate n anexa 8.

I.1.3 Coeficientul de contingen 2 (chi ptrat)


Este greu de definit 2. A fost conceput de Pearson i putem afirma, fr s ne nelm prea tare, c statisticile neparametrice ncep i se termin cu 2, att de mare este importana acestui indicator utilizat n studii corelaionale i factoriale cu date nominale. Rolul su este esenial n analiza datelor nominale, coeficientul putnd fi folosit n stabilirea relaiilor dintre dou variabile dihotomice, ale unei variabile dihotomice cu una nominal, i ale celor n care intervin o variabil nominal i una ordinal, sau o variabil nominal i una scalar. Practic, atunci cnd avem de a face cu o variabil nominal, cel mai pertinent indicator este acest 2. 2 este un coeficient de asociere ntre dou variabile nominale. El msoar gradul de contingen al celor dou variabile, verificnd dac sunt sau nu sunt asociate n vreun fel. n realitate, acest coeficient pare mai degrab un test statistic dect un indicator al gradului de asociere. Spre exemplu, avem o cercetare n care dorim s stabilim n ce msur se asociaz genul biologic al unor subieci i calitatea de fumtor. Suntem n situaia unei variabile nominale i a unei variabile dihotomice. n acest caz vom utiliza aa-numitele tabele de contingen, pe baza crora vom calcula 2.
Tabelul 1.10 Tabelul de contingen cu frecvenele estimate pentru 2 Calitate fumtor Da Nu 35 64 Brbai Brbai (27,87) (71,12) 99 Gen biologic 23 84 Femei Femei (30,12) (76,87) 107 Fumtori Nefumtori Total 58 148 206

36

Cristian Opariuc-Dan La aceast cercetare au participat un numr de 206 persoane, 99 brbai i 107 femei. Dintre acetia, 58 sunt fumtori, iar 148 nefumtori. Ipoteza nul de la care pleac 2 este aceea conform creia nu exist nicio asociere ntre aceste dou variabile. Cu alte cuvinte, frecvenele de apariie ale cazurilor nu sunt diferite de situaia n care toate cele patru variante ar avea o frecven de apariie teoretic (frecvena corespunztoare situaiei n care cele dou variabile ar fi independente). Datorit acestui fapt, atunci cnd lucrm cu 2, ne putem exprima n frecvene relative sau n frecvene absolute. Ideea testului 2 este aceea a comparrii acestor frecvene observate cu situaia n care celulele ar avea frecvenele teoretice estimate, prin frecvene teoretice estimate nelegnd frecvenele pentru cazul n care cele dou variabile ar fi independente. Dac diferenele ntre frecvenele observate i cele estimate (teoretice) sunt mari, atunci vorbim de un 2 semnificativ, fapt care indic existena unei asocieri ntre cele dou variabile. Dar cum se obine practic acest lucru? Primul pas este acela al calculrii frecvenelor estimate pentru fiecare dintre cele patru celule care ne intereseaz. Acest lucru se face foarte simplu pe baza formulei: (formula 1.12) Pentru prima coloan (brbai fumtori) vom avea o frecven estimat de . Pentru brbai nefumtori avem , pentru femeile fumtoare frecvena ateptat devine , iar pentru femeile nefumtoare vom avea .

Odat stabilite frecvenele teoretice (estimate), urmeaz calcularea coeficientului 2. La acest nivel putem distinge dou situaii. n cazul n care cel puin una dintre cele dou variabile are mai mult de dou categorii (de exemplu o variabil de tipul ocupa37

Statistic aplicat n tiinele socio-umane

iei cu variantele muncitor, maistru i inginer), se aplic formula general a coeficientului 2. (formula 1.13)

Dac cele dou variabile au exact cte dou categorii fiecare, atunci se aplic o formul de corecie pentru continuitate.
| |

(formula 1.14)

Noi ne aflm n cea de-a doua situaie, astfel nct vom aplica, pentru fiecare dintre cele patru celule, formula corectat i vom obine valoarea 4,2 pentru coeficientul de contingen 2.
| | | | | | | | | |

Ce facem acum cu acest coeficient obinut? Va trebui s-l verificm la un prag de semnificaie stabilit, pentru a vedea dac putem sau nu respinge ipoteza nul. Dar nainte de aceasta vom stabili gradele de libertate. tiu c nu avei o idee prea clar referitoare la acest concept. Avei rbdare, o vom discuta imediat. n cazul nostru, gradele de libertate se calculeaz nmulind numrul categoriilor fiecrei variabile din care se scade unu. Adic, df=(CatX-1)(CatY-1). Noi avem dou variabile cu dou categorii i rezult (21)(2-1)=1 grad de libertate. n acest moment avem toate informaiile pentru a stabili dac acest coeficient de contingen este sau nu este semnificativ.

38

Cristian Opariuc-Dan Coeficientul de contingen 2, dup cum ai putut constata, este simplu de neles i de calculat. De aceea, voi risca s abordez, n cele ce urmeaz, o perspectiv ceva mai matematizat asupra datelor neparametrice, deoarece un stil asemntor l putei ntlni n cele mai multe lucrri din acest domeniu. Tabelele de contingen (asociere) sunt intens folosite atunci cnd lucrm cu date discrete. n momentul n care reprezentm, folosind un asemenea tabel, doar dou variabile, vorbim de tabele de contingen bidimensionale, deoarece exist posibilitatea reprezentrii mai multor variabile n acelai tabel, caz n care ne vom referi la tabele de contingen multidimensionale. n tabelul 1.11 v-am furnizat reprezentarea general a unui tabel de contingen bidimensional. Putem observa c variabila X are un numr de i categorii (unde, spre exemplu, i poate fi 2, n cazul variabilei sex masculin i feminin, ori 4 n cazul culorii ochilor albastru, verde, negru, cprui), iar variabila Y are un numr de j categorii. Prin nsumarea datelor, la nivelul fiecrei categorii, obinem un nou tip de rubric, numit seciunea datelor marginale. Coloana Total X, respectiv linia Total Y se refer exact la acest tip de date.
Tabelul 1.11 Reprezentarea general a unui tabel de contingen bidimensional Categorie 1 n11 e11 n21 e21 . . ni1 ei1 nY1 eY1 Variabila Y Categorie 2 Categorie j n12 n1j e12 e1j n22 n2j e22 e2j . . . . ni2 nij ei2 eij nY2 nYj eY2 eYj Total X nX1 eX1 nX2 eX1 . . nXi eX1 n e

Categorie 1 Categorie 2 Variabila X . . Categorie i Total Y

39

Statistic aplicat n tiinele socio-umane

Numrul de cazuri din fiecare categorie l notm, aa cum tim deja, cu litera n, creia i se adaug indici artnd numrul liniei i numrul coloanei. Astfel, subiecii din categoria 1 pentru variabila X i categoria 1 pentru variabila Y, se noteaz cu n11 (spre exemplu, brbaii cu ochi albatri). Subiecii din categoria 2 pentru variabila X i din categoria 1 pentru variabila Y se noteaz cu n21 (de exemplu femeile cu ochi albatri) i aa mai departe. Generaliznd parial, vom spune c subiecii din categoria 1 pentru variabila X i din categoria j pentru variabila Y se noteaz n1j; similar, subiecii din categoria 1 pentru variabila Y i din categoria i pentru variabila X se noteaz ni1. nelegnd acest stil de notare, vom spune c numrul de subieci din categoria i n cazul variabilei X i din categoria j n cazul variabilei Y se poate nota nij. Rezultatele marginale urmeaz aceeai logic. Toi subiecii aflai n categoria 1 a variabilei X sunt reprezentai de nX1 (de exemplu, toi brbaii, indiferent de culoarea ochilor). Toi subiecii aflai n categoria 1 a variabilei Y sunt reprezentai de nY1 (de exemplu, toi subiecii cu ochi albatri, indiferent de sex). n general, toi subiecii din categoria i a unei variabile i din categoria j a celeilalte variabile sunt reprezentai de nij. Referindu-de strict la 2, putem raiona n acelai mod atunci cnd vorbim despre frecvenele estimate, notate n cazul nostru cu e. Nu vom detalia raionamentul, v lsm pe dumneavoastr s o facei. Cunoscnd toate aceste date, s revedem formula pentru 2, n condiii de maxim generalitate. V reamintim formula iniial, apoi vom proceda la deducerea noii formule. (formula 1.15)

40

Cristian Opariuc-Dan Nu s-a schimbat nimic n logica aplicrii formulei. S-a schimbat doar notaia i modul n care s-au abstractizat conceptele. Formula 1.15 este valabil doar dac cel puin una dintre variabile are mai mult de dou categorii. Desigur, intuiesc ntrebarea care v vine n minte n acest moment. Probabil c v gndii la ce folosete complicarea lucrurilor. Nu era suficient o singur formul? Nu ajunge prezentarea modalitii efective de calcul? De ce avem nevoie de formule generalizate i alte asemenea lucruri care in mai mult de o abordare matematic? Rspunsul comport o serie de aspecte. n primul rnd, formule de acest tip, i altele, mult mai complexe, gsii n lucrri de specialitate, comunicri tiinifice i articole. Este bine s le putei nelege i s putei lucra cu ele. n al doilea rnd, cel mai probabil c n car ier vei fi pus n situaia de a redacta un articol tiinific. Normele de accept are i de publicare ale unor asemenea lucrri impun prezentarea formu lelor generalizate, folosindu-se notaii universale. n al treilea rnd, v dezvoltai, pas cu pas, gndirea matematic i v familiarizai cu limbajul. Vrem nu vrem, statistica este totui o ramur a matematicii, iar noi nu putem face ab stracie de acest lucru.

I.1.3.1 Semnificaia coeficientului de contingen 2


Acest coeficient este unul nedirecional i dimensional; nu putem compara acest coeficient cu ali coeficieni de asociere. Aceast ultim situaie creeaz probleme n interpretare, probleme legate de magnitudinea asocierii dintre cele dou variabile. Dup stabilirea gradelor de libertate, comparm coeficientul obinut cu valoarea de referin a distribuiei 2 pentru numrul de grade de libertate gsit. Tabelul distribuiei 2 pentru diferite grade de libertate este prezentat n anexa 3. n cazul nostru, avem o valoare 2 de 4,2 la un numr de 1 grade de libertate. Parcurgnd prima linie, corespunztoare unui singur grad de libertate, 41

Statistic aplicat n tiinele socio-umane

observm c acest coeficient este semnificativ la un prag de semnificaie mai mic de 0,05, deoarece valoarea este mai mare de 3,84146, valoarea de referin pentru acest prag. Coeficientul nu este semnificativ la un prag de semnificaie mai mic de 0,02 sau mai mic de 0,01, deoarece 4,2, pe care l-am obinut, este mai mic dect valoarea de referin pentru pragul de semnificaie 0,02 sau 0,01 (5,02389, respectiv 6,63490). Nu putem deocamdat spune care este intensitatea, magnitudinea acestei asocieri, din motivele expuse mai sus. Coeficientul de contingen 2 permite doar identificarea unei contingene ntre variabile. Nu putem fi siguri, ns, de intensitatea acesteia. Observm c acest coeficient este sensibil la mrimea lotului de cercetare. Dac lotul de cercetare este prea mic, 2 va fi supraestimat; dac lotul de cercetare este prea mare, 2 poate fi subestimat. Va fi necesar, aadar, gsirea unei soluii de standardizare, soluie prin care s evitm aceste supra sau subestimri i s gsim magnitudinea contingenei. Pentru a se elimina aceste dezavantaje, au fost calculai ali coeficieni derivai din 2, i anume coeficientul de asociere , coeficientul V Cramer, coeficientul de contingen (cc) i alii.

I.1.4 Coeficientul de asociere (phi), coeficientul V Cramer i coeficientul de contingen (cc), derivai din 2
Coeficientul de asociere este un coeficient foarte simplu, derivat din i se calculeaz pentru dou variabile dihotomice, care nregistreaz, n special, prezena sau absena unei caracteristici. Dac ne intereseaz relaia dintre ochii albatri i prul blond, vom putea concepe dou variabile prin care s stocm prezena i absena ochilor albatri, respectiv prezena i absena prului blond. Evident, ambele variabile sunt la un nivel nominal de msur, i se bazeaz pe un tip special de distribuie discret, astfel nct coeficientul este un coeficient ce lucreaz cu frecvene absolute sau relative.
2

La modul general, tabelul de lucru se prezint sub forma unei structuri cu 4 celule. 42

Cristian Opariuc-Dan
Tabelul 1.12 Schema general de calcul a coeficientului Variabila X Absen X Prezen X Absent X Prezent X Prezen Y Prezent Y Prezent Y Variabila Y Prezent X Absent X Absen Y Absent Y Absent Y

n calculul acestui coeficient suntem interesai doar de cteva cazuri: cazul n care sunt prezente caracteristicile pentru ambele variabile (celula Prezent X i Prezent Y), cazul n care este prezent doar variabila X (suma celulelor Prezent X, Prezent Y i Prezent X, Absent Y) i cazul n care este prezent doar variabila Y (suma celulelor Prezent X, Prezent Y i Absent X, Prezent Y). Formula de calcul a acestui coeficient este:

(formula 1.16)

Aceast formul nu este, practic, altceva dect rdcina ptrat din raportul dintre 2 i numrul de cazuri. Putem spune c .

S relum exemplul legturii dintre prezena prului blond i prezena ochilor albatri.
Tabelul 1.13 Coeficientul pentru relaia dintre prul blond i ochii albatri Ochi albatri Da Nu Blond fr ochi Blond cu ochi Da albatri albatri (n=54) (n=80) Pr blond Fr blond cu Fr blond, fr Nu ochi albatri ochi albatri (n=33) (n=48) Total albatri (80+33) (n=113)

Total blonzi (80+54) (n=134)

43

Statistic aplicat n tiinele socio-umane

Avem urmtoarele date: un numr de 80 de blonzi cu ochi albatri (PXY), un numr total de 134 de blonzi (PX) i un numr total de 113 persoane cu ochi albatri (PY). Sigur c posedm toate datele necesare pentru a calcula coeficientul . Putem nlocui n formul aceste frecvene absolute sau putem converti frecvenele absolute n proporii, pentru evitarea numerelor kilometrice. n definitiv, rezultatul va fi acelai. La cercetarea noastr au participat un numr de 80+54+33+48=215 persoane. Proporia blonzilor cu ochi albatri este PXY=80/215=0,37, proporia blonzilor PX=134/215=0,62 i proporia celor cu ochi albatri este de PY=113/215=0,52. Aceste date pot fi acum introduse n formul, obinndu-se valoarea 0,21 pentru coeficientul de corelaie .

Acest coeficient de corelaie se folosete doar ntr-un singur caz, respectiv cel n care ambele variabile sunt dihotomice. n cazul n care una dintre variabile nu mai este dihotomic, acest coeficient devine nerelevant. Pearson, autorul acestui coeficient, a sesizat aceast dificultate n utilizarea lui; dac dimensiunea tabelului de contingen crete (dac una dintre variabile nu mai este dihotomic), amplitudinea acestui coeficient crete i ea (Liebetrau, 1983). Pentru a contracara acest efect, s-a propus o variant ajustat, numit ajustarea Sakoda, rezultnd coeficientul de contingen Pearson. Coeficientul de contingen Pearson reprezint o alt variant derivat din 2, de fapt fiind vorba despre coeficientul ajustat, i se calculeaz n baza formulei urmtoare: (formula 1.17)

44

Cristian Opariuc-Dan Nu intrm n detalii legate de acest coeficient, simplitatea lui excluznd orice fel de comentarii. Vom nlocui doar n formul datele utilizate n exemplul anterior.

Coeficientul de contingen nu este altceva dect o form ajustat a coeficientului de asociere , putnd fi utilizat pentru orice tip de variabile neparametrice. Dac nu m credei, aplicai a doua formul a coeficientului de asociere , bazat pe valoarea lui 2, i vei obine acelai rezultat. Coeficientul de contingen Tschuprow se noteaz cu t (nu este acelai lucru cu testul de diferen semnificativ ntre mediile eantioanelor, Student t) i are, la baz, de aceast dat, coeficientul . A fost propus n anul 1919 de ctre matematicianul rus Alexander Alexandrovici Tschuprow, formula de calcul fiind: (formula 1.18)

Acest coeficient ine seama doar de numrul de categorii din cadrul fiecrei variabile i de valoarea lui , fiind vorba, de fapt, de o ajustare a acestui coeficient, similar celei efectuate de Pearson. Dac relum exemplul relaiei dintre ochii albatri i prul blond, n care am obinut =0,21, observm c fiecare variabil are doar dou categorii. n acest caz, coeficientul de contingen Tschuprow devine:

Desigur, am obinut valoarea iniial a coeficientului . n realitate, acest coeficient ajusteaz valoarea lui n condiiile n care cel puin una 45

Statistic aplicat n tiinele socio-umane

dintre variabile prezint mai mult de dou categorii, fiind o versiune mai precis a coeficientului de contingen Pearson. Coeficientul de asociere v Cramer se folosete n cazul n care cel puin una dintre variabile are mai mult de dou modaliti de realizare i poate fi definit dup formula urmtoare: (formula 1.19)

unde l reprezint minimum dintre numrul liniilor i numrul coloanelor, iar n numrul subiecilor. Dac o variabil are 3 categorii i una 2 categorii, atunci l va lua valoarea 2, valoarea variabilei cu cele mai puine categorii. Relund exemplul utilizat la analiza coeficientului ce contingen 2, am avut fumtorii i genul biologic, variabile cu dou categorii fiecare, deci l va avea valoarea 2. n acelai timp, numrul total a fost de 206 subieci pentru care am obinut valoarea 4,2 pentru 2. nlocuind n formul, obinem 0,14 valoarea coeficientului de asociere v Cramer.

I.1.4.1 Semnificaia coeficienilor de asociere


Aceti coeficieni de asociere au fost stabilii n ideea compensrii dezavantajelor coeficientului de contingen 2. Prin urmare, toate interpretrile legate de semnificaia acestora se bazeaz pe interpretarea coeficientului 2, de aceea nu vom intra n detalii. Practic, nti se interpreteaz semnificaia lui 2 la un prag de semnificaie stabilit i apoi intensitatea asocierii n baza unuia dintre coeficieni.

46

Cristian Opariuc-Dan Dac lum exemplul coeficientului de contingen, acesta are valoarea 0,14. Am artat deja c aceast valoare este semnificativ la un prag de se mnificaie mai mic de 0,05 (2 avea valoarea 4,2; pragul de semnificaie la un numr de 1 grade de libertate fiind mai mic de 0,05). Din coeficientul de co ntingen putem deduce faptul c asocierea dintre cele dou variabile este sl ab (vom vedea imediat ce nseamn acest lucru), ns semnificativ. Iat c pe baza acestor coeficieni derivai, putem stabili acum i intensitatea contingenei. Toi coeficienii sunt nedirecionali. Aceasta nseamn c pot lua valori cuprinse ntre 0 i 1, unde apropierea de zero indic lipsa asocierii dintre variabile, iar valorile apropiate de 1 arat puterea asocierii acestora. O singur observaie se mai impune la acest capitol. M vei ntreba, desigur, cum stabilesc semnificaia pentru coeficientul , dac aplic direct prima formul de calcul, fr s mai ajung la 2? Nu ntmpltor am dat a doua formul. Dac tii puin matematic, vei descoperi c:

Putem, practic, extrage valoarea lui 2, dac tim numrul de subieci i valoarea lui . n exemplul nostru, avea valoarea 0,21, cercetare realizat pe 215 persoane. Atunci . Fiind un singur grad de libertate, observm c aceast valoare este semnificativ, la un prag de semnificaie mai mic de 0,01. Putem spune c exist o asociere slab ntre prul blond i ochii albatri. Adic, n majoritatea cazurilor, persoanele cu pr blond au i ochii albatri, restul situaiilor fiind excepii.

47

Statistic aplicat n tiinele socio-umane

I.1.5 Coeficientul de asociere (lambda) Goodman i Kruskal


Coeficientul a fost stabilit de Goodman i Kruskal, prin anul 1980, alturi de un alt coeficient similar, coeficientul de asociere Goodman i Kruskal, pe care nu-l vom aborda n aceast lucrare, deoarece se refer aproximativ la acelai lucru. Se calculeaz n situaia asocierii unei variabile nominale cu o variabil dihotomic, cu o alt variabil nominal, cu o variabil ordinal sau cu o variabil scalar, n condiiile n care aceasta este grupat n clase. Practic, acest coeficient se refer la cantitatea de cunotine cuprins ntr-o variabil, ce poate acoperi informaiile din cealalt variabil. Sau, cu alte cuvinte, avnd o anumit cantitate de informaie n variabila X, ct din variabila Y putem prezice? Formula de calcul este urmtoarea:
( ( ) )

(formula 1.20)

unde nMi este cea mai mare frecven de pe rndul i i Max(Cj) este frecvena cea mai mare dintre frecvenele coloanelor, iar n se refer la numrul subiecilor. tii ce m bucur acum cel mai tare? Faptul c nu v mai speriai de formule. Ai observat c ele devin din ce n ce mai stufoase i, totui, n realitate, aplicarea lor este foarte simpl. S lum un nou exemplu. Presupunem c am desfurat o cercetare n cadrul creia dorim s studiem asocierea ntre dou variabile: preferina pentru un partid politic (1 PSD; 2 PNL; 3 PDL; 4 PC i 5 PRM) i nivelul de stres al subiecilor pe o scal Likert de la 1 la 5 (1 Foarte slab; 2 Slab; 3 Mediu; 4 Ridicat; 5 Foarte ridicat). Suntem n situaia asocierii dintre o variabil nominal (preferina pentru partide) i o variabil ordinal (nivelul de stres). Vom construi tabelul de contingen pentru cele dou variabile.

48

Cristian Opariuc-Dan Structura tabelului este clar. Dintre cei care prefer PSD, 12 persoane au un nivel de stres foarte sczut, 9 un nivel de stres sczut, 7 un nivel de stres mediu, 4 ridicat i o persoan prezint nivelul stresului foarte ridicat. Situaia este analog n cazul celorlalte partide. Avem partidele afiate pe linii i nivelul de stres pe coloane. n primul rnd, va trebui s stabilim, pentru fiecare linie, celula cu frecvena cea mai mare. Pentru PSD, categoria cu frecvena cea mai mare este reprezentat de nivelul de stres foarte sczut (12 persoane). Pentru PNL ntlnim categoria cu nivelul de stres sczut (45 de persoane), pentru PDL nivelul de stres mediu (42 de persoane), pentru PC tot nivelul de stres mediu (10 persoane), iar pentru PRM nivelul de stres sczut (5 persoane).
Tabelul 1.14 Tabelul de contingen pentru calculul coeficientului Nivelul de stres 1 2 3 4 Foarte Sczut Mediu Ridicat sczut 1 PSD 9 7 4 12 2 PNL 8 21 6 45 3 PDL 7 19 13 Partidul 42 4 PC 8 4 7 10 5 - PRM 1 1 3 5 36 81 33 Total coloane 82

5 Foarte ridicat 1 5 1 3 2 12

Efectum acum totalul pe coloane. n mod clar, categoria cu frecvena cea mai mare este cea a stresului sczut (82 de persoane), n timp ce numrul total de participani la studiu a fost de 244 de persoane. n acest moment, informaiile sunt suficiente pentru a putea completa formula.
( ) ( )

Am obinut acum valoarea 0,19 pentru acest coeficient, valoare pe care o vom analiza din punctul de vedere al semnificaiei.

49

Statistic aplicat n tiinele socio-umane

I.1.5.1 Semnificaia coeficientului


Coeficientul este un alt coeficient nedirecional. Aceasta nseamn c poate lua valori ntre 0 i 1, unde apropierile de zero ne arat c informaiile coninute ntr-o variabil nu pot prezice cealalt variabil, variabilele neavnd nimic n comun, iar apropierile de 1 sunt semnificative pentru gradul de predicie a evoluiei unei variabile, n baza informaiilor coninute n cealalt variabil. Analiza semnificaiei acestui coeficient se face n baza statisticilor z, iar valorile vor fi raportate la distribuia z. Prin urmare, va trebui s definim formula de calcul pentru statistica z a coeficientului i apoi s comparm aceast valoare cu valorile de referin z la diferite praguri de semnificaie. Pentru a v reaminti de semnificaia notelor z, parcurgei capitolul referitor la distribuia normal din lucrarea anterioar. Formula de transformare a coeficientului n statistica z este urmtoarea:

(formula 1.21)

unde ref nseamn valoarea de referin , iar s reprezint valoarea varianei acestui coeficient. Deoarece acest coeficient msoar ct dintr-o variabil se poate gsi ntr-o alt variabil, valoarea de referin se exprim sub form de proporii. Dac presupunem c nivelul de stres influeneaz preferinele pentru partidele politice, sau cu alte cuvinte putem prezice preferina pentru partide n baza analizei nivelului de stres, atunci plecm de la o baz, de la o referin, n care presupunem, de exemplu, c 10% din nivelul de stres poate prezice preferina pentru partide. Aceast valoare de referin este aleas n funcie de necesitile cercetrii. Soluia pesimist este aceea conform creia valoarea de referin se apropie de zero. Altfel spus, nu avem niciun motiv s presupunem c cele dou variabile sunt legate n vreun fel. n acest caz, vom alege

50

Cristian Opariuc-Dan valori mici de referin, de 10%, 5%, 3% sau 1%. Exprimat sub form de proporii, valori de 0,10, 0,05, 0,03 sau 0,01 pentru ref. Dac avem motive suficiente s credem c exist legturi ntre cele dou variabile, atunci putem aborda soluii optimiste, n sensul c vom considera o mare parte dintre informaiile unei variabile ca fiind dependente de informaiile din cealalt variabil. n acest sens, putem alege valori de 50%, 60%, 70% pentru ref. Nu exist o regul de atribuire n acest sens. Personal, v recomand s fii sceptici i s nu considerai valori mai mari de 0,10 0,15 pentru ref. Evident, cu ct valorile lui ref se apropie cu zero, cu att legtura trebuie s fie mai puternic pentru a fi semnificativ. n exemplul nostru, am plecat de la presupunerea c doar 10% din nivelul de stres poate determina preferine pentru un anumit partid politic. Valoarea pentru ref va fi, aadar, 0,10 i vom analiza dac la acest nivel putem vorbi despre o legtur semnificativ. Urmtorul aspect din formula 1.21 se refer la variana coeficientului . Aceast varian poate fi calculat n baza relaiei urmtoare:
( )( ( ( )) ( ) )

(formula 1.22)

unde nMi este cea mai mare frecven de pe rndul i, Max(Cj) cea mai mare frecven dintre frecvenele calculate pe coloane i este suma tuturor frecvenelor maxime asociate coloanei cu frecvena cea mai mare, m reprezentnd numrul de rnduri. Aceasta este chiar complicat, nu-i aa? Oare cum o calculm? Poate v gndii s o nvai pe de rost pentru examene. Sau poate o memorai s impresionai prietenul ori prietena. Nu are rost. n condiii de examen, ar trebui s vi se dea formula, iar dumneavoastr s tii s o aplicai. Pentru prie51

Statistic aplicat n tiinele socio-umane

ten ori prieten, cred c putei s impresionai i altfel. Dac vei scrie formula asta ntr-o scrisoare de amor, n mod sigur nu vei reui dect s ndeprtai partenerul. Haidei totui s vedem ce ne cere formula i dac e att de complicat calculul. Vom relua tabelul de contingen. Numrul total de persoane este 244. l avem, aadar, pe n. Suma celor mai mari frecvene de pe rnduri o tim deja. Este 114 i nu reprezint altceva dect valoarea . Cea mai mare frecven dintre frecvenele calculate pe coloane este situat n a doua coloan i are valoarea 82. Iat c avem i rezultatul pentru ( ).
Tabelul 1.15 Tabelul de contingen pentru calculul coeficientului Nivelul de stres 1 2 3 4 Foarte Sczut Mediu Ridicat sczut 1 PSD 9 7 4 12 2 PNL 8 21 6 45 3 PDL 7 19 13 Partidul 42 4 PC 8 4 7 10 5 - PRM 1 1 3 5 36 81 33 Total coloane 82

5 Foarte ridicat 1 5 1 3 2 12

Ce trebuie s mai facem? Trebuie s calculm suma tuturor frecvenelor maxime asociate coloanei cu frecvena cea mai mare. Am stabilit deja care este aceasta. Este a doua coloan. Care sunt frecvenele maxime din aceast coloan? Pe primul rnd avem frecvena 9, pe al doilea rnd frecvena 45, pe al treilea rnd frecvena 19, pe al patrulea rnd frecvena 4 i pe al cincilea rnd frecvena 5. Care este frecvena cea mai mare? Evident, cea de pe al doilea rnd, frecvena 45. Mai vedei i alte cifre de 45 acolo? Nu. Ei bine, aceasta este i suma mult cutat. Dac aveai 45 pe rndul 2 i 45 pe rndul 4, atunci suma frecvenelor maxime ar fi fost 90 (45+45). n cazul nostru, avem o singur frecven maxim, 45, i aceea reprezint valoarea pentru . Relaxai-v. V-am spus c formulele mai mult sperie prin aspect

52

Cristian Opariuc-Dan dect prin modalitatea de calcul. Acum haidei s nlocuim i s gsim variana coeficientului .
( )( ( ( ) ( )) )

Am gsit variana coeficientului. Nu trebuie dect s calculm statistica z dup formula de mai sus i obinem scorul z de 1,5.

Acest scor l vom compara cu valoarea de referin z pentru pragul de semnificaie ales. Pentru un prag de semnificaie de 0,05, valoarea z este de 1,96. Valoarea noastr (1,5) este mai mic dect valoarea prag. Prin urmare, nu exist nicio legtur ntre nivelul de stres i preferina pentru partide politice, n condiiile n care 10% dintr-o variabil ar explica cealalt variabil. Drept exerciiu, calculai valoarea z pentru situaia n care presupunem c 50% din preferina pentru partide politice este influenat de nivelul de stres. Este aceast legtur semnificativ sau nu? Argumentai.

I.1.6 Coeficientul de asociere (gamma)


Un alt coeficient de asociere este coeficientul de asociere Goodman Kruskal. La fel ca i coeficientul de corelaie a rangurilor Kendall, i acest coeficient se bazeaz pe numrul de inversiuni i proversiuni, adic pe numrul de perechi concordante i discordante. Coeficientul se calculeaz foarte simplu pe baza formulei:

53

Statistic aplicat n tiinele socio-umane

(formula 1.23) n care Pc reprezint numrul perechilor concordante, iar Pd numrul perechilor discordante. Vom considera un exemplu, astfel nct s lmurim rapid bazele acestui coeficient. S presupunem c efectum un studiu n mai multe orae, pentru a vedea dac exist o legtur ntre nivelul intelectual al primarilor i mrimea oraelor. Cele dou variabile au fost operaionalizate astfel: oraele pot fi considerate orae mici, medii i mari n funcie de numrul de locuitori, iar nivelul intelectual al primarilor poate fi considerat superior sau inferior. Ambele variabile se afl la un nivel ordinal de msur i pot fi ierarhizate. Menionez faptul c toate datele din lucrri sunt date fictive i nu au nicio legtur cu fapte sau persoane reale. De aceea, nimeni nu are niciun motiv s se simt lezat n vreun fel. Exemplele au fost alese astfel nct s se refere la fapte sociale de actualitate, n vederea unei nsuiri mai bune a informaiei. Fac aceast precizare deoarece mi s-a sugerat c prin demersul meu mi exprim preferine politice sau de alt natur. Departe de mine acest gnd. Nu intenionez dect s redactez o lucrare pe nelesul tuturor, indiferent de specificul formrii iniiale umanist sau realist. i, ca s folosesc un stereotip verbal, orice asemnare cu realitatea este pur ntmpltoare. Cine se simte lezat de aceste exemple, l asigur c nu a fost intenia mea, iar concluziile care decurg sunt rezultatul unor date absolut fictive i nu au nicio legtur cu vreo realitate politic, economic sau social.
Tabelul 1.16 Tabelul de contingen pentru calculul coeficientului Dimensiune ora Mic Mediu Mare A B C Superior 10 15 20 Intelect primari D E F Inferior 10 5 3

54

Cristian Opariuc-Dan Acum s revenim. Convenim s reprezentm rezultatul acestei cercetri sub forma unui nou tabel de contingen. Avem 10 primari cu un intelect superior n oraele mici, 15 n oraele medii i 20 n oraele mari. De asemenea, avem 10 primari cu un intelect inferior n oraele mici, 5 n oraele medii i 3 n oraele mari. n total cercetarea a cuprins un numr de 63 de orae. Cum calculm perechile? V voi prezenta o procedur foarte simpl, fr a mai intra n detalii matematice, deoarece acestea implic anumite cunotine de combinatoric. n cazul nostru, perechile reprezint suma produselor nmulirii frecvenei unei celule de la un nivel superior cu suma frecvenelor celulelor succesive de la un nivel inferior, datele fiind ordonate ascendent pentru perechile concordante i descendent pentru perechile discordante. Aa-i c nu ai neles nimic? Iat, poate, prima situaie n care lucrurile transpar mult mai clar din formule. Pc=A(E+F)+BF; Pd=C(D+E)+BD

Am notat cu litere mari celulele din tabelul de mai sus. Nu-i aa c acum lucrurile sunt clare? Avem toate datele necesare. S le nlocuim n formul.
[ [ ] ] [ [ ] ]

Am obinut valoarea -0,56 pentru coeficientul de asociere . Aceast valoare va trebui s o analizm apoi din punctul de vedere al semnificaiei.

I.1.6.1 Semnificaia coeficientului


Coeficientul reprezint un raport al diferenelor dintre perechile concordante i cele discordante, bazat pe numrul total de perechi, fr a se lua n calcul perechile cu rangurile egale. Coeficientul este un coeficient direcional i poate lua valori cuprinse ntre -1 i +1, la fel ca i coeficientul Spearman sau Kendall, avnd aceeai semnificaie. n termenii coeficientu55

Statistic aplicat n tiinele socio-umane

lui anterior (i aici vorbim de coeficientul propus de aceiai savani), un coeficient de 0,56 nseamn c avem 56% anse s prezicem o variabil, cunoscnd rangul (nu valoarea) celeilalte variabile. Analiza semnificaiei acestui coeficient se face similar coeficientului Kendall.

I.1.7 Coeficientul tetrachoric i polichoric


Coeficientul de corelaie tetrachoric este notat, n general, sub forma rtet , fiind definit de Pearson n anul 1901 i se folosete atunci cnd ambele variabile sunt dihotomice, la fel ca i coeficientul , ns aceste variabile trebuie s provin din variabile continui i normal distribuite (spre exemplu, prin gruparea vrstei subiecilor n subieci tineri i vrstnici). Dac variabilele sunt situate la un nivel ordinal, au mai multe grade de intensitate i pot respecta caracteristica provenienei din variabile continui, se folosete un alt coeficient de corelaie, i anume coeficientul polichoric. Ambii coeficieni se bazeaz pe acelai principiu. Vom relua tabelul explicativ al coeficientului pentru a stabili formula de calcul n cazul coeficientului de corelaie tetrachoric.
Tabelul 1.17 Schema general de calcul a coeficientului tetrachoric Variabila X Absent X Prezent X Absent X Prezent X Prezen Y Prezent Y Prezent Y A B Variabila Y Absent X Prezent X Absen Y Absent Y Absent Y C D

Formula coeficientului de corelaie tetrachoric se bazeaz pe calculul cosinusului, dup urmtoarea expresie: ( ) (formula 1.24)

56

Cristian Opariuc-Dan n cadrul acestei formule, coloanele A, B, C, D reprezint proporii i nu frecvene absolute. Coeficientul este folosit mai ales n situaiile n care se dorete msurarea gradului de acord ntre doi evaluatori. S presupunem c doi psihologi evalueaz un lot de subieci n vederea depistrii prezenei sau absenei anxietii. Rezultatele pot fi sistematizate n tabelul de mai jos:
Tabelul 1.18 Tabelul de calcul a coeficientului tetrachoric Psiholog X Absent Prezent A B Prezent 40% 10% Psiholog Y C D Absent 20% 30%

Analiznd acest tabel, constatm c 40% dintre subieci (n proporie de 0,4) au fost considerai non-anxioi de psihologul X i anxioi de psihologul Y situaie de dezacord ntre cei doi -, 20% dintre subieci (n proporie de 0,2) au fost considerai non-anxioi de ambii psihologi situaie de acord pe non-anxietate -, 10% dintre subieci (proporie de 0,10) sunt considerai anxioi de ambii psihologi situaie de acord pe anxietate - i 30% dintre subieci sunt considerai anxioi de psihologul X i non-anxioi de psihologul Y din nou situaie de dezacord. Se pune acum problema n ce msur cei doi psihologi au czut sau nu de acord n privina anxietii subiecilor evaluai. Iat o situaie tipic n care vom folosi coeficientul tetrachoric.
( ( ) ( ) ( ) )

Observm, n primul rnd, o corelaie negativ, ceea ce ne duce cu gndul la un dezacord puternic ntre cei doi psihologi, fapt indicat de valo area ridicat a coeficientului de corelaie.

57

Statistic aplicat n tiinele socio-umane

n cazul n care anxietatea ar fi fost evaluat, s presupunem, pe o scal de la 1 la 5, unde 1 ar nsemna foarte puin anxios iar 5 foarte anxios, coeficientul tetrachoric nu poate fi folosit. n acest scop se utilizeaz coeficientul polichoric, bazat pe acelai principiu. Din nefericire, algoritmul de calcul este unul iterativ, presupune mai multe etape i are un grad ridicat de complexitate, motiv pentru care nu-l vom prezenta aici. Pachetul de programe SPSS for Windows nu conine aceti doi coeficieni. Dac dorii s efectuai analize bazate pe coeficienii de corelaie tetrachoric, polichoric sau poliserial (o variant a coeficientului polichoric n care se asociaz o variabil scalar i o variabil ordinal), v recomand utilizarea pachetului LISREL i a componentei PRELIS, pachet software produs de SSI Scientific Software Internaional (http://www.ssicentral.com). n general, analizele bazate pe aceti coeficieni intr n componena ecuaiilor structurale i a modelelor de ecuaii structurale (SEM).

I.1.8

Coeficientul de concordan W Kendall

Coeficientul de concordan W Kendall se bazeaz pe rangu ri, fiind folosit, de obicei, la stabilirea acordului dintre evaluatori. Fiind mult mai simplu de calculat n Tabelul 1.19 Notele obinute de 6 studeni evaluai de 3 comparaie cu procedeul profesori tetrachoric sau Evaluator 1 Evaluator 2 Evaluator 3 polichoric, tehnica este 7 8 7 Student 1 6 5 8 Student 2 larg rspndit printre 9 10 8 Student 3 specialiti. Pentru a ne8 8 7 Student 4 6 7 6 Student 5 lege exact semnificaia 7 8 9 Student 6 acestui coeficient, s presupunem c un numr de 6 studeni sunt evaluai de ctre o comisie de licen format din trei evaluatori. Rezultatele vor fi trecute ntr-un tabel similar tabelului 1.19.

58

Cristian Opariuc-Dan Nu putem lucra direct cu aceste note, fiind necesare, pentru calculul acordului dintre evaluatori, rangurile la care se situeaz notrile fiecrui ev aluator. Notele acordate de ctre fiecare evaluator vor fi transformate n ranguri i introduse ntr-un Tabelul 1.20 Rangurile acordate celor 6 studeni de tabel asemntor cu tabectre fiecare evaluator lul 1.20. Nu trebuie s Evaluator 1 Evaluator 2 Evaluator 3 uitm faptul c ne refe3,5 4 2,5 Student 1 1,5 1 4,5 Student 2 rim la evaluatori i nu la 6 6 4,5 Student 3 studeni. 5 4 2,5 Student 4 Despre modul n care putem calcula rangurile nu mai discutm, subiectul fiind epuizat cu alt ocazie. n urma stabilirii rangurilor, vom obine tabelul 1.20. Se poate observa c profesorii au acordat aceeai not mai multor studeni, fapt obinuit. Ne amintim c rangul pe care l ocup dou scoruri identice este reprezentat de media poziiilor pe care se afl scorurile respective. n urmtoarea etap vom calcula suma rangurilor pentru fiecare dintre cei ase studeni i vom ridica la ptrat fiecare sum.
Tabelul 1.21 Calculul coeficientului de concordan W Kendall Evaluator 1 Evaluator 2 Evaluator 3 rang SR2 3,5 4 2,5 10 100 Student 1 1,5 1 4,5 7 49 Student 2 6 6 4,5 16,5 272,25 Student 3 5 4 2,5 11,5 132,25 Student 4 1,5 2 1 4,5 20,25 Student 5 3,5 4 6 13,5 182,25 Student 6 63 SR2=756 Student 5 Student 6 1,5 3,5 2 4 1 6

Operaiile finale impun calculul totalului att pentru suma rangurilor, ct i pentru ptratul acesteia. n final, pentru calculul coeficientului de concordan W Kendall, va trebui s avem un tabel similar tabelului 1.21

59

Statistic aplicat n tiinele socio-umane

Coeficientul de concordan W Kendall poate fi obinut prin aplicarea formulei: (formula 1.25) unde k reprezint numrul de evaluatori, n numrul de persoane evaluate, iar S reprezint suma ptratelor abaterilor dintre suma rangurilor relative la fiecare subiect i media acestor sume. n situaia de fa, avem majoritatea elementelor. Numrul de evaluatori este 3 (k=3), numrul de studeni este 6 (n=6), singurul lucru care ne lipsete este suma ptratelor abaterilor, S. Din fericire, exist o formul de calcul i pentru acest coeficient, astfel: ( ) (formula 1.22)

unde SR2 se refer la totalul ptratelor sumelor rangurilor, toate celelalte elemente fiind cunoscute. De fapt, am putea scrie cel mai simplu formula coeficientului de concordan W Kendall astfel:
( )

(formula 1.26)

De data aceasta avem toate elementele i putem nlocui n formul, obinnd coeficientul de concordan W Kendall, n valoare de 0,60.
( ) ( )

60

Cristian Opariuc-Dan

I.1.8.1 Semnificaia coeficientului de concordan W Kendall


Coeficientul de concordan W Kendall verific gradul de acord dintre evaluatori i poate lua valori cuprinse ntre 0 i 1, fiind un coeficient nedirecional. Valorile apropiate de 0 indic lipsa acordului, n timp ce valorile apropiate de 1 arat acordul perfect. ntre cei trei profesori evaluatori din exemplul precedent am obinut un acord de 0,60, sub forma coeficientului de concordan W Kendall. Putem suspecta existena unui acord destul de ridicat ntre cei 3 evaluatori. Problema care se pune este aceea a semnificaiei acestui acord. Putem spune c acordul dintre cei trei evaluatori este semnificativ sau nu? n acest sens, exist dou cazuri speciale (Radu, i alii, 1993): Prima situaie este aceea n care numrul de subieci evaluai se situeaz ntre 3 i 7, iar numrul de evaluatori ntre 3 i 20. Este exact situaia de fa; n al doilea caz se are n vedere un numr de subieci evaluai peste 7, nefiind important numrul de evaluatori.

Pentru prima situaie se poate folosi direct valoarea sumei ptratelor abaterilor (S), ori coeficientul de concordan (W), utiliznd tabelele propuse de Kendall i prezentate n anexa 5. Avem 3 evaluatori i 6 subieci, s-a obinut un coeficient de concordan W de 0,60, iar suma ptratelor abaterilor este de 94,5. Privind n tabel pe linia k=3 i coloana n=6, obinem valoarea critic pentru S de 103,6 iar pentru W, de 0,66. n ambele cazuri, nu putem vorbi despre un acord semnificativ ntre cei trei profesori. Suma ptratelor (94,5) este mai mic dect valoarea de referin (103,6) la un prag de semnificaie p<0,05. La fel, coeficientul de concordan obinut (0,60) este mai mic dect valoarea de referin (0,66). Prin urmare, nu putem spune c cei trei profesori au ajuns la un acord n privina celor ase studeni evaluai.

61

Statistic aplicat n tiinele socio-umane

n cea de-a doua situaie, se va transforma coeficientul de concordan W Kendall n 2 i se vor folosi tabelele pentru 2 la un numr de n-1 grade de libertate. Transformarea n 2 se face dup formula urmtoare: (formula 1.27) Aplicnd aceast formul (dei situaia nu o impune pentru c avem doar ase subieci), putem obine . Folosind tabelul 2 pentru un numr de 5 grade de libertate (anexa 3), vom observa c valoarea de referin pentru un prag de semnificaie mai mic de 0,05 este de 11,07. Cum valoarea noastr este 9, inferioar lui 11,7, gradul de acord ntre cei trei profesori nu este semnificativ. Se accept, aadar, ipoteza nul.

I.1.9 Coeficientul de corelaie rang biserial


Corelaiile biseriale vor fi expuse pe larg n subcapitolul destinat datelor parametrice. Tot ceea ce trebuie s tii dumneavoastr este c atunci cnd vorbim de corelaii biseriale, punem n legtur o variabil dihotomic i o variabil scalar ori ordinal. Coeficientul de corelaie rang biserial ne d expresia numeric a legturii dintre o variabil dihotomic i o variabil ordinal, calculndu-se dup formula urmtoare: (formula 1.28) unde mr1 reprezint media rangurilor pentru situaia prezenei caracteristicii la nivelul variabilei dihotomice, mr0 se refer la media rangurilor n cazul absenei acestei caracteristici, iar n reprezint numrul de cazuri analizate. S presupunem c suntem interesai de relaia care exist ntre genul biologic (0 femeie i 1 brbat) i gradele militare la nivelul cadrelor dintro unitate a ministerului aprrii. Suntem n situaia unei variabile nominale ce

62

Cristian Opariuc-Dan poate fi asociat unei variabile dihotomice (este sau nu este brbat), n relaie cu o variabil ordinal (gradele militare cu valorile 1 locotenent; 2 cpitan; 3 maior; 4 locotenent colonel; 5 colonel; 6 general). Colectm datele de la un numr de 15 persoane din unitatea militar respectiv, centralizndu-le ntr-un tabel.
Tabelul 1.22 Calculul coeficientului rang biserial Cadre militare 3 4 5 6 7 8 9 10 11 12 13 3 4 2 2 4 1 5 4 1 6 3

Sex

0 1

1 1

2 1

14 1

15 5

mr 2,42 3,25

Observm c primul subiect este femeie locotenent, al doilea subiect brbat locotenent, al treilea femeie maior, al patrulea femeie locotenent colonel, al cincilea femeie cpitan, al aselea brbat colonel i aa mai departe. Avem un numr de 15 perechi (n=15). Ne intereseaz media valorilor pentru femei i pentru brbai, date pe care le includem n ultima coloan. Media pentru femei este de 2,42, iar pentru brbai 3,25. Avem acum toate datele pentru a nlocui n formul.

Am obinut un coeficient de corelaie rang biserial de 0,11, ceea ce indic o corelaie slab sau inexistent ntre cele dou variabile. Despre problema semnificaiei acestui coeficient vom discuta la corelaiile biseriale i punct biseriale, deoarece situaiile sunt analoage. Ne vom opri aici cu prezentarea coeficienilor de corelaie pentru date neparametrice. Desigur, nu am epuizat subiectul, ar fi nc multe de spus. Considerm, totui, c avei deja suficiente informaii pentru a face fa solicitrilor din cadrul studiilor corelaionale care implic date neparametrice. Putei gsi n literatura de specialitate descrieri complexe ale acestor tehnici. Probabil c v-am sufocat prezentndu-v o mulime de coeficieni de corela63

Statistic aplicat n tiinele socio-umane

ie pentru asemenea date. Credei-m, toi sunt importani i se folosesc n situaii bine precizate. Cnd i cum i folosii, sunt aspecte ce nu pot fi tratate aici, deoarece se refer la metodologia cercetrii pe care o vom aborda n alte lucrri. Nu v panicai. Cu rbdare i puin exerciiu vei reui s stpnii toate aceste informaii i s decidei metoda statistic adecvat fiecrui caz particular.

I.2 Coeficieni de corelaie parametrici


Coeficienii de corelaie parametrici se calculeaz, cu unele excepii, ntr-o singur situaie i anume atunci cnd cele dou variabile respect cerinele parametrice de calcul. Adic, n situaia n care se afl la un nivel de msur cel puin de interval i prezint o distribuie normal. Bazndu-se pe medie ca indicator al tendinei centrale, coeficienii de corelaie parametrici trebuie s ndeplineasc, aadar, condiiile de reprezentativitate a mediei.

I.2.1 Coeficientul de corelaie r Bravais-Pearson


Iat tartorul studiilor corelaionale, Zeus al relaiilor dintre dou variabile, dictatorul absolut i incontestabil. Coeficientul de corelaie r BravaisPearson reprezint dezideratul tiinific al oricrui cercettor. Se mai numete coeficientul de corelaie produs-moment, una dintre cele mai reprezentative msuri ale relaiei dintre dou variabile. Am s ncep descrierea acestui coeficient prin a v povesti o serie de ntmplri. Dou dintre multele mele defecte, care cred c sunt i cele mai importante, se refer la faptul c nu pot sta prea mult ntr-un loc i c am probleme cu subordonarea fa de efi. Acestea cred c sunt i motivele pentru care am schimbat pn acum mai multe locuri de munc, ndeosebi universiti. Oricum, m-am trezit, la un moment dat, ntr-o universitate, prednd statistic i analiza datelor, psihodiagnostic i cam att. Ei bine, chiar de la nceput am rmas oarecum surprins s aflu c acolo, toat lumea, profesori, studeni, toi, tiau una i bun. Coeficientul de corelaie r Bravais-Pearson. 64

Cristian Opariuc-Dan Nu conta c variabilele erau la nivel ordinal, uneori chiar nominal, sau c analiza univariat scotea n eviden asimetrii evidente. Se aplica, peste tot, coeficientul de corelaie r Bravais-Pearson. Cnd, timid i cu prietenie, am ncercat s explic c acest coeficient se folosete numai n anumite condiii, c exist i ali coeficieni ce pot fi utilizai, c statisticile neparametrice sunt i ele, acolo, un capitol de studiu, am fost privit cu nencredere, cu ostilitate chiar. Dei majoritatea crilor de statistic ncep studiul corelaiilor cu acest coeficient, eu am preferat s nu procedez aa. Nu de alta, dar poate dac scriu la nceput despre statistici neparametrice, vor nelege unii c i acestea au un rol. Dac prezenta carte va ajunge n minile profesorilor i ale fotilor studeni la care m refer, sper c vor ti s se identifice perfect cu situaia. Avei dreptate, am fost ru aici i am profitat de situaie pentru a plti o poli. V rog s nu m judecai prea aspru, ns diletantismul nu cred c are ce cuta n lumea tiinific i universitar. Acum, s trecem la treab. Avnd dou variabile, X i Y, distribuite normal i, evident, aflate cel puin la un nivel de interval, putem analiza relaia dintre ele pe baza coeficientului de corelaie r Bravais-Pearson, dup formula:

(formula 1.29)

unde x barat reprezint media scorurilor pentru variabila X, iar y barat reprezint media scorurilor pentru variabila y. Sunt deja convins c formula nu v mai sperie deloc. Acum privii la ea ca la un tablou de Picasso i ateptai cu mult drag exemplele concrete de calcul. Vom prezenta, n cele ce urmeaz, cteva modaliti de calcul ale acestui coeficient, pentru date luate ca atare sau grupate n interval, folosind att formula de definiie (formula 1.29), ct i alte formule derivate. S considerm c un psiholog a evaluat un numr de 10 subieci cu dou inventare de personalitate, reinnd scorurile pentru scala anxietate i 65

Statistic aplicat n tiinele socio-umane

pentru scala depresie. Menionm c ntotdeauna vei lucra cu note brute i nu cu notele standard obinute dup raportarea la etalon. Spun acest lucru, deoarece la aceeai instituie la care am activat o perioad a vieii mele mi s -a ntmplat s vd i o asemenea minunie. Rezultatele obinute de ctre cei 10 subieci au fost trecute ntr-un tabel prezentat n continuare.
Tabelul 1.23 Calculul coeficientului de corelaie r dup formula de definiie
Subiect DD AS BS EA FS AZ MN TG RM MA Anxietate 22 12 6 21 16 15 13 10 6 14 Depresie 24 9 5 18 20 16 11 10 7 17 xanx-manx 8,5 -1,5 -7,5 7,5 2,5 1,5 -0,5 -3,5 -7,5 0,5 xdep-mdep 10,3 -4,7 -8,7 4,3 6,3 2,3 -2,7 -3,7 -6,7 3,3 (xanx-manx)( xdep-mdep) 87,55 7,05 65,25 32,25 15,75 3,45 1,35 12,95 50,25 1,65 =277,5 (xanx-manx)2 72,25 2,25 56,25 56,25 6,25 2,25 0,25 12,25 56,25 0,25 =264,5 (xdep-mdep)2 106,09 22,09 75,69 18,49 39,69 5,29 7,29 13,69 44,89 10,89 =344,1

Dac v uitai cu atenie la formula de definiie, ce observai? Nu cumva ceva asemntor cu scorul minus media supra abaterea standard? Chiar aa i este. n realitate, coeficientul de corelaie r Bravais-Pearson asta i face. Transform totul n scoruri z i stabilete relaia dintre dou variabile care conin scoruri z. Iat de ce putem analiza linitii relaia liniar dintre rezultatele obinute n urma administrrii a dou instrumente complet diferite. Nu conteaz c un instrument are 20 de itemi i altul are 2000 de itemi, c o scal are o amplitudine teoretic ntre 0 i 20 de puncte, iar alta ntre 23 i 190 de puncte. tim deja c statisticile z reprezint numitorul comun ce permite analiza relaiilor dintre dou variabile. Desigur, prima etap o reprezint verificarea normalitii distribuiei celor dou variabile; s presupunem c cele dou variabile se distribuie normal. Urmeaz s calculm mediile celor zece scoruri la anxietate i depresie i obinem manxietate=13,5 i mdepresie=13,7. Ce ne spune formula? n primul rnd, s scdem fiecare scor din medie, apoi s facem produsul acestor dif e66

Cristian Opariuc-Dan rene i n final s le adunm. Numrtorul fraciei din formul va avea valoarea 277,5. Pentru numitor, va trebui s ridicm diferenele la ptrat, s facem suma acestor ptrate pentru fiecare variabil, s nmulim aceste sume i apoi s extragem radicalul din rezultat. Cele dou sume sunt de 264,5 pentru anx ietate i 344,1 pentru depresie. Produsul lor este 91014,45 iar rdcina ptrat din acest produs devine 301,68, valoarea numitorului. Nu avem acum dect s calculm fracia pentru a obine coeficientul de corelaie r BravaisPearson. Prin urmare, r=277,5/301,68=0,91, un coeficient de corelaie ridicat, care indic o relaie puternic i pozitiv ntre cele dou variabile. Dac este sau nu semnificativ, vom vedea imediat. Dac avem un volum mare de date, formula de definiie devine ineficient. Ne-a fost destul de dificil s lucrm cu 10 subieci, darmite cu 100 sau 1000. Pentru volume mari de date, lucrurile sunt mai simple dect credei i se rezum la a efectua 3-4 clicuri de maus n SPSS for Windows. Dar probabil c suntei, totui, curioi s aflai cum am face pe hrtie o asemenea corelaie. Sper c v mai aducei aminte de datele grupate n interval. Vom relua exemplul, de data aceasta cu intervale de grupare. Metoda se bazeaz pe aa-numita operaie de codare, fiind descris de Ioan Radu i colaboratorii (Radu, i alii, 1993), drept pentru care o vom prelua cu adugirile noastre. Cele dou variabile vor fi grupate n intervale, fiind prezentate simultan n tabelul de analiz. Prima etap n operaia de codare este stabilirea mediei de lucru, valoare situat de obicei n mijlocul irului. Dac numrul de clase este par (ca n situaia noastr), vom alege media de lucru din clasa cu frecvena cea mai mare. n general, media de lucru o vom nota prin ml. Avnd dou variabile, evident, vom avea dou medii de lucru: mla i mld.

67

Statistic aplicat n tiinele socio-umane


Tabelul 1.24 Calculul coeficientului de corelaie r pentru variabile grupate pe intervale
Anx. 8-11 12-15 16-19 20-23 24-27 28-31 udep fdep fdep udep fdepx udep2 G 5-8 3 1 2 -3 6 -18 54 -33 9-12 2 5 10 11 13 12 -2 53 -106 212 -128 Depresie 13-16 17-20 3 8 3 3 17 2 5 1 1 1 2 -1 0 15 31 -15 15 1 0 0 0 21-24 3 2 2 1 7 1 15 15 15 22 25-28 7 9 9 6 3 1 2 35 70 280 -16 g uanx -2 -1 0 1 2 3 fanx 12 28 41 29 20 25 Valori de calcul fanx uanx -24 -28 0 29 40 75 fanxxuanx2 48 28 0 29 80 225

n=155 anx=92 dep=-54 fu2anx=410 fu2dep=576 -154

Concret, media de lucru pentru anxietate se poate situa undeva n cele dou intervale centrale, intervalele 16-19 sau 20-23. Vom alege media de lucru din intervalul care are frecvena cea mai mare. Primul interv al (16-19) are valorile 10, 3, 17, 2 i 9 pentru anxietate. Frecvena total va fi aadar 41. Al doilea interval (23-23) are valorile 3, 11, 2, 5, 2, 6 cu frecvena total 29. Intervalul cu frecvena cea mai mare va fi intervalul 16-19, din care vom extrage media de lucru. n mod analog, stabilim intervalul din care vom extrage media de lucru pentru depresie. Avem de ales ntre intervalul 13-16 i intervalul 17-20. Primul interval are o frecven total de 15 iar al doilea de 31. Evident, media de lucru va fi aleas din intervalul 17-20. Odat stabilite intervalele, extragerea mediei de lucru este un fapt banal. n cazul variabilei anxietate, media de lucru va fi n intervalul 16-19, adic media valorilor 16, 17, 18, 19 rezultnd mla=17,5. Similar, pentru depresie rezult mld=18,5. Valorile codate sunt notate de ctre autorii mai sus menionai, folosind litera u, codarea fcndu-se dup formula:

68

Cristian Opariuc-Dan (formula 1.30) unde x reprezint valoarea, ml se refer la media de lucru, iar i este intervalul de clas Vom avea, n mod evident, dou variabile codate: variabila anxietate i variabila depresie. Codarea este foarte simpl. Pentru fiecare dintre variabile se acord valoarea 0 n dreptul intervalului care conine media de lucru. Apoi, succesiv, se scade sau se adaug o unitate pentru intervalele situate sub, respectiv peste intervalul care conine media de lucru. Intervalul care conine media de lucru n cazul variabilei anxietate este intervalul 16-19. Acesta va primi valoarea 0 pentru coloana u. Intervalul 12-15 primete valoarea -1 i intervalul 8-11 primete valoarea -2. Similar, intervalul 20-23 primete valoarea 1, intervalul 24-27 primete valoarea 2, iar intervalul 28-31 primete valoarea 3. Analog, se procedeaz i n cazul celeilalte variabile. Urmtorul pas este reprezentat de calculul frecvenei absolute pentru fiecare dintre cele dou variabile. Pentru intervalul 8-11 al variabilei anxietate, avem 2 subieci care au depresia n intervalul 9-12, 3 subieci cu depresia n intervalul 17-20, 7 subieci cu depresia n intervalul 25-28. n total avem 12 subieci, noua valoare pentru frecvena absolut a acestui interval. Proc edm similar pentru celelalte intervale ale anxietii i pentru intervalele depresiei. n final, suma frecvenelor absolute pentru variabila depresie trebuie s fie egal cu suma frecvenelor absolute pentru variabila anxietate i reprezint, practic, numrul total de subieci. Avem, n cazul nostru, un numr de 155 de subieci evaluai cu cele dou probe (n=155). Urmtorul pas este reprezentat de nmulirea valorii codate u cu frecvena absolut pentru fiecare dintre cele dou variabile analizate i efectuarea sumelor acestor produse. Suma pentru anxietate va fi de 92, iar suma pentru depresie va fi de -54.

69

Statistic aplicat n tiinele socio-umane

n continuare, vom face produsul dintre frecvena absolut a variabilei i ptratul codrii acesteia. Atenie, nti ridicm la ptrat valoarea codat i apoi nmulim cu frecvena absolut. Sursa citat mai sus a fost folosit i de mine atunci cnd eram student. mi aduc aminte c nu nelegeam deloc cum au ieit valorile de acolo. Bineneles c nti fceam produsul frecvenei absolute cu valoarea codat i apoi ncercam s ridic la ptrat. M-am prins, pn la urm, i de aceea nu doresc s facei i dumneavoastr aceeai eroare. Pentru intervalul 8-11 al variabilei anxietate, avem frecvena absolut 12 i valoarea codat -2. nti ridicm la ptrat valoarea codat i obinem 4, apoi nmulim 4 cu 12 i obinem 48, cifr pe care o trecem n ultima coloan a tabelului. Similar procedm cu toate intervalele celor dou variabile i n final nsumm rezultatele. Ultimul lucru pe care l mai avem de fcut este reprezentat de obinerea valorii g, valoare al crei calcul necesit puin atenie i concentrare. Ea rezult din intersecia celor dou variabile, inndu-se cont de numrul de subieci i de valoarea codat. Pentru intervalul 5-8 al variabilei depresie, avem valoarea codat -3. Pe acest interval, gsim 3 subieci aflai n intervalul 20-23 pentru anxietate (cu valoarea codat 1), 1 subiect aflat n intervalul 24-27 pentru anxietate (cu valoarea codat 2) i 2 subieci aflai n intervalul 28-31 pentru anxietate (cu valoarea codat 3). Valoarea g este dat de suma produselor pariale, astfel: (-3)x3x1=-9 pentru intervalul 20-23 anxietate i 58 depresie, (-3)x1x2=-6 pentru intervalul 24-27 anxietate i 5-8 depresie i, n final, (-3)x2x3=-18 pentru intervalul 28-31 anxietate i 5-8 depresie. Aadar, valoarea g pentru intervalul 5-8 depresie devine -9-6-18=-33, cifr pe care o scriem n prima coloan. A doua coloan corespunde intervalului 9-12 pentru depresie, iar algoritmul este asemntor. Avem 2 subieci la intersecia intervalului 9-12 depresie cu 8-11 anxietate, prin urmare (-2)x2x(-2)=8; 5 subieci la intersecia intervalului 9-12 depresie cu 12-15 anxietate, atunci (-2)x5x(-1) rezult 10. Similar, 10 subieci la intersecia intervalului 9-12 depresie cu 1619 anxietate i, deci, (-2)x10x0=0, 11 subieci la intersecia intervalului 9-12 70

Cristian Opariuc-Dan depresie cu 20-23 anxietate genernd (-2)x11x1=-22, 13 subieci la intersecia intervalului 9-12 depresie cu 24-27 anxietate i (-2)x13x2=-52. n final, 12 subieci la intersecia intervalului 9-12 depresie cu 28-31 anxietate, calculul fiind (-2)x12x3=-72. Valoarea g pentru aceast coloan va deveni 8+10+022-52-72=-128. Cred c ai prins deja ideea. Desigur, intervalul n care variabila codat are valoarea 0, va avea i aici tot valoarea 0. n restul intervalelor, vom proceda ca mai sus. La sfrit, efectum suma acestor valori obinute. Finaliznd tabelul necesar calculului coeficientului de corelaie r Bravais-Pearson, probabil c v ntrebai acum ce formul aplicm. Iat, mai jos, formula necesar n acest caz:
(

)(

(formula 1.31)
)

Toate datele sunt cunoscute i au fost deja tratate. Nu rmne dect s nlocuim n formul, obinnd un coeficient de corelaie de -0,41.
( ) ( ) ( )( )

Constatm c cele dou variabile coreleaz negativ. Nimic mai firesc, avnd n vedere faptul c am folosit date absolut fictive. Avnd coeficientul de corelaie, se pune din nou problema semnificaiei acestuia. Putei observa c acest calcul este, poate, cel mai elaborat de pn acum. Este i normal s fie aa, deoarece am lucrat cu o serie de convenii i ne-am bazat pe cteva proprieti ale datelor grupate n intervale. Dup ct eva exersri, procedura va deveni familiar. Nu este foarte greu, ns necesit

71

Statistic aplicat n tiinele socio-umane

ceva concentrare. Iat motivul pentru care s-au inventat programele de analiz statistic. n cazul n care dorii s calculai direct coeficientul de corelaie r Bravais-Pearson, fr a mai calcula, n prealabil, mediile, putei aplica urmtoarea formul:
[ ( ) ][ ( ) ]

(formula 1.32)

Formula este foarte simpl i nu comport explicaii suplimentare. Vom relua exemplul celor 10 subieci evaluai cu inventarele de anxietate i depresie pentru a verifica, prin aceast metod, dac ajungem la acelai rezultat. n tabelul 1.25 am reluat exemplul. Tabelul 1.25 Calculul coeficientului de corelaie r Operaiile nu sunt complicate deloc. Trebuie s efectum ridicarea la ptrat a valorilor celor dou variabile i apoi nmulirea valorilor celor dou variabile (nu a valorilor variabilelor ridicate la ptrat). n final, efectum suma scorurilor pentru valorile cele dou variabile, pentru ptratul acestora, i suma produsului lor. Acestea sunt toate datele necesare aplicrii formulei.
[ ][ ]
Subiect DD AS BS EA FS AZ MN TG RM MA Total Anxietate 22 12 6 21 16 15 13 10 6 14 135 Depresie 24 9 5 18 20 16 11 10 7 17 137 Anx2 484 144 36 441 256 225 169 100 36 196 2087 Dep2 576 81 25 324 400 256 121 100 49 289 2221 AnxDep 528 108 30 378 320 240 143 100 42 238 2127

72

Cristian Opariuc-Dan Observm c am obinut exact acelai coeficient de corelaie BravaisPearson, 0,91, cele dou formule fiind echivalente. V lsm dumneavoastr plcerea de a alege ntre cele trei metode de calcul propuse. Metoda a doua, dei mai complicat la prima vedere, v asigur posibilitatea calculrii acestui coeficient pentru volume mari de date. Aceasta este situaia. Analiza statistic a datelor nu este complicat, ns presupune calcule laborioase i mult atenie. Iar dac acestea vi se par calcule complexe, stai s vedei analiza factorial cum se prezint. Glumeam! Nu v speriai i nu aruncai cartea din mn. Vom discuta acum despre semnificaia acestui coeficient.

I.2.1.1 Semnificaia coeficientului de corelaie r BravaisPearson


Acest coeficient de corelaie este un coeficient direcional i poate lua valori ntre -1 i +1, cu o semnificaie analoag coeficientului de corelaie a rangurilor Spearman sau ca a oricrui coeficient direcional. Fiind bazat pe date scalare, pragul de semnificaie se poate raporta la distribuia t, n funcie de valoarea testului t pentru un numr de n-2 grade de libertate, dup relaia:
| |

(formula 1.33)

n primul exemplu am obinut un coeficient de corelaie r BravaisPearson de 0,91 pe un lot de 10 subieci. Valoarea testului de semnificaie t va fi de 6,198
| |

Vom compara aceast valoare cu valoarea critic a testului t din anexa 4 pentru un numr de 10-2=8 grade de liberate. Observm c pentru a fi

73

Statistic aplicat n tiinele socio-umane

semnificativ la un prag de semnificaie mai mic de 0,05, valoarea testului t trebuie s fie mai mare de 1,860, i la un prag de semnificaie mai mic de 0,01 va trebui s fie mai mare de 2,89 (pentru o ipotez bidirecional). V aloarea noastr, 6,198, este mult mai mare dect aceste praguri critice, ceea ce nseamn c acest coeficient de corelaie obinut este semnificativ la un prag de semnificaie mai mic de 0,01. Aceast analiz are doar un rol de exemplu. Numrul de subieci nu permite generalizarea rezultatelor. n realitate, dup cum tim, valoarea unui studiu efectuat pe doar 10 persoane este extrem de limitat, concluziile neputnd fi extinse la nivelul populaiei. n al doilea exemplu, am obinut un coeficient de corelaie de -0,41, studiind un numr de 155 de persoane. n mod cert, vom dori s tim dac aceast corelaie invers este sau nu este semnificativ. Vom folosi din nou testul t.

Nu suntem interesai de semnul testului t. Este normal s fie negativ, deoarece i corelaia este negativ. Ne intereseaz doar s comparm aceast valoare (12,33) cu valoarea de referin pentru un prag de semnificaie mai mic de 0,05 sau mai mic de 0,01 la un numr de 155-2=153 grade de libertate. n tabelul din anexa 4 nu avem exact valorile pentru 153 grade de libertate. Valoarea inferioar cea mai apropiat este 150 de grade de libertate, valoare cu care vom efectua comparaia. Pentru un prag de semnificaie mai mic de 0,05, valoarea de referin este 1,96 iar pentru un prag de semnificaie mai mic de 0,01 este 2,57. ncercai s memorai aceste valori deoarece le vei folosi frecvent. Ce constatm? Ceea ce am obinut (12,33) este mult mai mare n comparaie cu 2,57, valoarea de referin pentru un prag de semnif i-

74

Cristian Opariuc-Dan caie mai mic de 0,01. Aadar, coeficientul de corelaie este semnificativ la un prag de semnificaie mai mic de 0,01. Sigur c cea mai simpl metod este aceea de a compara valoarea coeficientului de corelaie Bravais-Pearson cu pragurile critice din tabelul special (anexa 6). Coeficientul de corelaie -0,41 obinut n urma studiului unui eantion de 155 de subieci va fi comparat cu pragul critic pentru un numr de 155-2=153 grade de libertate. Tabelul conine valori doar pentru 100 de grade de libertate, acesta fiind i rndul pe care-l vom lua n calcul. Pentru a fi semnificativ la un prag de semnificaie mai mic de 0,05, coeficientul de corelaie trebuie s depeasc valoarea 0,195, iar la un prag de semnificaie mai mic de 0,01 trebuie s depeasc valoarea 0,25. Desigur, valoarea noastr (0,41) este mai mare dect aceste praguri critice, corelaia fiind semnificativ. M-am tot gndit dac s m opresc aici sau s v mai prezint un el ement important referitor la acest coeficient de corelaie. Pn la urm am decis s v mai bombardez cu o informaie. tim deja c scopul unei cercetri efectuate pe un eantion este acela de a extinde cunotinele dobndite la n ivelul ntregii populaii. Stabilind c ntre anxietate i depresie exist un coeficient de corelaie de 0,411 i observnd c aceast corelaie este semnificativ lucrnd pe un eantion de 155 de persoane (presupunnd c vorbim de un eantion i nu de un lot de cercetare), am putea extinde aceast informaie la nivelul ntregii populaii, spunnd c ntre nivelul de anxietate i cel al depresiei exist o corelaie pozitiv, semnificativ i de nivel mediu. Lund un alt eantion de 150 sau 200 de persoane, vom obine cam aceleai rezultate, coeficientul de corelaie fiind, s spunem, de 0,51. Pe un alt eantion am obine un coeficient de corelaie de 0,38 i aa mai departe. Ideea este aceea dac putem gsi o msur a acestei corelaii la nivelul populaiei. Care ar fi oare
1

Nu am mai menionat c este negativ. n realitate corelaia exist, ntr -adevr, i este pozitiv. Noi am obinut o corelaie negativ, deoarece am lucrat cu date la ntmplare care nu au rezultat din cercetri. M i mir c a rezultat o corelaie semnificativ.

75

Statistic aplicat n tiinele socio-umane

coeficientul de corelaie dac, presupunnd prin absurd, am investiga ntreaga populaie a globului? n mod normal, acest parametru l notm cu litera gr eceasc i nu are nici o legtur cu notaia folosit pentru a desemna coeficientul de corelaie a rangurilor Spearman. Ei bine, valoarea exact a acestui parametru nu o vom putea ti niciodat. n mod sigur ns, valorile obinute prin studiul eantionului se pot apropia mai mult sau mai puin de acest parametru. n realitate, valoarea parametrului este situat ntr-un interval, numit interval de ncredere. Putem spune c [rinf < < rsup], adic valoarea exact a parametrului la nivelul populaiei este situat undeva ntre o limit inferioar i o limit superioar a unui interval de ncredere. Din fericire, dei nu p utem calcula valoarea exact a parametrului, putem ns calcula, cu o anumit probabilitate, acest interval de ncredere. Relund exemplul cu cei 155 de subieci examinai, pentru care am obinut un coeficient de corelaie de 0,41, demonstrnd c aceast corelaie este semnificativ, s vedem care este intervalul de ncredere, ntre ce limite putem gsi valoarea real a acestei corelaii la nivelul ntregii populaii. n acest sens, Fisher a introdus o variabil teoretic, avnd o distribuie aproximativ normal, numit variabila u (Vasilescu, 1992) i calculat dup formula: (formula 1.34) unde prin ln am desemnat logaritmul natural, iar r reprezint coeficientul de corelaie care ia valori ntre -1 i +1. Cunoscnd aceast relaie general, putem stabili variabilele u necesare limitelor inferioare i superioare ale intervalului de ncredere, astfel:

(formula 1.35)

unde n este numrul de subieci, iar z1- reprezint valoarea distribuiei z la pragul 1- ales. 76

Cristian Opariuc-Dan n baza acestor formule putem acum stabili modalitile de calcul ale limitelor intervalului de ncredere: (formula 1.36)

unde e este o constant matematic, numit i numrul lui Euler, i are valoarea 2,71828. Nu v speriai, c nu este greu deloc. Calculm imediat intervalul de ncredere pentru coeficientul de corelaie din exemplul de mai sus. Desigur, nti vom calcula variabila u.

Am obinut valoarea 0,435 pentru variabila u. Obinerea logaritmului natural se face cu ajutorul unui calculator tiinific. Nu v pune nimeni s-l calculai cu creionul pe hrtie. Desigur, va trebui s stabilim acum probabilitatea intervalului de ncredere. La o probabilitate de 95% (=0,05), valoarea z va fi de 1,645, valoare extras din tabele (tabelul distribuiei t din anexa 4, n general ultima linie a tabelului). Folosind aceste date, vom putea calcula variabilele u pentru limitele inferioare i superioare.

Putem acum stabili limitele inferioare i superioare ale intervalului de ncredere, aplicnd ultimele formule:

77

Statistic aplicat n tiinele socio-umane

Am obinut, cu o probabilitate de 95%, intervalul n care se regsete acest parametru la nivelul populaiei. Coeficientul de corelaie dintre anxietate i depresie se gsete, la nivelul populaiei, cu o probabilitate de 95%, ntre un coeficient de corelaie de 0,293 i un coeficient de corelaie 0,513. mi exprim sperana c acum avei o imagine clar asupra coeficientului de corelaie r Bravais-Pearson i vei ti s-l folosii n mod corect. Indiferent dac efectuai calculele manual sau folosind un program computer, este absolut necesar s nelegei semnificaia acestui indicator i condiiile n care l putei folosi. Altminteri, riscai obinerea de date i interpretri incorecte. i, ca s parafrazez un mare statistician, nu statistica minte ci oamenii mint folosindu-se de statistic.

I.2.2 Coeficientul de corelaie biserial, punct biserial i triserial


Avem deja o idee asupra corelaiei biseriale din capitolul destinat corelaiilor neparametrice, unde am vorbit despre corelaia rang biserial i am promis, tot atunci, c vom reveni. ntr-adevr, corelaia biserial presupune analiza relaiei existente ntre o variabil scalar i o variabil nominal, de obicei dihotomic. Metoda este frecvent folosit la validarea testelor psihologice. De exemplu, construim un test de inteligen pe care l administrm unor candidai la coala de aviaie militar. Evident, dintre aceti candidai, unii vor fi admii, iar alii respini. Ne intereseaz s tim dac exist vreo legtur ntre admiterea sau respingerea candidailor i rezultatele la test. Cu alte cuvinte, dac testul construit poate sau nu poate prezice admiterea la coala de aviaie. Desigur, a prezice este grosier folosit, mai degrab preferm termenul a diferenia. Pentru predicii, avem tehnici diferite i mult mai sensibile, pe care le vom studia n alt volum. De fapt, aceast corelaie seamn mai mult cu un test statistic dect cu o corelaie real. 78

Cristian Opariuc-Dan nc de la nceput, menionm faptul c acest coeficient de corelaie (biserial) are un frate geamn. Este vorba despre coeficientul de corelaie punct biserial care face exact acelai lucru, diferena dintre ele fiind una de nuan subtil i innd de variabila dihotomic. n cazul coeficientului de corelaie punct biserial, variabila dihotomic are o aa numit dihotomie discret, n timp ce coeficientul de corelaie biserial prezint o variabil cu o dihotomie continu (Field, 2000). Ce nseamn acest lucru? Relund exemplul candidailor la coala de aviaie, statutul de admis i respins reprezint o dihotomie continu. De ce? Foarte simplu, deoarece variabila dihotomic provine dintr-o variabil continu (media de admitere). n definitiv, exist o continuitate n categoria admiilor i a respinilor, acetia avnd medii diferite. Eecul unui candidat poate fi la cteva sutimi de ultima medie de admitere sau la cteva puncte. Un alt exemplu ar fi dihotomia btrni-tineri sau dihotomia gras-slab. Toate aceste variabile, dei evident dihotomice i nominale, provin din variabile continui, de aceea se folosete termenul de dihotomie continu. n cazul dihotomiei discrete, aceast continuitate nu mai este prezent. Dihotomia brbat-femeie este o dihotomie discret, deoarece ntre brbai nu se poate spune c unii sunt mai mult brbai, iar alii mai puin, unii sunt mai brbai, iar alii mai femei (dect, eventual, din punct de vedere comportamental, ar spune unii mai mucalii). Dei transsexualul X se d femeie, ntro asemenea clasificare, strict pe criterii biologice, X este n definitiv brbat. Alte exemple ar fi: dihotomia viu-mort, nu poi fi mai mort sau mai puin mort, dihotomia nsrcinat-nensrcinat i lista poate continua. Sper c ai neles aceste dou tipuri de dihotomii. n condiiile n care avem o dihotomie continu, se folosete coeficientul de corelaie biserial, iar pentru variabila cu o dihotomie discret, utilizm coeficientul de corelaie punct biserial. Aceasta este diferena subtil dintre cei doi coeficieni de cor elaie. 79

Statistic aplicat n tiinele socio-umane

M gndesc acum s compar statistica i analiza datelor cu o pereche de pantofi noi i foarte frumoi. i ncali, te mndreti cu ei, dei de cele mai multe ori, la nceput, te rod teribil i faci rni la picioare. Comparaia se p otrivete de minune cu aceti doi coeficieni. tii analiz de date, eti invidiat de muli, se uit la tine, te apreciaz, dei numai tu nelegi cte rni ai fcut la creier s pricepi, de exemplu, dihotomia continu i dihotomia discret. Din moment ce am clarificat aceste elemente, s mergem mai departe i s vedem cum se calculeaz coeficientul de corelaie biserial, coeficientul de corelaie punct biserial i s discutm cteva lucruri despre coeficientul de corelaie triserial care face parte din aceeai familie. Coeficientul de corelaie biserial se noteaz rbis i se poate calcula dup formula:

(formula 1.37)

n care cu x barat s-au notat mediile valorilor variabilei continui n situaia de prezen a caracteristicii dihotomice, respectiv n situaia de a bsen a acestei caracteristici, cu p s-a notat proporia subiecilor care prezint caracteristica, cu q proporia subiecilor care nu prezint caracteristica, iar z reprezint ordonata punctului de separaie. Sigma se refer la abaterea standard a datelor variabilei continui. S considerm c testul de inteligen are un numr de 10 itemi. Un item primete 1 punct dac subiectul rspunde corect i 0 puncte dac rspunde greit. Prin urmare, amplitudinea teoretic este cuprins ntre 0 i 10 puncte. Rezultatele obinute de candidai la acest test, grupate dup calitatea lor de admii ori respini, sunt urmtoarele:

80

Cristian Opariuc-Dan
Tabelul 1.26 Calculul coeficientului de corelaie biserial Test inteligen (punctaj total) 1 2 3 4 5 6 7 8 9 0 1 2 4 6 0 9 7 6 0 3 5 8 5 4 5 2 4 0 4 7 12 11 4 14 9 10

Rezultat Admis Respins Total

0 0 0 0

10 8 1 9

Total 43 37 80

Structura tabelului este clar. Un punctaj de 0 puncte i de 1 punct nu a fost realizat de niciun candidat. 2 puncte au fcut 3 candidai respini i 1 singur candidat admis, 3 puncte au avut 2 candidai admii i 5 candidai respini i aa mai departe. n total, avem 80 de candidai, dintre care 43 de candidai admii i 37 respini. Vom stabili acum proporiile candidailor admii i respini raportnd numrul de candidai admii, respectiv numrul de candidai respini, la numrul total de candidai. Astfel, i . n realitate, avem 53,7% candidai admii i 46,3% candidai respini. Adunnd procentele (53,7+46,3=100%), obinem expresia ntregului volum de subieci studiat. Singurul lucru care ne lipsete este ordonata punctului de separaie (z). De fapt nici nu avem nevoie de aceast valoare, deoarece raportul se citete dintr-un tabel special (tabel prezentat n anexa 7), lund ca referin valoarea p sau valoarea q. Nu conteaz dac ne raportm la proporia candidailor admii sau la proporia candidailor respini, deoarece ntotdeauna p=1-q i q=1-p, fapt evident. De obicei se ia n considerare valoarea cea mai mic, tabelul fiind conceput pn la o proporie de 0,500, altminteri ar fi fost redundant. n tabelul din anexa 7, lund ca referin q=0,463, obinem valoarea raportului 0,6259. Urmeaz calculul mediilor pentru subiecii admii i pentru subiecii respini. Media se calculeaz nsumnd produsele obinute prin 81

Statistic aplicat n tiinele socio-umane

nmulirea numrului de subieci cu scorul fiecrei categorii i mprind la numrul total al subiecilor admii, respectiv respini. n cazul subiecilor admii vom avea (1x2)+(2x3)+(4x4)+(6x5)+(9x7)+(7x8)+(6x9)+(8x10)=307. mprind suma la 43, rezult media admiilor de 7,139. Procedm similar i n cazul respinilor. Suma rezultat va fi 199, mprit la 37, ne d media respinilor, care are valoarea 5,378. Nu ne trebuie acum dect abaterea standard a ntregului lot de cercetare pentru a putea calcula coeficientul de corelaie biserial. Nu intrm n amnunte referitoare la calculul abaterii standard, aceste elemente fiind tratate n lucrarea anterioar. Revedei capitolul referitor la calculul abaterii standard pentru date grupate pe interval. Abaterea standard pentru ntregul set de date (variabila test de inteligen) este 2,0. Avnd acum toate informaiile necesare, putem cu uurin completa formula de calcul i obinem valoarea coeficientului de corelaie biserial:

Coeficientul de corelaie biserial are valoarea 0,55, lucru care ne indic posibilitatea ca testul de inteligen s prevad succesul sau eecul la ex amenul de admitere. Urmeaz doar s verificm semnificaia acestui coeficient de corelaie. n cazul unei variabile dihotomice discrete, coeficientul de corelaie biserial devine inadecvat. Situaia impune calculul coeficientului de corelaie punct biserial dup relaia:

(formula 1.38)

n care cu x barat s-au notat mediile valorilor variabilei continui n situaia de prezen a caracteristicii dihotomice, respectiv n situaia de a bsen a acestei caracteristici, cu n1 i n2 s-au notat frecvenele absolute n

82

Cristian Opariuc-Dan cele dou situaii, iar sigma se refer la abaterea standard a datelor variabilei continui. Formula nu se mai bazeaz pe proporii, ci pe frecvene absolute, fiind mai uor de calculat n comparaie cu coeficientul biserial. Vom relua exemplul anterior, considernd de data aceasta c testul de inteligen dorete s prezic diferena, sub acest aspect, dintre brbai i femei. Variabila dihotomic are acum o dihotomie discret, calculul coeficientului biserial nu mai are sens, prin urmare vom aplica formula coeficientului de corelaie punct biserial.
Tabelul 1.27 Calculul coeficientului de corelaie punct biserial Test inteligen (punctaj total) 0 1 2 3 4 5 6 7 8 9 0 0 1 2 4 6 0 9 7 6 0 0 3 5 8 5 4 5 2 4 0 0 4 7 12 11 4 14 9 10

Sex Brbai Femei Total

10 8 1 9

Total 43 37 80

n mod absolut evident, exist o diferen ntre cei doi coeficieni de corelaie, cel punct biserial fiind ntotdeauna mai mic n comparaie cu varianta biserial. Dac nu suntei sigur de natura variabilei dihotomice, v nv un truc. Luai-v o msur de precauie, calculnd ntotdeauna coeficientul de corelaie punct biserial. Dac, ulterior, v dai seama c avei de a face cu o variabil cu dihotomie continu, putei transforma uor coeficientul de corelaie punct biserial n coeficient de corelaie biserial, dup formula:

(formula 1.39)

83

Statistic aplicat n tiinele socio-umane

Valoarea raportului

se citete n acelai tabel ca i raportul

lundu-se ca referin proporia cea mai mic. n exemplul nostru, am luat ca referin q=0,463. Gsisem, anterior, c raportul bel, raportul . n acelai ta-

. Obinnd coeficientul de corelaie punct biserial de

0,438, putem deduce coeficientul de corelaie biserial.

Valoarea obinut se apropie foarte mult de cea rezultat prin calcul direct, diferenele fiind datorate rotunjirilor. S-ar putea s ntlnii n practic situaii n care va trebui s punei n relaie o variabil continu cu o variabil trihotomic, de tipul aceleia care mparte un grup de subieci n slabi, medii i buni. n acest caz , se folosete un alt coeficient de corelaie, numit coeficientul de corelaie triserial, care ine cont doar de extremele variabilei trihotomice, nu i de clasa din mijloc. Este, dac dorii, o variant a coeficientului de corelaie biserial, avnd aproximativ aceeai structur. Relaia de calcul a acestui coeficient este dat de urmtoarea formul:

(formula 1.40)

Expresia de mai sus nu presupune un tratament special, semnificaia acesteia fiind deja cunoscut. Menionm doar c raportul se citete din acelai tabel, coninut n anexa 7, pentru proporia clasei inferioare, respectiv superioare. Am reluat exemplul anterior, modificnd puin datele, astfel nct s pstrm acelai numr de subieci i aceeai abatere standard. De data aceas-

84

Cristian Opariuc-Dan ta, avem o variabil trihotomic derivat dintr-o variabil continu (vrsta), care mparte subiecii n subieci tineri, maturi i vrstnici.
Vrsta Tineri Maturi Vrstnici Total Tabelul 1.28 Calculul coeficientului de corelaie triserial Test inteligen (punctaj total) 1 2 3 4 5 6 7 8 9 0 1 2 4 3 0 7 3 4 0 2 3 2 3 2 5 4 2 0 1 2 6 5 2 2 2 4 0 4 7 12 11 4 14 9 10

0 0 0 0 0

10 5 3 1 9

Total 29 26 25 80

Abaterea standard are tot valoarea 2, media scorurilor obinute de tineri este 6,82, media scorurilor obinute de vrstnici este de 5,80, proporia clasei tineri este de 0,362 (36,2%) iar proporia clasei vrstnice este de 0,312 (31,2%). Nu am intrat n detalii legate de calculul acestor valori, noiunile fiind bine cunoscute. n tabelul din anex, pentru proporia clasei tinere (0,362) gsim r aportul , iar pentru proporia clasei vrstnice (0,312) gsim rapo rtul 1,0583, primul raport ntlnit, corespunztor proporiei de 0,350, deoarece tabelul nu furnizeaz o valoare explicit pentru proporia calculat de 0,312. Avnd acum toate aceste informaii, s calculm coeficientul de corelaie triserial.

Obinem o corelaie slab ntre cele dou variabile. Desigur, se pune, i n acest caz, problema semnificaiei acestei corelaii, aspecte pe care le vom trata n continuare.

85

Statistic aplicat n tiinele socio-umane

I.2.2.1 Semnificaia coeficienilor de tip serial


Coeficienii studiai n acest capitol sunt de tip direcional, lund valori cuprinse ntre -1 i +1. Semnificaia interpretativ a acestora o tii deja, ns va trebui s facem meniunea c lotul de cercetare trebuie c aib un volum de minim 50 de cazuri pentru ca aceste statistici s poat fi calculate. Fiind coeficieni de corelaie parametrici, pragul de semnificaie se obine, dup cum v-ai obinuit deja, prin raportarea la distribuia t pentru un numr de ninf+nsup-2 grade de libertate. Testul t de semnificaie poate fi calculat dup formula: (formula 1.41)

unde r reprezint coeficientul de corelaie (biserial, punct biserial, triserial, iar ninf i nsup frecvenele absolute ale celor dou categorii, inferioar i superioar. S verificm acum dac acei coeficieni obinui mai sus sunt sau nu semnificativi. Am obinut un coeficient de corelaie biserial de 0,55 i un coeficient de corelaie punct biserial de 0,43, pe un lot de cercetare de 80 de subieci, precum i un coeficient de corelaie triserial de 0,24, pe un volum de 54 de subieci. nlocuind n formul, vom obine:

86

Cristian Opariuc-Dan Valorile testului t vor fi verificate n tabelul din anexa 4, la pragul de semnificaie de 0,05 i 0,01, pentru un numr de 78 grade de libertate n cazul coeficienilor biserial i punct biserial i 52 de grade de libertate pentru coeficientul triserial. Nu avem o valoare exact pentru 78 de grade de libertate i vom lua valoarea imediat inferioar, cea de 60 de grade de libertate. Pentru a fi semnificativ la un prag de semnificaie mai mic de 0,05, testul t trebuie s fie mai mare de 2,00, iar pentru a fi semnificativ la un prag de semnificaie mai mic de 0,01, va fi mai mare de 2,66. Valorile testului t pentru coeficienii biserial i punct biserial sunt mai mari dect aceast valoare, prin urmare corelaia este semnificativ la un prag de semnificaie mai mic de 0,01. Pragurile critice pentru 52 de grade de libertate le gsim, analog, la 50 de grade de libertate. Semnificaia pentru un p<0,05 este de 2,00 , iar pentru un p<0,01 este de 2,67. Valoarea testului t n cazul coeficientului de corelaie triserial este de 1,78, valoare situat sub valoarea prag, aadar coeficientul de corelaie triserial nu este semnificativ.

I.2.3 Coeficientul de corelaie eneahoric


Ultima situaie discutat n acest subcapitol este aceea n care vei dori s asociai dou variabile, cel puin trihotomice, trihotomia fiind una continu. Acest coeficient, propus de Coumetou (Radu, i alii, 1993), reprezint o extensie a coeficientului r Bravais-Pearson, mai exact a coeficientului triserial, singura excepie constnd n faptul c nu mai avem de-a face cu variabile continui, ci cu o variabile continui reduse la forma lor continuucategorial. S clarificm puin lucrurile printr-un exemplu. Ne intereseaz s stabilim relaia dintre vrsta subiecilor i coeficientul de inteligen, variabilele fiind categorizate n patru grupe: inteligen foarte slab, slab, bun i foarte bun, respectiv foarte tineri, tineri, vrstnici i foarte vrstnici. Nu am folosit 87

Statistic aplicat n tiinele socio-umane

o clasificare trihotomic, deoarece am vrut s v prezint posibilitile acestui coeficient de a se extinde la un numr orict de mare de clase. Singura condiie este aceea a provenienei variabilelor din variabile continui. Dup colect area datelor, rezult urmtorul tabel:
Tabelul 1.29 Calculul coeficientului de corelaie eneahoric Inteligen Foarte Foarte Slab Bun slab bun 1 7 Foarte tineri 2 10 T4 T1 9 Tineri 1 3 12 Vrst Vrstnici Foarte vrstnici TOTAL 2 4 T3 5 TB 5 8 11 9 3 1 T2 8 TA 5 TC 88 n

TOTAL 8 TD

Datele indic un total de 20 de persoane foarte tinere, 25 de persoane tinere, 21 de persoane vrstnice i 22 de persoane foarte vrstnice. n acelai timp, avem 8 persoane cu un intelect foarte slab, 18 persoane cu intelect slab, 42 de persoane cu un nivel bun al inteligenei i 20 de persoane cu inteligen superioar. ntregul lot de cercetare (n) este format din 88 de persoane. Nu suntem interesai de toate datele din tabel. Referitor la cele dou variabile, vom avea n vedere totalurile marginale ale grupelor extreme. Mai precis, grupa celor foarte tineri cu inteligen foarte slab i foarte bun (TD=8 subieci), grupa celor foarte vrstnici cu o inteligen foarte slab i foarte bun (TC=5 subieci), respectiv grupa celor cu inteligen foarte slab, foarte tineri i foarte vrstnici (TB=5 subieci) i grupa celor cu inteligen foarte bun, foarte tineri i foarte vrstnici (TA=8 cazuri).

88

Cristian Opariuc-Dan Un alt element este reprezentat de frecvena extremelor. Subiecii foarte tineri cu inteligen foarte slab (T4=1 subiect), subiecii foarte tineri cu o inteligen foarte bun (T1=7 subieci), subiecii foarte vrstnici cu o inteligen foarte slab (T3=4 subieci) i subiecii foarte vrstnici cu o inteligen foarte bun (T2=1 subiect). Bineneles, ultimul aspect considerat are n vedere volumul lotului de cercetare (n=88 subieci). Toate aceste informaii rezult din tabelul de distribuie n baza unor simple adunri. Calculul coeficientului eneahoric nu mai presupune dect aplicarea formulei:
( ( ) )( ( )

(formula 1.42)
( )(
)

Se poate constata cu uurin c absolut toate informaiile se regsesc n tabel. Nu va trebui dect s nlocuim n formul i vom obine un coeficient de corelaie de 0,689.

)(

)(

)(

I.2.3.1 Semnificaia coeficientului eneahoric


Coeficientul eneahoric este un coeficient direcional, iar analiza semnificaiei acestuia se face n mod analog analizei coeficientului de corelaie r Bravais-Pearson, motiv pentru care nu vom detalia, lsndu-v dumneavoastr, ca exerciiu, stabilirea semnificaiei coeficientului de corelaie eneahoric. 89

Statistic aplicat n tiinele socio-umane

I.3 Corelaii pariale


Corelaiile pariale reprezint un tip particular de analiz a relaiilor dintre dou variabile, n condiiile n care ambele variabile sunt influenate de o a treia variabil, iar efectul acesteia este meninut constant. Generaliznd, o corelaie ntre dou variabile n care efectul posibil Not examen al altor variabile este meninut constant, poart numele de corelaie parial. (Field, 2000). Fiecare dintre dumEmoii examen neavoastr a susinut cel puin un examen. Chiar dac unii vor spune c niciodat Figura 1.2 Variana din nota de examen explicat de nu au avut emoii, eu consiemoii der c la unele examene, emoiile sunt inevitabile. n acest moment, am i eu emoii, gndindu-m la modul n care vei citi i interpreta aceast carte. Fiind, de acum, cercettori cu experien, ne i vine ideea studierii relaiei dintre Not examen notele obinute la examen i emoiile din timpul acestuia. Excelent, vom spune! Efectum rapid un studiu corelaional i obinem o corelaie Timp studiu negativ ntre emoiile din Variana explicat de timpul de studiu timpul examenului i performan, fapt absolut norFigura 1.3 Variana din nota de examen explicat de mal. Mndri de realizare, ne timpul de studiu
Variana explicat de emoii

90

Cristian Opariuc-Dan i grbim s publicm rezultatele, ba chiar desenm i grafic relaia gsit. tiu c v-ai fi ateptat la un tip de grafic mai serios. Coninutul figurii 1.2, explic, de fapt, printr-un coeficient de corelaie, cantitatea de varian din nota obinut la examen, care se poate regsi n emotivitate. Grosier vorbind2, dac am fi obinut un coeficient de corelaie de 0,342 ntre nota obinut la examen i emoiile din timpul acestuia, practic 11,6% din variana contra-performanei de la examen se poate explica prin variana emotivitii (zona de intersecie a celor dou figuri). Suntem, aadar, n pragul unei descoperiri epocale: 11,6% din variana notelor la examen este reprezentat, de fapt, de variana emotivitii. n sfrit am gsit i demonstrat statistic motivul pentru care se obin note proaste. Iat-l! Emoiile de la examen. Cnd credeai i dumneavoastr c vei obine premiul Nobel, iat c apare cineva i face o afirmaie: Excelent, ns ai luat n calcul relaia dintre timpul de studiu la o disciplin i performana la examen?. Ce-ai mai putea spune? Nu, Timp studiu ns promitem c vom efectua o alt cercetare.. Pentru c Emoii examen suntei oameni de cuvnt, ai i demarat un studiu analog. De aceast dat obinei o corelaie pozitiv ntre timpul de Variana explicat de timpul de studiu studiu i nota de la examen, coeficientul de corelaie fiind Figura 1.4 Variana din emoiile de examen explicat de timpul de studiu de 0,651. Desigur c vei ilus-

Variana se calculeaz ridicnd la ptrat coeficientul de corelaie. n acest caz, variana ar fi 0,3422, adic 0,116 sau 11,6%. Despre coeficientul de corelaie multipl i varian explicat vom discuta ntr-un alt volum. Unii autori numesc aceast varian prin termenul de varian comun.

91

Statistic aplicat n tiinele socio-umane

tra acest lucru folosind un grafic asemntor celui din figura 1.3. Am rspuns, iat, la ntrebarea anterioar. Tipul de studiu explic 42,3% din variana notei obinute la examen. Mult mai mult n comparaie cu emotivitatea. D orind s fim i mai riguroi, putem acum asocia chiar timpul de studiu cu em oiile din timpul examenului. Desigur, surpriza nu va ntrzia s apar. Obinem un coeficient de corelaie negativ, s spunem 0,410. Iat c timpul de studiu se regsete, i el, n procent de 16,8%, n variana emoiilor din timpul examenului. Cu ct un student aloc mai mult timp studiului unei discipline, cu att performana sa la examen va fi mai mare i emoiile din timpul examenului mai mici. Nu prea v convine. Cnd credeai i dumneavoastr c v vei putea justifica notele mici la examene prin emoii, iat c vi se spulber teoria. Cu un oarecare sentiment de tristee, vei reprezenta acest lucru n figura 1.4. Problema, totui, nu s-a rezolvat. Nu am artat dect c timpul de studiu contribuie la scderea emoiilor din timpul examenelor i la creterea notelor obinute la examene. Dup o Variana pur explicat Not examen logic simpl, de timpul de studiu emoiile duc la scderea notei obinute la examen, iar timpul de Timp de studiu studiu determin Emoii examen creterea acestora. Totui, cum arVariana comun explicat de Variana pur tm relaia dintre timpul de studiu i emoii explicat de emoii emoii i perforFigura 1.5 Variana comun explicat de timpul de studiu i emoii mana n timpul 92

Cristian Opariuc-Dan examenului? Lucrurile ar fi simple n condiiile n care varianele explicate de timpul de studiu i de emoiile din timpul examenului ar fi independente. Am artat c, totui, o parte din variana emoiilor din timpul examenului este explicat i de timpul de studiu. Logic, aceast varian comun va influena performana de la examene. De fapt, ne intereseaz ct din variana pur a performanei de la examene poate fi regsit n emoiile din timpul acestora. Rspunsul poate fi gsit intuitiv n figura 1.5. Practic, dac meninem constant timpul de studiu, putem stabili care este legtura pur dintre nota obinut la un examen i emoiile din timpul examenului. Observai deja c variana acoperit este mult mai mic, cea mai mare parte fiind explicat prin intermediul timpului de studiu. Soluia unui asemenea design de cercetare poate s rezulte numai n baza corelaiilor pariale. Am prezentat acest exemplu, pe care l-am dezvoltat dup A. Fields (Field, 2000), din dou motive. Pe de o parte, am dorit s avei o imagine clar asupra corelaiilor pariale i s v introduc n problema complex a corelaiilor multiple, iar pe de alt parte, s nelegei la ce poate duce un plan de cercetare greit conceput. De cele mai multe ori, o asemenea eroare se pltete destul de scump, cu invalidarea ntregii cercetri. Coeficientul de corelaie parial nu este altceva dect o variant a coeficientului de corelaie r Bravais-Pearson i poate fi obinut dup formula:
( )( )

(formula 1.43)

unde r12.3 este coeficientul de corelaie parial ntre variabilele 1 i 2, cu meninerea constant (controlnd) variabila 3, r12 este coeficientul de corelaie r Bravais-Pearson ntre variabilele 1 i 2, r13 este coeficientul de corelaie r Bravais-Pearson ntre variabilele 1 i 3, iar r23 se refer la acelai coeficient, ntre variabilele 2 i 3.

93

Statistic aplicat n tiinele socio-umane

Nu cred c mai rmne ceva de explicat n aceast formul. Tot calculul se rezum la aflarea unui numr de 3 coeficieni de corelaie r Bravais Pearson. Modalitatea de realizare efectiv a acestui lucru a fost tratat pe larg anterior i nu vom reveni. Avnd datele fictive din exemplul de mai sus, s procedm la aflarea corelaiei dintre performana la examen i emoiile din timpul examenului, n condiiile n care inem sub control timpul alocat studiului. Prima variabil va fi performana la examen, a doua variabil emoiile din timpul examenului, iar variabila controlat, timpul alocat examenului. Coeficientul de corelaie dintre performana la examen i emoiile n timpului examenului (r12) este de 0,342. Coeficientul de corelaie dintre performana la examen i timpul alocat studiului (r13) este de 0,651 iar coeficientul de corelaie dintre emoiile din timpul examenului i timpul alocat studiului este de 0,410 (r23). Coeficientul de corelaie parial r12.3 va fi 0,109.

Iat c, meninnd sub control timpul de studiu, corelaia dintre performana la examen i emoiile din timpul examenului este una negativ, de doar 0,109. Variana performanei la examen nu este acoperit n procent de 11,6%, cum credeam iniial, ci ntr-un procent de doar 1,18%. Un asemenea tip de corelaie parial poart numele de corelaie parial de rang I, deoarece exist o singur variabil pe care dorim s o controlm din punctul de vedere al efectului. Putem s controlm efectul unui numr de dou variabile, caz n care vorbim despre corelaie parial de rang II, efectul a trei variabile corelaie parial de rang III i aa mai departe. Coeficientul de corelaie se va scrie r12.3 n cazul unei corelaii pariale de

94

Cristian Opariuc-Dan ordin I, r12.34 pentru o corelaie parial de rang II, r12.345 pentru corelaiile pariale de ordin III i aa mai departe. Algoritmul de lucru este unul analog, bazat pe formula anterioar, extins pentru un ordin mai mare. Calculele pot deveni ns laborioase, de aceea pentru corelaii pariale de ranguri mari se prefer utilizarea unui computer i a unui program specializat.

I.3.1 Corelaii semi-pariale


Atunci cnd calculm coeficientul de corelaie parial ntre dou variabile, controlm efectul exercitat de o a treia variabil asupra ambelor variabile. n exemplul de mai sus, se controleaz efectul exercitat de variabila timp de studiu att asupra variabilei performan la examen, ct i asupra variabilei emoii din timpul examenului. Sunt cazuri n care dorim s controlm efectul exercitat de a treia variabil doar asupra unei variabile, n timp ce vom ignora efectul exercitat asupra celeilalte. De exemplu, dorim s controlm efectul exercitat de variabila timp de studiu doar asupra emoiilor din timpul examenului, i s-l ignorm n cazul variabilei performan la examen. O astfel de corelaie poart numele de corelaie semi-parial. Formulele de calcul, derivate din cea a corelaiilor pariale, vor fi:

(formula 1.44) sau (formula 1.45)

n primul caz avem de a face cu o corelaie semi-parial n care controlm doar efectul exercitat de a treia variabil asupra primei variabile, n timp ce efectul exercitat asupra celei de-a doua variabile este ignorat, iar n al doilea caz, controlm efectul exercitat de a treia variabil asupr a celei de-a doua, ignornd efectul asupra primei. 95

Statistic aplicat n tiinele socio-umane

Pentru a fixa cunotinele, v invit s aplicai dumneavoastr cele dou formule, folosind datele din exemplul anterior, i s calculai cei doi coeficieni de corelaie semi-parial.

I.3.2 Corelaii pariale pentru date neparametrice


Conceptul de corelaie parial este mai uor de neles n cazul n care utilizm date parametrice. Pentru date neparametrice, situate la un nivel ord inal, se poate calcula coeficientul de corelaie parial, n baza coeficientulu i de corelaie Kendall. Logica analizei ine att de modalitatea de calcul a coeficientului Kendall, ct i de specificul corelaiilor pariale.
Tabelul 1.30 Logica de calcul a coeficientului de corelaie parial pentru date neparametrice Perechi concordante ntre Perechi discordante ntre variabila Y i variabila Z variabila Y i variabila Z Perechi concordante ntre A B variabila X i variabila Z Perechi discordante ntre C D variabila X i variabila Z

n tabelul 1.30, am reprezentat modalitatea de lucru. Ne intereseaz corelaia parial ntre dou variabile, X i Y, n condiiile n care meninem sub control variabila Z. Pentru a putea calcula acest coeficient de corelaie, trebuie s analizm numrul perechilor concordante i discordante, ntre X i Y pe de o parte, ntre Y i variabila Z pe de alt parte, apoi putem utiliza formula:

(formula 1.47)

Se poate observa c acest coeficient de corelaie nu face dect diferena dintre perechile concordante i cele discordante, n condiiile n care se elimin orice influen a celei de-a treia variabile. Similar datelor parametrice, i acest coeficient se rezum la calcului unui numr de coeficieni de corelaie Kendall, aa cum rezult i din formula detaliat:

96

Cristian Opariuc-Dan (formula 1.48)

S presupunem c la un examen psihologic, un numr de 10 subieci au fost evaluai cu trei teste: un test de atenie, unul de inteligen i unul de memorie. Problema care se pune este aceea a calculrii coeficientului de corelaie parial ntre inteligen i memorie, n condiiile n care meninem constant influena ateniei.
Atenie (Z) 1 3 7 4 5 6 8 8,5 8,8 9 Tabelul 1.31 Scoruri obinute de subieci Inteligen (X) 7 15 25 26 20 19 22 17 10 27 Memorie (Y) 0 1 2 3 4 4,1 4,5 5 7 8

n mod absolut evident, chiar dac datele sunt la un nivel parametric, numrul mic de cazuri nu permite utilizarea coeficientului de corelaie par ial r i va trebui s folosim corelaia parial pentru date neparametrice. Trebuie, nti, s calculm trei coeficieni de corelaie: xy, xz i yz, dup metoda expus anterior n acest capitol. V lsm pe dumneavoastr s facei calculele i sperm c vei ajunge la urmtoarele rezultate: xy=0,155, xz=0,200 iar yz=0,866. nlocuind n formul, se obine:

Pentru corelaii pariale de ordin doi, folosindu-se date neparametrice, exist o formul derivat din coeficientul de corelaie parial Kendall, pe 97

Statistic aplicat n tiinele socio-umane

care ne vom rezuma doar s o prezentm, fr vreun exemplu, deoarece calculul se realizeaz identic, lsndu-v dumneavoastr plcerea gsirii i rezolvrii unui exerciiu n baza acestei relaii.
( )( )

(formula 1.49)

Un alt coeficient de corelaie parial a rangurilor, din pcate foart e puin folosit, este coeficientul 12.3 Johnson. Coeficientul a fost lansat n anul 1966, se bazeaz tot pe ranguri, ca i coeficientul xy.z, ns nu mai presupune ordonarea rangurilor, ca n cazul coeficientului Kendall.
Tabelul 1.32 Scoruri obinute de subieci
Rang Var. 2 < Rang Var. 3 Rang Var. 1 > Rang Var. 3 Rang Var. 1 < Rang Var. 3 A C AC Rang Var. 2 > Rang Var. 3 B D BD AB CD

Relaia de calcul a coeficientului de corelaie parial a rangurilor Johnson este urmtoarea:

(formula 1.50)

Formula 1.50 nu mai presupune lucrul efectiv cu ranguri, ci vizeaz compararea acestora, prin includerea numrului de cazuri care satisfac inecuaiile de mai sus. n plus, nu se mai compar rangurile variabilei 1 cu rangurile variabile 2. Ce ne facem ns dac rangul variabilei 1 este egal cu rangul variabilei 3, sau n cazuri asemntoare? Regula este foarte simpl - elementele respective se exclud din calcul.

98

Cristian Opariuc-Dan
Tabelul 1.33 Scorurile i rangurile obinute de subieci Atenie (Z) Inteligen (X) Memorie (Y) Clasa 1-1 7 -1 0 -1 3-2 15 - 3 1-2 7-6 25 - 8 2-3 A 4-3 26 - 9 3-4 B 5-4 20 - 6 4-5 B 6-5 19 - 5 4,1 - 6 8-7 22 - 7 4,5 - 7 8,5 - 8 17 - 4 5-8 8,8 - 9 10 2 7-9 9 - 10 27 - 10 8 - 10 -

Am reluat exemplul celor 10 subieci de mai sus, n acest caz incluznd, alturi de scoruri, i rangurile (cele scrise ngroat n tabelul 1.33). Modalitatea de calcul este de o simplitate uluitoare. Ne intereseaz corelaia parial ntre inteligen i memorie, n condiiile n care meninem constant efectul ateniei. Prima variabil este inteligena iar a doua variabil este memoria. Comparnd scorurile la probele de inteligen i memorie, pentru primul subiect, observm c au ranguri egale, deci cazul va fi exclus din analiz. i al doilea subiect va fi exclus din analiz, deoarece rangul scorului la proba de memorie este egal cu rangul scorului la ateniei. Pentru al treilea subiect, rangul scorului la proba de inteligen este mai mare dect rangul scorului la proba de ateniei (X1>X3) i rangul scorului la proba de memorie este mai mic dect rangul scorului la proba de atenie (X2<X3), fiind inclus n categoria A. Al patrulea subiect prezint ambele variabile memoria i inteligena la un rang mai mare dect atenia i va fi inclus n categoria B. Al cincilea subiect este inclus tot n categoria B, n timp ce toi ceilali subieci sunt exclui din cauza egalitii. n final, avem un singur caz n categoria A i 2 cazuri n categoria B, restul categoriilor neavnd nicio valoare.

99

Statistic aplicat n tiinele socio-umane

Iat un caz n care obinem coeficientul de corelaie al rangurilor nedefinit. Desigur, nici coeficientul xy.z Kendall nu a indicat o corelaie parial ntre cele dou variabile, ns chiar s nu obinem nimic? Care ar fi explicaia? Nu este greu s v dai seama c acest coeficient se bazeaz pe un n umr de doar trei cazuri din zece, un volum de date extrem de mic. Poate i acesta este un motiv pentru care popularitatea coeficientului Johnson este att de redus. Dac volumul de date este mare iar numrul de ranguri egale rel ativ mic, se poate apela cu ncredere la indicatorul de mai sus.

I.3.3 Semnificaia corelaiilor pariale


Corelaiile pariale deriv din coeficientul de corelaie r BravaisPearson, ori din coeficientul Kendall, pe care se i bazeaz. Ele sunt, aadar, corelaii direcionale i pot lua valori cuprinse ntre -1 i +1, ca orice alt coeficient de corelaie direcional. Verificarea semnificaiei corelaiilor pariale se poate face n baza testului t, rezultatul fiind raportat la distribuia t, folosindu-se formula: (formula 1.51)

unde rjk.x este coeficientul de corelaie parial, k reprezint numrul de variabile corelate, iar n se refer la numrul de cazuri. Valoarea testului t se raporteaz la distribuia t din anexa 4 pentru un numr de n-2-k grade de libertate. n cazul nostru, am obinut un coeficient de corelaie parial ntre performana la examen i emoiile din timpul examenului, n condiii de control al timpului de examen de r12.3=-0,109, studiind un lot de cercetare de 103 persoane. Avem dou variabile corelate performana la examen i emoiile din timpul examenului. Valoarea testului t va fi de 1,09.

100

Cristian Opariuc-Dan

Raportnd valoarea testului t (- 1,09) la un numr de 103-2-2=99 grade de libertate, observm c acest coeficient de corelaie obinut nu este semnificativ (pentru a fi semnificativ la un prag de semnificaie mai mare de 0,05, testul t trebuie s depeasc valoarea 1,990). Aadar, nu exist nicio legtur ntre performana la examen i emotivitatea din timpul examenului. V-ai fcut iluzii degeaba. Pentru a v veni n ajutor, am furnizat n anexa 9 tabelul pragurilor de semnificaie pentru coeficientul de corelaie parial Kendall, n cazul n care v este mai comod s privii un tabel dect s efectuai propriile calcule. n privina coeficientului de corelaie parial Johnson, analiza semnificaiei se face n funcie de estimatorul 2, dup relaia urmtoare: (formula 1.52) n aceast situaie, semnificaia coeficientului de corelaie este dat de semnificaia lui 2. Acest estimator poate fi folosit numai dac numrul total de cazuri este mai mare de 40, iar frecvena minim ntr-o categorie (A, B, C sau D) este de 10. Cea de-a treia variabil, variabila controlat, o vei putea ntlni n literatura de specialitate i sub numele de variabil supresoare deoarece efectul controlului acesteia determin, dup cum ai vzut deja, reducerea coeficientului de corelaie bivariat ntre cele dou variabile (numit, n general, coeficient de corelaie de rang zero). Din aceleai motive rezultate n urma faptului c a treia variabil mediaz coeficientul de corelaie de rang zero , aceast variabil se mai poate numi i variabil mediatoare. Totui, cel mai frecvent, aceast variabil se numete variabil de control. 101

Statistic aplicat n tiinele socio-umane

Capitolul referitor la corelaiile pariale ncheie seciunea referitoare la analiza relaiilor dintre dou variabile i deschide drumul ctre st udiul corelaiilor multiple i al regresiilor.

I.4 Interpretarea coeficienilor de corelaie


mi vei pune ntrebarea dac trebuie sau nu trebuie memorate toate aceste relaii. Formulele, desigur, nu trebuie memorate, iar la examen este prea puin probabil s vi se dea un subiect de genul: Explicai coeficientul de corelaie tetrachoric. S-ar putea, ns, ca la examenul profesional al vieii, s v confruntai cu o problem de cercetare. n funcie de tipurile de variabile cuprinse n planul de cercetare, va fi nevoie s calculai un anumit coeficient. Alegerea unui coeficient de corelaie inadecvat v poate crea mari probleme la interpretarea rezultatelor. Pentru a v veni n ajutor, avei mai jos un tabel (tabelul 1.34) care v indic ce coeficieni de corelaie putei folosi pentru analiza corelaional bivariat, n funcie de nivelul de msur al variabilelor. Referitor la corelaii, exist trei elemente eseniale n interpretarea unui coeficient de corelaie, i anume: sensul, valoarea i semnificaia. Sensul unei corelaii este dat de semnul coeficientului de corelaie n cazul coeficienilor de corelaie direcionali. O corelaie pozitiv arat c d irecia n care evolueaz o variabil este i direcia de evoluie a celeilalte variabile. Dac rezult o corelaie pozitiv ntre notele obinute la matematic i notele obinute la fizic, nseamn c, elevii care au note mari la matematic, au note mari i la fizic. Cei cu note mici la matematic, obin note mici i la fizic. Corelaiile negative sunt cele ale cror coeficieni de corelaie au semnul minus, i indic faptul c, direcia de evoluie a unei variabile reprezint evoluia invers a celeilalte variabile. O corelaie negativ ntre vrst i c apacitatea de asimilare a cunotinelor indic faptul c subiecii tineri pot asi102

Cristian Opariuc-Dan mila mai multe cunotine, n timp ce subiecii n vrst vor asimila cunoti ne mai puine.
Tabelul 1.34 Utilizarea coeficienilor de corelaie
Dihotomic Dihotomic - 2 - - cc - tetrachoric - 2 - V Cramer - cc - Variabila Y Nominal Ordinal - 2 - V Cramer - cc - - 2 - V Cramer - cc - - polichoric - rang biserial Scalar - poliserial - biserial - punct biserial - 2 - V Cramer - cc - (grupat n clase) - triserial (provine din variabila continu) - Spearman (dac lotul este mai mic de 30 sau dac cel puin o variabil nu se distribuie normal) - Kendall (dac cel puin o una dintre variabile nu se distribuie normal) - (date grupate n clase ierarhice) - poliserial

Nominal

- 2 - V Cramer - cc -

Ordinal Variabila X

- polichoric - rang biserial

- 2 - V Cramer - cc -

- Spearman - Kendall - - polichoric - W Kendall

Scalar

- poliserial - biserial - punct biserial

- 2 - V Cramer - cc - (grupat n clase) - triserial (provine din variabila continu)

- Spearman (dac lotul este mai mic de 30 sau dac cel puin o variabil nu se distribuie normal) - Kendall (dac cel puin o una dintre variabile nu se distribuie normal) - (date grupate n clase ierarhice) - poliserial

- r Pearson - eneahoric (variabile categorizate)

103

Statistic aplicat n tiinele socio-umane

Sensul unei corelaii nu conteaz n cazul coeficienilor de corelaie nedirecionali. n aceast situaie, accentul cade doar pe interpretarea semn ificaiei i a valorii. Faptul c o corelaie poate fi sau nu poate fi semnificativ este determinat de raportarea la pragul de semnificaie. Nu intrm n amnunte, deoarece analiza semnificaiei s-a realizat la fiecare coeficient de corelaie studiat. Precizm doar c, n domeniul tiinelor socio-umane, limita maxim a pragului de semnificaie este de 0,05. Cu alte cuvinte, putem accepta ca cel mult 5% dintre rezultatele obinute s se datoreze unei erori de eantionare. n 95% din cazuri relaia exist, cu adevrat, la nivelul populaiei. Desigur, pragul de semnificaie nu garanteaz reprezentativitatea eantionului, aceasta fiind o alt problem. Probabil c, v vei ntreba, n ce baz stabilim pragul de semnificaie. Ideea este c, pe msur ce pragul de semnificaie este mai mic, rezultatele sunt mai precise, mai valoroase. S tabilirea pragului se face n funcie de importana cercetrii. n domeniul tiinelor sociale, putem accepta faptul c 5% dintre rezultate se pot datora erorilor de eantionare. Dac ns desfurm un studiu n industria farmaceutic, la lansarea unui nou medicament, s-ar putea ca acest prag s fie mult prea mare, preferndu-se un prag de semnificaie de 0,01 sau chiar mai mic. Oricum, alegerea pragului de semn ificaie influeneaz probabilitatea de producere a erorilor de tip I sau a erorilor de tip II respingerea ipotezei nule n condiiile n care nu ar trebui respins sau, din contra, acceptarea ipotezei nule n condiiile n care ar trebui respins. Pentru detalii suplimentare, consultai lucrarea anterioar. Valoarea coeficientului de corelaie indic puterea corelaiei. Fie c vorbim despre coeficieni de corelaie direcionali sau nedirecionali, analiza valorii acestora se supune unor repere, dup cum urmeaz: Coeficienii de corelaie cu valori absolute situate ntre 0,00 i 0,20 indic absena unei corelaii reale sau o corelaie foarte slab; 104

Cristian Opariuc-Dan Valorile absolute situate ntre 0,21 i 0,40 arat o corelaie slab ntre cele dou variabile; O corelaie moderat se obine atunci cnd valorile absolute sunt cuprinse ntre 0,41 i 0,60; Dac un coeficient de corelaie are valoarea absolut cuprins ntre 0,61 i 0,80, vorbim despre o corelaie puternic; n sfrit, coeficieni de corelaie cu valori absolute situate ntre 0,81 i 1,00 arat existena unei legturi foarte puternice ntre cele dou variabile;

Desigur, aceste repere sunt orientative. Coeficienii de corelaie d epind de volumul eantionului sau a lotului de cercetare studiat, dar i de ali factori, dup cum vom vedea n continuare. Este mult mai uor s obinem coeficieni de corelaie ridicai atunci cnd studiem 10 persoane, n comparaie cu situaia analizei unui numr de 1000 de persoane. Trebuie, de asemenea, s tii c, nu ntotdeauna valoarea unei cercetri este dat de respingerea ipotezei nule. Exist o tendin printre studen i, i chiar printre anumii cercettori, de a respinge, prin orice mijloace, ipoteza nul. Unii merg pn acolo nct afirm c dac un studiu nu respinge ipoteza nul, i dac nu se accept una dintre ipotezele alternative, acel studiu nu are valoare. Complet fals! Aceasta este o stereotipie a cercetrii tiinifice, ntlnit frecvent printre debutani. De multe ori, lipsa de respingere a ipotezei nule are o valoare la fel de mare ca i respingerea acesteia. Dac, de exemplu, se realizeaz un studiu n care se verific relaia dintre puterea mainii i riscul de accident, credei c lipsa de respingere a ipotezei nule nseamn un studiu invalid? n nici un caz. Faptul c nu exist nicio legtur ntre puterea mainii i riscul de accident nu reprezint o invalidare a studiului, din contra, ofer informaii preioase. Probabil c nu maina puternic crete riscul accidentului de circulaie, ci lipsa de experien sau teribilismul oferului. Se cre105

Statistic aplicat n tiinele socio-umane

eaz astfel premisele unei noi cercetri pe alte teme. S nu v mai fie fric, aadar, de ne-respingerea ipotezei nule. Valoarea unui studiu tiinific nu este dat de respingerea sau nu a ipotezei nule, ci de informaiile noi pe care le aduce cercetarea. Am fcut aceast meniune, deoarece mi s-a ntmplat s cunosc studeni n licen, disperai c nu obineau corelaii semnificative, i crora profesorii coordonatori le spuneau c dac nu se obine o corelaie semnificativ, lucrarea de licen nu este bun. Dincolo de tragi -comicul situaiei, a trebuit s petrec ceva timp lmurind persoanele n cauz c lucrurile nu stau chiar aa.

I.4.1 Grade de libertate


Am ntlnit, deseori, expresia grade de libertate. Cred c avei deja o imagine asupra semnificaiei acestui termen. n principiu, gradele de libertate arat numrul valorilor (al cazurilor) luate n calcul pentru un indicator statistic, i difer de numrul total (n) al lotului de cercetare. Dac efectum un studiu corelaional simplu, bazat pe 137 de subieci, coeficientul de corelaie obinut se raporteaz la un numr de 136 (n-1) grade de libertate. Prin urmare, se pierde un subiect. De ce se ntmpl acest lucru? Care este mot ivul pentru care nu lucrm cu ntregul efectiv, ci cu efectivul minus un su biect? Pentru a nelege logica, vom considera un exemplu. S presupunem c lucrai la o fabric de confecii, iar pentru a stimula angajaii unui birou, avei la dispoziie un numr de zece premii, n obiecte de mbrcminte, dintre care acetia vor putea s aleag obiectul de mbrcmi nte dorit. Dac biroul are exact 10 angajai, primul angajat poate alege un premiu dintre cele zece expuse. Al doilea angajat alege un premiu dintre cele nou rmase, al treilea unul dintre cele opt i aa mai departe. Cel din urm angajat mai alege? Evident c nu. El trebuie s se mulumeasc lund ultimul obiect rmas. Ultima persoan mai face vreo alegere? Ei bine, nu. n aceast situaie, nu mai putem vorbi de probabiliti, nu exist nicio posibilitate de alegere. Ca s putem folosi principii statistice, trebuie s existe cel puin o 106

Cristian Opariuc-Dan ans de a alege. n cazul ultimului angajat, aceast ans nu mai exist. Care a fi, aadar, soluia? Fie mrim numrul de premii (11), caz n care i cel de al zecelea angajat poate alege ntre dou obiecte de mbrcminte, fie renu nm la al zecelea angajat i ne limitm la ultimul care a putut s fac o alegere (al noulea, care a ales unul dintre cele dou obiecte rmase). Aceast ultim situaie reflect exact principiul gradelor de libertate. S nuanm puin lucrurile. Presupunem c cele 10 articole de mbrcminte sunt formate din 5 rochii i 5 costume brbteti. ntrebarea care se pune este cte persoane pot accesa aceste articole, n condiia n care fiecare persoan va trebui s aib o ans de a alege? Probabil c cele 5 rochii vor fi alese de femei. Ca s poat alege, vom avea nevoie de cel mult 4 femei. Similar, cele 5 costume brbteti pot fi alese de maximum 4 brbai, ultimul avnd posibilitatea de a alege ntre dou costume. Aadar, putem lua n calcul maximum 8 persoane, i nu 10 cte aveam iniial. n orice analiz multivariat, numrul total de subieci se reduce n funcie de nivelurile unei variabile. Gradele de libertate exprim numrul de cazuri luat n calcul pentru a obine indicatorul statistic dorit, n condiiile n care se poate vorbi de probabiliti.

I.4.2 Efecte exercitate i varian


Muli nceptori consider c un coeficient de corelaie poate s exprime i procentual puterea legturii dintre dou variabile. Dac obinem un coeficient de corelaie de 0,34, acesta ar exprima faptul c 34% din variana unei variabile se regsete (poate fi explicat) prin variana celeilalte variabile (vezi figurile 1.2 1.5). n realitate nu este chiar aa. Mrimea efectului reprezint o msur obiectiv i standardizat a magnitudinii relaiei dintre dou variabile, i se obine, foarte simplu, prin ridicarea la ptrat a coeficientului de corelaie. La un coeficient de corelaie de 0,34, mrimea defectului va fi de 0,129, adic variana explicat este de 107

Statistic aplicat n tiinele socio-umane

12,9% i nu de 34% aa cum am crezut iniial. Motivele care stau n spatele acestei operaii se regsesc n suportul teoretic al varianei i nu le vom mai trata aici. Alturi de coeficientul de corelaie, mrimea efectului este o alt msur, mai versatil, mai intuitiv, a puterii statistice a unei cercetri. Exprimarea procentual este mai uor de neles n comparaie cu expresia simpl a unui coeficient de corelaie. Este bine ca n orice studiu de acest tip, alturi de coeficientul de corelaie, s indicai i mrimea efectului pe care l genereaz, n termeni de varian explicat. Strict orientativ, Andy Fields (Field, 2000) ofer o serie de repere n interpretarea mrimii efectului, n funcie de valorile absolute ale coeficientului de corelaie liniar (notat generic cu r): 0,00 < r < 0,10 efecte reduse, explicnd pn la 1% din variana total; 0,11 < r < 0,30 efecte medii, explicnd ntre 1% i 9% din variana total; 0,31 < r < 0,50 efecte mari, explicnd ntre 9% i 25% din variana total; r > 0,51 efecte foarte mari, explicnd peste 25% din variana total.

Ar fi destul de multe lucruri de discutat aici, inclusiv aspecte referitoare la puterea indicatorilor statistici. Nu le vom aborda acum. Acestea vor fi tratate pe larg n capitolul dedicat statisticilor infereniale. Cunotinele dumneavoastr n domeniul planurilor de cercetare de tip corelaional sunt, deocamdat, suficiente.

108

Cristian Opariuc-Dan

I.4.3 Strategii de analiz i interpretare a corelaiilor


nainte de a ncepe un studiu corelaional, de a ne apuca de calculat i de interpretat coeficieni, este bine s ne punem o serie de ntrebri, pentru a evita eventualele surprize neplcute. 1. Ce fel de date vom colecta? Aceasta este o ntrebare pe ct de evident, pe att de mult ignorat. Dac datele colectate sunt situate la un nivel nominal, evident, nu exist nicio posibilitate de ierarhizare, ca s nu mai vorbim de medii i de abateri standard. n acest caz, utilizarea unor metode care implic ordinea (cum ar fi co eficienii Spearman sau Kendall) ori, mai grav, a coeficienilor parametrici (r Pearson) pot duce la erori serioase de interpretare i riscai s v facei de rs. n acest caz, putei folosi 2 i coeficienii derivai din acesta. Datele ordinale sunt ceva mai flexibile. Dac se pot ierarhiza categoriile variabilei, pe lng metodele specific nominale (pe care nu are sens s le mai utilizai acum, fiind prea slabe), putem aborda corelaii bazate pe ranguri. Msurarea datelor la nivel ordinal depinde de ordinea categoriilor, ignorarea acestui lucru ducnd la pierderi semnificative de informaie. Dac folosim corelaii pentru date nominale, evident c vom pierde informaie. Unii cercettori proiecteaz cercetarea n aa fel nct grupeaz, de la nceput, subiecii n categorii. Un exemplu excelent n acest sens este variabila vrsta. Sunt unii care n loc s solicite subiecilor vrsta n ani, realizeaz, pentru acest lucru, categorii de vrst (ntre 20 i 25 de ani, peste 40 de ani i aa mai departe). Iat c, la proiectarea cercetrii, aceast variabil, n mod natural continu, este transformat ntr-o variabil ordinal. Se pierde, prin urmare, foarte mult informaie. Nu mai putem vorbi de media de vrst, nu mai putem efectua corelaii parametrice cu aceast variabil i va trebui s ne rezumm doar la analize de date neparametrice. n mod evident, pierderea informaiilor este cu att mai mare, cu ct numrul categoriilor este mai mic.

109

Statistic aplicat n tiinele socio-umane

Cea mai fericit situaie este aceea n care colectm date aflate la un nivel scalar (sau asimilate unui nivel scalar). Dar, i n acest caz, se pun anumite probleme. n primul rnd, existena unui numr suficient de cazuri. Nu are sens c calculm coeficientul de corelaie r Pearson sau corelaii seriale ori pariale dac numrul de cazuri este foarte mic, n general sub 50 de scoruri. n aceast situaie, o msur mai stabil ar fi calculul coeficientului de corelaie Spearman. n al doilea rnd, datele sunt distribuite normal? Iat un motiv foarte serios pentru a proceda la analiza normalitii distribuiei. Dac numrul de subieci este mare, iar datele nu se distribuie normal, nu putem lucra cu un coeficient de corelaie bazat pe medii, cum este r Pearson. Se pr efer, n acest caz, Spearman sau Kendall. Unii autori (Liebetrau, 1983) interzic chiar utilizarea coeficientului Spearman n aceste situaii, recomandnd doar analizele bazate pe Kendall. 2. Ce tip de ipoteze au fost formulate? Tipul ipotezei formulate are o mare importan, ndeosebi sub aspectul distinciei ntre ipotezele unilaterale i bilaterale. Stabilirea semnificaiei unui coeficient se va face doar n strict concordan cu acest aspect. Raportarea pragului de semnificaie bilateral n condiiile unei ipoteze unilaterale i invers, constituie o eroare. Din fericire, acest lucru poate fi uor remediat. 3. Care este motivul pentru care s-a analizat relaia dintre dou variabile? Iat o ntrebare care, la prima vedere, s-ar putea s v surprind. Desigur, rspunsul l putei gsi studiind obiectivele i ipotezele cercetrii. Cercetarea urmrete analiza legturii (corelaiei) dintre dou variabile? Ori, poate, dorete s precizeze gradul de acord ntre mai multe persoane referitor la o anumit problem sau la un anumit grup de subieci. Sau, de ce nu, pentru a efectua o predicie i a stabili o relaie cauzal.

110

Cristian Opariuc-Dan Datele nu pot fi tratate mecanic, fr referire la scopul cercetrii. Dac se urmrete simpla legtur ntre variabile (msurtori numite i analize simetrice), se pot folosi coeficieni de corelaie cum ar fi r Pearson, Spearman, Kendall i alii. Gradul de acord ntre mai multe persoane (analize asimetrice) se poate investiga, mai curnd, prin coeficieni de concordan. Prediciile sunt mai adecvate pentru coeficienii de asociere, cum ar fi cei Goodman-Kruskal ori coeficientul d Somers. 4. Dorim s facem inferene pe baza datelor analizate? Desigur! Altfel pentru ce mai cercetm ceva, dac nu pentru a extinde cunotinele la nivelul populaiei. Doar c, acest lucru nu este chiar att de simplu cum pare la prima vedere. Ne-ar interesa, n acest sens, s tim cum se distribuie parametrul la nivelul populaiei. Din fericire, majoritatea parametrilor se distribuie normal la nivelul unei populaii (sau cel puin aa se presupune matematic), ns, i n acest caz, se pune problema unei corecte estimri a varianei. Nu ne mai putem rezuma doar la analiza coeficientului i a pragului de semnificaie. Suntem obligai s furnizm intervalele de ncredere ale estimrilor, erorile de estimare i alte date care pot da valoare i pertinen inferenei. Tehnic, n analiza i interpretarea corelaiilor sunt importante trei aspecte (Urdan, 2005): Analiza grafic a legturii dintre dou variabile; Calculul coeficientului de corelaie, a semnificaiei acestuia i a mrimii efectului determinat; Calculul intervalelor de ncredere

I.4.3.1 Analiza grafic a relaiei dintre dou variabile


tii, probabil, c nu agreez, n mod deosebit, analizele statistice fundamentate pe poze i pe alte elemente grafice, deoarece consider c statistica 111

Statistic aplicat n tiinele socio-umane

se bazeaz pe cifre. Iat, ns, un domeniu n care fac excepie de la regul, i recomand nceperea analizei corelaionale prin inspectarea grafic a legturii dintre dou variabile. Asocierea dintre dou variabile msurate pe o scal parametric se reprezint grafic printr-o diagram numit nor de puncte (scatterplot n limba englez) sau diagram de corelaie. Aceasta se prezint sub forma unui grafic cu dou axe, pe fiecare dintre ele regsindu-se o variabil. Nu exist nicio regul dup care reprezentm variabilele, pe abscis sau pe ordonat. (Sava, 2004).

Figura 1.6 Corelaie pozitiv puternic ntre dou variabile

Orice corelaie presupune existena unei relaii ntre cele dou variabile, fie pozitiv, fie negativ, monoton, liniar, etc. n figura 1.6 este reprezentat diagrama de corelaie n cazul unei corelaii pozitive ntre variabilele X i Y. Observm liniaritatea relaiei i traseul ascendent (pozitiv) al acesteia. Subiecii cu scoruri mici la variabila X, au scoruri mici i la variabila Y. Pe msur ce scorurile subiecilor cresc la variabila X, cresc i la variabila Y. Intuii deja existena unui coeficiFigura 1.7 Corelaie negativ puternic ntre dou variabile ent de corelaie ridicat ntre cele dou variabile, corelaia fiind, de asemenea, semnificativ. n figura 1.7 avei norul de puncte n cazul unei corelaii negative ntre variabilele X i Y. Asocierea dintre variabile este, de asemenea, liniar, ns subiecii care au scoruri mici la variabila X, au scoruri mari la variabila Y. Pe msur ce scorurile subiecilor cresc la variabila X, scad la variabila Y.

112

Cristian Opariuc-Dan n acest caz, putem anticipa existena unui coeficient de corelaie ridicat, semnificativ i negativ. Figura 1.8 indic lipsa legturii dintre cele dou variabile, X i Y. Dup cum se poate observa, nu exist nicio relaie liniar ntre cele dou variabile. Nu putem afirma c scorurile sunt legate n vreun fel. n acest caz, valoarea unui eventual coeficient de corelaie va fi foarte mic, i, n mod cert, corelaia nu este semnificativ. Spunem, n aceast situaie, c cele dou variabile nu sunt relaionate.

Figura 1.8 Lipsa legturii dintre dou variabile

Analiza norului de puncte, ne permite s apreciem forma relaiei dintre dou variabile (relaia liniar, neliniar sau absena relaiei), direcia ace stei relaii (ascendent sau pozitiv, ori descendent, negativ) i intensitatea legturii dintre variabile (legtur puternic, punctele fiind apropiate de dreapta de evoluie liniar sau legtur slab, punctele fiind mai deprtate de aceast dreapt). Analiza formei norului de puncte poate releva aspecte importante, ndeosebi n situaia n care coeficientul de corelaie are valori mici. S nu ne grbim s afirmm c nu exist nicio legtur ntre variabile, ci s analizm grafic semnificaia acestei valori. S presupunem c, Figura 1.9 Existena unui scor ntr-un studiu, am obinut un coeficient de coreextrem laie r Bravais-Pearson de 0,15, corelaia nefiind semnificativ. Cei mai muli se vor grbi s afirme c nu exist nicio legtur ntre cele dou variabile. Desigur, acest lucru poate fi valabil dac norul de puncte arat ca n figura 1.8.

113

Statistic aplicat n tiinele socio-umane

Acelai coeficient de corelaie se poate obine i n cazul datelor reprezentate n figura 1.9. Putem spune c nu exist nicio legtur ntre cele dou variabile? Sigur c nu. Legtura exist, este pozitiv i puternic. El ementul care conduce la scderea valorii coeficientului de corelaie este tocmai scorul extrem, pe care l putei remarca foarte uor. Iat c, n absena analizei grafice, ne putem pcli. Nu ne rmne dect s eliminm acel scor extrem, i vom observa modificarea radical a coeficientului de corelaie. Un alt element important, se refer la constana grosimii norului de puncte. n studiile Figura 1.10 Relaie de tip corelaional, plecm de la presupunerea c homoscedastic ntre variabile norul de puncte are o grosime constant pe ntreaga distribuie. Aceast grosime constant poart numele de homoscedasticitate, i se poate observa n figura 1.10. ntr-o corelaie homoscedastic, un coeficient de corelaie are valori mari. Semnificaia este aceea c, pe ntreaga amplitudine a distribuiei celor dou variabile, relaia liniar se pstreaz. Un coeficient de corelaie mic, poate fi obinut i pe baza unei relaii heteroscedastice, Figura 1.11 Relaie heteroscedastic ntre variabile ca n figura 1.11. Acest caz ne poate induce n eroare, ne poate face s considerm c nu exist nicio legtur ntre cele dou variabile. n realitate, legtura exist, ns norul de puncte nu mai este omogen, ca n primul caz, ci eterogen. n figura 1.11 observm existena unei corelaii pozitive ntre cele dou variabile. Corelaia este, ns, mai puternic n cazul scorurilor mici, i mai slab sau inexistent la scorurile mari. Per ansamblu, coeficientul de corelaie va avea valori mici, fapt care nu reflect nici 114

Cristian Opariuc-Dan pe departe realitatea. De exemplu (Sava, 2004), dac vom studia relaia dintre coeficientul de inteligen i creativitate, vom obine un nor de puncte heteroscedastic. Corelaia dintre aceste dou dimensiuni este puternic la valori mici ale inteligenei i creativitii. Pe msur ce coeficientul de intel igen crete, intensitatea legturii scade, datorit interveniei unor factori intelectuali i nonintelectuali. Problema care se pune este aceea a stabilirii punctului pn la care relaia se pstreaz, iar interpretarea va ine seama de aceste aspecte. Dac vom studia relaia dintre venituri i Figura 1.12 Existena seturilor de date cheltuieli pe articole de mbrcminte, s-ar putea s avei surpriza obinerii unui coeficient de corelaie mic. Acceptarea ipotezei conform creia nu exist nicio legtur ntre venituri i cheltuieli pe articole de mbrcminte s-ar putea s fie eronat, n condiiile n care norul de puncte arat ca n figura 1.12. Remarcm, n acest caz, existena a dou seturi distincte de date. Putem suspecta existena unei variabile moderatoare, n acest caz genul bi ologic al persoanei. Relaia poate exista n cazul femeilor (norul de puncte compact din partea de stnga-sus a graficului), pentru brbai nefiind semnificativ (norul de puncte din dreapta-jos). Dac vom trata compact lotul de cercetare, sigur c vom obine un coeficient de corelaie foarte mic. n acest caz, analiza se realizeaz separat pentru brbai i pentru femei, rezultatele raportndu-se n consecin. Ultimul element pe care l remarcm, din punctul de vedere al formei distribuiei, se refer la relaiile neliniare. Cei dintre dumneavoastr care au studiat psihologie, 115
Figura 1.13 Relaiile neliniare ntre variabile

Statistic aplicat n tiinele socio-umane

cunosc relaia dintre motivaie i performan. Performana crete pe msur ce crete motivaia, ns doar pn la un punct, numit optim motivaional. Dincolo de acest punct, supra-motivarea conduce la scderea performanei. Norul de puncte, ntr-o asemenea situaie, ar arta ca n figura 1.13. Desigur, studiind legtura dintre motivaie i performan, am obine un coeficient de corelaie foarte mic. S ne rezumm la interpretarea strict a acestui coeficient, ar fi o eroare. n realitate, exist o corelaie pozitiv puternic pentru prima jumtate a graficului i o corelaie negativ puternic pentru a doua jumtate. Nici vorb de absena corelaiei. Figura 1.14 Corelaie puterLucrurile se rezolv simplu, prin depistarea punctunic ntre dou variabile lui de optim motivaional, i prin tratarea datelor ca dou seturi distincte de date. Cercetarea devine valoroas tocmai prin aceast particularitate. Puterea legturii dintre dou variabile este dat, evident, de coeficientul de corelaie. Cu ct acesta se apropie de valoarea 1, n cazul unei corelaii liniare, cu att legtura este mai puternic, datele sunt mai grupate n jurul unei drepte de evoluie imaginare. Valorile apropiate de zero conduc la un nor de puncte mprtiat n jurul acestei drepte imaginare. n figura 1.14 este reprezentat norul de puncte al unui coeficient de corelaie pozitiv de Figura 1.15 Corelaie slab ntre dou variabile 0,91. Observai modul n care se grupeaz datele. Este cazul unui studiu referitor la vrsta soului i a soiei. Desigur, n condiii normale, vrsta soilor este apropiat, legtura dintre cele dou variabile fiind puternic (excepiile de la aceast regul le putei gsi i singuri studiind viaa monden din Romnia). 116

Cristian Opariuc-Dan Figura 1.15 arat norul de puncte al unei corelaii negative slabe de 0,28. Putem intui dreapta de evoluie a celor dou variabile, ns observai c datele sunt mult mai mprtiate n jurul acesteia. Legtura, evident, exist, ns nu are puterea celeia din figura 1.14. Variabilitatea datelor n acest caz este mult mai mare. Fcnd aceast incursiune prin analiza graficelor, am dorit s subliniem importana studiului diagramei de corelaie. Interpretarea exclusiv pe baza coeficientului de corelaie nu se recomand, deoarece, foarte uor putem cdea n capcana unei relaii neliniare sau specifice. Primul pas n interpret area coeficientului de corelaie este analiza diagramei de corelaie. n funcie de aspectul datelor, se ajusteaz procedurile de calcul i de raportare. Analiza datelor prin utilizarea creionului i a hrtiei reprezint un proces laborios, care presupune o important investiie de timp i este susceptibil de a genera erori. Din fericire, programele specializate de analiz statistic pot face aceste operaii n cteva fraciuni de secund. Iat c a venit timpul s studiem corelaiile folosind cunoscutul pachet de programe, SPSS for Windows.

I.5 Obinerea coeficienilor de corelaie n SPSS


Nu-i aa c v-ai sturat de attea calcule? Aa-i c v este dor de cteva clicuri? Sigur c vorbim despre o diferen enorm. Pe un lot de cercetare de 200 de persoane, pentru a calcula pe hrtie coeficientul de corelaie r Bravais-Pearson, probabil c v va lua jumtate de zi. Folosind SPSS for Windows i presupunnd c avei deja datele introduse, v va lua sub un m inut.

I.5.1 Coeficieni de corelaie bazai pe date parametrice


SPSS for Windows, n acest moment, a ajuns la versiunea 17, versiune cu multe mbuntiri i faciliti n comparaie cu variantele anterioare. nainte de a ncepe, vom crea o baz de date nou, relund exemplul din capi117

Statistic aplicat n tiinele socio-umane

tolul destinat studiului corelaiilor pariale. V reamintesc faptul c am dorit, atunci, s aflm legtura dintre performana la examen i emoiile din timpul examenului. Realizm, prin urmare, o baz de date cu urmtoarea structur:
Tabelul 1.35 Structura bazei de date Variabila Timp Emotii Gen Nota Eticheta Timp de studiu Emotii examen Gen biologic Nota examen Nivel de msur Scalar Scalar Nominal Scalar Tip Numeric Numeric Numeric Numeric Caractere 2 3.2 1 3.2

Probabil c v mai amintii cum se creeaz o baz de date n SPSS. Detalii despre aceste procedee putei gsi n lucrarea anterioar sau n alte cri de specialitate. Observm c avem un numr de patru variabile, toate elementele necesare realizrii bazei de date gsindu-se n Valoare Etichet tabelul 1.29. Variabila Gen este o variabil nominal, Gen 1 Masculin 2 Feminin cu asocierile din tabelul alturat. Dup realizarea structurii bazei de date, n fereastra principal SPSS, seciunea Data view vei avea urmtoarea structur, prezentat n figura 1.16. Aceast baz de date o vom folosi doar pentru studiul coeficienilor de corelaie parametrici, aprofundarea corelaiilor neparametrice fcnduse pe baza altor date.

Figura 1.16 Structura bazei de date

Pentru acest studiu, am investigat un numr de 103 subieci, nregistrnd timpul de studiu (n ore) necesar susinerii examenului de statistic, media obinut la examenul de statistic (nota la examen i activitatea de se-

118

Cristian Opariuc-Dan minar), genul biologic i scorul obinut la un instrument de evaluare a emotivitii n condiii de examen3. Nu este cazul s v mai explic modul n care vei introduce datele n SPSS. Mai jos avei ntreaga baz de date, pe care v invit s o realizai. Nu v speriai, nu v ia mai mult de 10 minute. Dup ce ai introdus datele, sa lvai fiierul sub numele de Corelaii parametrice.
Timp 4 11 27 53 4 22 16 21 25 18 18 16 13 18 98 1 14 29 4 23 14 12 22 84 23 26 24 72 37 10 3 36 43 Emotii 86,30 88,72 70,18 61,31 89,52 60,51 81,46 75,82 69,37 82,27 79,04 80,66 70,18 75,01 34,71 95,16 75,82 79,04 91,13 64,54 80,66 77,43 65,34 0,06 71,79 81,46 63,73 27,46 73,40 89,52 89,52 75,01 43,58 Tabelul 1.36 Baza de date Corelaii parametrice Gen Nota Timp Emotii 1 4,00 42 68,57 2 6,50 4 93,55 1 8,00 8 84,69 1 8,00 6 82,27 1 4,00 11 81,46 2 7,00 7 82,27 2 2,00 15 91,13 2 5,50 4 91,94 2 5,00 28 86,30 2 4,00 22 72,60 1 4,50 29 63,73 1 8,50 2 63,73 1 7,00 16 71,79 2 5,00 59 57,28 1 9,50 10 84,69 1 7,00 13 84,69 1 9,50 8 77,43 2 9,50 5 82,27 2 5,00 2 10,00 1 6,00 38 50,83 1 8,00 4 87,91 1 7,50 10 83,88 2 8,50 6 84,69 2 9,00 68 20,21 2 3,00 8 87,10 2 6,00 1 83,88 1 7,50 14 67,76 2 7,50 42 95,97 2 2,70 13 62,12 1 2,00 1 84,69 2 7,50 3 92,75 2 9,00 5 84,69 1 6,00 12 83,07 Gen 2 1 2 1 2 1 1 2 2 1 2 1 2 1 2 1 2 2 1 2 1 1 2 2 1 2 1 2 2 1 1 2 2 Nota 7,00 4,00 8,00 1,00 2,00 4,00 4,00 7,00 5,20 5,00 6,00 8,00 6,00 6,50 1,50 8,50 2,00 8,00 10,00 10,00 8,00 1,00 7,00 10,00 7,00 7,00 6,50 7,50 8,50 3,00 0,50 1,00 9,00

Datele sunt fictive i nu corespund unui studiu real. Ele au fost manipulate n aa fel nct s corespund necesitilor didactice.

119

Statistic aplicat n tiinele socio-umane


19 12 9 72 10 12 30 15 8 34 22 21 27 6 18 8 19 13 82,27 79,04 79,04 37,13 81,46 83,07 50,83 82,27 78,24 72,60 74,21 75,82 70,98 97,58 67,76 75,01 73,40 62,12 1 1 2 1 1 2 1 1 2 1 2 2 1 1 1 1 2 1 3,00 8,00 1,00 8,50 0,70 0,50 8,50 2,00 4,50 6,00 7,00 5,00 2,50 5,00 4,00 8,00 5,00 19 2 19 11 15 23 13 14 1 9 20 0 52 38 19 23 11 27 17 73,40 87,91 71,79 86,30 84,69 75,82 70,98 78,24 82,27 79,04 91,13 93,55 58,89 53,25 84,69 89,52 71,79 82,27 69,37 1 2 1 1 2 1 2 2 1 1 2 2 2 2 1 2 2 1 1 7,00 2,00 8,50 3,50 3,00 7,00 5,50 7,50 0,20 4,00 5,00 3,50 8,00 5,00 4,90 7,50 2,50 6,50 8,00

n primul rnd, s ncepem cu nceputul. Dorim s aflm dac exist vreo legtur ntre nota obinut la examen i emoiile din timpul examenului. nainte de a ne grbi s calculm coeficientul de corelaie r BravaisPearson, trebuie s ne asigurm c cele dou variabile Figura 1.17 Lansarea ndeplinesc condiiile de calcul ale statisticilor parameprocedurii de calcul ale corelaiilor trice. Vom presupune c ambele variabile au o distribuie normal, deoarece este evident faptul c se situeaz la un nivel scalar de msur. Lansarea procedurilor de calcul ale corelaiilor se realizeaz prin accesarea meniului Analyze, apoi din submeniul Correlate vom alege opiunea Bivariate. Imediat se va deschide o fereastr similar celei din 120

Figura 1.18 Fereastra corelaiilor bivariate

Cristian Opariuc-Dan figura 1.18. Formularul conine dou liste, separate prin butonul de transfer n form de sgeat. Cu ajutorul acestuia, putem transfera variabilele din baza de date (fereastra din stnga) n lista variabilelor supuse analizei (fereastra din dreapta). n cazul nostru, am inclus spre analiz, variabilele Nota ex amen i Emoii examen, n conformitate cu planul de cercetare. Sub aceste dou liste se afl seciunea Correlation Coefficients, care conine trei casete de bifare, corespunztoare celor trei coeficieni de corelaie ce pot fi calculai: coeficientul de corelaie r Bravais-Pearson (Pearson), coeficientul de corelaie Kendall (Kendalls tau-b) i coeficientul de corelaie a rangurilor Spearman (Spearman). Situaia noastr este clar; vom calcula coeficientul de corelaie r Bravais-Pearson. Urmtoarea seciune, Test of Significance are n vedere stabilirea tipului de ipotez cu care lucrm. Putem alege ntre o ipotez nedirecional (Two-tailed) i o ipotez direcional (One-tailed). Presupunem c ipoteza noastr vizeaz stabilirea unei relaii ntre performana la examen i emoiile din timpul examenului. tii deja c aceasta este o ipotez nedirecional, corelaia fiind semnificativ att n cazul unei legturi pozitive, ct i n cazul unei legturi negative. ntrebare Cum ai formula o ipotez direcional n acest design de cercetare? Ce opiune ai alege n seciunea testelor de semnificaie? Caseta de bifare Flag significant correlations comunic programului SPSS s marcheze, n mod distinct, corelaiile semnificative. Aplicaia va marca, folosind un asterisc pentru corelaiile semnificative la un prag de semnificaie mai mic de 0,05, i
Figura 1.19 Fereastra opiunilor avansate

121

Statistic aplicat n tiinele socio-umane

dou asteriscuri n cazul corelaiilor semnificative la un prag de semnificaie mai mic de 0,01. Butonul Options v permite configurarea opiunilor avansate referitoare la calculul coeficientului de corelaie. Seciunea Statistics ofer posibilitatea calculului a dou elemente: mediile i abaterile standard pentru fiecare dintre variabilele analizate (Means and standard deviation) i covarianele, respectiv produsului ncruciat al abaterilor (Cross-product deviations and covariances). Acest din urm element se afieaz pentru fiecare pereche de variabile supuse analizei. Produsul ncruciat al abaterilor reprezint suma produselor mediilor corectate ale variabilelor. Acest indicator reprezint, de fapt, valoarea numrtorului din formula de calcul a coeficientului de corelaie r Bravais-Pearson. Covariana, ca msur nestandardizat a relaiei dintre cele dou variabile studiat la nceputul acestui capitol nu este altceva dect produsul ncruciat, mprit la numrul gradelor de libertate (n cazul nostru, n-1). Seciunea Missing values cuprinde dou opiuni reciproc exclusive i se refer la tratarea cazurilor lips. n situaia Exclude cases pairwise, SPSS nu va lua n calcul nregistrrile n care lipsesc date din ambele variab ile. Dac o variabil conine date iar cealalt nu conine date, SPSS va calcula totui coeficientul de corelaie, considernd valoarea lips ca fiind valoare nul. n acest fel se asigur obinerea unui maximum de informaii din datele introduse, dei exist riscul unor erori statistice. Situaia Exclude cases listwise exclude din analiz cazurile n care una dintre variabile nu are date. Aceasta este o opiune mai riguroas, ns este posibil s se piard un volum important de informaie. n general se utilizeaz prima opiune. Prsirea ferestrei se face prin acionarea butonului Continue, caz n care se revine la formularul iniial. Celelalte butoane v sunt cunoscute i nu comport explicaii suplimentare. Lansarea procedurilor de calcul se face prin acionarea butonului 122

Cristian Opariuc-Dan OK. n cteva fraciuni de secund, rezultatele analizei vor fi afiate n fereastra de rezultate (Output).
Tabelul 1.37 Rezultatele corelaiei bivariate r Bravais-Pearson Correlations Nota examen Pearson Correlation Nota examen Sig. (2-tailed) N Pearson Correlation Emotii examen Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed). 103,000 -,441
**

Emotii examen -,441** ,000 103 1,000 103,000

1,000

,000 103

Tabelul 1.37 prezint rezultatele acestei analize. Att pe linii, ct i pe coloane, sunt afiate cele dou variabile analizate (Nota examen i Emoii examen). Linia Pearson Correlation conine valoarea coeficientului de corelaie ntre cele dou variabile. Evident, corelnd variabila cu ea nsi, coeficientul de corelaie va fi 1,00. Pe noi ne intereseaz coeficientul de corelaie dintre cele dou variabile. Iat c am obinut 0,441, corelaie semnificativ la un prag de semnificaie mai mic de 0,01, aa cum rezult i din subsolul tabelului. Linia Sig. (2tailed) exprim n mod precis pragul de semnificaie. Acesta este 0,00, valoare rotunjit. n realitate, valoarea exact este de 0,000003, n mod evident mai mic de 0,01. n sfrit, ultima linie, N, arat numrul de cazuri. Cercetarea a fost realizat pe un Figura 1.20 Diagrama de corelaie ntre cele dou variabile numr de 103 subieci.

123

Statistic aplicat n tiinele socio-umane

Ce concluzii putem extrage de aici? Desigur, avem de a face cu o corelaie semnificativ, deoarece pragul de semnificaie este mai mic de 0,01. Totodat, corelaia este negativ i moderat, aspecte rezultate din semnul coeficientului de corelaie i din valoarea acestuia. Mrimea efectului acestei relaii este de 0,194, sau 19,4% din variana unei variabile poate fi explicat prin cealalt variabil, intensitatea efectului fiind una medie. Putem, aadar, afirma c exist o corelaie moderat, negativ i semnificativ ntre performana la examen i emoiile din timpul examenului; persoanele cu note slabe la examen prezint i un nivel semnificativ mai mare al emoiilor. Nu ne-ar mai rmne dect s facem o poz a acestei corelaii; cu alte cuvinte s realizm norul de puncte pentru a vedea dac apar situaii atipice.

Figura 1.21 Crearea manual a graficelor

Iat, n figura 1.20, diagrama de corelaie. Se observ clar sensul n egativ al legturii, precum i intensitatea acesteia. n acelai timp, putem suspecta o relaie heteroscedastic. Corelaia pare puternic doar n situaia notelor mici obinute la examen. Pentru notele mari, este posibil s nu existe niciun fel de legtur ntre cele dou variabile (vedei grosimea norului de puncte n cele dou cazuri. De asemenea, ar fi posibil existena unei alte variabile care s modereze aceast corelaie (cred c tii deja despre ce variabil este vorba). ntrebarea pe care mi-o vei pune acum va fi una referitoare la modul n care am ajuns la acest grafic. Puin rbdare. Toate elementele grafice din SPSS se regsesc n meniul Graphs. Exist, aici, dou posibiliti: fie utilizarea unui expert de creare a

Figura 1.22 Alegerea tipului de diagram de corelaie

124

Cristian Opariuc-Dan graficelor (opiunea Chart Builder, fie crearea manual a acestora (opiunea Legacy Dialogs). Pentru moment, vom avea n vedere a doua situaie, urmnd ca pe parcursul acestui volum s detaliem i expertul n grafice SPSS. Graficul care ne intereseaz este Scatter/Dot. Accesarea acestui meniu permite lansarea unei ferestre simple, de selecie a tipului de grafic, aa cum se poate observa n figura 1.22. Exist, n acest formular, un numr de 5 variante de grafice. Varianta Simple Scatter este opiunea care ne intereseaz pe noi. n acest caz, graficul va desena cele dou variabile pe ordonat i abscis, permind eventual intervenia unei a treia variabila categoriale (de exemplu sexul). Overlay Scatter este o versiune a graficului simplu, permind afiarea, pe aceeai diagram, a mai multor perechi de variabile, fiecare variabil fiind indiFigura 1.23 Grafic tip Overlay Scatter cu dou perechi de cat printr-un element de marcaj distinct. Vom variabile folosi acest grafic dac, de exemplu, intenionm s reprezentm pe acelai grafic corelaia dintre performana la examen i emoiile din timpul examenului (nor de puncte reprezentat prin cercuri) i corelaia dintre timpul de studiu i performana la examen (nor de puncte reprezentat prin ptrate). A treia form, Matrix Scatter, se folosete n momentul n care avem de reprezentat mai mult de o pereche de variabile. Dac, de exemplu, am include n analiz i timpul de studiu, SPSS ar efectua un numr de 3 corelaii, corespunztoare perechilor de varia125

Figura 1.24 Grafic tip Matrix Scatter

Statistic aplicat n tiinele socio-umane

bile. Pentru a nu desena mai multe grafice, se poate folosi aceast form. Observm n figura 1.24 reprezentarea tuturor celor trei diagrame de corelaie. Pe ambele axe sunt incluse variabilele. La intersecia a dou variabile se afieaz norul de puncte corespunztor. Putei remarca, pe al doilea rnd, ultimul cadran, graficul din figura 1.20. Aceasta este o modalitate ideal de a vizualiza ansamblul legturilor dintre variabile. Graficul 3-D Scatter este util n reprezentarea tridimensional a corelaiilor ntre mai multe perechi de variabile. Este o diagram de corelaie mai dificil de analizat i presupune o oarecare experien n analiza datelor, folosindu-se frecvent n analiza factorial i n corelaii pariale. n figura 1.25, reprezentnd tridimensional cele trei variabile, putem observa uor lipsa efectului emoiilor din timpul examenului. Norul de puncte este concentrat preponderent n zona variabilelor nota examen i timp de studiu, cu orientare ctre scoruri mici ale dimensiunii emoiei din timpul examenelor.
Figura 1.25 Grafic tip 3D Scatter

Graficul de tip Simple dot nu-l vom discuta. Acesta nu reprezint un nor

Figura 1.26 Formularul de definire a graficului de tip nor de puncte

126

Cristian Opariuc-Dan de puncte propriu-zis ci o variant a graficului cu bare, prin care reprezentm observaiile individuale ale unei singure variabile. Acum s trecem la treab. Am ales norul de puncte simplu, am apsat butonul Define pentru a intra n modul de definiie a graficului, acum privim la noua fereastr care ne ocup ecranul. n partea stng, avem de acum obinuita list a variabilelor din baza de date. n partea dreapt regsim butoanele de transfer, corespunztoare se ciunilor care trebuie definite. Seciunea Y-Axis permite includerea variabilei ce va fi reprezentat pe abscis (axa OY). n cazul nostru, am inclus emoiile din timpul examenului. X-Axis va conine variabila reprezentat pe ordonat (axa OX). Nota obinut la examen a fost selectat n vederea reprezentrii pe aceast ax. Caseta Set Markers by se folosete n cazul n care dorim s includem o variabil categorial, ce va diferenia datele. De exemplu, dac dorim s reprezentm diferit norul de puncte al brbailor n comparaie cu cel al femeilor, vom include variabila Gen biologic n aceast seciune. Graficul va reprezenta datele femeilor cu cercuri i datele brbailor cu ptrate. Seciunea Label cases by reprezint un alt element deosebit de util n condiiile n care dorim s identificm fiecare element din grafic. De exemplu, dac am include genul biologic n aceast caset, deasupra fiecrui cerc de pe grafic, se va afia genul biologic al subiectului respectiv. Desigur, dac am dori s reprezentm datele separat pentru brbai i pentru femei, vom prefera varianta Set Markers by, deoarece Label Cases by poate duce la o supra-aglomerare a graficului. Alternativ, am putea include n aceast caset variabila timp de studiu. ntr-o asemenea situaie, deasupra fiecrui cerc de pe grafic, va fi afiat valoarea timpului petrecut de ctre fiecare subiect n vederea pregtirii pentru examen. Seciunea Panel by permite separarea graficului n funcie de o variabil categorial. Dac dorim s afim separat norul de puncte pentru brbai i pentru femei, putem include n aceast seciune variabila gen biolo127

Statistic aplicat n tiinele socio-umane

gic. n funcie de dorin, graficul va fi separat pe orizontal dac variabila se include n caseta Rows sau pe vertical dac o includem n caseta Columns. Seciunea Template permite ncrcarea unui ablon grafic dintr-un fiier. Colecii de abloane grafice pentru SPSS pot fi gsite pe Internet, n galeria aplicaiei sau pot fi comandate la compania productoare. Butonul Titles este destinat denumirii graficului. Putem include dou linii de text n antetul graficului (partea superioar) i dou linii de text n subsolul graficului (partea inferioar). Opiunea se folosete pentru denumirea graficului i pentru eventualele explicaii suplimentare referitoare la semnificaia acestuia, ori la drepturile de autor. Nu mai intrm n detalii referitoare la butonul Options deoarece nu cred c v-ar putea interesa n mod deosebit. Oricum, acest buton are cteva variante de configurare avansat, de natur grafic i statistic. Dac dorii s aflai mai multe, consultai excelentul sistem de asisten al programului SPSS, prin apsarea butonului Help. Sistemul de asisten este furnizat n limba englez i reprezint o adevrat enciclopedie statistic. Finalizarea definirii graficului i lansarea opiunii de desenare se poate face prin apsarea butonului OK. n cteva momente, n fereastra de rezultate, vei obine desenul solicitat. Excelent! n acest moment, avem toate datele necesare elaborrii unui raport, privind studiul acestei corelaii. Mai jos, vei gsi o analiz complet a studiului propus. V voi ruga s comparai cele expuse cu activitile du mneavoastr de cercetare. Dac vei considera c studiile dumneavoastr sunt mai complexe, v rog s-mi scriei. Dac nu, v rog ca de acum nainte s abordai cel puin acest nivel. Studiul efectuat pe un lot de cercetare de 103 studeni, n baza ipotezei nedirecionale conform creia exist o legtur semnificativ ntre per128

Cristian Opariuc-Dan formana studenilor la examen i emoiile acestora n timpul examenului, s-a bazat pe un plan corelaional. Cele dou variabile (Nota examen i Emoii examen) se situeaz la un nivel de msur scalar, analiza distribuiei acestora permind utilizarea statisticilor parametrice. n consecin, a fost folosit coeficientul de corelaie r Bravais-Pearson, rezultnd o valoare a corelaiei de r=-0,441, la un prag de semnificaie p<0,01. ntr-o prim etap, putem respinge ipoteza nul i putem afirma c exist o corelaie medie, negativ i semnificativ ntre cele dou variabile. Astfel, studenii cu note mici la examen sunt caracterizai prin niveluri ridicate ale emoiilor n ti mpul examenului. Cei care obin performane la acest examen, pot fi considerai ca fiind puin emotivi. Mrimea efectului acestei corelaii este de 0,194, corespunztoare unei variane explicate de 19,4%. Putem considera c, lipsa de performan n condiii de examen, se datoreaz, n procent de 19,4%, emoiilor din timpul examenului. Totui, studiind diagrama de corelaie, se remarc imediat existena unei legturi heteroscedastice. Asocierea negativ ntre cele dou variabile pare a exista doar n cazul notelor mici la examen, corespunztoare scorurilor mari la emoii n timpul examenului. Pentru st udenii cu note mari, relaia nu se mai respect. Se poate suspecta existena unei variabile moderatoare, care s influeneze att performana la examen, ct i emoiile din timpul examenului, ori existena unui optim emoional pn la care aceast atitudine poate corela cu o contraperforman, n situaii de evaluare. n mod cert, planul de cercetare este incomplet i urmeaz a fi optimizat. Iat cam cum putei prezenta rezultatele unui studiu de acest tip. n mod cert vor exista diferene ntre ceea ce tiai pn acum i ceea ce ai gsit mai sus. Ai observat c nu m-am hazardat s ofer vreo explicaie psihologi-

129

Statistic aplicat n tiinele socio-umane

c, sociologic sau economic a faptelor constatate. Nici nu este cazul. Stati stica se bazeaz pe datele existente i ofer un raport constatativ i nu explicativ a fenomenelor. Interpretarea statistic nu se poate confunda cu un alt tip de interpretare. Dei sunt psiholog de profesie, nu m-a hazarda s fac aprecieri asupra acestor fapte, n condiiile unei lucrri destinate nsuirii tehnicilor de analiz a datelor. Avnd la dispoziie aceste date, un sociolog i poate exprima punctul de vedere, un psiholog poate avea viziune proprie, la fel i un economist sau un medic psihiatru. Reinei c metodele de analiz a dat elor ofer fapte. Interpretarea faptelor cade n sarcina analistului. Exerciii: Studiai legtura care exist ntre performana la examen i timpul alocat studiului, precum i ntre emoiile din timpul examenului i timpul alocat studiului. Stabilii ipotezele, precizai tipul acestora, analizai cifric i grafic coeficienii de corelaiei, elaborai raportul. Presupunnd existena unei a treia variabile, care s modereze att performana la examen, ct i emoiile din timpul examenului, ne gndim la timpul de studiu. Automat, vom avea n vedere o corelaie parial. Meniul din care putem lansa calculul corelaiilor pariale l regsim n aceeai locaie. De data aceasta, nu mai apelm opiunea Bivariate ci vom folosi ParPartial. Figura 1.27 Lansarea Fereastra se aseamn foarte mult cu cea ntlnit la corelaiile bivariate. Singura diferen const n locaia de includere a variabilelor spre analiz. n acest caz, lista Variables conine variabilele ce urmeaz a fi corelate, iar lista Controlling for se refer la variabilele de control. Analiza noastr urmrete corelarea notei obinute la examen cu emoiile din timpul examenului, n condiiile controlului asupra variabilei
corelaiilor pariale

130

Cristian Opariuc-Dan tipul alocat studiului, astfel nct fereastra dumneavoastr va trebui s arate ca n figura 1.28. Butonul Options va deschide o alt fereastr, de configurare a opiunilor avansate. Formularul este asemntor cu cel de la corelaiile bivariate. Figura 1.28 Configurarea corelaiilor Singura diferen const n dispariia pariale produsului ncruciat al abaterilor i apariia casetei de bifare Zero-order correlations, a crei selectare comunic programului calcularea corelaiilor r Bravais-Pearson, ntre perechile formate din cele trei variabile, fr moderare. Facilitatea este foarte util, scutindu-ne de a efectua corelaii repetate, prin urmare am bifat-o i noi. Apsarea butonului Continue nchide aceast fereastr i se revine n primul formular. Dup ce am introdus cu atenie variabile care urmeaz a fi calculate, putem lansa operaiunea prin apsarea butonului OK. n scurt timp, vei obine, n fereastra de rezultate, tabelul 1.38. Vi se pare un tabel complicat? Nu este cazul s v speriai. n partea de sus, sunt afiate cele trei variabile analizate i corelaiile de rang zero ntre ele. tim deja, ntre notele obinute la examen i emoiile din timpul examenului, avem un coeficient de corelaie semnificativ de r=-0,441, p<0,01. ntre nota la examen i timpul alocat studiului, corelaia este semnificativ i pozitiv, r=0,397, p<0,01; similar, ntre timpul de studiu i emoiile din timpul examenului exist o corelaie negativ, r=-0,709, p<0,01. Ai observat c aceste corelaii de ordin zero nu reprezint altceva dect coeficienii de corelaie r Bravais -Pearson ntre cele trei variabile, luate dou cte dou. n loc s efectum trei corelaii biva131
Figura 1.29 Opiuni avansate de configurare

Statistic aplicat n tiinele socio-umane

riate, bifm caseta Zero-order correlations iar SPSS le va calcula automat, realiznd astfel o important economie de timp. n partea de jos a tabelului regsim corelaia parial solicitat. Obse rvm c ntre nota obinut de ctre studeni la examen i emoiile din timpul
Tabelul 1.38 Rezultatele corelaiei pariale Correlations Control Variables -none-a Nota examen Correlation Significance (2-tailed) Df Emotii examen Correlation Significance (2-tailed) Df Timp de studiu Correlation Significance (2-tailed) Df Timp de studiu Nota examen Correlation Significance (2-tailed) Df Emotii examen Correlation Significance (2-tailed) Df a. Cells contain zero-order (Pearson) correlations. Nota examen Emotii examen Timp de studiu 1,000 . 0 -,441 ,000 101 ,397 ,000 101 1,000 . 0 -,247 ,012 100 -,441 ,000 101 1,000 . 0 -,709 ,000 101 -,247 ,012 100 1,000 . 0 ,397 ,000 101 -,709 ,000 101 1,000 . 0

examenului, n condiiile n care controlm efectul timpului alocat pentru studiu, exist o corelaie parial negativ i semnificativ r12.3=-0,247; p<0,05, la un numr de 100 de grade de libertate. Efectul acestei corelaii este de 0,06, adic doar 6% din variana notei obinute la examen poate fi regsit n emoiile din timpul examenului. Reprezentarea grafic adecvat acestei corelaii este graficul tridimensional 3-D Scatter. Pe axele OX i OY se reprezint cele dou variabile corelate, iar pe axa OZ vom afia variabila de control. Se remarc foarte uor intensitatea slab a corelaiei dintre nota obinut i emoiile din timpul exa132

Cristian Opariuc-Dan menului, n condiiile controlului exercitat de timpul de studiu, precum i traseul descendent al norului de puncte. Interpretarea corelaiei pariale se realizeaz similar corelaiei bivariate simple, la care se adaug elemente ce in de variabila de control.

Figura 1.30 Graficul corelaiei pariale

S-ar putea s fim interesai, la un moment dat, de relaia existent ntre genul biologic i timpul alocat studiului, pentru a vedea n ce msur sexul subiecilor determin efecte asupra timpului de studiu. Suntem n situaia asocierii unei variabile dihotomice cu o dihotomie discret, real, cu o variabil continu. Ce tip de corelaie folosim? Ai ghicit, corelaie punct biserial. n SPSS, coeficientul de corelaie punct biserial nu este altceva dect coeficientul de corelaie r Bravais-Pearson, n condiiile n care una dintre variabile este dihotomic. Unii autori (Field, 2000), (Bakeman, i alii, 2004), (Swinscow, i alii, 2002) recomand codarea variabilei dihotomice cu valorile zero i unu pentru a nu exista niciun fel de dubiu referitor la calculul acestui coeficient. n realitate, SPSS realizeaz automat conversia. n cazul nostru, variabila gen biologic este o variabil dihotomic codat cu unu i doi, iar calculul coeficientului de corelaie punct biserial nu pune probleme. Calculai coeficientul de corelaie r Bravais-Pearson ntre genul biologic i timpul de studiu. n tabelul 1.39, putei observa lipsa oricrei asocieri ntre cele dou variabile. Putem afirma c cele dou variabile nu sunt corelate liniar, genul biologic nu determin niciun efect asupra timpului de studiu.

133

Statistic aplicat n tiinele socio-umane


Tabelul 1.39 Rezultatele corelaiei punct biseriale

Correlations Gen biologic Pearson Correlation Gen biologic Sig. (2-tailed) N Pearson Correlation Timp de studiu Sig. (2-tailed) N 103,00 ,085 ,391 103 103,00 1,00 Timp de studiu ,085 ,391 103 1,00

SPSS nu dispune de proceduri distincte de calcul a coeficientului de corelaie biserial. n cazul n care variabila dihotomic are o dihotomie continu i se impune calculul acestui coeficient, putei calcula nti coeficientul de corelaie punct biserial i apoi putei aplica formula de transformare n coeficient biserial, aa cum s-a artat n capitolul dedicat acestor coeficieni.

I.5.2 Coeficieni de corelaie bazai pe date neparametrice


Tabelul 1.40 Structura bazei de date Variabila sex educatie grad inaltime greutate Eticheta Genul biologic Ultima scoala Grad militar Inaltimea Greutatea Nivel de msur Nominal Nominal Ordinal Ordinal Scale Scale Tip Numeric Numeric Numeric Numeric Numeric Numeric Caractere 1 1 1 1 3 3

culoare_ochi Culoarea ochilor

Pentru a studia, utiliznd SPSS, legtura dintre variabilele situate la un nivel de msur neparametric, baza de date creat mai sus nu ne este de prea mare ajutor. Vom realiza o nou baz de date, avnd o structur diferit. Aceast baz de date corespunde unei cercetri imaginare, efectuat la nivelul unei uniti militare, cercetare n care ne intereseaz s nregistrm variabilele prezente n tabelul 1.40. Se observ existena unui numr de 2 variabile de nivel nominal, dou variabile ordinale i dou variabile scalare,

134

Cristian Opariuc-Dan structur suficient ndeplinirii scopurilor noastre. Etichetele variabilelor neparametrice sunt prezentate n tabelul 1.41 i nu necesit explicaii.
Tabelul 1.41 Valorile variabilelor Valoare Sex 1 2 culoare_ochi 1 2 Etichet Masculin Feminin Albastri Verzi

Cunoscnd toate aceste elemente, nu v rmne dect s proiectai baza de date i s o salvai sub un nume, s spunem, Corelaii neparametrice.sav.

Dup salvare, urmtorul pas este reprezentat de popularea bazei de date. n tabe3 Caprui 4 Negri lul 1.42 avei structura complet a acestor Educatie 1 Liceul informaii. Desigur, toate valorile sunt fictive 2 Scoala postliceala 3 Facultate i nu corespund unei cercetri reale. nar4 Postuniversitare mai-v aadar cu mult rbdare i completai Grad 1 Subofiter cele 50 de cazuri pentru a putea demara apoi 2 Ofiter cu grad inferior 3 Ofiter cu grad superior analiza. Desigur, la final nu vei uita s sal4 General vai din nou baza de date, sub acelai nume, pentru a evita surprizele provocate de o eventual blocare a computerului.
Tabelul 1.42 Baza de date pentru corelaii neparametrice
Sex 1 2 2 2 1 1 1 1 2 1 1 Culoare 3 2 1 3 1 3 4 3 1 1 3 Educatie 4 4 4 4 3 3 3 3 3 3 3 Grad 4 4 3 3 3 3 4 4 4 3 3 Inaltime 172 180 184 176 173 187 178 180 170 171 172 Greutate 87 102 79 86 85 77 80 100 82 71 79 Sex 2 1 1 1 2 2 1 1 1 2 2 Culoare 3 1 4 4 2 2 2 3 4 3 1 Educatie 2 2 2 2 2 2 2 2 2 2 2 Grad 2 2 2 2 2 2 1 1 1 1 1 Inaltime 193 175 177 170 188 172 170 173 171 186 187 Greutate 94 96 92 69 81 76 93 98 74 77 92

135

Statistic aplicat n tiinele socio-umane

1 1 2 1 1 1 2 1 1 2 1 1 1 1

3 4 4 1 3 4 4 3 4 3 2 2 3 3

3 3 3 3 3 3 3 3 3 3 3 3 3 3

3 3 3 3 3 3 3 3 3 2 2 2 2 2

170 185 172 187 193 184 175 187 169 171 188 174 174 184

89 90 94 75 73 83 80 84 71 93 69 74 78 91

1 1 2 2 1 1 2 1 1 1 1 2 1 1

1 4 4 3 3 3 3 3 2 2 3 3 3 3

2 2 2 2 2 2 2 2 2 2 2 1 1 1

1 1 1 1 1 1 1 2 2 2 1 1 1 2

191 178 181 187 174 189 170 182 186 193 177 182 188 172

99 72 85 72 100 86 77 90 90 97 70 82 87 97

Pentru nceput ne propunem s analizm relaia dintre nlimea i greutatea celor 50 de subieci. Teoretic ambele variabile sunt de tip scalar, putnduse folosi coeficientul de corelaie r Bravais-Pearson. S presupunem, ns, c nlimea subiecilor nu are o distribuie normal, ci una puternic asimetric la stnga, artnd faptul c tendina n grupul de studiu Figura 1.31 Meniul de lansare a analizei este ctre subiecii nali. Media nu mai este un indicator reprezentativ pentru tendina central, i, prin urmare, nu vom putea folosi coeficientul de corelaie menionat mai sus. Urmtoarea alternativ este aceea a coeficienilor de corelaie Spearman i Kendall. Pentru a ncepe calculul acestor doi coeficieni, vei proceda exact la fel ca mai sus, la calc ulul coeficientului de corelaie r Bravais-Pearson. Vei accesa meniul Analyze, apoi submeniul Correlate i, n final, opiunea Bivariate. Se va deschide cunoscuta fereastr din figura 1.32.

136

Cristian Opariuc-Dan Atunci cnd ai calculat coeficientul de corelaie r Bravais-Pearson, v amintii, ai inclus cele dou variabile n lista variabilelor supuse analizei, apoi ai bifat caseta Pearson. n cazul nostru, lucrurile stau la fel, cu o singur excepie. Nu vom mai bifa caseta Pearson din cadrul seciunii Correlation Coefficients, ci casetele Kendalls tau-b pentru a calcula coeficientul Figura 1.32 Fereastra de analiz a de corelaie Kendall i Spearman pencorelaiilor tru a calcula coeficientul de corelaie Spearman. Alte explicaii, la acest nivel, nu sunt necesare, toate aspectele fiind lmurite anterior. Nu rmne dect s apsai butonul OK pentru ca programul s iniieze calculul acestor date. Fereastra de rezultate va afia un tabel, la fel cu tabelul 1.43, n care sunt prezentate cele dou analize bazate pe coeficientul de corelaie Kendall i pe coeficientul de corelaie Spearman, ambii fiind, v reamintim, coeficieni de corelaie ai rangurilor. La fel ca n cazul coeficientului de corelaie r Pearson, tabelul conine trei elemente: valoarea coeficientului de corelaie, pragul de semnificaie pentru o ipotez bilateral (sau unilateral dac am specificat acest lucru n f ereastra de configurare a analizei) i numrul de subieci investigai (n). Situaia noastr ar trebui s bucure sau s supere cercettorul, n funcie de modul n care i-a formulat obiectivele. Se poate observa existena unor coeficieni de corelaie nesemnificativi, foarte mici (=0,069, =0,097) ntre nlimea i greutatea subiecilor.

137

Statistic aplicat n tiinele socio-umane


Tabelul 1.43 Rezultatul analizei legturii dintre nlime i greutate

Correlations nlimea Kendall's tau_b nlimea Correlation Coefficient Sig. (2-tailed) N Greutatea Correlation Coefficient Sig. (2-tailed) N Spearman's rho nlimea Correlation Coefficient Sig. (2-tailed) N Greutatea Correlation Coefficient Sig. (2-tailed) N . 50 ,097 ,503 . 50 50 . 50 ,069 ,491 . 50 1,000 50 ,097 ,503 50 1,000 1,000 Greutatea ,069 ,491 50 1,000

n concordan cu datele cercetrii, nu exist nicio legtur ntre nlimea i greutatea subiecilor, cele dou variabile fiind independente, iar noi putem s nu respingem ipoteza nul. O asemenea cercetare, presupunnd c am fi lucrat cu date reale, poate fi lipsit de valoare? Depinde de modul n care explicm rezultatele. Privind figura 1.33, n care am reprezentat grafic aceast relaie, putem observa cteva lucruri interesante. Exist, ntr-adevr, o tendin ctre un tip de corelaie pozitiv, tendin anulat ns de dou situaii particulare: de existena unui grup de persoane foarte Scunzi-Grai nalte i foarte slabe i de existena unui alt grup de persoane ceva mai numeros scunde Figura 1.33 Relaia dintre nlime i greutate i supraponderale. Lipsa unui coeficient de corelaie semnificativ se poate datora tocmai acestui lucru i, putem suspecta, 138
nali-Slabi

Cristian Opariuc-Dan influena unei variabile de grup probabil tipul constituional pe care nu am luat-o n considerare. Analiza coeficientului de corelaie Kendall ori a coeficientului de corelaie Spearman se realizeaz la fel ca i cea a coeficientului de corelaie r Bravais-Pearson, drept pentru care nu vom intra n amnunte referitoare la acest lucru. Cum vom proceda n condiiile n care dorim s aflm dac exist vreo legtur ntre genul biologic al subiecilor i culoarea ochilor? Ambele
Figura 1.34 Meniul de accesare a tabelelor de contingen.

variabile sunt la un nivel de msur nominal, iar singura posibilitate pe care o avem este aceea de a utiliza tabelele de contingen.

n SPSS for Windows, construcia i analiza tabelelor de contingen se afl n cadrul meniului Analyze la Descriptive Statistics i apoi opiunea Crosstabs. Termenul semnific ideea de tabele ncruciate, de fapt chiar ideea conceptului menionat mai sus, cea de tabel de contingen. La accesarea acestei opiuni se va deschide o fereastr nou, fereastra de configurare i de analiz a tabelului de contingen. Fiind un element nou, ne vom concentra atenia asupra formularului. Se observ cteva elemente comune: lista variabilelor din baza de date, buto- Figura 1.35 Fereastra de configurare i analiz a tabelelor de contingen nul de lansare a analizei OK, de copiere a codului Paste, de reiniializare a formularului Reset, de anula-

139

Statistic aplicat n tiinele socio-umane

re Cancel i de asisten Help, alturi de butoanele-sgeat de transfer. Celelalte elemente sunt, n marea lor majoritate, controale noi, astfel nct le vom trata n detaliu. Listele Row(s): i Column(s): se refer la variabilele ce vor fi reprezentate pe liniile, respectiv pe coloanele tabelului de contingen. SPSS permite att analiza tabelelor de contingen bidimensionale, ct i a celor multidimensionale. Rezult c putem include mai multe variabile n listele Row(s) ori Column(s), n vederea construciei unor tabele multidimensionale. Seciunea Layer vizeaz includerea n analiz a uneia sau a mai multor variabile de control, variabile care presupunem c ar putea influena tabelul de contingen. De exemplu, dac am studia relaia dintre culoarea ochilor i culoarea prului i am presupune c aceast relaie este influenat de genul biologic, atunci am include variabila gen biologic n lista Layer, aceasta funcionnd ca variabil de control. Mai mult, SPSS ne permite construcia de modele ierarhice folosind variabile de control pentru a vedea efectul exercitat de introducerea succesiv a acestora. La includerea uneia sau a mai multor variabile n aceast list, programul efectueaz analize separate pentru fiecare categorie a fiecrei variab ile de control introduse. Vom obine, aadar, o analiz a relaiei dintre culo area ochilor i culoarea prului pentru brbai i o alt analiz, separat, pentru femei. Butoanele Previous i Next permit navigarea prin modelele de variabile de control n vederea adugrii sau n vederea modificrii acestora. Dac bifai caseta Display clustered bar charts, comunicai programului SPSS s construiasc un grafic cu bare, grupat dup o variabil, fiecare grup coninnd categoriile celeilalte variabile. n cazul nostru, SPSS ar construi dou grupuri de grafice cu bare pentru femei i pentru brbai fiecare grup coninnd graficul cu bare pentru culoarea ochilor.

140

Cristian Opariuc-Dan Bifarea casetei Suppress tables are ca efect includerea tuturor tabelelor de contingen ntr-unul singur (dezactivndu-se i butoanele Cells i Format). Personal nu recomand bifarea acestei opiuni deoarece rezultatele pot s piard foarte mult din lizibilitate. Caseta are efect numai asupra modului de prezentare al datelor, nu i asupra procedurilor de calcul. Apsarea butonului Exact determin deschiderea formularului de configurare a testelor de semnificaie, furniznd o serie de metode adiionale. Varianta Asymptotic only este metoda implicit, bazat pe calculul nivelului de semnificaie n funcie de tipul distribuiei teoretice. Figura 1.36 Configurarea Este, dac dorii, metoda clasic de calcul a semtestelor de semnificaie nificaiei, aa cum a fost ea descris pn acum, n acest volum. O valoare este considerat semnificativ dac pragul de se mnificaie este mai mic de 0,05. Totui, varianta pleac de la premisa c setul de date este suficient de mare i eterogen distribuit. Pentru un numr redus de cazuri sau n condiiile n care omogenitatea distribuiei pune probleme, aceast metod poate s nu reprezinte un bun indicator al pragului de semnificaie. Celelalte metode, Monte Carlo i Exact, se vor folosi n condiiile n care distribuia datelor nu permite utilizarea metodei clasice. Metoda Monte Carlo reprezint o form precis de analiz a nivelului de semnificaie, bazat pe simulare, derivat din calculul repetat, efectuat pe mai multe eantioane de tabele de contingen de aceleai dimensiuni i cu aceleai totaluri marginale ca i tabelul analizat. Metoda Monte Carlo permite estimarea precis a pragului de semnificaie, chiar n condiiile n care nu se poate aplica metoda clasic, asimptotic. Se poate folosi n cazul 141

Statistic aplicat n tiinele socio-umane

n care numrul subiecilor este suficient de mare, ns avem de a face cu o distribuie problematic. Singurele elemente care trebuie configurate se refer la nivelul de ncredere (Confidence level), care poate fi 95% pentru un prag de semnificaie de 0,05 sau 99% pentru un prag de semnificaie de 0,01 i numrul de eantioane pe baza crora se va face simularea (Number of samples). Valoarea implicit, 10.000, este suficient. O valoarea mai mare determin i un nivel de precizie mai mare, ns consum foarte mult din puterea de calcul a procesorului. Metoda Exact permite calcularea precis a probabilitii de apariie a unui rspuns. n mod normal, un nivel de semnificaie mai mic de 0,05 este considerat, i aici, suficient, indicnd existena unei relaii ntre variabile. Deoarece este o operaiune de durat, poate fi configurat limita de timp per fiecare test. Bifnd caseta Time limit per test putei comunica programului s nu execute teste care depesc durata menionat. n general nu prea avem motive s folosim alt metod dect cea clasic, asimptotic. Dac totui dorii s fii extrem de precii, putei folosi metoda Monte Carlo. Utilizarea metodei Exact presupune un computer foarte puternic i mult rbdare, analiza fiind de lung durat. Uneori s-ar putea s avei surpriza c v nghea calculatorul i singura variant va fi s-l scoatei din priz. S nu spunei c nu v-am avertizat! Apsarea butonului Continue permite revenirea n formularul iniial, cu memorarea testului de semnificaie dorit. Butonul Statistics ne intereseaz n mod deosebit, deoarece din aceast fereastr putem alege indicatorii care ne 142
Figura 1.37 Configurarea coeficienilor de corelaie

Cristian Opariuc-Dan intereseaz. Formularul este foarte intuitiv, grupat pe seciuni, conine doar casete de bifare. Remarcai o serie de indicatori pe care-i cunoatei, dar i indicatori de care probabil nu ai auzit. Haidei s-i lum pe fiecare n parte. Caseta Chi-square se refer exact la coeficientul de contingen 2. Bifai aceast caset pentru a calcula coeficientul de contingen Pearson 2, coeficientul de contingen probabilistic-proporional 2, testul de semnificaie Fisher i coeficientul de contingen Yate 2 corectat pentru continuitate. tiu c nu ai auzit de aceti coeficieni. n esen sunt forme derivate din 2, pentru a rspunde unor necesiti specifice de cercetare. Spre exemplu, 2 corectat pentru continuitate se folosete strict pentru tabele de continuitate bidimensionale de tip 2x2, aa cum am vzut deja. Pentru tabele bidimensionale cu mai multe linii i coloane, reperul este 2 Pearson sau 2 probabilistic proporional. Dac cele dou variabile nu sunt nominale sau ordinale, ci se situeaz la un nivel scalar, cel mai bun indicator va fi coeficientul de asociere liniar 2. Testul de semnificaie Fisher se folosete doar pentru tabele 2x2, n cazul n care frecvena ateptat la nivelul unei celule este mai mic de 5. Nu v impacientai. Toate aceste elemente le vom discuta n momentul n care vom analiza rezultatele. Caseta Correlations o putei folosi n condiiile n care tabelul de contingen conine date aflate la un nivel ordinal sau scalar. Se va calcula coeficientul de corelaie Spearman dac datele se afl la un nivel ordinal sau/i coeficientul de corelaie r Pearson dac datele se afl la un nivel scalar. Iat cel puin un motiv pentru care este important s definim corect nivelul de msur atunci cnd proiectm baza de date. Seciunea Nominal se refer la coeficieni de asociere pentru date nominale. Putei bifa caseta Contingency coefficient pentru a calcula coeficientul de contingen, caseta Phi and Cramers V pentru a calcula coeficienii de contingen Pearson i v Cramer, caseta Lambda pentru coeficientul de asociere Goodman i Kruskal, acela care permite realizarea 143

Statistic aplicat n tiinele socio-umane

unui fel de predicii i caseta Uncertainty coefficient, cu ajutorul creia calculai coeficientul de incertitudine. Acesta din urm nu a fost studiat, ns seamn mult cu coeficientul Goodman i Kruskal. Msoar, de asemenea, reducerea proporional a erorilor atunci cnd o variabil este folosit pentru a prezice o alt variabil. Seciunea Ordinal permite calculul coeficienilor de corelaie n situaia n care variabilele se afl la un nivel ordinal. Bifarea casetei Gamma permite calculul coeficientului de corelaie , pe care l-am studiat. Casetele Kendalls tau-b i Kendalls tau-c permit calculul variantelor b i c ale coeficientului de corelaie al rangurilor Kendall. Singura diferen dintre cei doi coeficieni este aceea c b ine seama de rangurile egale iar c nu ine seama de aceste ranguri. Caseta Somers d ofer posibilitatea calculului coeficientului de corelaie d Somers. Acest indicator nu a fost studiat, ns se folosete ca i coeficientul ce corelaie Spearman sau Kendall Seciunea Nominal by Interval se refer la cazul n care o variabil se afl la un nivel de msur de interval iar o alt variabil este nominal. Singurul coeficient pus la dispoziie de SPSS este coeficientul (eta), pe care nu l-am analizat n detaliu n aceast lucrare. Coeficientul este unul nedirecional, ia valori ntre 0 i 1 i exprim intensitatea legturii dintre o variabil nominal i una ordinal sau scalar. n imensa lor generozitate, pltit, desigur, cu bani grei, programatorii de la SPSS Inc. ne ofer o serie de indicatori suplimentari, astfel: Caseta Kappa ne ofer o msur a acordului. De fapt calculeaz coeficientul Cohen , un coeficient asemntor coeficientului de concordan W Kendall. SPSS nu ofer o modalitate direct de calcul a coeficientului de concordan W Kendall, dei include aceast procedur n anumite teste st atistice. Oricum, coeficientul Cohen se poate folosi ca o alternativ la coef icientul W Kendall n situaia n care ambele variabile au acelai numr de categorii i aceleai valori ale categoriilor. 144

Cristian Opariuc-Dan Caseta Risk nu se refer la riscul de a v pierde buna dispoziie citind aceast carte, ci reprezint un coeficient care msoar puterea legturii dintre prezena unui factor i apariia unui eveniment. Dac dorii s studiai relaia dintre prezena soacrei i apariia unui conflict n familie, acesta este coeficientul care vi se potrivete cel mai bine. Coeficientul McNemar studiaz legtura dintre dou variabile dihotomice i se bazeaz tot pe 2. Se folosete, de obicei, n cercetri de tipul nainte i dup, pentru a se identifica modificarea rspunsurilor n urma apariiei unei situaii experimentale. Cellalt element din aceast fereastr nu Figura 1.38 Configurarea datelor n tabele prezint un interes deosebit pentru subiectul nostru, referindu-se mai mult la studiul diferenelor dect la studiul corelaiilor, motiv pentru care l vom discuta cu alt ocazie. Butonul Cells permite configurarea datelor ce vor fi prezentate n tabelele de contingen. Seciunea Counts are dou casete de bifare: Observed i Expected. Ele permit afiarea n tabelul de contingen a frecvenelor actuale (observate) i/sau a frecvenelor estimate (teoretice) n condiiile n care se lucreaz cu 2. Seciunea Percentages permite adugarea i a frecvenelor relative (procente) pentru variabilele situate pe linii (Row) i/sau pentru variabilele situate pe coloane (Column) ori la nivelul rezultatelor marginale (Total). Reziduurile nu reprezint altceva dect diferena dintre scorul observat i cel estimat. Controlul afirii acestor elemente se realizeaz prin intermediul seciunii Residuals. Acestea se pot afia n form brut, nestandar145

Statistic aplicat n tiinele socio-umane

dizat (Unstandardized), ca diferen ntre numrul de cazuri observate i numrul de cazuri estimate. Ca s v reamintii, numrul de cazuri observate reprezint numrul de subieci din baza de date care au acea caracteristic, iar numrul de cazuri estimate (teoretice) se refer la numrul de cazuri care ar trebui s existe n celula respectiv dac nu ar exista nicio relaie ntre cele dou variabile. Dac rezultatul acestui reziduu este pozitiv, atunci nseamn c numrul de cazuri din acea celul este mai mare n comparaie cu situaia n care cele dou variabile ar fi independente. Forma standardizat se poate afia prin bifarea opiunii Standardized. SPSS va calcula raportul dintre valoarea rezidual brut i abaterea standard a acestei estimri. Aceste date sunt reprezentate pe o distribuie z cu media 0 i abaterea standard 1, avnd aceeai semnificaie ca i scorurile z. Din acest motiv se mai numesc i reziduuri Pearson. Bifarea casetei Adjusted standardized permite afiarea reziduurilor n form standardizat, exprimate ns ca abateri standard n jurul mediei. Este, dac dorii, un fel de etalonare n uniti sigma a reziduurilor. Seciunea Noninteger Weights are n vedere modul de reprezentare a rezultatelor n celulele tabelului de contingen. n mod normal, celulele tabelului de contingen conin numere ntregi. Sunt ns situaii n care se pot opera deplasri ori ponderri. O deplasare cu o valoare fracionar (spre exemplu o multiplicare a tuturor datelor cu o constant de tipul 1,19) va d etermina afiarea n celulele tabelului a unor numere zecimale. Aceste valori pot fi rotunjite sau trunchiate folosindu-se opiunile acestei seciuni. Opiunea Round cell counts are ca efect rotunjirea valorilor din baza de date nainte de a se efectua calculele statistice. Opiunea Truncate cell counts are ca efect trunchierea valorilor din baza de date nainte de a se efectua calculele statistice. Diferena dintre rotunjire i trunchiere const n faptul c la rotunjire valorile zecimale se transfo r146

Cristian Opariuc-Dan m n ntregi n sensul superior (de exemplu 1,39 va fi rotunjit la 2), iar la trunchiere valorile zecimale se transform n ntregi, n sensul inferior (1,39 va fi trunchiat la 1). Operaiunile nu afecteaz datele din baza de date, ci doar rezultatele calculelor statistice. Opiunea Round case weights are ca efect rotunjirea datelor direct n baza de date naintea efecturii oricror calcule statistice. Opiunea Truncate case weights are ca efect trunchierea datelor direct n baza de date naintea efecturii oricror calcule statistice. Desigur, opiunea No adjustments nu efectueaz nicio ajustare, datele fiind folosite aa cum sunt.
Figura 1.39 Configurarea formatrii datelor

Ultimul buton rmas este butonul Format care controleaz ordinea de sortare a variabilei reprezentate pe linii. Putem opta pentru o sortare ascendent a categoriilor variabilei reprezentat pe linii (alegnd opiunea Ascending) sau pentru o sortare descendent, de la mare la mic, a aceleiai variabile (alegnd opiunea Descending). Acestea sunt, n mare, opiunile referitoare la construcia i analiza t abelelor de contingen. Acum s revenim la problemele noastre. Ne-am propus s studiem relaia existent ntre genul biologic al persoanelor i culoarea ochilor. Ambele sunt variabile situate la nivel nominal, singurele statistici ce pot fi calculate sunt cele bazate pe date nominale. n lista Row(s) vom include genul biologic iar n lista Column(s) includem culoare ochilor. Vom bifa i caseta Display clustered bar charts pentru a fora SPSS s reprezinte graficul cu bare al acestor variabile i

147

Statistic aplicat n tiinele socio-umane

cam att. Opiunea de calcul a testelor de semnificaie va rmne cea implicit opiunea asimptotic, astfel nct putem ignora butonul Exact. Butonul Statistics ne intereseaz ceva mai mult. Aici vom bifa caseta ChiSquare, pentru a calcula coeficienii 2. De asemenea, n seciunea Nominal vom calcula coeficientul de contingen i coeficienii i v Cramer. Celelalte casete nu le vom bifa deoarece nu suntem n situaia de a ncerca predicii i nici nu avem variabile situate la vreun nivel superior de msur. Apsnd butonul Cells vom comunica programului modalitatea de afiare a rezultatelor. Dorim s prezentm att frecvenele ateptate ct i cele observate, ne intereseaz i toate reziduurile. Dup bifarea opiunilor respective, putem apsa butonul Continue pentru a reveni la formularul iniial i apoi butonul OK n vederea lansrii analizei. Acum, dac vei privi n fereastra de afiare a rezultatelor, vei rmne surprini. SPSS a generat nu mai puin de patru tabele i un grafic.
Tabelul 1.44 Sumarul analizei Case Processing Summary Cases Valid N Genul biologic * Culoarea ochilor Percent Missing N 0 Percent ,0% N Total Percent

50 100,0%

50 100,0%

Primul tabel se refer la sumarul analizei. Se poate observa c toi cei 50 de subieci au scoruri la cele dou variabile, nu exist cazuri lips, datele sunt utilizabile 100%. Al doilea tabel nu este altceva dect tabelul ncruciat de contingen. Se poate observa reprezentarea pe coloane a variabilei culoarea ochilor, n timp ce pe linii este reprezentat variabila gen biologic. Datele din acest tabel ne ofer informaii valoroase referitoare la structura intern a analizei i vor trebui incluse n orice raport de cercetare. Iat o prim situaie n care ar 148

Cristian Opariuc-Dan fi trebuit s folosim opiunile de rotunjire sau trunchiere fr afectarea bazei de date. Vei vedea imediat de ce. Ce ne spune acest tabel? n primul rnd avem un numr de 34 de brbai. Dintre acetia, 5 au ochi albatri, 5 au ochi verzi, 16 au ochi cprui i 8 au ochi negri. Similar, am investigat 16 femei: 3 cu ochi albatri, 3 cu ochi verzi, 7 cu ochi cprui i 3 cu ochi negri. Frecvenele estimate, pentru brbai, sunt: 5,4 pentru ochi albatri, 5,4 pentru ochi verzi, 15,6 pentru ochi cprui, 7,5 pentru ochi negri. Situaia este redat n mod analog i pentru femei. T otui, ce nseamn, spre exemplu, 5,4? nseamn cumva cinci brbai i jumtate? La acest nivel de msur ar fi fost mai bine s folosim opiunile de rotunjire pentru a evita asemenea exprimri zecimale. Cnd folosim ns trunchierea, i cnd folosim rotunjirea? n general, dac baza de date conine un numr mare de cazuri vom folosi trunchierea. Chiar dac pierdem informaie, ctigm precizie. Dac numrul de cazuri este relativ mic, este de preferat s utilizm rotunjirea. Beneficiem de mai mult informaie n detrimentul preciziei. Urmtoarele linii din tabel se refer la reziduuri. Observm c pentru culorile deschise (albatri i verzi) brbaii se situeaz sub frecvena atept at, n timp ce femeile se situeaz sub frecvena ateptat la culorile nchise (cprui i negri). Ne-am putea gndi la o predominan a culorilor nchise pentru brbai i a culorilor deschise pentru femei, dei forma standardizat a reziduurilor arat abateri mici de la situaia n care nu ar exista nici o relaie ntre cele dou variabile.

149

Statistic aplicat n tiinele socio-umane


Tabelul 1.45 Tabelul de contingen Genul biologic * Culoarea ochilor Cross tabulation Culoarea ochilor Albastri Verzi Caprui Negri Total Genul biologic Masculin Count Expected Count Residual Std. Residual Adjusted Residual Feminin Count Expected Count Residual Std. Residual Adjusted Residual Total Count Expected Count 5 5,4 -,4 -,2 -,4 3 2,6 ,4 ,3 ,4 8 8,0 5 5,4 -,4 -,2 -,4 3 2,6 ,4 ,3 ,4 8 8,0 16 15,6 ,4 ,1 ,2 7 7,4 -,4 -,1 -,2 23 23,0 8 7,5 ,5 ,2 ,4 3 3,5 -,5 -,3 -,4 11 11,0 50 50,0 16 16,0 34 34,0

Presupunerile anterioare se confirm n tabelul 1.46. Observm c nu exist nicio legtur ntre cele dou variabile. Nu se poate stabili nicio relaie ntre culoarea ochilor i genul biologic al subiecilor.
Tabelul 1.46 Coeficientul de contingen 2 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases ,361a ,359 ,320 50 df 3 3 1 Asymp. Sig. (2sided) ,948 ,949 ,571

a. 3 cells (37,5%) have expected count less than 5. The minimum expected count is 2,56.

Absena legturii este confirmat i de coeficienii de asociere derivai din . ntr-adevr, putem s nu respingem ipoteza nul conform creia nu exist nicio legtur ntre culoarea ochilor i genul biologic al subiecilor.
2

150

Cristian Opariuc-Dan
Tabelul 1.47 Coeficieni de asociere derivai din 2 Symmetric Measures Value Nominal by Nominal Phi Cramer's V Contingency Coefficient N of Valid Cases ,085 ,085 ,085 50 Approx. Sig. ,948 ,948 ,948

Reprezentarea grafic a datelor vine n sprijinul demonstraiei cifrice. Genul persoanelor investigate nu are nicio legtur cu culoarea ochilor acestora. Graficul arat doar o preponderen a ochilor cprui la ambele sexe i o oarecare frecven mai ridicat a ochilor negri la brbai. Culorile deschise au n Figura 1.40 Reprezentarea grafic a relaiei dintre continuare o frecven sczut, culoarea ochilor i genul biologic. att la brbai ct i la femei. Iat c prin procedee neparametrice, situate chiar la un nivel nominal, s -a putut demonstra o ipotez de cercetare. nainte de a ncheia, vom furniza cteva exemple, fr a intra n det alii, pentru a v putea familiariza cu procedurile de lucru. S presupunem c dorim s aflm relaia dintre culoarea ochilor i gradul militar, adic s vedem dac, ntr-adevr, coloneii au ochi albatri. Suntem n situaia analizei legturii ntre o variabil nominal (culoarea ochilor) i o variabil ordinal (gradul militar). n acest caz avem dou posibil iti. Fie abordm analiza la nivel nominal, la fel cum am procedat anterior, 151

Statistic aplicat n tiinele socio-umane

deoarece una dintre variabile se afl la acest nivel i aplicm principiul an alizei bazate pe variabila cea mai slab, fie folosim coeficientul , coeficient care relaioneaz o variabil nominal cu una ordinal sau scalar. Noi vom aborda ambele situaii. Prin urmare, includem pe linii variabila culoarea ochilor i pe coloane gradul militar. Bifm i caseta Display clustered bar charts pentru a putea afia grafic variabilele, apoi alegem opiunile Chisquare, Contingency coefficient, Phi and Cramers V, dar i opiunea Eta din fereastra de configurare a statisticilor. Vom considera c una dintre variabile nu ndeplinete condiiile testrii asimptotice i vom alege metoda Monte Carlo din fereastra de configurare a testelor de semnificaie. n final, apsm butonul OK pentru a lansa analiza. Nu vom furniza toate tabelele, majoritatea fiind identice cu cele din analiza de mai sus.
Tabelul 1.48 Coeficieni de asociere 2 Chi-Square Tests Monte Carlo Sig. (2-sided) Monte Carlo Sig. (1-sided) 99% Confidence Interval Value Pearson Chi-Square Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases 13,004a 14,002 11,963 ,123c 50 1 df 9 9 Asymp. Sig. (2-sided) Sig. ,162 ,158b ,122 ,210b ,159b ,725 ,769b Lower Bound ,149 ,200 ,149 ,758 Upper Bound ,168 ,220 ,168 ,779 ,397b ,384 ,409 Sig. 99% Confidence Interval Lower Bound Upper Bound

a. 13 cells (81,3%) have expected count less than 5. The minimum expected count is ,80. b. Based on 10000 sampled tables with starting seed 2000000. c. The standardized statistic is -,351.

Constatm c statisticile bazate pe 2 sunt mult mai elaborate la utilizarea metodei Monte Carlo. Avem pragurile de semnificaie att pentru m etoda clasic, asimptotic, dar i pentru metoda Monte Carlo, alturi de intervalele de ncredere. Desigur, nu exist nicio legtur ntre cele dou variabile,

152

Cristian Opariuc-Dan aa cum reiese i din tabelul 1.49, tabelul coeficienilor de asociere derivai din 2. Toi cei trei coeficieni de asociere calculai arat, din nou, lipsa corelaiei ntre cele dou variabile. Oricum, se poate observa creterea preciziei pragului de semnificaie la utilizarea metodei Monte Carlo n comparaie cu testul clasic.
Tabelul 1.49 Coeficieni de asociere derivai din 2 Symmetric Measures Monte Carlo Sig. 99% Confidence Interval Value Approx. Sig. Nominal by Nominal Phi Cramer's V Contingency Coefficient N of Valid Cases ,510 ,294 ,454 50 Sig.
a

Lower Bound Upper Bound ,149 ,149 ,149 ,168 ,168 ,168

,162 ,158a ,162 ,158 ,162 ,158a

a. Based on 10000 sampled tables with starting seed 2000000.

Ultimul tabel analizat este cel al coeficientului de asociere . Aici va trebui s facem cteva precizri, deoarece asocierea se trateaz direcional. Acest lucru nseamn c avem o variabil dependent (variabila situat la nivel scalar) i o variabil independent (variabila situat la nivel nominal). SPSS nu are de unde s tie care este variabila dependent i care este vari abila independent, prin urmare furnizeaz ambele valori. n cazul nostru, variabila dependent este gradul militar iar cea independent culoarea ochilor. Coeficientul care ne intereseaz este aadar situat pe a doua linie linia care trateaz gradul militar (=0,184).
Tabelul 1.50 Coeficientul de asociere nominal ordinal Directional Measures Value Nominal by Interval Eta Culoarea ochilor Dependent Grad militar Dependent ,120 ,184

153

Statistic aplicat n tiinele socio-umane

Remarcm valoarea mic a acestei legturi i, de asemenea, lipsa pragului de semnificaie. SPSS nu furnizeaz valoarea semnificaiei pentru acest coeficient, ea fiind tratat la analizele folosind date nominale. De aceea coeficientul va fi ntotdeauna nsoit de analize bazate pe 2. Un ultim exemplu i propune analiza relaiei dintre ultima coal absolvit i gradul militar. Ambele variabile se afl la nivel ordinal, astfel nct putem bifa i caseta Correlations, dar i ceilali coeficieni de corelaie pentru date ordinale: Gamma, Sommers d, Kendalls tau-b i Kendalls tau-c. Dac avei curaj, alegei opiunea Exact cu limitare la 5 minute, pentru a vedea cum funcioneaz i acest element. Apoi salvai dac ai lucrat ceva, lansai analiza i luai-v o mic pauz. Glumeam! Numrul mic de date permite analiza rapid a acestora. Observm c legtura dintre cele dou variabile este semnificativ la un prag de semnificaie mai mic de 0,01, prag furnizat att de testul clasic de semnificaie, ct i de testul exact. Coeficienii au valori ridicate, fapt care indic existena unei legturi pozitive, semnificative i puternice ntre gradul militar i ultima coal absolvit. Desigur, gradele militare nalte presupun i studii pe msur, relaia nefiind un fapt surprinztor.
Tabelul 1.51 Coeficieni de corelaie pentru date aflate la nivel ordinal Symmetric Measures Value Ordinal by Ordinal Kendall's tau-b Kendall's tau-c Gamma Spearman Correlation Interval by Interval Pearson's R N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. ,742 ,661 ,942 ,823 ,780 50 Asymp. Std. Errora Approx. Tb Approx. Sig. Exact Sig. ,040 ,041 ,040 ,034 ,041 16,127 16,127 16,127 10,025 8,629 ,000 ,000 ,000 ,000
c

,000 ,000 ,000 ,000 ,000

,000c

154

Cristian Opariuc-Dan

Exerciii: Analizai i interpretai legturile dintre: gen biologic i grad militar, culoarea ochilor i ultima coal absolvit, gen biologic i greutate. Explicai i argumentai utilizarea coeficienilor. V voi lsa acum n compania SPSS s v jucai cu opiunile i cu indicatorii corelaiilor, s experimentai mai multe variante, deoarece numai aa vei putea s v perfecionai. Nu vom ncheia ns acest capitol, dect dup ce vom realiza cteva referiri generale la modul de raportare al studiilor corelaionale.

I.5.3 Raportarea studiilor corelaionale


Pe parcursul acestui capitol am fcut deseori referire la stilul, modul n care se pot raporta studiile de tip corelaional. Desigur, nu exist un ablon standard de raportare, acest lucru rmnnd la latitudinea, experiena i talentul cercettorului. Exist ns o serie de principii generale a cror respectare v poate scuti de surpriza neplcut a respingerii vreunei lucrri. Am menionat deja c la raportarea unei corelaii sunt importante trei elemente: intensitatea corelaiei, dat de valoarea coeficientului de corelaie, sensul corelaiei, doar pentru coeficienii direcionali, dat de semnul coeficientului de corelaie i pragul de semnificaie. Unii autori (Field, 2000) afirm c este important raportarea efectului, sub forma varianei comune. Desigur, pot fi formulate i o serie de reguli, n general mai mult sau mai puin acceptate i respectate: 1. Nu se recomand scrierea cifrei 0 naintea punctului zecimal, deoarece reprezint o exprimare redundant atta timp ct i coeficientul i pragul de semnificaie au o amplitudine cuprins ntre 0 i 1. Prin urmare, nu se recomand publicarea unui

155

Statistic aplicat n tiinele socio-umane

coeficient de corelaie r Bravais-Pearson sub forma r=0,57, ci n forma r= ,57 sau r= .57. La fel raportm i pragul de semnificaie. Nu vom scrie p<0,01 ci p< .01 sau p< ,05. Desigur, eu nu am respectat aceast regul din considerente didactice. n mod normal o respect n lucrrile tiinifice i v recomand i dumneavoastr s o facei. 2. Se recomand precizarea situaiei n care s-a utilizat o ipotez unilateral (unidirecional). Neprecizarea acestui lucru determin, implicit, considerarea ipotezei ca fiind bilateral. n general, ipotezele bilaterale nu se specific, ci se specific doar ipotezele unilaterale. Dac avei o ipotez de tipul exist o legtur pozitiv ntre anxietate i depresie, aceasta este o ipotez unilateral. Regula impune o raportare de genul r= ,87; p(unilateral) < ,01 sau, dac publicai n strintate, r= .87; p(onetailed) < .01 3. Fiecare coeficient de corelaie se exprim printr-o anumit liter, n general acceptat n literatura de specialitate. De exemplu, coeficientul de corelaie Bravais-Pearson se reprezint prin litera r, coeficientul Spearman prin i aa mai departe, dup cum ai observat. Va trebui s respectai aceast notaie. Totui, n situaia n care folosii alte simboluri (repet, situaie care trebuie evitat), suntei obligat s furnizai o legend explicativ a acestora, nsoit de formulele, expresiile de calcul. 4. n tiinele socio-umane, pragul de semnificaie acceptat este de .05. Am susinut deja c, n general, o cercetare nu implic raportarea exact a acestui prag ci raportarea sub forma unei inegaliti. Aadar, nu folosii niciodat expresia p= .000 sau

156

Cristian Opariuc-Dan p= .003 ci expresii de forma p< .05, p< .01 sau p< .001, acesta fiind i standardul raportrilor tiinifice. 5. Un prag de semnificaie p= .05 nu este semnificativ. Sunt semnificative doar pragurile mai mici de .05, nu i cele egale cu aceast valoare. n tiinele sociale, de obicei raportm semnificaii mai mici de .05 sau mai mici de .01. Foarte rar ajungem la niveluri mai mici de .001 i n mod excepional la praguri de semnificaie mai mici de .0001. n sfrit am ajuns i la finalul acestui capitol. A fost, ntr-adevr, un capitol destul de lung, ns i informaia a fost consistent. Acum sper c avei o idee precis asupra semnificaiei conceptului de corelaie, mai exact a celui de legtur ntre variabile. Putei s fii mndri i s dai lecii colegilor n domeniul studiilor corelaionale, ns nu v bucurai prea tare, deoarece avem de discutat lucruri cel puin la fel de interesante. Luai-v o pauz. Mergei la un grtar, la iarb verde, relaxai -v, deoarece imediat vom aborda un alt capitol, i anume cel al testelor statistice. n concluzie:
Relaiile stabilite n urma analizei a dou variabile poart numele de analize biv ariate, spre deosebire de analizele univariate care au n vedere doar o singur var iabil; Gradul de asociere ntre dou variabile se bazeaz pe conceptul ce covarian. Msura standardizat a covarianei poart numele de corelaie; Coeficienii de corelaie pot fi parametrici i neparametrici, dup cum cele dou variabile ndeplinesc sau nu condiiile de aplicare ale statisticilor parametrice; Coeficientul de corelaie a rangurilor Spearman se poate folosi, n general, pe ntru variabile ordinale provenite din variabile continui sau pentru variabile continui care nu ndeplinesc condiiile necesare aplicrii statisticilor parametrice; Coeficientul de corelaie a rangurilor Kendall are mai multe forme, se bazeaz pe calculul inversiunilor i al proversiunilor i se folosete pentru variabile aflate n atural la un nivel de msur ordinal sau pentru variabile cantitative care nu ndeplinesc condiiile de aplicare a statisticilor parametrice;

157

Statistic aplicat n tiinele socio-umane


Coeficientul de contingen 2 are mai multe forme i se folosete n cazul variabilelor nominale, n calcule bazate pe tabele de contingen. Este un coeficie nt nedirecional i nestandardizat; Coeficientul de asociere este o form standardizat a coeficientului 2 i se utilizeaz, n general, pentru dou variabile dihotomice. n cazul n care una dintre v ariabile nu mai este dihotomic, acest coeficient nu are relevan; Coeficientul de contingen Pearson (cc) este o variant a coeficientului , care poate fi utilizat pentru variabile cu mai multe categorii; Coeficientul de contingen Tschuprow (t) se bazeaz tot pe coeficientul i ine seama de acesta i de numrul de categorii din cadrul fiecrei variabile, fiind o form ajustat a coeficientului ; Coeficientul de asociere Cramer (V) se folosete dac cel puin una dintre variabile este polihotomic, fiind bazat direct pe 2; Coeficientul de asociere Goodman i Kruskal () msoar reducerea proporional a erorilor ntr-un tabel de contingen, fiind folosit pentru variabile strict ordinale n scop predictiv; Coeficientul de asociere Goodman i Kruskal () are la baz variabile ordinale, e ste similar cu Kendall i se calculeaz innd cont de numrul perechilor conco rdante i discordante; Coeficienii tetrachoric, polichoric i poliserial se folosesc pentru variabile dihot omice provenind din variabile continui sau pentru variabile ordinale, condiia f iind aceea a provenienei din variabile continui; Coeficientul de concordan Kendall (W) se bazeaz pe ranguri i permite apreci erea gradului de acord dintre evaluatori. Datele folosite sunt date ordinale; Coeficientul de corelaie rang biserial ofer expresia legturii dintre o variabil dihotomic i o variabil ordinal; Coeficientul de corelaie r Bravais-Pearson este cel mai cunoscut coeficient de corelaie pentru date parametrice i se folosete la analiza legturilor dintre dou v ariabile cantitative care ndeplinesc toate condiiile aplicrii testelor parametrice; Coeficienii de corelaie biserial, punct biserial i triserial se folosesc pentru anal iza asocierii dintre o variabil scalar i o variabil nominal, dihotomic sau polihotomic. Diferena dintre acetia este dat de natura dihotomiei dihotomie discret sau continu; Coeficientul de corelaie eneahoric permite asocierea unor variabile polihotomice, polihotomia fiind una continu; Corelaiile pariale, att cele parametrice ct i cele neparametrice, au n vedere analiza relaiei dintre dou variabile n condiiile n care se menine controlul as upra unei a treia variabile, susceptibil de a influena comportamentul celorlalte d ou variabile analizate. Raportarea corelaiei presupune raportarea intensitii acesteia, a sensului i a pragului de semnificaie;

158

Cristian Opariuc-Dan
Gradele de libertate arat numrul de cazuri luate n calcul pentru un indicator statistic, n condiiile n care exist cel puin o ans de alegere; Mrimea efectului arat proporia de varian comun a variabilelor i se obine prin ridicarea la ptrat a coeficientului de corelaie; Analiza corelaiei nu const doar n interpretarea numeric, ci presupune obligat oriu i analiza grafic;

159

Statistic aplicat n tiinele socio-umane

II. DIFERENE STATISTICE BIVARIATE


n acest capitol se va discuta despre: Planuri de cercetare; Ipoteze i variabile specifice statisticilor infereniale; Teste statistice pentru date parametrice i pentru date neparametrice; Relevana i utilizarea testelor statistice; Dup parcurgerea capitolului, cititorii vor fi capabili s: neleag rolul i importana planurilor de cercetare; Identifice i s proiecteze cercetri bazate pe planuri infereniale; Analizeze i s interpreteze rezultatele testelor statistice; Utilizeze SPSS n calculul testelor statistice.

Studiul relaiilor ntre variabile reprezint doar o mic parte din ars enalul analizei de date pe care l are la dispoziie specialistul n tiine socio umane pentru a desfura o cercetare tiinific. Desigur, cercetrile corela ionale se folosesc atunci cnd dorim s investigm legtura dintre dou variabile (de exemplu legtura dintre coeficientul de inteligen i performana colar) i fac obiectul aa-numitelor planuri de cercetare de tip corelaional. Cum procedm, ns, atunci cnd suntem interesai de studiul diferenelor statistice? Care ar fi abordarea n situaia unei ntrebri de genul: exist diferene determinate de genul biologic sub aspectul performanei la matematic?. n acest caz, un plan de cercetare corelaional nu ne este de prea mare folos. Suntem, din nou, n faa unei provocri. Provocarea analizei infereniale sub aspectelor diferenelor statistice bivariate. Dei i gsete locul mai degrab ntr-o lucrare din domeniul metodologiei cercetrii, urmtorul subcapitol nu poate fi trecut cu vederea. Vom dis-

160

Cristian Opariuc-Dan cuta, aadar, despre planurile de cercetare i vom vedea o alt clasificare a variabilelor.

II.1 Planuri de cercetare


Titlul nu ar trebui s v sperie. Conceptul a fost deja folosit, numai c a venit momentul s-l tratm n detaliu. Un design de cercetare este un plan care permite atribuirea subiecilor n diferite condiii experimentale, mpreun cu modalitile de analiz a datelor rezultate (Kirk, 1995). Acelai autor stipuleaz o serie de etape care presupun crearea unui design de cercetare (Kirk, 1995): 1. Formularea ipotezelor statistice derivate din ipotezele tiinifice; 2. Determinarea condiiilor de cercetare; 3. Specificarea numrului de subieci care urmeaz s participe la cercetare, precum i populaia din care vor fi extrai; 4. Specificarea procedurii de atribuire a subiecilor n diferitele condiii de cercetare; 5. Precizarea tehnicilor ce vor fi folosite pentru analiza datelor. Pn n acest moment, am lucrat cu mai multe clasificri ale variabilelor . Am vzut c acestea pot fi discrete i continui, parametrice i neparam etrice sau, mai detaliat, variabile nominale, ordinale, de interval i de raport. Atunci cnd lucrm cu planuri de cercetare, se impune o nou distincie la acest nivel. Putem vorbi despre variabile independente variabilele ce vor fi manipulate de ctre cercettori, variabile dependente variabilele ce vor fi msurate pentru a vedea efectul exercitat de variabilele independente i variabile confundate variabile ce nu sunt luate iniial n calcul, dar care pot exercita efecte necontrolate asupra variabilelor dependente.
4
4

Desigur, ne referim la clasificrile prezentate n lucrarea anterioar.

161

Statistic aplicat n tiinele socio-umane

n linii mari, un plan de cercetare identific cele trei tipuri de variabile enumerate mai sus, precum i modul n care vor fi selectai i distribuii participanii i, de asemenea, metodele i tehnicile statistice care vor fi folosite. S presupunem c dorii s studiai posibilitile de abandon a fumatului. Avei la dispoziie un tratament medicamentos i un tratament bazat pe ceaiuri din plante. n acest caz, variabila independent va fi: tipul tratamentului, cu dou grade de intensitate medicamentos i naturist. Aceasta este variabila pe care o manipulai dumneavoastr. Vei dori s tii care dintre cele dou forme de tratament influeneaz mai puternic abandonul fumatului. Variabila dependent poate fi operaionalizat prin numrul de igri fumate zilnic. Aceasta este msura abandonului. Ca variabile confundate, putem gsi o mulime: vizualizarea unui clip publicitar, anturajul, preul igrilor, chiar i genul biologic ori mediul de provenien. Toate aceste variabile pot influena abandonul fumatului, ns cercetarea nu le-a izolat, efectele acestora rmnnd necunoscute. Printele planurilor de cercetare a fost Sir Ronald A. Fisher, care n anul 1935, a propus primul principiu al acestora caracterul aleatoriu. Pn atunci, cercettorii foloseau aa-numitele scheme de cercetare sistematice, n care subiecii proveneau din loturi de cercetare selectate, neavnd un caracter aleatoriu (Fisher, 1971). Iniial privit cu suspiciune i ostilitate, acest principiu a devenit, n timp, cheia de bolt a tuturor cercetrilor moderne. Prin atr ibuirea aleatorie a subiecilor n condiiile de cercetare, caracteristicile participanilor se distribuie uniform n toate aceste condiii, astfel nct se pot minimaliza erorile determinate de atributele individuale, existnd chiar posibil itatea msurrii efectului erorilor. Un al doilea principiu formulat de Fisher se refer la posibilitatea replicrii. Replicarea este posibilitatea observrii subiecilor n condiii de cercetare identice. Prin aceste observri repetate se pot estima efectele erorilor,

162

Cristian Opariuc-Dan cercetarea ctignd un plus de precizie sub aspectul efectelor generate de variabila independent. Al treilea principiu este cel al controlului variabilelor confundate. Prin aceste proceduri, un plan de cercetare va izola sursele de variaie dete rminate de alte variabile posibile i va limita efectul acestora asupra variabil elor dependente. Exist mai multe metode prin care se poate realiza acest l ucru. Una dintre acestea se refer la meninerea constant a variabilei confu ndate. De exemplu, dac presupunem c genul biologic al subiecilor poate influena abandonul fumatului, vom efectua dou cercetri, una pe brbai i alta pe femei. O alt metod se refer la tratarea variabilei confundate ca v ariabil de cercetare. Putem include, de exemplu, alturi de variabila indepe ndent tipul de tratament i variabila independent gen biologic: Desigur, cea mai bun metod rmne ns atribuirea aleatorie a subiecilor n condiiile de cercetare. n mod practic, procedura statistic de control a variabilelor confundate poart numele de analiz de covarian (ANCOVA) i va fi expus n cadrul aventurilor noastre n lumea statisticii. Exist un numr impresionant de planuri de cercetare, ns situaiile practice impun utilizarea doar a ctorva. n general, literatura de specialitate distinge ntre (Kirk, 1995): Planuri de cercetare sistematice rar folosite n prezent, deoarece presupun existena unor loturi de cercetare selectate, iar lipsa caracterului aleatoriu induce erori foarte mari. Dintre cele mai cunoscute planuri de cercetare de acest tip, menionm planurile de tip tabl de ah sau half-drill strip ale lui Beavan, planul diagonal de ptrat sau planul n ptrate al lui Knut Vik; Planuri aleatorii cu o singur variabil independent reprezint modele n care exist o singur variabil independent, iar subiecii sunt atribuii aleatoriu n cadrul categoriilor determinate

163

Statistic aplicat n tiinele socio-umane

de aceast variabil. Aceste planuri de cercetare pot accepta absolut aleatoriu atribuirea subiecilor n cadrul categoriilor variabilei independente (cum este planul complet aleatoriu CR-p) sau subiecii sunt atribuii aleatoriu, ns nainte de acest lucru apare o etap intermediar de construcie a unor grupuri sau categorii omogene ale variabilei independente (cum sunt planurile de tip bloc incomplet balansat BIP-p, planul ncruciat CO-p, planul cu blocuri aleatorii generalizate GRB-p, planurile de tip ptrate greco-latine GLS-p i HGLS-p i altele; Planuri aleatorii cu dou sau mai multe variabile independe nte similare planurilor de cercetare anterioare, cu singura diferen a existenei mai multor variabile independente. i aici avem dou situaii particulare. Putem vorbi despre planuri factoriale, n care nu exist o relaie de ordine ntre categoriile variabilelor independente (planuri fr variabile confundate CRF-pq, GRBF-pq, RBF-pq, planuri cu tratarea variabilelor confundate la nivel de grup SPF-p.q, planuri cu interaciunea variabilelor confundate la nivel de grup LSCF-pk i planuri de tip tratare-interaciune) i despre planuri ierarhice, n care se poate pune o relaie de ordine ntre categoriile variabilelor independente, ordine fie total, fie parial; Planuri aleatorii cu una sau mai multe covariane specifice analizei de covarian, n care variabilele confundate sunt tratate prin procedee similare tratrii variabilelor independente; Planuri speciale nu intr n niciuna dintre categoriile de mai sus. De exemplu, planul cu patru grupuri al lui Solomon sau planul cu serii temporare ntrerupte.

164

Cristian Opariuc-Dan Nu v speriai, nu le vom studia pe toate. Ne vom concentra atenia doar asupra ctorva, cele mai utilizate n sfera noastr de interes.

II.1.1 Planuri de cercetare de baz


Reprezint modele de cercetare de baz, din combinarea acestora rezultnd toate celelalte planuri de cercetare uzuale. Specialitii n cercetarea experimental identific trei asemenea modele: designul complet aleatoriu (CR-p), designul aleatoriu cu blocuri (RB-p) i designul ptratelor latine (LSp). nelegerea acestor modele v permite s v descurcai n toate planurile de cercetare existente, acestea nefiind altceva dect combinaii ale planurilor de cercetare de baz.

II.1.1.1 Designul complet aleatoriu (CR-p)


Face parte din categoria planurilor cu o singur variabil independent, n care subiecii sunt distribuii absolut aleatoriu n categoriile acestei variabile. Este, n mod cert, cel mai simplu plan de cercetare posibil i perfect adecvat exemplului nostru anterior. Un asemenea plan se numete plan de tip CR-p (de la Completely Random), unde p reprezint categoriile variabilei independente. n cazul nostru, ipoteza tiinific pe care o vom verifica va fi aceea n care presupunem c nu exist nicio diferen ntre numrul de igri fumate de persoanele care urmeaz tratamentul naturist, n comparaie cu persoanele care urmeaz tratamentul medicaTabelul 2.1 Plan de cercetare de tip CR-2 Variabila independent Tip tratament mentos. De cele mai multe ori, ipoteGrup 1 Medicamentos 30 subieci za tiinific este formulat n termeni Grup 2 Naturist 30 subieci prea generali pentru a putea fi verificat. Va fi necesar transformarea ei ntr-o ipotez statistic: H0:medi natu = 0; H1:medi natu 0

165

Statistic aplicat n tiinele socio-umane

Spre deosebire de ipoteza tiinific, n acest caz vom afirma c nu exist nicio diferen ntre media igrilor fumate de ctre subiecii care urmeaz un tratament medicamentos i media igrilor fumate de subiecii care urmeaz un tratament naturist. Aceasta este ipoteza nul cu care vom lucra, expresia sa matematic fiind expus mai sus. Atenie, ne aflm acum pe terenul statisticilor infereniale! Din datele rezultate n urma studiului va trebui s extindem cunotinele la nivelul ntregii populaii. De aceea, am folosit simbolul pentru medie ca parametru i nu simbolul mediei ca indicator. Planul de cercetare este expus n tabelul 2.1. Evident, este un plan de cercetare de tip CR-2, numrul minim de subieci necesar pentru a se putea respecta regula aplicrii statisticilor parametrice este de 60 de persoane. Primul grup, format din 30 de persoane va urma un tratament medicamentos, iar al doilea grup de 30 de persoane urmeaz un tratament naturist. La sfritul cercetrii vom calcula media igrilor fumate de subiecii din primul grup i media igrilor fumate de subiecii din al doilea grup. Dac cele dou medii difer semnificativ, vom putea respinge ipoteza nul i vom putea afirma c unul dintre cele dou tratamente are un efect semnificativ mai mare (sau mai mic) asupra variabilei dependente. Totui, s vedem ce influeneaz n realitate variabila dependent. Desigur, modificrile la nivelul variabilei dependente pot fi determinate de efectul variabilei independente (de exemplu, cei care urmeaz un tratament naturist se las mai repede de fumat n comparaie cu ceilali). Aceasta s fie oare singura explicaie posibil? Ce spunei de caracteristicile individuale ale participanilor? O persoan cu o voin puternic probabil c va abandona mai uor fumatul n comparaie cu o persoan mai slab. Pot s apar, de asemenea, fluctuaii n dispoziia individului sau erori n procesul de colectare a datelor. Un subiect s-a certat cu eful iar acest lucru determin creterea numrului de igri fumate, sau persoana care nregistreaz datele va trece 21 de igri ntr-o zi, l loc de 11, doar pentru c se gndea la plata datoriilor din 166

Cristian Opariuc-Dan banc. n fine, teoretic, pot exista o infinitate de variabile confundate care s influeneze variabila dependent. Nu putem ti cu certitudine dac modificrile n comportamentul subiecilor se datoreaz, ntr-adevr, influenei exercitate de variabila independent sau au aprut ali factori care le-au determinat. Dac am conveni s notm subiecii cu litera i, unde, n cazul nostru, i poate lua valori ntre 1 i 60, iar cele dou situaii de cercetare cu litera k, unde k poate fi tratamentul naturist sau tratamentul medicamentos, am putea sintetiza acest design de cercetare sub forma: Yik= + k + i(k) S nu ne speriem prea tare! Yik reprezint scorul obinut la variabila dependent de ctre subiectul i aflat n situaia k. De exemplu, Costel este al aselea subiect din grupul supus tratamentului medicamentos, care fumeaz, n medie, 15 igri pe zi. Costel va fi, atunci, Y62 iar valoarea acestui Y devine 15. Aceste 15 igri fumate de Costel la sfritul experimentului reprezint suma a trei parametri. n primul rnd, este vorba despre media mediilor celor dou situaii de cercetare (= (medic+ natur)/2). Dac subiecii din situaia tratamentului medicamentos fumeaz n medie 12 igri, iar subiecii din situaia tratamentului naturist fumeaz n medie 8 igri, atunci o component a celor 15 igri fumate de Costel va fi media 10. O alt component a numrului de igri fumate de Costel este dat de efectul tratamentului k. Desigur, alturi de media mediilor, n compoziia celor 15 igri intr i efectul determinat de tratamentul medicamentos la care a fost supus Costel. n fine, ultima component a scorului observat este dat de efectul erorilor aprute la nivelul grupului din care face parte Costel i(k). Generaliznd, fiecare scor observat reprezint suma celor trei componente: media general, efectul determinat de situaia de cercetare i efectul erorilor din grupul de cercetare. Cnd vorbim despre efectul erorilor, ne referim exact la situaiile expuse mai sus; Costel s-ar fi putut certa la 167

Statistic aplicat n tiinele socio-umane

un moment dat cu soia, are o voin slab, operatorul a introdus greit, la un moment dat, un numr de igri sau l-au strns pantofii trei zile din durata total a experimentului. n mod cert, media general i efectul situaiei de cercetare sunt constante pentru toi subiecii. n acest caz, diferenele dintre participani se datoreaz efectului exercitat de ctre erori. n asemenea planuri de cercetare, inta o reprezint minimizarea efectului generat de erori prin controlul surselor de eroare, astfel nct modificrile la nivelului scorului observat s se datoreze efectului generat de variabila independent. Un asemenea plan de cercetare folosete aa-numitele eantioane independente, deoarece subiecii au fost distribuii aleatoriu n cele dou grupuri de cercetare. n mod normal, cercetrile se fac n baza unor design-uri mai complexe, existnd puine anse s v confruntai cu un plan att de si mplu. Motivele constau tocmai din lipsa posibilitii de control a surselor de eroare.

II.1.1.2 Designul aleatoriu cu blocuri (RB-p)


Reprezint o alt variant a modelelor cu o singur variabil independent, se noteaz RB-p (de la Randomized Block), p avnd aceeai semnificaie ca mai sus. Structural, modelul nu difer de planul anterior. Deosebirile se refer ns la modul de control al variabilelor confundate i la tipul de eantion. Dac designul de cercetare complet aleatoriu folosete eantioane independente, acest model are n vedere eantioane dependente. Eantioanele dependente pot fi obinute prin urmtoarele metode (Kirk, 1995): 1. Observarea fiecrui subiect n fiecare situaie de cercetare, metod numit i cu msurri repetate. Eantioanele dependente sunt formate din aceleai persoane, dar fiecare eantion corespunde altei situaii de cercetare;

168

Cristian Opariuc-Dan 2. Formarea de grupuri de participani avnd caracteristici similare, pe baza unei alte variabile care coreleaz cu variabila dependent, procedur numit similaritatea participanilor; 3. Obinerea grupurilor de subieci identici n baza caracteristicilor genetice (de exemplu grupuri de gemeni un frate ntr-un eantion, cellalt n alt eantion); 4. Alegerea subiecilor care corespund unui criteriu convenit de selecie (de exemplu perechi formate din so i soie soul ntr-un eantion, soia n altul). Dei n teorie este foarte simplu, n practic vei ntmpina dificulti n gsirea subiecilor pe baza crora s construii eantioane dependente. T otui, efortul dumneavoastr va fi rspltit printr-o mai mare precizie a rezultatelor.
Tabelul 2.2 Plan de cercetare de tip RB-2

Bloc 1 Bloc 2 Bloc 3 . . . Bloc 30

Medicamentos Subiect rang 1 Subiect rang 3 Subiect rang 5 . . . Subiect rang 29 Efect medicament

Naturist Subiect rang 2 Subiect rang 4 Subiect rang 6 . . . Subiect rang 30 Efect naturist

Efect bloc 1 Efect bloc 2 Efect bloc 3 . . . Efect bloc 30

Probabil c abandonul fumatului este legat de experiena de fumtor. Exist posibilitatea ca subiecii care au fumat 30 de ani s se lase mai greu de fumat n comparaie cu cei care fumeaz de 30 de zile. Iat o nou variabil confundat care poate influena rezultatele. Dac n grupul supus tratamentului medicamentos avem majoritatea fumtorilor veterani, iar n grupul tratamentului naturist vom avea nceptorii, s-a putea ca eficiena unui tratament s nu aib o importan att de mare, diferenele rezultnd, de 169

Statistic aplicat n tiinele socio-umane

fapt, din vechimea ca fumtor. Putem controla aceast variabil apelnd la nlocuirea eantionului independent cu un eantion dependent. La prima vedere, se pare c metoda ar anula caracterul aleatoriu, ns nu este chiar aa. Toat tehnica rezid n conceptul de blocuri. n cazul nostru, vom aplica metoda similaritii participanilor pentru a construi blocurile de subieci. Vom ntreba cele 60 de persoane ce vechime au ca fumtor, apoi vom ordona su biecii n funcie de vechimea lor i vom stabili rangurile. Restul este foarte simplu. Primul subiect va fi inclus n prima situaie, iar subiectul cu rangul imediat urmtor, n a doua situaie. Acetia vor forma primul bloc. Al doilea bloc se construiete similar. Al treilea subiect se include n prima situaie i al patrulea n cea de-a doua situaie. Vom proceda identic pn n momentul n care s-a construit i cel de-al treizecilea grup. Folosind aceast metod vom constata c n ambele situaii de cercetare avem att subieci veterani, ct i subieci nceptori efectul determinat de variabila vechime fumtor va fi anulat iar cercetarea ctig n precizie. Un astfel de design este un design de tip RB-2 n condiiile controlului variabilei vechime fumtor, planul prezentnd avantaje nete n comparaie cu modelul anterior. Referitor la ipotezele nule care se testeaz prin intermediul acestui plan, observm c nu mai avem de a face cu o singur ipotez nul, ci cu d ou. n primul rnd, putem spune c nu exist diferene semnificative ntre media igrilor fumate de ctre subiecii care urmeaz un tratament medicamentos i media subiecilor care urmeaz un tratament naturist (H0:medi =natu). n al doilea rnd, vom putea spune c nu exist diferene semnificative ntre mediile igrilor fumate de ctre subiecii inclui n cele 30 de blocuri pe baza vechimii ca fumtor (H0:bloc1 = bloc2 = bloc3 = . = bloc30).

170

Cristian Opariuc-Dan n general, cercetarea se concentreaz doar pe prima ipotez. Dei este posibil i a doua ipotez, aceasta nu are un rol activ n studiu, ci mai degrab pe acela de a elimina influena variabilei confundate. Ecuaia caracteristic acestui design este foarte asemntoare cu cea a designului complet aleatoriu, remarcndu-se doar apariia efectului determinat de blocuri: Yik= + k + i+ ik ntr-adevr, scorul observat este compus din media general (media mediilor situaiilor de cercetare) , din efectul exercitat de ctre situaia de cercetare k, din efectul exercitat de blocuri (de vechimea ca fumtor) i i de efectul erorilor, de data aceasta considerat la nivelul ntregului eantion ik. Desigur, efectul erorilor va fi incomparabil mai mic, datorit apariiei efectului determinat de blocuri. Folosind ns metoda similaritii participanilor pentru a construi eantioanele dependente, acest efect al blocurilor se compenseaz i, prin urmare, precizia cercetrii va fi mult mai mare. V putei da seama c izolnd o variabil confundat care contribuia ntr-o bun msur la explicarea variabilei dependente, ai obinut un ctig important n precizia i puterea cercetrii. Acest lucru a fost posibil prin simpla nlocuire a unui design de tip complet aleatoriu cu unul aleatoriu cu blocuri. Creterea preciziei cercetrii poate fi posibil numai n cazul n care variabila confundat are o legtur cu variabila dependent. n cazul n care, de exemplu, am include n loc de vechimea ca fumtor, o alt variabil, s spunem numrul de la pantofi, cercetarea nu numai c nu va ctiga n precizie, dar chiar va pierde din putere din cauza varianei suplimentare introdus de o variabil care nu are nicio legtur cu variabila dependent. Atenie a adar la proiectarea cercetrilor de acest tip!

171

Statistic aplicat n tiinele socio-umane

II.1.1.3 Designul ptratelor latine (LS-p)


Acest model permite controlul unui numr de dou variabile confundate, notndu-se cu LS-p (de la termenul Latin Square). Procedeele sunt similare planului de cercetare anterior, la care se adaug nc o variabil confundat care urmeaz a fi izolat. S presupunem c alturi de vechimea ca fumtor, vom considera c i genul biologic poate influena abandonul fumatului. n acest caz, putem construi un design cu ptrate latine de ordin 2, aa cum rezult i din tabelul 2.3.
Tabelul 2.3 Plan de cercetare de tip LS-2

Brbai Femei

nceptori Medicament Naturist Grup 1 Grup 2 Grup 5 Grup 6 Efect Efect medicament naturist Efect nceptori

Veterani Medicament Naturist Grup 3 Grup 4 Grup 7 Grup 8 Efect Efect medicament naturist Efect veterani

Efect brbai Efect femei

Spre deosebire de designul anterior, remarcm cteva modificri importante: Procedura de alocare a subiecilor n grupele de cercetare este mult mai complex n comparaie cu modelul RB-p; Numrul de linii i de coloane din cadrul acestui design trebuie s fie egal cu numrul situaiilor determinate de variabila independent. n cazul nostru, putem clasifica subiecii doar n dou grupuri de cercetare, dup variabilele confundate vechime fumtor i gen biologic, deoarece tipul tratamentului are doar dou condiii de cercetare; Dac o variabil continu va fi folosit ca variabil confundat, este necesar transformarea acesteia n variabil categorial. Dei vechimea ca fumtor este o variabil continu, expri172

Cristian Opariuc-Dan mat n ani, nu putem s o folosim nici mcar la nivel ordinal, ca n designul de mai sus. Va trebui s mprim subiecii, pe baza acestei variabile, n dou categorii: nceptori i veterani. Toate aceste eforturi sunt ns rspltite printr-o precizie sporit a cercetrii, deoarece nu mai controlm o singur variabil confundat ci dou. Acest plan de cercetare rmne totui un plan cu o singur variabil independent tratamentul. Problema se pune la nivelul controlului variabilelor confundate i nu la includerea unui numr mai mare de variabile independente. Referitor la ipotezele statistice, de data aceasta ne confruntm cu trei ipoteze statistice: n primul rnd, putem spune c nu exist diferene semnificative ntre mediile igrilor fumate de ctre subiecii care urmeaz un tratament med icamentos i subiecii care urmeaz un tratament naturist (H0:medi =natu). n al doilea rnd, vom putea spune c nu exist diferene semnificative ntre media igrilor fumate de ctre subiecii nceptori, n comparaie cu media subiecilor veterani (H0:nceptor = veteran). n al treilea rnd, presupunem c nu exist diferene semnificative ntre media igrilor fumate de ctre brbai i media igrilor fumate de femei (H0:brbai = femei). i n acest caz, interesul cade pe prima ipotez, celelalte avnd un rol secundar, de izolare a variabilelor confundate. Ecuaia designului cu ptrate latine are un numr de ase parametri, fapt concludent pentru plusul de precizie pe care l aduce: Yikmt= + k + m+ t +kmt + i(kmt) Traducerea acestei expresii poate fi fcut destul de uor dac ai n eles principiile expuse mai sus. Numrul mediu de igri fumate de ctre un subiect i, aflat n situaia de tratament k, veteran n ale fumatului m i brbat t 173

Statistic aplicat n tiinele socio-umane

este format din media general , efectul situaiei de tratament k, efectul determinat de vechimea ca fumtor m, precum i efectul determinat de genul biologic t. n componena acestui scor observat intr i efectele exercitate de dou surse de eroare: erorile la nivelul ntregului eantion, numite i efect rezidual kmt, precum i efectul erorilor de la nivelul grupului din care face parte subiectul de exemplu efectul erorilor determinate de faptul c subiectul Costel este brbat, fumtor nrit i urmeaz un tratament medicamentos i(kmt). Desigur, acest plan de cercetare este unul mult mai precis, ns precizia designului s-a obinut printr-o proiectare mai complex i, desigur, printrun numr de subieci mai mare. Pentru a putea desfura un studiu valid, n cazul nostru vom avea nevoie de un numr de 240 de subieci (8 grupe, fiec are grup coninnd un numr de 30 de subieci. Toate cele trei planuri expuse mai sus se numesc planuri de cercetare de baz, deoarece modelele mai complexe pot fi construite prin combinarea a dou sau mai multe planuri de acest tip. Aceste modele formeaz ntreaga structur de organizare i de clasificare a design-urilor de cercetare (Kirk, 1995).

II.1.2 Planuri de cercetare complexe


Multitudinea situaiilor de cercetare are ca efect o multitudine de pl anuri de cercetare derivate din cele trei modele de baz. Nu vom intra n detalii referitoare la acestea, deoarece ar trebui s umplem un numr impresionant de pagini i, n definitiv, ieim din domeniul prezentului volum. Planurile de cercetare sunt tratate n lucrri de metodologia cercetrii, iar dac suntei pasionat de acest subiect, putei studia lucrrile lui Kirk (Kirk, 1995), Fisher (Fisher, 1971), Radu (Radu, i alii, 1993) sau Havrneanu (Havrneanu, 2000), (Havrneanu, 2000).

174

Cristian Opariuc-Dan Totui, nu m pot abine s nu v prezint, foarte pe scurt, cteva dintre modelele complexe cele mai utilizate. n general, clasificarea planurilor de cercetare se face dup cteva criterii (Kirk, 1995): Numrul variabilelor independente i, implicit, numrul situaiilor de cercetare; Atribuirea complet randomizat sau randomizat dup atribuirea n blocuri a participanilor; Existena sau inexistena variabilelor confundate i utilizarea covarianelor; Utilizarea situaiilor de cercetare ncruciate sau pe baza modelului imbricat, numit i model cuib;

Remarcai cu uurin faptul c majoritatea criteriilor de clasificare se leag de particularitile celor trei modele de baz. Ca regul, ntr-un raport de cercetare tiinific este obligatorie introducerea planului de cercetare fol osit, dac studiul se bazeaz pe aa ceva. Pe lng faptul c foarte multe lucrri nici nu pomenesc de planurile de cercetare, unii mai scrupuloi neleg prin design de cercetare o formulare de tipul: s-a folosit un design factorial de tip 2x2. Din nefericire, exist o mulime de planuri factoriale de acest tip, i, prin urmare, se impune o descriere ceva mai precis. Ce fel de design factorial 2x2 s-a folosit? n afara faptului c avem dou variabile independente, fiecare cu cte dou niveluri, formularea de mai sus nu ne mai spune nimic altceva. Exist sau nu variabile confundate? Dac exist, cum vor fi acestea tratate? La nivel de grup? La nivelul interaciunilor dintre grupuri sau la nivelul interaciunilor dintre situaiile de cercetare? Acest lucru este necesar, pentru c exist cel puin 11 planuri de cercetare care respect condiia unui plan factorial 2x2. Ca s v facei o idee, n tabelul 2.4 am furnizat o clasificare a planurilor de cercetare, realizat de Roger Kirk (Kirk, 1995). 175

Statistic aplicat n tiinele socio-umane

Tabelul 2.4 Clasificarea planurilor de cercetare Plan de cercetare Cod Plan de cercetare
I. Planuri de cercetare sistematice (astzi nu se mai folosesc) 1. Tabla de ah Beavan 2. Half-drill strip Beavan 3. Diagonala de ptrat 4. Ptratele Knut Vik -

Cod

II. Planuri aleatorii cu o singur variabil independent II.1. Subiecii sunt repartizai aleatoriu situaiilor de cercetare 1. Planul complet aleatoriu CR-p II.2. nainte de repartizarea aleatorie a subiecilor, sunt construite blocuri sau grupuri relativ omogene 1. Design balansat pe blocuri incomplete BIP-p 2. Design ncruciat CO-p 3. Design randomizat general cu blocuri 4. Design cu ptrate greco-latine 5. Design cu ptrate greco-latine extins 6. Design cu ptrate latine 7. Design latice balansat cu blocuri incomplete 8. Latice parial balansat, blocuri incomplete 9. Design latice nebalansat cu blocuri incomplete 10. Design parial balansat cu blocuri incomplete GRB-p GLS-p HGLS-p LS-p LBIB-p LPBIB-p LUBIB-p PBIB-p

11. Design aleatoriu cu blocuri RB-p 12. Design cu ptrate Youden YBIB-p III. Planuri aleatorii cu o dou sau mai multe variabile indepe ndente III.1. Planuri de cercetare factoriale III.1.1 Planuri de cercetare fr variabile confundate 1. Design factorial complet randomizat CRF-pq 2. Design factorial generalizat randomizat cu blocuri GRBF-pq 3. Design factorial randomizat cu blocuri RBF-pq III.1.2. Planuri cu tratament la nivel de grup al variabilelor confundate 1. Design factorial split-plot SPF-p.q III.1.3. Planuri cu interaciune la nivel de grup a variabilelor confundate 1. Design factorial ptrate latine cu variabile confu nLSCF-pk date 2. Design factorial aleatoriu cu blocuri i variabile RBCF-pk complet confundate 3. Design factorial aleatoriu cu blocuri i variabile RBPF-pk parial confundate

III.1.4. Planuri cu interaciune la nivelul situaiilor exper imentale a variabilelor confundate 1. Design factorial complet aleatoriu CRFF-pk-1 fracionar. 2. Design factorial fracionar cu ptrate GLSFF-pk greco-latine. 3. Design factorial fracionar cu ptrate LSFF-pk latine 4. Design factorial fracionar randomizat cu RBFF-pk-i blocuri III.2. Planuri de cercetare ierarhice III.2.1. Design cu imbricare total (cuib total) 1. Design complet aleatoriu ierarhic CRH-pq(A) 2. Design complet aleatoriu ierarhic cu RBH-pq(A) blocuri III.2.2. Design cu imbricare parial (cuib parial) 1. Design complet aleatoriu ierarhic parial CRPH-pq(A)r 2. Design complet aleatoriu ierarhic parial RBPH-pq(A)r cu blocuri 3. Design ierarhic parial split-plot SPH-p.qr(B) IV. Planuri aleatorii cu una sau mai multe covariaii 1. Design de analiz de covarian complet CRAC-p aleatoriu 2. Design de analiz factorial de covaria nCRFAC-pq complet randomizat 3. Design de analiz de covarian bazat pe LSAC-p ptrate latine 4. Design de analiz de covarian rand oRBAC-p mizat cu blocuri 5. Design de analiz factorial de covaria nSPFAC-p.q split-plot V. Planuri de cercetare speciale 1. Design n patru grupuri Solomon 2. Design serii temporare ntrerupte -

Adaptat dup Roger Kirk (Kirk, 1995)

176

Cristian Opariuc-Dan Acum ce mai spunei? Nu-i aa c lucrurile stau puin altfel dect ai crezut? V putei da seama c o afirmaie de genul plan factorial 2x2 nu mai este suficient. Avei nevoie de ceva mai multe date pentru a v face cunoscute inteniile. Nu vom ncheia acest capitol nainte de a v prezenta, foarte pe scurt, cteva dintre cele mai cunoscute planuri de cercetare complexe.

II.1.2.1 Planul factorial complet randomizat (CRF-pq)


Deriv direct din planul de cercetare complet randomizat i permite analiza efectului exercitat de dou variabile independente. Se noteaz cu CRF-pq (de la Completely Randomized Factorial), iar p reprezint nivelurile unei variabile independente, n timp ce q se refer la nivelurile celeilalte variabile independente. Se poate observa c, spre deosebire de planul cu ptrate latine, acest design nu se refer la o variabil independent i la o variabil confundat, ci la dou variabile independente, plecnd de la presupunerea c nu exist variabile confundate. Desigur, n acest caz nici nu mai este nevoie ca variabilele independente s aib un numr egal de situaii de cercetare. Se poate, foarte bine, ca una s aib dou situaii (cum este, spre exemplu, genul biologic) iar cealalt s aib 3 sau mai multe situaii (de exemplu vrsta, op eraionalizat n tineri, maturi i vrstnici). Ecuaia caracteristic acestui design de cercetare este urmtoarea: Yikm= + k + m+ ()km +i(km) Scorul observat este dat de media general, de efectul exercitat de prima variabil independent, de efectul generat de a doua variabil independent, de efectul comun generat de cele dou variabile independente i de erorile determinate de grupul din care face parte subiectul. Efectele generate separat de fiecare dintre cele dou variabile independente se numesc efecte principale, n timp ce efectul comun, exercitat de ambele variabile independente asupra variabilei dependente, poart numele de efect de interaciune. Erorile se numesc, n termeni de specialitate, reziduuri sau 177

Statistic aplicat n tiinele socio-umane


Tabelul 2.5 Design de cercetare CRF-23

coala primar Gimnaziu Liceu

Masculin 30 30 30

Feminin 30 30 30

Efect principal colarizare Efect de interaciune Gen biologicxcolarizare

Efect principal Gen biologic

efecte reziduale, pe care nu le determin niciuna dintre cele dou variabile independente.

Un asemenea plan de cercetare st la baza analizei de varian (ANOVA), ale crei proprieti le vom studia ulterior.

II.1.2.2 Designul factorial randomizat cu blocuri (RBF-pq)


Planul prezentat anterior poate fi folosit doar n cazul n care nu exist variabile confundate. n momentul n care suspectm existena unei variabile confundate, vom apela la un plan factorial de tip RBF-pq. Diferena dintre cele dou planuri const n faptul c, alturi de variabilele independente, m odelul permite controlul unei variabile confundate. n tabelul 2.5, am reprezentat o cercetare prin intermediul creia intenionam s studiem efectul exercitat de genul biologic i de nivelul de c olarizare asupra venitului personal. Designul, desigur, a fost unul de tip factorial complet randomizat CRF-23, cu dou variabile independente, avnd una un numr de dou grade de intensitate (genul biologic) iar cealalt, trei grade de intensitate (coala primar, gimnaziu i liceu). Cum am putea adapta acest design experimental, dac alturi de cele dou variabile independente, am dori s controlm efectul unei variabile confundate? S relum exemplul fuMedicamentos Naturist matului, introducnd nc o variMR - 30 NR - 30 Rural abil independent, s spunem MU - 30 NU - 30 Urban mediul de provenien, cu dou grade de intensitate: rural i urban. Prezentat ca atare, designul de cercet are este unul factorial complet randomizat de tip CRF-22. tim totui c una
Tabelul 2.6 Design de cercetare CRF-22

178

Cristian Opariuc-Dan dintre posibilele variabile confundate este vechimea ca fumtor. n mod cert, aceasta exercit un efect asupra variabilei dependente numr de igri fumate, iar controlul acesteia se realizeaz similar designului cu blocuri din planurile de baz. n primul rnd, mprim cei 120 de subieci dup nivelurile variabilelor independente, ca n tabelul 2.6. Vom avea 30 de subieci din mediul rural care urmeaz un tratament medicamentos, 30 de subieci din mediul rural care urmeaz un tratament naturist, 30 de subieci din mediul urban cu tratament medicamentos i 30 de subieci din mediul urban cu tratament naturist. Pn aici, nimic spectaculos. Avem un plan factorial complet randomizat, cu dou variabile independente. Pentru a transforma acest plan factor ial ntr-un plan factorial randomizat cu blocuri, de tip RBF-22, va trebui s includem variabila confundat. n acest moment, sunt necesare cteva expl icaii suplimentare. Prima variabil independent, mediul de provenien, este o variabil pe care cercettorul nu o poate controla. Un subiect pur i simplu provine din mediul rural sau urban, prin faptul c locuiete acolo. Cercettorul nu are nicio posibilitate s mute un subiect din mediul rural n mediul urban sau invers. n termeni de specialitate, cercettorul nu poate s atribuie subiecii aleatoriu n cadrul categoriilor acestei variabile. Din acest motiv, experimentele n care intervin asemenea variabile independente se numesc cvasiexperimente. Toate experimentele n care cercettorul poate atribui absolut aleatoriu subiecii n toate categoriile variabilelor independente se numesc experimente reale. n domeniul tiinelor socio-umane, cele mai multe experimente sau cercetri sunt cvasi-experimente. Alte variabile de acest tip sunt genul biologic, grupa sanguin etc. A doua variabil independent, tipul de tratament, permite atribuirea aleatorie a subiecilor n cele dou categorii medicamentos i naturist. Un cercettor poate forma cele dou grupe de cercetare absolut aleatoriu. Din 179

Statistic aplicat n tiinele socio-umane

cauza variabilei independente mediul de provenien, studiul nostru nu este o cercetare real ci o cvasi-cercetare i vom vedea imediat cum acest lucru influeneaz construcia blocurilor. La modul ideal, pentru a construi blocurile bazate pe variabila confundat vechime fumtor, ar trebui s ierarhizm toi cei 120 de subieci dup acest criteriu. n cazul nostru, aceast ierarhizare nu se poate realiza direct, din cauza prezenei variabilei independente mediul de provenien. Ne-am putea confrunta cu situaia n care majoritatea fumtorilor veterani s provin din mediul rural iar majoritatea fumtorilor tineri s fie din m ediul urban. Astfel, suntem nevoii s apelm la o etap intermediar. n primul rnd, mprim subiecii dup nivelurile variabilei independente care nu permite atribuire aleatorie. n cazul nostru, dup variabila independent mediul de provenien. Vom avea, aadar, 60 de subieci din mediul urban i 60 de subieci din mediul rural. Pentru fiecare dintre aceste dou grupe, ierarhizm subiecii dup variabila confundat vechimea ca fumtor , urmnd apoi s construim blocurile.
Tabelul 2.7 Design de cercetare RBF-22

Bloc 1 Bloc 2 Bloc 3 . . . Bloc 60

MR Subiect rang 1 R Subiect rang 3 R Subiect rang 5 R . . . Subiect rang 59 R

Combinaii ale variabilelor independente NR MU NU Subiect rang 2 R Subiect rang 1 U Subiect rang 2 U Subiect rang 4 R Subiect rang 3 U Subiect rang 4 U Subiect rang 6 R Subiect rang 5 U Subiect rang 6 U . . . . . . . . . Subiect rang 60 R Subiect rang 59 U Subiect rang 60 U

Primul bloc va fi format din subiecii cei mai tineri din punctul de vedere al fumatului, att din mediul urban, ct i din mediul rural (rangurile 1 i 2). Al doilea bloc va conine subiecii cu rangurile 3 i 4, al treilea bloc subiecii cu rangurile 5 i 6 i aa mai departe, pn la ultimul bloc. Am con-

180

Cristian Opariuc-Dan struit astfel un plan factorial randomizat cu blocuri, dup cum se poate observa n tabelul 2.7. Bineneles, acest plan factorial este superior planului factorial complet randomizat, deoarece permite includerea unei variabile confundate i, implicit, creterea rigurozitii cercetrii. Ideal ar fi ca ambele variabile ind ependente s permit atribuirea aleatorie a subiecilor. Dac acest lucru nu este posibil, vom proceda dup schema prezentat. Ecuaia caracteristic acestui design de cercetare este urmtoarea: Yikm= + i + k + m+ ()km + ()ikm Scorul observat este dat de media general, de efectul generat de blocuri (variabila confundat), de efectul exercitat de prima variabil independent, de efectul generat de a doua variabil independent, de efectul comun generat de cele dou variabile independente i de efectul erorilor determinate de cele dou variabile independente i de variabila confundat (erori determinate de bloc). * * *

Ne vom opri aici cu expunerea planurilor de cercetare. Acest capitol nu intenioneaz s fac o prezentare exhaustiv a acestora, ci doar s v informeze asupra elementelor de baz legate de proiectarea unei cercetri tii nifice. Informaii suplimentare referitoare la planurile de cercetare i prezentarea detaliat a acestora gsii n lucrri specializate pe metodologia cercetrii, o parte dintre acestea fiind prezentate mai sus. Ai observat deja c planurile de cercetare complexe deriv, de fapt, din cele de baz, nefiind altceva dect combinaii la diferite niveluri ale acestora. S trecem acum la scopul real al acestui capitol, i anume acela de a prezenta cteva tehnici statistice de analiz a datelor bazate pe diferene. 181

Statistic aplicat n tiinele socio-umane

II.2 Teste statistice pentru date neparametrice


Dup cum bine tii, incursiunea noastr va debuta cu studiul testelor statistice care folosesc date neparametrice. Acest lucru l facem din cauz c literatura de specialitate trateaz la un nivel destul de sumar aceste proceduri, ceea ce conduce la o slab nsuire i, de multe ori, la o ignorare a acestora n analizele de date. Cu toate c testele parametrice sunt mult mai puternice, totui administrarea acestora trebuie s respecte condiiile de baz ale datelor parametrice. Pentru detalii suplimentare referitoare la diferena dintre date parametrice i date neparametrice, putei consulta lucrarea anterioar (Opariuc-Dan, 2009).

II.2.1 Diferena dintre frecvene. Testul 2


Despre 2 am discutat pe larg n capitolul destinat analizei legturilor existente ntre variabile. Afirmam atunci c acest indicator poate fi folosit att n cazul studiului gradului de asociere ntre variabile, ct i n situaia analizei diferenelor dintre acestea. Aadar, 2 poate fi att un coeficient de contingen, ct i unul de diferen semnificativ. Caracteristica sa este aceea conform creia 2 se poate folosi atunci cnd lucrm cu frecvene (absolute sau relative), fiind singurul indicator aplicabil lucrului cu date aflate la un nivel nominal de msur. Testul 2 compar frecvenele observate cu cele estimate (teoretice) i ne indic dac diferenele dintre frecvene sunt ntmpltoare sau, din contra, nentmpltoare, semnificative. S considerm, spre exemplu, o cercetare tiinific care are ca obiectiv aflarea faptului dac exist diferene semnificative ntre blonde i brunete n ceea ce privete comiterea de accidente rutiere. Dei cercetarea poate fi abordat printr-un design de cercetare mai complex, noi ne vom rezuma doar la nregistrarea producerii sau a ne-producerii unui accident rutier.

182

Cristian Opariuc-Dan Vom avea, aadar, o singur variabil independent, cu dou grade de intensitate (culoarea prului: blond i brunet) i o singur variabil dependent dihotomic (accident: Da i Nu). Ipoteza nul a acestui studiu susine c nu exist nicio diferen semnificative ntre blonde i brunete referitor la producerea accidentelor rutiere. Datele colectate pot fi sistematizate sub forma unui tabel, asemntor tabelului de contingen, prezentat n capitolul anterior (tabelul 2.8).
Tabelul 2.8 Tabelul de analiz pentru 2

Cu accident Fr accident Total

Blonde 30 A (26,04) 18 C (21,95) 48

Brunete 21 B (24,95) 25 D (21,04) 46

Total 51

43 n=94

n acest tabel am nregistrat frecvenele observate. Au fost studiate 94 de femei, 48 de blonde i 46 de brunete. De asemenea, 51 de femei au comis cel puin un accident rutier, n timp ce 43 de femei nu au comis niciun acc ident rutier. Dintre cele care au comis accidente rutiere, 30 de femei sunt blonde i 21 brunete, n timp ce 18 blonde i 25 de brunete nu au comis accidente. Aceste date sunt, bineneles, fictive i nu corespund unei cercetri reale. Din acest motiv, nu poate exista nicio suspiciune n ceea ce privete preferina mea pentru blonde sau brunete. Voi i demonstra aceast afirmaie. Ambele variabile sunt nominale, variabila dependent avnd i un caracter dihotomic. Faptul c am nregistrat doar frecvenele de apariie ale evenimentelor (a produs sau nu a produs accident) ne situeaz la un nivel de msur pur nominal. Singura metod prin care putem verifica ipoteza nul este testul 2. Formula general de calcul a acestui indicator va fi:

183

Statistic aplicat n tiinele socio-umane

(formula 2.1)

unde fobs reprezint frecvena observat, fast reprezint frecvena estimat sau frecvena teoretic iar n numrul de categorii Desigur, formula este analog celei expuse n capitolul I. Singura diferen se refer la notaia frecvenei teoretice. n capitolul I am notat-o cu Fest, iar aici am convenit s o notm cu fast. Am procedat n acest fel pentru a v obinui cu diferitele stiluri de notare ale formulelor pe care le putei ntlni n lucrrile de specialitate. De asemenea, modalitatea de calcul a frecvenei estimate (teoretice) am prezentat-o n acelai capitol anterior. V-o reamintesc, n caz c ai uitato: (formula 2.2) Iat c avem toate datele necesare calculului, ns haidei s nu ne grbim. n cazul nostru, tabelul are exact 4 celule, deoarece fiecare variabil are dou grade de intensitate (dou niveluri). Cunoscnd aceast situaie, putem simplifica lucrurile i putem renuna la calculul frecvenei estimate, dac aplicm o alt formul, valabil numai pentru tabele de acest tip tabele cu patru celule (Radu, i alii, 1993): (formula 2.3) unde am notat cu f - frecvenele observate din cele patru celule. Iat, vom aplica formula 2.3 pentru a obine valoarea testului 2, urmnd apoi s aplicm i formula 2.1 pentru a vedea c rezultatul este aproximativ acelai.

184

Cristian Opariuc-Dan

Pentru a putea aplica formula 2.1, trebuie s calculm nti frecvenele estimate, pentru fiecare celul, dup formula 2.2. Astfel, vom avea:

Acum putem face calculele dup formula 2.1, rezultnd un 2 de 2,75.

Diferenele dintre cele dou valori ale lui 2 (2,68 dup formula 2.3 i 2,75 dup formula 2.1) apar din cauza erorilor de rotunjire la dou zecimale i sunt nerelevante. Dac ambele variabile sunt dihotomice, se folosete corecia pentru continuitate, aa cum s-a discutat deja n capitolul anterior. Iat, cu graie i cteva calcule am reuit s gsim valoarea acestui i ndicator. Acum, dac tot o avem, ce facem cu ea? Ei bine, comparm aceast valoare cu valorile prag prezentate n tabelul de referin din anexa 3. Mai avem o singur problem: la cte grade de libertate? V mai aducei probabil aminte din primul capitol c gradele de libertate se afl foarte simplu, pe baza liniilor i a coloanelor din tabel. Astfel df=(linii-1)(coloane-1). Noi avem dou linii i dou coloane, prin urmare df=(2-1)(2-1)=1x1=1. Linia care ne intereseaz este, aadar, prima linie din tabelul din anex. Pentru un prag de semnificaie p<0,05, valoarea indicatorului 2 trebuie s fie mai mare de 3,841. Valorile noastre sunt mult mai mici n comparaie cu aceast valoare 185

Statistic aplicat n tiinele socio-umane

de referin, prin urmare testul 2 nu este semnificativ i astfel nu vom respinge ipoteza nul. Aadar, iat c nu exist diferene semnificative ntre blonde i brunete sub aspectul accidentelor comise. Altfel spus, culoarea prului nu determin niciun efect asupra probabilitii de comitere a unui accident. Diferenele dintre blonde i brunete, sub acest aspect, sunt absolut ntmpltoare, culoarea prului neavnd niciun cuvnt de spus. V-ai linitit acum, fetelor? Particularitile acestui coeficient, precum i semnificaia sa, sunt elemente tratate pe larg n primul capitol, asupra crora nu vom reveni aici. Pentru detalii, consultai capitolul referitor la analiza relaiilor ntre variabile. Testul 2 se mai numete i test de concordan, deoarece permite compararea distribuiei datelor observate numite i date empirice cu o repartiie teoretic. Prin intermediul acestor teste se poate nelege legea de evoluie a fenomenului studiat i se poate chiar verifica posibilitatea de utilizare a testelor parametrice (Vasilescu, 1992). Asupra acestor aspecte vom reveni spre finalul capitolului. Desigur, m vei ntreba dac mai exist vreo modalitate prin care s verificm aceast ipotez, sau suntem dependeni complet de 2. Sunt fericit s v informez c da, ntr-adevr, mai exist o variant. Totui, i aceasta se bazeaz pe 2, ns pornete de la o alt teorie, cea a probabilitii maximale (n englez maximum-likelihood theory). Ideea general este aceea a construirii unui model teoretic pentru care probabilitatea de obinere a datelor s fie maxim, apoi compararea datelor observate cu acel model teoretic. Diferena este una subtil i ine de teoria mai sus menionat, teorie pe care o vom aborda i noi ntr-un alt volum. Aceast metod se numete metoda raportului de probabilitate (likelihood ratio), iar indicatorul acestui test se calculeaz dup formula:

186

Cristian Opariuc-Dan

(formula 2.4)

Bnuiesc c v-ai speriat din nou de logaritm. Stai linitii, nu este chiar att de complicat precum pare. Practic, modelul construit nu este altceva dect frecvena estimat, pe care am numit-o i frecven teoretic. n realitate, avem toate datele necesare i putem calcula foarte uor acest indicator statistic.
[ ]

Acest indicator se raporteaz la tabelul din anexa 3, la fel ca i 2. Desigur, testul este din nou nesemnificativ, determinndu-ne s nu respingem ipoteza nul. Pentru eantioane sau loturi de cercetare de mari dimensiuni, valoarea acestui indicator se apropie foarte mult de valoarea lui 2. Totui, acest indicator se prefer atunci cnd volumul eantionului este mic, fiind un indicator mai precis n comparaie cu 2. n final, m simt dator s v atrag atenia asupra ctorva elemente l egate de utilizarea testului 2 i a tuturor indicatorilor derivai din acesta (Field, 2000): Dei 2 se poate folosi i pentru date ordinale sau chiar parametrice (dup cum vom vedea), vom prefera totui s-l utilizm n cazul datelor strict nominale, sau atunci cnd lucrm exclusiv cu frecvene. Este, de fapt, singurul test statistic pentru date aflate la un nivel categorial de msur. Din cauza puterii sale reduse, pentru date ordinale sau parametrice vom prefera alte teste; Este absolut necesar, atunci cnd folosim 2, ca fiecare subiect s se regseasc doar ntr-o singur celul a tabelului de con187

Statistic aplicat n tiinele socio-umane

tingen, i numai n una. Acest lucru nseamn c testul 2 poate fi folosit numai n planuri de cercetare cu eantioane independente, fiind complet inadecvat ntr-un design cu msurri repetate; Testul 2 este relevant doar atunci cnd toate frecvenele ateptate au valori mai mari dect 5. Dac exist celule n care frecvenele ateptate sunt sub 5, testul 2 i pierde puterea. Totui, n tabelele de contingen de mari dimensiuni (n care variabilele au multe niveluri) se accept i unele celule cu frecvena ateptat sub 5, dar acestea nu trebuie s depeasc 20% din numrul total de celule;

II.2.2 Teste pentru eantioane independente


tim deja la ce se refer eantioanele independente. Vorbim despre eantioane independente atunci cnd grupele de subieci din planul nostru de cercetare conin, n general, elemente diferite i cnd selectarea unui element ntr-un eantion nu are nicio legtur cu selectarea elementelor din celelalte eantioane. Exemplul anterior este adecvat acestui tip de cercetare. O parte dintre femei sunt blonde, iar o alt parte brunete. Sunt, iat, dou grupe de cercetare diferite blondele i brunetele care conin, n mod evident, alte persoane. Tehnic vorbind, aceste teste verific omogenitatea celor dou serii de date, adic analizeaz dac au o aceeai repartiie, indiferent dac repartiia este sau nu este specificat. Dac datele au aceeai repartiie, nseamn c eantioanele sunt extrase din aceeai populaie i coincid n privina parametrilor distribuiilor (Vasilescu, 1992). Din aceast categorie fac parte o serie de teste statistice precum: testul medianei, testul U Mann-Whitney, testul Wald-Wolfowitz, testul ColinWhite i altele. 188

Cristian Opariuc-Dan

II.2.2.1 Testul medianei


Acest test statistic neparametric l vei ntlni frecvent sub denumirea de proba medianei i se poate aplica datelor situate cel puin la un nivel de msur ordinal, deoarece se bazeaz pe calculul rangurilor, pe poziia pe care o ocup scorurile n cadrul irului de date. S relum cercetarea anterioar, de data aceasta dezvoltnd planul de cercetare. Vom rmne la aceeai ipotez nul (nu exist diferene ntre blonde i brunete sub aspectul producerii accidentelor rutiere), ns vom modifica variabila dependent. Nu ne vom mai limita doar la nregistrarea produc erii accidentului, ca n cazul anterior, ci vom transforma aceast variabil ntruna ordinal, n care convenim s notm cu 0 lipsa accidentelor, cu 1 accidente uoare, cu 2 accidente medii, 3 accidente grave i 4 accidente foarte grave. n continuare, vom investiga un numr de 20 de femei, 10 blonde i 10 brunete, obinnd urmtoarele date:
Blonde: 1, 3, 2, 2, 4, 0, 0, 2, 1, 3 Brunete: 0, 2, 1, 2, 3, 0, 0, 1, 1, 2

V reamintesc c scorurile nregistrate nu reprezint numrul de accidente produse ci calificativul acestora, dup scala ordinal de mai sus. Am folosit un numr de doar 20 de cazuri din considerente didactice. n realitate, un asemenea studiu are mult mai muli subieci. Desigur, nu se pune problema aplicrii testelor parametrice, variabila dependent fiind aflat n mod natural la un nivel de msur ordinal. Ne decidem s verificm ipoteza nul prin testul medianei. Primul pas presupune calculul medianei pentru cele dou grupe de cercetare. Ordonm datele, cre sctor sau descresctor, mediana aflndu-se la a 5,5-a msurtoare, dup cum tii deja.

189

Statistic aplicat n tiinele socio-umane


Blonde: 0, 0, 1, 1, 2, 2, 2, 3, 3, 4 Brunete: 0, 0, 0, 1, 1, 1, 2, 2, 2, 3 Me(blonde)= 2 Me(brunete)=1

Pentru a verifica ipoteza, vom compara practic cele dou mediane i vom decide dac aceast diferen dintre ele este sau nu este semnificativ. Dar cum facem comparaia? Ai ghicit deja, prin 2. n acest sens, urmtorul pas este reprezentat de calculul medianei generale, mediana ntregului lot de cercetare (n cazul nostru, mediana tuturor celor 20 de femei, blonde i brunete).
Total(blonde+brunete): 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4 Me=1,5

Mediana ntregului lot de cercetare este 1,5, fiind situat, n mod evident, la a 10,5-a msurtoare, ntre valorile 1 i 2. Stabilind aceste elemente de baz, urmeaz s contabilizm numrul de scoruri aflate sub valoarea medianei generale i numrul de scoruri aflate peste valoarea medianei generale. Pentru aceasta vom construi urmtorul tabel de contingen:
Tabelul 2.9 Tabelul de analiz pentru testul medianei

Blonde Brunete Total

Sub mediana general (Me) 4 A 6 C 10

Peste mediana general (Me) 6 B 4 D 10

Total 10 10 n=20

Un numr de 4 blonde i 6 brunete se situeaz sub mediana general din punctul de vedere al gravitii accidentelor, n timp ce 6 blonde i 4 brunete se situeaz peste mediana general la acelai criteriu. ntotdeauna, tabelul de contingen pentru proba medianei va avea exact 4 celule. n acest caz, aplicm formula 2.3 pentru calculul testului 2.

190

Cristian Opariuc-Dan

Valoarea obinut este, n mod evident, nesemnificativ. Totui, am lucrat cu efective foarte mici. n cazul n care ntr-una dintre csue gsim sub 10 scoruri, vom folosi o formul corectat a testului 2, numit corecia lui Yates pentru efective reduse (Radu, i alii, 1993). Aceasta este, dac dorii, formula 1.14 modificat pentru lucrul direct cu frecvenele observate, n cazul tabelelor cu 4 celule.
[ ]

(formula 2.5)

Efectund calculele n baza formulei 2.5, obinem valoarea 1,8 pentru testul . i n acest caz, comparnd valoarea cu valorile de referin din anexa 3, pentru un singur grad de libertate, observm c testul este nesemnificativ. Prin urmare, nu vom respinge ipoteza nul, ansele ca aceasta s se susin fiind mai mari de 5%. Rezultatul studiului nu este concludent, nu exist nicio diferen determinat de culoarea prului, sub aspectul gravitii accidentelor rutiere produse. Din nou, culoarea prului nu exercit niciun efect asupra producerii accidentelor rutiere.
2

Acum suntem n situaia fericit n care nu avem scoruri egale cu mediana general. Dac aceasta ar fi fost, s spunem, 2, am fi avut un numr de 6 scoruri (3 pentru blonde i 3 pentru brunete) egale cu mediana. n asemenea cazuri, vom include scorurile egale cu mediana o dat n categoria scorurilor sub mediana general, i a doua oar n categoria celor peste mediana general, construind dou tabele de contingen cu scoruri egale cu mediana aflate n categoria scorurilor sub median i al doilea tabel, cu scoruri egale cu mediana aflate n categoria scorurilor peste mediana general. Vom calcula, dup modelul de mai sus, valoarea testului 2 pentru ambele tabele i vom lua n considerarea tabelul care are valoarea mai mic a testului 2. 191

Statistic aplicat n tiinele socio-umane

Analiza semnificaiei testului medianei rezid n analiza semnificaiei testului 2 i a coeficientului de contingen 2. Proba medianei se folosete, de obicei, n cazul n care avem un numr mare de ranguri egale. Dac numrul rangurilor egale nu este foarte mare, se prefer alte teste, mai precise, cu ar fi, de exemplu, testul U Mann-Whitney.

II.2.2.2 Testul U Mann-Whitney


Acest test statistic este unul dintre cele mai utilizate tehnici de analiz a datelor din sfera neparametric, alturi de testul Wilcoxon pentru eantioane dependente (perechi). De altfel, unii autori chiar l denumesc testul U Mann-Whitney-Wilcoxon (Vasilescu, 1992), nu pentru c cele dou teste ar reprezenta acelai lucru, ci pentru a reflecta contribuia celor trei statisticieni la dezvoltarea testului U. Testul se aplic, la fel ca i proba medianei, rangurilor pe care le au datele, nefiind sensibil la distribuia acestora, ci doar la numrul de cazuri, dup cum vom vedea imediat. Relum exemplul anterior, singura diferen fiind aceea c nu vom mai contabiliza gravitatea accidentelor dup o scal ordinal, ci numrul acestora, dup o scal de raport. Bineneles, vom investiga, de aceast dat, mai multe persoane 20 de blonde i 20 de brunete.
Tabelul 2.10 Numrul accidentelor produse de blonde i brunete

Accidente Grup Blonde Brunete 0 3 5 1 2 2 2 1 1 3 2 3 4 2 1 5 3 3 6 3 2 7 1 2 8 2 1 20 1 0 Total 20 20

Dac privim cu atenie tabelul de mai sus, vom observa c, cel puin n aparen, avem condiiile aplicrii unor teste parametrice. Totui, nu este aa, acel scor extrem (20 accidente) determinnd o distribuie skewness pozi192

Cristian Opariuc-Dan tiv, cu tendine ctre valori mici ale accidentelor. n acest caz, evident c vom folosi teste neparametrice n locul celor parametrice, mai exact testul U Mann-Whitney. Pentru a determina valoarea exact a testului statistic, trebuie, n primul rnd, s ordonm cresctor sau descresctor datele, apoi s calculm rangurile. Realizm acest lucru prin cumularea cele dou iruri ntr-unul singur. Vom avea 8 femei cu zero accidente, 4 femei cu un accident, 2 femei cu dou accidente i aa mai departe, pn la o singur femeie cu 20 de accidente (tim deja c este blond). Evident, irul a fost n prealabil ordonat cresctor dup numrul accidentelor.
Tabelul 2.11 Calculul rangurilor

Accidente Grup Blonde Brunete Total 0 3 5 8 1 2 3 4 5 6 7 8 4,5 1 2 2 4 9 10 11 12 2 1 1 2 13 14 3 2 3 5 15 16 17 18 19 4 2 1 3 20 21 22 5 3 3 6 23 24 25 26 27 28 6 3 2 5 29 30 31 32 33 7 1 2 3 34 35 36 8 2 1 3 37 38 39 20 1 0 1 40 Total 20 20 40

Poziii

Rang

10,5

13,5

17

21

25,5

31

35

38

40

Calculul rangurilor din tabelul 2.11 s-ar putea s v deruteze puin, ns nu v impacientai. Opt femei nu au comis niciun accident. n mod cert, ele vor ocupa primele opt poziii n irul ordonat (poziiile de la 1 la 8). Deoarece cele opt poziii au aceeai valoare (valoarea zero accidente), rangul va fi reprezentat de media poziiilor ocupate de scoruri. Adunnd numerele de la

193

Statistic aplicat n tiinele socio-umane

unu la opt i mprind suma la opt, rezult 4,5, acesta fiind rangul scorului zero accidente. Urmtoarele patru femei au comis cte un singur accident. Bineneles, ele vor ocupa poziiile urmtoare, de la poziia a noua, la poziia doisprezece. Rangul scorului un accident rutier va fi media acestor patru poziii de la 9 la 12 , adic 10,5. Procedm similar pentru a calcula rangurile tuturor scorurilor din distribuia noastr. Nu este deloc dificil, doar diferit fa de cum erai dumneavoastr obinuii. n urmtoarea etap, va trebui s calculm suma rangurilor pentru fiecare grup de cercetare. Din moment ce tim deja rangul fiecrui scor, suma rangurilor se calculeaz foarte simplu, nmulind efectivul care a obinut scorul respectiv, cu rangul asociat scorurilor, apoi adunnd toate aceste produse. Pentru a ne uura sarcina, vom construi tabelul 2.12 i obinem suma rangurilor pentru grupul blondelor de 444,5 i suma rangurilor pentru brunete 375,5. Suma total a rangurilor va fi 820 (R1+R2=444,5+375,5=820).
Tabelul 2.12 Calculul sumei rangurilor

Scor 0 1 2 3 4 5 6 7 8 20

Blonde Efectiv Rang (f) (r) 3 4,5 2 10,5 1 13,5 2 17 2 21 3 25,5 3 31 1 35 2 38 1 40 R1=444,5

fxr 13,5 21 13,5 34 42 76,5 93 35 76 40

Brunete Efectiv Rang (f) (r) 5 4,5 2 10,5 1 13,5 3 17 1 21 3 25,5 2 31 2 35 1 38 0 40 R2=375,5

fxr 22,5 21 13,5 51 21 76,5 62 70 38 0

194

Cristian Opariuc-Dan Ca msur suplimentar de precauie, vom verifica dac suma total a rangurilor este egal cu , unde n reprezint numrul total de subieci .

(Radu, i alii, 1993). Pentru cazul nostru, ntr-adevr, nu am greit la calcule, suma total a rangurilor fiind corect.

Avnd toate aceste informaii, urmeaz calculul valorii testului statistic U Mann-Whitney, dup formula: ( ) (formula 2.6)

Aceast formul ne arat c vom lua ca referin, pentru testul U Mann-Whitney, cea mai mic valoare dintre cele dou prezentate. S urmrim calculul valorii testului U Mann-Whitney n cazul nostru:
( ( ) )

Efectund calculele, am obinut U=165,5, aceasta fiind cea mai mic valoare dintre cele dou (234,5 i 165,5). n cazul n care cele dou grup uri de subieci au sub 20 de scoruri, valoarea U se poate raporta direct la tabelul de referin din anexa 8. n cazul nostru, pentru n1=20 i n2=20, ne situm n ultima celul a tabelului, cea din dreapta jos. Valoarea testului nostru (165,5) este mai mare dect pragul de referin de 127, precizat n tabel. Deoarece pentru a fi semnificativ la un prag de semnificaie mai mic de 0,05, valoarea testului U trebuie s fie mai mic sau cel mult egal cu aceast valoare (127), vom conchide c testul nu este semnificativ i nu vom respinge ipoteza nul, conform creia nu exist nicio diferen semnificativ ntre blonde i brunete sub aspectul numrului de accidente comise.

195

Statistic aplicat n tiinele socio-umane

Atunci cnd numrul de subieci din cele dou grupuri de cercetare este mare, distribuia testului U se apropie de distribuia normal. n acest caz este mai util s calculm varianta standardizat a testului U Mann-Whitney. Aceast variant numit i scorul z al testului U se bazeaz pe valoarea U calculat anterior i poate fi aflat folosind formula de conversie a valorii nestandardizate U n scorul z pentru U. (formula 2.7)

Dac stpnii noiunile de baz, ai observat deja c formula 2.7 nu este altceva dect aplicarea concret a formulei generale pentru statistica z, fiind, de fapt, scorul U minus media celor dou scoruri U de mprit la abaterea standard a scorurilor U.

Valoarea z pentru datele noastre este de -0,93, valoare pe care o vom considera n modul (fr semn) i o vom raporta la binecunoscuta distribuie z. tim deja c valorile prag pentru distribuia z sunt 1,96 la un prag de semnificaie mai mic de 0,05 i 2,58 pentru un prag de semnificaie mai mic de 0,01. Valoarea noastr (0,93) este mai mic dect valoarea prag corespunztoare nivelului de semnificaie 0,05, testul nostru fiind, dup cum era i firesc, nesemnificativ. Unii autori (Vasilescu, 1992) fac distincie ntre forma standardizat a testului U i forma sa nestandardizat, prima dintre ele purtnd un nume distinct testul Colin-White. ntr-adevr, Mann i Whitney s-au rezumat doar la specificarea i demonstrarea formulei 2.6. Ali statisticieni, printre care Colin i White au continuat activitatea, propunnd forma standardizat, aa cum a fost ea expus n formula 2.7. 196

Cristian Opariuc-Dan Vom ncheia prezentarea acestui test statistic atrgnd atenia asupra unui singur element: atunci cnd comparm direct valoarea U cu valorile prag prezentate n tabelul din anexa 8, aceasta trebuie s fie mai mic sau cel mult egal cu valoarea prag pentru ca testul s prezinte semnificaie statistic. Dac ns lucrm cu notele z, atunci valoarea notei z pentru testul U trebuie s fie mai mare dect valorile prag pentru ca acesta s prezinte semnificaie statistic. Am accentuat asupra acestor idei, deoarece de multe ori se creeaz confuzie la interpretarea semnificaiei testului statistic U MannWhitney. Acest test statistic, dei preferat n mai toate cercetrile care folosesc date neparametrice, se folosete atunci cnd numrul de ranguri egale nu este foarte mare. Dac aceast condiie nu poate fi ndeplinit din cauza naturii datelor, atunci se prefer testul medianei sau se administreaz o serie de procedee i tehnici de corecie pentru egalitatea rangurilor, aceasta fiind ns prea complexe pentru ca s le discutm n cadrul acestui volum.

II.2.2.3 Testul Wald-Wolfowitz


Reprezint un alt tip de test statistic, ntlnit sub denumiri ca testul iteraiilor, testul secvenelor sau testul Runs i se folosete, de obicei, pentru eantioane cu un volum mare, peste 40 de subieci pentru fiecare eantion. O iteraie (secven) reprezint o succesiune de elemente de acelai tip. De exemplu, n tabelul 2.11 avem o iteraie cu lungimea opt format din elemente de tip zero accidente, urmat de o iteraie cu lungimea patru fo rmat din elemente de tip un accident, apoi o iteraie cu lungimea doi format din elemente de tip dou accidente i aa mai departe. Pentru a calcula valoarea testului iteraiilor, avem nevoie att de irul ordonat de date, ct i de irul original, neordonat. Vom modifica puin cercetarea anterioar pentru a corespunde acestei noi cerine.

197

Statistic aplicat n tiinele socio-umane


Blonde: 0, 1, 2, 2, 3 ,5, 3, 5, 5, 3, 2, 0, 1, 3, 4, 5, 3, 2, 1, 1 Brunete: 3, 5, 1, 1, 1, 2, 2, 0, 1, 2, 0, 0, 1, 2, 3, 4 ,3, 5, 1, 1, 3 nbl=20 nbr=21

irurile iniiale conin un numr de 41 de cazuri, 20 de blonde i 21 de brunete, aranjate ca mai sus. Prima blond nu a fcut niciun accident, a doua blond a fcut un singur accident, a treia i a patra blond au fcut, fiecare, cte dou accidente i aa mai departe. Observm c ambele iruri sunt neordonate. n primul pas vom cumula cele dou iruri i vom ordona noul ir cumulat, fie cresctor, fie descresctor.
Total: 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 5, 5, 5, 5, 5, 5 nbl+nbr=41

n al doilea pas, nlocuim elementele din irul cumulat cu o serie de coduri, corespunztoare grupului din care fac parte. Pentru a simplifica lucrurile, vom codifica blondele cu litera A i brunetele cu litera B. Atunci, irul nostru cumulat devine o succesiune de secvene.
A, A, B, B, B, A, A, A, A, B, B, B, B, B, B, B, A, A, A, A, B, B, B, B, A, A, A, A, A, B, B, B, B, A, B, A, A, A, A, B, B

n total, un numr de cinci femei nu au avut niciun accident. Dintre acestea, dou sunt blonde (A, A) i trei brunete (B, B, B). Apoi, unsprezece femei au fcut cte un singur accident. Dintre acestea, patru sunt blonde (A, A, A, A) i apte brunete (B, B, B, B, B, B, B). Vom continua dup acelai algoritm pn recodificm ntregul ir cumulat. Apoi, numrm secvenele obinute. Primele dou litere A formeaz o secven de lungime 2 cu elemente de tip A (din blonde). Urmtoarele trei litere B formeaz o secven de lungime 3 ce conine elemente de tip B (brunete) i aa mai departe. n final, se obine un numr de 12 secvene (R=12, R nsemnnd numr de repetri sau secvene).

198

Cristian Opariuc-Dan Nu ne rmne dect s calculm valoarea z a testului iteraiilor, dup formula urmtoare:
( )

(formula 2.8)

Toate datele necesare nlocuirii n formul exist deja, iar dup efectuarea calculelor obinem o valoare z de -3,03.
( ) ( )

Aceast valoare obinut, luat fr semn, este mai mare dect valoarea critic 2,58 pentru un prag de semnificaie mai mic de 0,01, astfel nct putem respinge ipoteza nul. Folosind aceste date, putem spune c, ntradevr, de aceast dat culoarea prului are efect. Exist diferene ntre blonde i brunete sub aspectul numrului de accidente comise. Pentru a vedea sensul acestor diferene, adic pentru a vedea dac blondele comit mai multe accidente n comparaie cu brunetele sau invers, nu avem dect s calculm medianele celor dou iruri. Acest test statistic este destul de puin folosit n tiinele socio-umane, deoarece procesul de creare a secvenelor este unul miglos i de durat. De cele mai multe ori procedeul este folosit pentru a verifica dac irul de date are sau nu are un caracter aleatoriu. Desigur, procedeul de calcul este altul, se folosete irul de date neordonat, calculndu-se nota z dup o alt formul. Atunci cnd dorim s verificm dac datele au un caracter aleatoriu, alturi de acest test mai avem la dispoziie testul fazelor Wallis-Moore sau

199

Statistic aplicat n tiinele socio-umane

testul diferenelor succesive. Toate se bazeaz pe secvene i pe diferene n cadrul secvenelor, procedeele de lucru fiind asemntoare cu cele ale testului iteraiilor. Nu vom prezenta aceste teste statistice. Pentru cei care doresc s -i nsueasc aceste metode, v invit pe site-ul http://www.statistica-sociala.ro sau pot studia literatura de specialitate.

II.2.3 Teste pentru eantioane dependente


Pentru eantioane dependente (numite i eantioane perechi), utilizate atunci cnd lucrm cu planuri de cercetare bazate pe msurri repetate, avem o alt categorie de teste statistice. V reamintesc c eantioanele perechi se formeaz, de obicei, investignd acelai grup de persoane de dou ori. Exist dou tipuri de teste pentru date situate la un nivel de msur neparametric: testul semnelor i testul Wilcoxon.

II.2.3.1 Testul semnelor


Acest test se folosete atunci cnd planul de cercetare presupune msurri repetate i utilizm eantioane perechi. Proba ne permite s analizm semnificaia diferenelor care apar ntre cele dou serii de msurtori. Prin urmare, accentul nu se pune numaidect pe valori, ci pe semnul diferenelor dintre valori. S presupunem urmtorul experiment, n care studiem efectele unui tratament pentru abandonul fumatului. Vom selecta un grup de fumtori la care msurm numrul de igri fumate iniial. Intervenim apoi cu tratamentul i, la sfritul acestuia, msurm din nou numrul de igri fumate. Acesta este un experiment tipic pentru msurri repetate; aceiai subieci investigai n dou situaii diferite. Ipoteza nul vizeaz egalitatea proporiilor de semne + i n irul nostru de date. n tabelul 2.13 am reprezentat situaia de cercetare de mai sus, pentru un numr de 12 subieci. Observm c primul subiect, M.C., fuma

200

Cristian Opariuc-Dan nainte 10 igri, iar dup tratament fumeaz 6 igri. Subiectul P.A. fumeaz nainte de tratament 9 igri, dup tratament 10 igri i aa mai departe.
Tabelul 2.13 Modalitate de calcul pentru testul semnelor

Subiect M.C. P.A. D.V. S.T. B.L. A.T. M.Z. R.V. I.G. J.I. S.I. A.C.

nainte 10 9 15 13 12 18 21 32 35 24 26 18 8

Dup 6 10 11 11 12 18 20 15 12 29 10 7 = 2

Diferene + = = + + 2

n urmtoarea etap facem diferena dintre scorurile celor dou situaii. Deci, vom avea Diferene=Dup nainte. Nu suntem interesai de valoarea acestei diferene, ci doar de semnul ei, semn pe care l marcm n ultima coloan a tabelului 2.13. Nu ne rmne dect s numrm cte semne - avem, cte semne + i cte situaii de egalitate. n cazul nostru, avem 8 semne minus, 2 egaliti i 2 semne pozitive.

Egalitile nu ne intereseaz, decizia lundu-se doar la nivelul semnelor pozitive i negative. Prin urmare, -=8 i +=2. Numrul total de cazuri (n) va fi considerat + + -, adic 8+2=10. Valoarea de referin (s) reprezint cea mai mic valoare dintre totalul semnelor negative i totalul semnelor pozitive. Deoarece avem 8 semne negative i 2 semne pozitive, valoarea cea mai mic este, evident, 2 i corespunde semnelor pozitive. Prin urmare, s=2 i n=10. Valoarea lui n fiind mic (sub 30 de cazuri), putem raporta valoarea s la tabelul din anexa 10. Pentru n=10, valoarea de referin la un prag de semnificaie mai mic de 0,01 este 1 (a treia linie din anexa 10). Noi am obinut valoarea 2, o valoare care depete valoarea critic minim. Prin urmare, testul este nesemnificativ, fiind nevoii s nu respingem ipoteza nul. n cazul n care numrul de semne (n) este mai mare de 30, distribuia acestora se apropie de o distribuie normal, avnd sens calculul notei z, dup formula urmtoare: 201

Statistic aplicat n tiinele socio-umane

(formula 2.9)

unde s reprezint numrul de semne, dup urmtoarea regul: dac s se refer la numrul de semne mai frecvente, se scade constanta 0,5 dac s se refer la numrul de semne mai puin frecvente, se adaug constanta 0,5

Relund exemplul nostru, am putea avea dou situaii:

n ambele situaii, valoarea z este 1,58, mai mic dect valoarea prag 1,96 pentru un prag de semnificaie mai mic de 0,05. Desigur, testul este nesemnificativ era i normal s fie aa , nu vom respinge ipoteza nul conform creia tratamentul anti-fumat nu are nici un efect.

II.2.3.2 Testul Wilcoxon


Dac proba semnelor aa cum i spune i numele ia n calcul doar semnele diferenelor dintre cele dou situaii, fr apel la valori, pentru a an aliza semnificaia diferenelor dintre cele dou situaii de cercetare, testul Wilcoxon are n vedere alturi de semne i valoarea diferenelor. Trebuie s avei n vedere c att proba semnelor, ct i proba Wilcoxon, sunt teste statistice neparametrice. Forma distribuiei variabilelor 202

Cristian Opariuc-Dan nu are importan, iar nivelul de msur poate fi cel puin unul ordinal. Testul semnelor i proba Wilcoxon pot fi administrate valorilor sau rangurilor, fr ca acest lucru s influeneze importana lor. Pentru clarificare, vom relua exemplul folosit anterior, de data aceasta urmrind calculul unui test statistic mai eficient. Ai dedus bine, este vorba despre testul Wilcoxon. Primul pas, la fel ca i n cazul celeilalte probe, se refer la calculul diferenelor dintre scoruri. De aceast dat vom reine i valorile acestor diferene. Probabil c ai observat un lucru de nuan; dac la testul semnelor diferena a fost Dup nainte, aici diferena este nainte Dup. n realitate acest lucru nu are nicio importan. Singura diferen obinut va fi cea legat de semn. Diferenele pozitive vor fi negative n al doilea caz i reciproc. Nu este cazul s v batei capul prea tare cu aceste diferene, rmne la latitudinea dumneavoastr s le efectuai cum dorii. Dac folosii prima situaie Tabelul 2.14 Modalitate de calcul pentru testul Wilcoxon (Dup nainte) i obiSubiect nainte Dup Diferene Ranguri nei o diferen semnificaM.C. 10 6 +4 +4,5 tiv pozitiv, atunci nP.A. 9 10 -1 -1,5 D.V. 15 11 +4 +4,5 seamn c tratamentul a S.T. 13 11 +2 +3 avut efect, n sensul c a B.L. 12 12 0 A.T. 18 18 0 crescut numrul de igri M.Z. 21 20 +1 +1,5 fumate normal, deoarece R.V. 32 15 +17 +9 diferena pozitiv provine I.G. 35 12 +23 +10 J.I. 24 29 -5 -6 din faptul c valorile n S.I. 26 10 +16 +8 situaia Dup sunt mai A.C. 18 7 +11 +7 mari dect valorile n situR+ 47,5 R7,5 aia nainte. Dac diferena este semnificativ i negativ, nseamn c tratamentul a avut efect n sensul reducerii numrului de igri, conform aceluiai algoritm.

203

Statistic aplicat n tiinele socio-umane

n al doilea pas, renunm la diferenele nule. Toate celelalte diferene le considerm n valori absolute (fr semn) pentru a le ordona. Dup ce le ordonm cresctor, vom stabili rangul fiecrei diferene. n cazul nostru, subiecii B.L. i A.T. sunt eliminai, deoarece diferenele sunt nule. Subiecii P.A. i M.Z. au diferene de un punct primul n sens negativ, al doilea n sens pozitiv. Ocupnd primele dou poziii, rangul va fi 1,5 pentru amndoi, singura diferen fiind semnul rangurilor negativ pentru primul i pozitiv pentru al doilea, n conformitate cu semnul iniial al diferenelor. O singur diferen pozitiv de dou puncte o vom gsi la subiectul S.T. Desigur, ra ngul acesteia va fi pozitiv i avnd valoarea 3. n mod similar, stabilim rangurile tuturor scorurilor. Urmtoarea etap presupune realizarea sumei rangurilor, att pentru rangurile pozitive, ct i pentru cele negative. Adunnd toate rangurile cu plus, obinem 47,5 i adunnd toate rangurile cu minus, obinem 7,5. La fel ca i la testul semnelor, reinem cea mai mic sum a rangurilor n cazul nostru suma celor negative, 7,5. Aceast sum se raporteaz la tabelul din anexa 11. Tabelul indic valoarea maxim pe care o poate lua suma de referin pentru ca testul s fie considerat semnificativ la diferite praguri de se mnificaie. n cazul nostru, pentru n=10, valoarea maxim a sumei poate s fie, 8 pentru un prag de semnificaie mai mic de 0,05. Surpriz, suma noastr cea mai mic are valoarea 7,5, testul Wilcoxon fiind semnificativ la un prag de semnificaie mai mic de 0,05. Ipoteza nul poate fi respins, semnul este negativ, am putea trage concluzia c tratamentul a avut ca efect creterea numrului de igri fumate. Dac eantionul este mare, tim deja ce se poate ntmpla. Distribuia sumei rangurilor tinde spre o distribuie normal, iar n acest caz se poate calcula nota z dup urmtoarea relaie:

204

Cristian Opariuc-Dan

(formula 2.10)

Datele din formul sunt tiute. La fel ca i n cazul anterior, suma rangurilor este cea mai mic sum a rangurilor dintre suma rangurilor pozitive i suma rangurilor negative.

Din nou, a rezultat un test semnificativ la un prag de semnificaie mai mic de 0,05, valoarea obinut (2,03) fiind mai mare de valoarea prag 1,96 a distribuiei z. De ce totui testul semnelor a fost nesemnificativ, iar testul Wilcoxon, semnificativ? Nu vi se pare ciudat? Rspunsul este foarte simplu i v invit s-l descoperii. Cnd l vei descoperi, vei nelege de ce testul Wilcoxon este preferat testului semnelor de care, ntre noi fiind vorba, au auzit destul de puini.

II.3 Teste statistice pentru date parametrice


Adevrata plcere a comparaiilor se afl la nivelul datelor parametrice scalele de interval i de raport. Acum are sens calculul mediei i al abaterii standard, lucrurile devenind mult mai clare. Totui, pe lng nivelul de msur, datele trebuie s respecte i condiia obligatorie a distribuiei normale. Dac una dintre variabile nu are o distribuie normal, fie aplicm procedee de normalizare a distribuiei, fie folosim teste neparametrice. Majoritatea lucrrilor de specialitate disting, la acest nivel, ntre trei mari categorii de teste statistice: teste pentru un s ingur eantion, teste pentru dou eantioane independente i teste pentru dou eantioane perechi.

205

Statistic aplicat n tiinele socio-umane

II.3.1 Teste pentru un singur eantion


Aceste teste statistice compar media unui eantion cu media unei populaii i verific ipoteza nul conform creia nu exist diferene semnificative ntre media populaiei din care s-a extras eantionul i o valoare dat. Altfel spus, vom avea urmtoarele ipoteze: H0: m= - Nu exist nicio diferen ntre media populaiei din care a fost extras eantionul i valoarea dat (ipoteza nul); H1: >m< - Exist o diferen semnificativ ntre media populaiei din care a fost extras eantionul i valoarea dat (ipotez alternativ bilateral); H2: m> - Media populaiei este semnificativ mai mare n comparaie cu valoarea dat (ipotez alternativ unilateral). H3: m< - Media populaiei este semnificativ mai mic n comparaie cu valoarea dat (ipotez alternativ unilateral). Am nceput s folosim concepte reale de cercetare, deoarece avei deja informaii suficiente. Respingerea ipotezei nule duce, dup cum tii, la susinerea uneia dintre cele trei ipoteze alternative. Verificarea ipotezei nule se face prin intermediul a dou teste statistice, astfel: testul z dac se cunoate, alturi de media populaiei, i abaterea standard a acesteia; testul t Student dac nu se cunoate abaterea standard a populaiei.

Totui, ce nseamn media populaiei? Vom insista puin asupra acestui concept, deoarece a dori s evitm pe viitor orice fel de confuzii.

206

Cristian Opariuc-Dan Media populaiei poate nsemna, ad-litteram, media obinut de o colectivitate mare la un parametru. De exemplu, media sticlelor de bere pe care le beau studenii universitii Ovidius din Constana poate fi considerat o medie teoretic (valoarea dat). Dac din acea universitate vom extrage un eantion de studeni de la psihologie, media sticlelor de bere pe care acetia le consum reprezint media eantionului. O alt accepie a mediei populaiei cunoscut mai frecvent sub denumirea de medie teoretic este legat de instrumentul de msur. De exemplu, itemul Ct de frecvent consumai bere? poate primi rspunsuri pe o scal de la 1 la 5, unde 1 nseamn niciodat iar 5 nseamn ntotdeauna. Niciodat 1 2 3 4 ntotdeauna 5

n acest caz, media teoretic (valoarea dat) este reprezentat de mijlocul scalei (valoarea 3), valoare cu care se poate compara media eantionului format din subiecii care au rspuns la acest item. O variant a celor expuse mai sus se refer la media teoretic a unui instrument format din mai muli itemi. De exemplu, un instrument care msoar anxietatea prin 25 de itemi de tipul Da i Nu, poate avea o amplitudine a rspunsurilor cuprins ntre zero puncte (dac un subiect rspunde nesemnificativ clinic la toi itemii) i 25 de puncte (dac un subiect rspunde semnificativ clinic la toi itemii). n acest caz, media teoretic va fi de 12,5, mijlocul scalei anxietate din inventar. Cunoscnd cteva dintre sensurile mediei populaiei, v doresc mult succes la crearea de instrumente i s vedem cum putem compara un eantion cu o populaie.

207

Statistic aplicat n tiinele socio-umane

II.3.1.1 Testul z pentru un eantion


Se folosete n cazul n care dispunem de media populaiei (valoarea dat), abaterea standard a populaiei i, evident, media eantionului. Testul z se calculeaz dup formula:

(formula 2.11)

unde m este media eantionului, este valoarea dat (presupusa medie a populaiei), este abaterea standard a populaiei din care provine eantionul iar n se refer la mrimea eantionului. Formula este foarte uor de aplicat. S presupunem c studenii universitii Ovidius din Constana consum, n medie, 1,3 litri de bere pe zi ( ), cu o abatere standard de 2,1 litri de bere (). Am dori s tim dac studenii de la psihologie consum semnificativ mai mult bere n comparaie cu media pe universitate. Pentru aceasta, convocm un eantion de 34 de studeni la psihologie, mergem la restaurant timp de o sptmn i vedem cam ct bere consum. Presupunem c am ajuns la concluzia c acetia consum, n medie, 2,1 litri de bere zilnic (m). H0: m= - Nu exist nicio diferen semnificativ ntre cantitatea de bere consumat de studenii de la psihologie (populaia din care a fost extras eantionul) i cantitatea de bere consumat de studenii universitii Ovidius Constana (valoarea teoretic dat, cu care se compar media populaiei din care s-a extras eantionul); H1: m> - Studenii de la psihologie consum semnificativ mai mult bere n comparaie cu studenii universitii Ovidius Constana. Ipoteza alternativ este, n mod cert, o ipotez unilateral. De ce am formulat aa, vom vedea imediat.

208

Cristian Opariuc-Dan Avnd toate aceste informaii, presupunnd c datele se distribuie normal la nivelul populaiei de studeni de la psihologie, constatm c ndeplinim condiiile de aplicare ale testului z.

Desigur, valoarea obinut (2,22) o vom raporta la distribuia z. Cred c deja inei minte valorile critice pentru notele z 1,96 pentru un prag de semnificaie mai mic de 0,05 i 2,58 pentru pragul de semnificaie mai mic de 0,01. Testul z calculat de noi este mai mare dect valoarea critic pentru pragul de semnificaie p<0,05 i mai mic dect valoarea pentru pragul de semnificaie p<0,01. Putem, deci, respinge ipoteza nul la un p<0,05. ntr-adevr, exist o diferen semnificativ ntre cantitatea de bere consumat de stude nii de la psihologie i cantitatea de bere consumat de studenii universitii Ovidius, n general. Dei am respins ipoteza nul, putem oare susine ipoteza alternativ formulat? Nu v grbii s rspundei! Ipoteza alternativ este o ipotez unilateral, iar pragurile pentru valoarea z sunt date pentru o ipotez bilateral. n cazul ipotezelor unilaterale, acestea devin: z=1,65 pentru p<0,05; z=2,33 pentru p<0,01.

Lucrurile se schimb puin. ntr-adevr, ipoteza alternativ se susine la un prag de semnificaie mai mic de 0,05. Dac am fi obinut valoarea z=2,34 n loc de 2,22, iat c ipoteza unilateral s -ar fi susinut la un prag de semnificaie mai mic de 0,01 n comparaie cu pragul de semnificaie 0,05 pentru ipoteze bilaterale. Scopul acestui exemplu este acela de a v arta c, de multe ori, este mai util s formulai ipoteze unilaterale.

209

Statistic aplicat n tiinele socio-umane

Folosind testul z am artat c studenii de la psihologie consum semnificativ mai mult bere n comparaie cu media consumului studenilor universitii Ovidius. Dac valoarea z ar fi fost negativ (dac am fi artat c studenii consum semnificativ mai puin bere), ipoteza alternativ, formulat unilateral, ca mai sus, nu s-ar fi putut susine.

II.3.1.2 Testul t Student pentru un singur eantion


O asemenea situaie fericit, n care s avem la dispoziie att media ct i abaterea standard a populaiei se ntlnete, din pcate, extrem de rar, aproape niciodat. Dac media populaiei o putem afla de obicei sub forma mediei teoretice , abaterea standard a acesteia este aproape imposibil de cuantificat. Totui, dac ai studiat statistica univariat, trebuie s tii c abaterea standard a unui eantion aproximeaz destul de bine abaterea standard a populaiei. Cnd spunem destul de bine, n limbaj tehnic, spunem c aceasta nu urmeaz o distribuie z ci o distribuie t, i iat testul t Student:

(formula 2.12)

unde m este media eantionului, este media populaiei din care a fost extras eantionul, s este abaterea standard a eantionului iar n se refer la mrimea eantionului. mi vei spune c este formula testului z i avei oarecum dreptate. ntr-adevr, testul t Student pentru un eantion este o form adaptat a testului z, n care se nlocuiete doar abaterea standard a populaiei cu abaterea standard a eantionului. Poate c v surprinde numele acestui test, mai ales apelativul Student. Nu ntmpltor am ales berea ca exemplu pentru aceste teste. ntradevr, testele t au fost descoperite n anul 1908 de ctre William Sealy Gosset, un chimist angajat la berriile irlandeze Guinness pentru a concepe

210

Cristian Opariuc-Dan un nou tip de bere (de fapt exact berea neagr Guinness pe care o bem acum). Proaspt absolvent al universitii Oxford, Gosset a fost imediat botezat de ctre noul su patron cu numele de studentul. Monitoriznd ingredientele berii i inventnd testele t, studentul a vzut ce anume face diferena semnificativ la nivel de calitate. Deoarece procedeul de fabricaie inclusiv metodele matematice folosite reprezentau un secret comercial, Gosset a fost nevoit s publice descoperirea testelor t, n revista Biometrika, nu sub numele su real ci sub pseudonimul cu care l gratulase eful su. Acesta este motivul pentru care cele mai cunoscute teste statistice de comparaie poart un nume att de ciudat. Dup ce ne-am relaxat puin, vom reconsidera exemplul anterior. Studenii universitii Ovidius din Constana consum, n medie, 1,3 litri de bere pe zi (), iar un eantion de 34 de studeni la psihologie, consum, n medie, 2,1 litri de bere zilnic (m), cu o abatere standard de 3,1 litri de bere (s). n acest caz, valoarea testului t devine:

Aceast valoare va trebui s o raportm la valorile de referin din anexa 4. Deoarece avem un singur eantion, numrul gradelor de libertate pentru care vom calcula semnificaia testului va fi df=n-1. Avnd 34 de subieci, vom cuta pentru un numr de 33 grade de libertate. Totodat, ne amintim c ipoteza alternativ este o ipotez unilateral, astfel nct valorile de referin se vor calcula folosind primul cap de tabel i nu pe cel de-al doilea. Pentru numrul de grade de libertate dat (33), valoarea de referin a testului t la un prag de semnificaie minim mai mic de 0,05 este de 2,03. V aloarea noastr (1,50) este mult mai mic n comparaie cu aceast valoare prag, testul statistic nefiind semnificativ. Prin urmare, ipoteza nul nu poate fi respins. 211

Statistic aplicat n tiinele socio-umane

II.3.2 Teste pentru dou eantioane independente


Semnificaia eantioanelor independente se pstreaz i n cazul testelor statistice parametrice. La fel ca i testele pentru un singur eantion, i aici avem un numr de dou teste statistice testul z i testul t Student. Ambele teste verific ipoteza nul conform creia nu exist nicio diferen semnificativ ntre mediile celor dou populaii din care s-au extras eantioanele. H0: m1=m2 - Nu exist nicio diferen ntre mediile celor dou populaii din care s-au extras eantioanele (ipoteza nul); H1: m1m2 - Exist o diferen semnificativ ntre mediile celor dou populaii din care s-au extras eantioanele (ipotez alternativ bilateral); H2: m1>m2 - Media primului eantion este semnificativ mai mare n comparaie cu media celui de-al doilea eantion (ipotez alternativ unilateral). H3: m1<m2 - Media primului eantion este semnificativ mai mic n comparaie cu media celui de-al doilea eantion (ipotez alternativ unilateral).

II.3.2.1 Testul z pentru eantioane independente


Testul z se utilizeaz n momentul n care dispersiile populaiilor din care au fost extrase eantioanele sunt cunoscute, numrul de subieci din fi ecare eantion fiind, evident, mai mare de 30. Relaia de calcul a acestui test statistic este urmtoarea: (formula 2.13)

Semnificaia elementelor formulei o cunoatei deja, astfel nct nu va trebui s intrm n detalii. Valoarea calculat, fiind o not z, se raporteaz l a distribuia z n funcie de tipul ipotezei alternative. 212

Cristian Opariuc-Dan S presupunem c dorim s aflm dac studenii universitii Ovidius din Constana beau mai mult sau mai puin bere n comparaie cu studenii universitii Alexandru Ioan Cuza din Iai. H0: m1=m2 Nu exist nicio diferen ntre cantitatea de bere but de ctre studenii universitii Ovidius din Constana i cantitatea de bere but de ctre studenii universitii Alexandru Ioan Cuza din Iai. H1: m1m2 ntre cantitatea de bere but de studenii universitii Ovidius Constana i cantitatea de bere but de studenii universitii Al exandru Ioan Cuza din Iai exist o diferen semnificativ. n mod cert, ipoteza alternativ este o ipotez bilateral, pragurile de semnificaie fiind 1,96 pentru p<0,05 i 2,58 pentru p<0,01. Nu avem nevoie dect de abaterile standard la nivelul populaiei pentru a desfura cercetarea. S presupunem c abaterea standard a studenilor universitii Ovidius este de 1,34 litri de bere, iar cea a studenilor universitii Alexandru Ioan Cuza este de 1,76 litri de bere. Desfurnd cercetarea pe un lot de cercetare de 42 de persoane de la universitatea Ovidius Constana, am constatat c media berii consumate este de 2,10 litri, n timp ce pe lotul de cercetare de 45 de persoane de la Iai, media a fost de 1,87 litri. Ne punem problema dac cele dou medii difer se mnificativ. Notm cu m1 media pentru Constana i cu m2 media pentru Iai, dup care aplicm formula.

Valoarea obinut este cu mult sub valoarea prag, diferenele dintre cele dou medii sunt nesemnificative, ipoteza nul nu poate fi respins.

213

Statistic aplicat n tiinele socio-umane

II.3.2.2 Testul t Student pentru eantioane independente


La fel ca la testele pentru un singur eantion, i aici testul z este supus acelorai limitri. Nu vom reui aproape niciodat s aflm abaterea standard a populaiilor din care provin cele dou eantioane i va trebui s ne bazm pe abaterea standard a eantioanelor. Dac cele dou populaii din care au fost extrase eantioanele au aceleai variane, comparaia mediilor se poate face dup urmtoarea formul: (formula 2.14)
( )

Dac privim cu atenie formula 2.14, observm c prima parte de sub radical nu reprezint altceva dect media aritmetic a varianelor celor dou eantioane. De aceea, formula de mai sus o putei gsi exprimat i n felul urmtor:
( )

(formula 2.15)

unde s2 este dispersia ntregului lot de cercetare, obinut prin cumularea dispersiilor celor dou eantioane independente. Formula 2.15 este, n general, mai puin utilizat n comparaie cu formula 2.14, dintr-un motiv foarte simplu; este mai uor s calculm varianele (sau abaterile standard) fiecrui eantion dect s cumulm datele celor dou eantioane i s introducem pai de calcul suplimentari, doar pentru a calcula variana total a celor dou eantioane, aa cum o cere formula 2.15. n exemplul de mai sus, alturi de medii (m1=2,10 litri i m2=1,87 litri) i de numrul de studeni (n1=45 studeni i n2=45 studeni) vom presupune c tim i abaterile standard (s1=0,35 litri i s2=0,98 litri). De fapt, aceasta este i situaia clasic de cercetare. Mult mai uor aflm abaterile standard ale unui eantion (s) dect abaterile standard ale populaiei (). 214

Cristian Opariuc-Dan

Valoarea testului t obinut (1,48) o comparm cu valoarea de referin din anexa 4. nainte de a face acest lucru, trebuie s decidem asupra numrului de grade de libertate. Deoarece vorbim despre dou eantioane independente, tii deja c fiecare eantion pierde un grad de libertate. Atunci, numrul total al gradelor de libertate va fi df=n1+n2-2. Adic, n situaia noastr, df va fi 45+45-2=88 grade de libertate. n tabel, pentru 80 de grade de libertate (valoarea imediat inferioar valorii cutate), avem, pentru un p<0,05, o valoare a testului t de 1,99 n cazul ipotezei unidirecionale i 1,66 pentru ipoteza bidirecional. Indiferent de modul n care formulm ipoteza, valoarea noastr (1,48) este mai mic dect valoarea prag. Testul este nesemnificativ, nu exist nicio diferen ntre cant itile de bere consumate de studenii universitii Ovidius n comparaie cu cei de la Iai. Asta este situaia, nu putem respinge ipoteza nul, toi studenii sunt aproximativ la fel sub aspectul consumului de bere. Referitor la acest test statistic, formula 2.14 sau 2.15 se aplic doar atunci cnd dispersiile sunt egale (cnd s1=s2). Desigur, este aproape imposibil s ntlnim dispersii absolut egale, de aceea egalitatea varianelor (dispersiilor) se verific printr-un alt test statistic (testul F al lui Levene) pe care nu-l vom detalia acum. Tot ceea ce v pot spune este c acest test statistic are ca ipotez nul egalitatea varianelor populaiilor din care au fost extrase eantioanele (H0: s1=s2=s3=.=sn). Dac testul nu este semnificativ, atunci nu respingem ipoteza nul i putem aplica formulele 2.14 sau 2.15. Dac testul

215

Statistic aplicat n tiinele socio-umane

este semnificativ, atunci varianele nu sunt egale i va trebui s folosim o alt formul, o formul ajustat pentru testul t Student. (formula 2.16)

nsi formula de calcul a testului F al lui Levene ei bine, cel puin o form prescurtat a sa este foarte simpl: . Observai c nu este alt-

ceva dect un raport al celor dou variane. Acest raport se verific folosinduse distribuia F, distribuie pe care nu o vom trata n acest volum, ci o vom aborda n urmtoarea carte, cnd vom discuta despre analiza de varian. n exemplul nostru, evident c cele dou variane nu sunt egale. M vei crede pe cuvnt atunci cnd v voi spune c testul F este semnificativ, ipoteza nul a egalitii varianelor fiind respins. Atunci, valoarea corect a testului t, n cazul nostru, va fi 1,49.

Nu este cine tie ce ctig, este doar o ajustare. Oricum, testul t rmne, n continuare, nesemnificativ.

II.3.3 Teste pentru dou eantioane perechi


Eantioanele perechi, numite i eantioane corelate sau eantioane dependente, provin n urma cercetrilor cu msurri repetate, aa cum deja cunoatei. Literatura de specialitate menioneaz, pentru eantioane perechi, doar testul t Student. Acest test statistic, verific aceeai ipoteza nul conform creia nu exist nicio diferen semnificativ ntre mediile celor dou populaii din care au fost extrase eantioanele, distincia realizndu-se doar la nivelul construciei eantioanelor: 216

Cristian Opariuc-Dan H0: m1=m2 - Nu exist nicio diferen ntre mediile celor dou populaii din care s-au extras eantioanele perechi (ipoteza nul); H1: m1m2 - Exist o diferen semnificativ ntre mediile celor dou populaii din care s-au extras eantioanele perechi (ipotez alternativ bilateral); H2: m1>m2 - Media primului eantion este semnificativ mai mare n comparaie cu media celui de-al doilea eantion (ipotez alternativ unilateral). H3: m1<m2 - Media primului eantion este semnificativ mai mic n comparaie cu media celui de-al doilea eantion (ipotez alternativ unilateral). Pentru a nu ne limita la o abordare simplist, s considerm urmtorul experiment: Un numr de 15 fumtori au participat la o edin de psihoterapie n vederea abandonrii fumatului. Ne intereseaz s tim dac edina de psih oterapie a avut sau nu a avut efect. Prin urmare, ce s-a ntmplat cu numrul igrilor fumate de ctre cei 15 fumtori dup psihoterapie. Ipoteza nul ne spune c edina de psihoterapie nu are niciun efect. Transpus n termeni tiinifici, avem urmtoarele posibiliti: H0: m1=m2 Nu exist nicio diferen semnificativ ntre media igrilor fumate nainte de edina de psihoterapie i media igrilor fumate dup edina de psihoterapie (ipoteza nul); H1: m1m2 Exist o diferen semnificativ ntre media igrilor fumate nainte de edina de psihoterapie i media igrilor fumate dup edina de psihoterapie (ipotez alternativ bilateral); H2: m1>m2 Media igrilor fumate naintea edinei de psihoterapie este semnificativ mai mare n comparaie cu media igrilor fumate dup e217

Statistic aplicat n tiinele socio-umane

dina de psihoterapie (ipotez alternativ unilateral - edina de psihoterapie are ca efect creterea numrului de igri fumate). H3: m1<m2 - Media igrilor fumate naintea edinei de psihoterapie este semnificativ mai mic n comparaie cu media igrilor fumate dup edina de psihoterapie (ipotez alternativ unilateral - edina de psihoterapie are ca efect scderea numrului de igri fumate).
Tabelul 2.15 Modalitate de calcul pentru testul t Student eantioane dependente

nainte Dup 30 18 19 16 28 20 41 21 25 14 23 12 32 11 28 10 26 5 31 12 38 11 40 4 42 13 41 19 35 10 n=15

Dup-nainte -12 -3 -8 -20 -11 -11 -21 -18 -21 -19 -27 -36 -29 -22 -25 dif=-283

(Dup-nainte)2 144 9 64 400 121 121 441 324 441 361 729 1296 841 484 625 dif2=6401

Dac privim ipotezele de mai sus, n special cele trei ipoteze alternative, constatm c ne intereseaz, n special, ipoteza a treia. Aceasta ar avea valoare, ar fundamenta att efectul edinei de psihoterapie ct i motivaia subiecilor. Desigur, primul pas l reprezint colectarea datelor. Vom nregistra numrul de igri fumate de cei 15 subieci, att nainte, ct i dup edina de psihoterapie. Re-

zultatele le vom consemna n tabelul 2.15. Dup colectarea datelor, efectum diferenele dintre situaia final i situaia iniial, aceste diferene fiind nregistrate cu tot cu semn. La sfrit, va trebui s facem suma tuturor diferenelor calculate. Suma, n cazul exemplului nostru, este de -283. innd cont de specificul cercetrii, suma ne spune c dup psihoterapie, subiecii fumeaz mai puin cu 283 de igri. Pare frumos, ns trebuie s vedem dac este i semnificativ.

218

Cristian Opariuc-Dan Ultima etap de calcul n tabel presupune ridicarea la ptrat a tuturor diferenelor i calculul sumei acestor ptrate. Suma ptratelor diferenelor este, pentru studiul propus, de 6401. Imediat vom vedea la ce ne folosete. Testul t Student pentru eantioane perechi se calculeaz dup expresia urmtoare: (formula 2.17)

unde mdif reprezint media diferenelor, iar sdif dispersia acestora Pentru a calcula valoarea acestui test, nu trebuie dect s aflm media i dispersia diferenelor. Media diferenelor este foarte simplu de aflat. mprim suma diferenelor la numrul de subieci. Aadar, nlocuind datele, avem mdif=-283/15=-18,86. Pentru a calcula dispersia diferenelor, va trebui s aplicm o alt formul, n acord cu formula de definiie a dispersiei.
( )

(formula 2.18) Desigur, avem deja toate datele necesare pentru a calcula dispersia diferenelor.
( )

Acum nu rmne dect s folosim formula testului t Student pentru eantioane perechi (formula 2.17)

219

Statistic aplicat n tiinele socio-umane

Valoarea lui t (8,41) se raporteaz la valorile de referin din anexa 4 pentru un numr de n-1 grade de libertate. Din ce motiv folosim n-1 i nu forma de la eantioane independente, v lsm pe dumneavoastr s explicai. Nu uitm faptul c s-a utilizat o ipotez unilateral i nu bilateral. Pentru 14 grade de libertate, valoarea de referin la nivelul unei ipoteze unilaterale i la un p<0,05 este de 2,14, iar pentru p <0,01 este de 2,97. Testul nostru este semnificativ la un p<0,01, putem respinge ipoteza nul. Semnul testului (negativ) arat c scznd situaia nainte din situaia Dup, obinem un numr cu semnul minus. Asta nseamn c situaia Dup are valori semnificativ mai mici n comparaie cu situaia nainte. n cazul nostru, psihoterapia a avut un efect semnificativ, determinnd scderea se mnificativ a numrului de igri fumate, la un prag de semnificaie mai mic de 0,01. Pentru cei dintre dumneavoastr crora au nceput s le plac formulele complexe, pentru a-i impresiona prietenii i/sau prietenele, putem combina formulele 2.17 i 2.18 ntr-o expresie de calcul unic a testului t Student pentru eantioane dependente (formula 2.19)
( )

II.4 Teste statistice de normalitate i teste pentru valori aberante


n cadrul acestui capitol vom discuta despre dou categorii specifice de teste statistice. Este vorba despre testele pentru valori aberante i testele de normalitate. Explicaii detaliate referitoare la fiecare categorie, vei gsi n subcapitolele adiacente. Dar s ncepem cu o nclzire uoar i s abordm testele pentru valori aberante.

220

Cristian Opariuc-Dan

II.4.1 Teste pentru valori aberante


Mult timp am stat n dubii referitor la includerea acestor categorii de teste. Adevrul este c nu le folosete prea mult lume. Decizia de a le trata aici, a survenit n urma unei discuii cu profesorul Filaret Sntion, eful cat edrei de psihologie de la Universitatea Ovidius din Constana. Domnia sa mi-a pus, la un moment dat, o ntrebare: atunci cnd apar scoruri extreme ntr-o distribuie, ce facem cu ele? Din cte tii deja, pentru a beneficia de suportul i puterea testelor parametrice, vom renuna la subiectul cu acel scor e xtrem. Totui acesta s fie rspunsul? Haidei s ne imaginm un experiment n care urmrim s investigm reacia unor subieci la imagini cu coninut violent. Variabila dependent ar fi ritmul cardiac pulsul n limbaj comun. S presupunem c majoritatea subiecilor ar avea pulsul ntre 100 i 110 bti pe minut, cu excepia unui singur subiect, la care pulsul ar fi de 185 de bti pe minut. Desigur, acest scor ar fi un scor extrem, cel puin la prima vedere. Acum, revenim la ntrebarea profesorului Sntion; ce facem cu acest subiect? l eliminm din analiz sau l tratm ca un caz de hiperemotivitate i hipe rsensibilitate? n realitate rspunsul la aceast ntrebare depinde de scopul cercetrii, neexistnd soluii universal valabile. Problema este, ns, alta. Cum decidem dac un scor este sau nu este extrem? Pn la ce limit putem vorbi de scoruri aberante? n cartea anterio ar ai nvat o metod grafic pentru depistarea acestor valori. V amintii, era vorba despre graficul box-plot, cutie cu musti cum l-am denumit noi. Desigur, metodele grafice sunt utile n vederea conturrii unei preri subiective. n statistic avem nevoie, aproape de fiecare dat, nu de preri subiect ive ci de date obiective, demonstrabile. Iat i raiunea pentru care exist i teste statistice de depistare a valorilor aberante. Majoritatea acestor teste au n vedere un ir ordonat de date, iar formulele difer n funcie de valoarea aberant testat dac aceast valoare se situeaz la limita inferioar a irului sau la limita superioar a acestuia. 221

Statistic aplicat n tiinele socio-umane

II.4.1.1 Testul Romanovski


Este un test pentru valori aberante, aplicabil pe loturi de cercetare de mici dimensiuni, sub 20 de cazuri. Formulele de calcul pentru acest test sunt urmtoarele:

(formula 2.20) (formula 2.21)

unde xaber reprezint valoarea aberant, m reprezint media valorilor din irul de date fr valoarea aberant iar se refer la abaterea standard a valorilor din irul de date, de asemenea fr valoarea aberant. Dup cum observai, formulele se aplic difereniat. Dac valoarea aberant este cea mai mare valoare, se aplic formula 2.20, iar dac valoarea aberant este cea mai mic valoare din ir, se aplic 2.21. Exemplele de calcul pentru aceste teste nu sunt foarte complexe. S presupunem c n urma unui test de inteligen, aplicat unui numr de 18 persoane, una dintre persoane a obinut scorul 2. Toate celelalte persoane au scoruri cuprinse ntre 15 i 38 de puncte. n prima etap, excludem persoana care a obinut scorul 2 i calculm media i abaterea standard pentru celelalte 17 persoane rmase. Presupunem c media scorurilor este de 23,10 puncte, iar abaterea standard este 2,13 puncte. Deoarece valoarea 2 este valoarea inferioar din irul de date, aplicm formula 2.21 pentru testul Romanovski i obinem valoarea 9,63

Ipoteza nul a acestui test statistic postuleaz c valoarea nu este aberant. Dac testul este semnificativ, atunci se respinge ipoteza nul, valoarea 222

Cristian Opariuc-Dan testat fiind aberant. Testul statistic este semnificativ dac valoarea sa este mai mare sau egal cu valoarea de referin prezentat n tabelul din anexa 12. Pentru n=18, valoarea de referin este 2,17 la un prag de semnificaie mai mic de 0,05 i 3,00 pentru un prag de semnificaie mai mic de 0,01. n mod cert, testul nostru este semnificativ la un prag de semnificaie mai mic de 0,01, ipoteza nul se respinge, valoarea testat (2) fiind o valoare aberant.

II.4.1.2 Testul Dixon


Este un alt test pentru valori aberante, aplicabil pentru iruri de pn la 25 de scoruri, bazat pe ordonarea irului. Dac valoarea suspect este cea mai mic valoare din Tabelul 2.16 Pragurile critice i formulele de calcul pentru testul Dixon ir, irul se ordoneaz n 0,05 0,01 Formula 3 0,941 0,988 cresctor. Dac valoarea 4 0,765 0,889 suspect este cea mai | | (formula 2.22) 5 0,642 0,780 6 0,560 0,698 mare valoare din ir, 7 0,507 0,637 8 0,554 0,683 irul se ordoneaz des| | (formula 2.23) 9 0,512 0,635 cresctor. 10 0,477 0,597
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 0,576 0,546 0,521 0,546 0,525 0,507 0,490 0,475 0,462 0,450 0,440 0,430 0,421 0,413 0,406 0,679 0,642 0,615 0,641 0,616 0,595 0,577 0,561 0,547 0,535 0,524 0,514 0,505 0,497 0,489 | | (formula 2.24)

| (formula 2.25)

dup (Vasilescu, 1992)

S presupunem c avem un ir ordonat cresctor, n acest caz vom avea valorile x1, x2, x3, x4, x5 xn-2, xn-1, xn, cu proprietatea c x1 este cea mai mic valoare din ir (n situaia noastr valoarea suspect) iar xn este cea mai mare valoare din ir.

223

Statistic aplicat n tiinele socio-umane

Formula se ajusteaz n funcie de numrul de scoruri. Dac avem pn la apte valori n irul de date, folosim formula 2.22. Dac avem de la opt la zece valori, folosim formula 2.23 i aa mai departe, dup cum reiese i din tabelul 2.16. Ipoteza nul susine c valoarea testat (x1) nu este aberant, la fel ca i testul anterior. Avem irul ordonat de date: 1, 9, 15, 18, 23, 17, 29, 30, 32, 32, 33. Acesta conine un numr de 11 valori, prin urmare vom aplica formula 2.24 pentru a testa valoarea presupus a fi aberant, valoarea 1.
| | | | | |

Valoarea de referin pentru un n=11, n tabelul 2.16, este de 0,576 la un prag de semnificaie mai mic de 0,05. Deoarece valoarea noastr (0,451) este mai mic dect valoarea prag, testul este nesemnificativ, ipoteza nul nu se poate respinge. Aadar valoarea 1 nu este o valoare aberant n irul nostru de date.

II.4.1.3 Testul Grubbs


Tabelul 2.17 Pragurile critice pentru testul Grubbs

n 20 25 30 35 40 45 50 55 60 65 70 75 80

0,05 2,557 2,663 2,745 2,811 2,866 2,914 2,956 2,992 3,025 3,055 3,082 3,107 3,130

0,01 2,884 3,009 3,103 3,178 3,240 3,292 3,336 3,376 3,411 3,442 3,471 3,496 3,251

n 0,05 0,01 85 3,151 3,543 90 3,171 3,563 95 3,189 3,582 100 3,207 3,600 105 3,224 3,617 110 3,239 3,632 115 3,254 3,647 120 3,267 3,662 125 3,281 3,675 130 3,294 3,688 135 3,306 3,700 140 3,318 3,712 145 3,328 3,723 dup (Vasilescu, 1992)

Este un alt test pentru valori aberante, fiind folosit, de aceast dat, pe eantioane sau loturi de cercetare de mari dimensiuni (peste 20 de cazuri). Ipoteza nul a acestui test susine, la fel ca i pentru celelalte dou teste expuse anterior, c valoarea nu este aberant, respingndu-se n cazul n care testul Grubbs este mai mare n compa-

224

Cristian Opariuc-Dan raie cu valorile prag precizate n tabelul 2.17. Deoarece vorbim despre eantioane mari, calculul testului Grubbs se poate efectua doar dac datele au o distribuie normal, acesta bazndu-se pe medie i abatere standard. (formula 2.26) (formula 2.27) Dac valoarea testat este cea mai mare din ir, se folosete formula 2.26, iar dac valoarea testat este cea mai mic din ir, formula 2.27. Cred c ai observat deja un lucru interesant. Testul Grubbs nu reprezint altceva dect nota z a scorului presupus aberant. S considerm un exemplu, n care un numr de 130 de subieci au efectuat un test de atenie. Media scorurilor obinute de cei 130 de subieci este m=21,35 puncte iar abaterea standard s=5,41 puncte. Ne ntrebm dac scorul maxim x=53 puncte este sau nu un scor aberant. Pentru c valoarea testat este cea mai mare valoare din ir, aplicm formula 2.26 pentru testul Grubbs.

La un numr de 130 de subieci, valoarea prag pentru un p<0,01 este de 3,688. Indicatorul obinut de noi depete cu mult valoarea prag, prin urmare testul Grubbs este semnificativ la un p<0,01. n acest caz vom respinge ipoteza nul i vom accepta faptul c valoarea testat este aberant. Deoarece testul Grubbs este unul standardizat, pentru eantioane de mari dimensiuni se poate realiza compararea cu distribuia t Student la un numr de n-1 grade de libertate.

225

Statistic aplicat n tiinele socio-umane

II.4.2 Teste de normalitate


Se mai numesc teste de concordan cu repartiia normal i toate fac acelai lucru compar distribuia datelor empirice (a datelor din populaia din care s-a extras eantionul cercetat) cu distribuia teoretic normal i verific dac diferenele dintre acestea sunt sau nu sunt semnificative. Cu alt ocazie am nvat s analizm o distribuie i s decidem dac este sau nu este normal. Este vorba despre procedeul bazat pe momentele centrate analiza simetriei i a boltirii. Aceasta este o metod excelent, o folosesc i eu intens n studiile i cercetrile mele. Uneori, ns, avem nevoie de mai mult, de o demonstraie mai serioas, de o expresie unic a normalitii unei distribuii. Acum, dac suntem familiarizai cu analiza diferenelor statistice, ne va fi mai uor. Iat de ce se merit s introducem i conceptul de teste de normalitate.

II.4.2.1 Testul de normalitate 2


S nu-mi spunei c nu v-a fost dor de 2, c nu v cred. L-am studiat la asocierea datelor neparametrice, ne-am lovit de el la diferenele de frecven ntre variabile, am vzut c poate funciona ca test statistic i coeficient de asociere (contingen), dar s vorbim despre 2 la distribuia normal, parc e prea de tot. Cu toate acestea, iat, 2 reprezint unul dintre cele mai serioase teste de normalitate. Ipoteza nul susine c distribuia empiric nu difer de distribuia normal teoretic i se respinge dac valoarea 2 este mai mare dect pragul de semnificaie ales. S considerm c un numr de 486 de studeni au efectuat un test, la care s-a obinut media m=18,93, abaterea standard s=2,14, cel mai mic scor fiind 2 iar cel mai mare scor fiind 45. Se pune problema s studiem dac aceast distribuie este sau nu este normal. n primul rnd, s construim distribuia empiric. Practic, avem de stabilit un numr de clase i de calculat frecvena absolut a fiecrei clase. 226

Cristian Opariuc-Dan Da, aa este, revenim, iat, la bazele statisticii. Procedura este analog, doar c vom folosi media i abaterea standard pentru crearea claselor.
Tabelul 2.18 Testul de normalitate bazat pe 2

Clase Clasa 1 (i=1) < m-2,5s < 13,58 Clasa 2 (i=2) (m-2,5sm-2s] 13,58-14,65 Clasa 3 (i=3) (m-2sm-1,5s] 14,66-15,72 Clasa 4 (i=4) (m-1,5sm-1s] 15,73-16,79 Clasa 5 (i=5) (m-1sm-0,5s] 16,80-17,86 Clasa 6 (i=6) (m-0,5sm] 17,87-18,93 Clasa 7 (i=7) (mm+0,5s] 18,94-20,00 Clasa 8 (i=8) (m+0,5sm+1s] 20,01-21,07 Clasa 9 (i=9) (m+1sm+1,5s] 21,08-22,14 Clasa 10 (i=10) (m+1,5sm+2s] 22,15-23,21 Clasa 11 (i=11) (m+2sm+2,5s] 23,22-24,28 Clasa 12 (i=12) > m+2s > 24,28 TOTAL

f 1

zi -2,5

F(zi) 0,0062

(zi) 0,0062

f*(zi) 0,0062

f-ft 0,9938

(f-ft)2 0,98763844

(f-ft)2/ft 159,296523

-2

0,0228

0,0166

0,0664

3,9336

15,473209

233,030255

15

-1,5

0,0668

0,044

0,66

14,34

205,6356

311,569091

49

-1

0,1587

0,0919

4,5031

44,4969

1979,97411

439,691348

65

-0,5

0,3085

0,1498

9,737

55,263

3053,99917

313,648883

104

0,5000

0,1915

19,916

84,084

7070,11906

354,99694

97

+0,5

0,6915

0,1915

18,5755

78,4245

6150,4022

331,102915

87

+1

0,8413

0,1498

13,0326

73,9674

5471,17626

419,806966

38

+1,5

0,9332

0,0919

3,4922

34,5078

1190,78826

340,985127

18

+2

0,9772

0,044

0,792

17,208

296,115264

373,882909

+2,5

0,9938

0,0166

0,083

4,917

24,176889

291,287819

3 486

+3

0,9987

0,0049

0,0147

2,9853

8,91201609

606,259598 4175,55837

Exist mai multe variante de lucru. Cea mai comod variant este s lucrm cu intervale avnd dimensiunea de jumtate de abatere standard. Exis-

227

Statistic aplicat n tiinele socio-umane

tnd ase abateri standard ntr-o distribuie normal, vor rezulta un numr de 12 clase. Prima clas va conine scorurile mai mici dect media minus 2,5 abateri standard. A doua clas cuprinde scorurile cuprinse ntre media minus 2,5 abateri standard i media minus 2 abateri standard. Clasa a treia se refer la scoruri cuprinse ntre media minus 2 abateri standard i media minus 1,5 abateri standard i aa mai departe, dup cum putei vedea n tabelul 2.18. Dup construcia claselor, stabilim, evident, frecvenele absolute la nivelul fiecrei clase. Urmeaz calcului variabilei normale z, pentru fiecare dintre cele 12 clase, dup expresia urmtoare (formula 2.28) Este formula clasic de calcul a notelor z, unde lsup(i) se refer la limita superioar a clasei i. Pentru prima clas, am avea:

A doua clas ar deveni:

Continuai pn cnd stabilii variabilele normale pentru toate cele 12 clase. Observai c, n realitate, nici nu ar fi fost nevoie s calculai. Notele z nu reprezint dect fraciunea cu care s-a multiplicat abaterea standard la limita superioar a fiecrei clase. Deoarece vom dori s comparm aceast distribuie cu distribuia teoretic normal n cazul nostru avem nevoie de probabilitile teoretice pentru fiecare valoare z, pe care le vom nota cu F(z). Aceste valori sunt obinute din valorile funciei Laplace. Despre aceast funcie nu vom discuta, deoarece depim cu mult contextul materialului. Funcia F(z) Laplace este 228

Cristian Opariuc-Dan prezentat n tabelul din anexa 13, tabel care ne ajut s extragem probabilitile teoretice pentru fiecare scor z. nainte de a efectua calculele, se impune totui s precizm c dac scorul z este negativ, atunci F(-z)=1 F(z). Adic, pentru a calcula un scor z negativ, trebuie s scdem din valoarea 1, valoarea F(z) din tabel pentru acel scor. Vedem imediat cum se procedeaz. Prima clas are z=-2,5. n tabelul din anexa 13, pentru un z=2,5 avem F(z)=0,9938. Cum ns z este negativ, obinem F(z)=1 0,9938, adic 0,0062. A doua clas are z=-2. n tabelul din anexa 13 avem pentru un z=2, valoarea 0,9772. Din aceleai motive, obinem F(z)=1 0,9772=0,0228. La fel procedm cu toate clasele, pn la clasa a asea. Pentru clasa a asea, unde avem z=0, F(z)=0,5000. Deoarece z nu mai este negativ, aceasta este i valoarea cutat. La fel, clasa a aptea, unde F(z)=0,6915. Totui, pn acum nu am stabilit dect probabilitile teoretice cumulate pentru distribuia noastr, deoarece funcia Laplace este, dup cum am spus, o funcie cumulativ. Am fi mai curnd interesai de probabilitile teoretice efective, nu de cele cumulate. Din fericire, acest lucru este simplu de aflat. Nu avem dect s scdem din probabilitatea teoretic cumulat a unei clase, probabilitatea teoretic cumulat a clasei anterioare i iat, am obinut probabilitile teoretice efective pentru fiecare dintre clase. Aadar, vom avea o nou coloan n tabelul 2.18, coloana (zi) unde: (formula 2.29) Pentru prima clas nu avem o clas anterioar, aadar (zi)=0,0062. A doua clas va fi (zi)=0,0228-0,0062=0,0166. Pentru a treia clas vom avea (zi)=0,0668-0,0228=0,0440 i aa mai departe. Dup calculul probabilitilor teoretice efective, urmeaz s nmulim frecvena absolut a fiecrei clase cu probabilitatea teoretic efectiv (f*(zi)). Aceast valoare o putem denumi

229

Statistic aplicat n tiinele socio-umane

frecven teoretic i o notm cu ft. Avnd aceste elemente, putem acum trasa formula de calcul pentru 2 atunci cnd efectum testul de normalitate: (formula 2.30)

Destul de simplu. Din formul mai rezult civa pai. S facem diferenele dintre frecvena observat i frecvena teoretic, s ridicm la ptrat aceste diferene i apoi s mprim ptratele la frecvena teoretic. n final efectum suma acestor rezultate i obinem valoarea pentru 2. Valoarea noastr este foarte mare. Am obinut 2=4175,55. Aceast valoare o vom compara cu valoarea de referin pentru un numr de k-3 grade de libertate, deoarece avem doi parametri media i abaterea standard. n situaia noastr, valoarea indicatorului este comparat la 12-3=9 grade de libertate. La un prag de semnificaie mai mic de 0,01, valoarea de referin este de 21,665. Valoarea obinut este mult mai mare dect valoarea prag, testul este semnificativ la un prag de semnificaie mai mic de 0,01, vom respinge ipoteza nul. Cu alte cuvinte, distribuia empiric difer semnificativ de distribuia teoretic normal. Pe scurt, datele noastre nu se distribuie normal. Folosind aceast metod putem compara o distribuie empiric nu numai cu distribuia normal, dar i cu alte distribuii, precum distribuia P oisson, binomial, etc.

II.4.2.2 Testul de normalitate Shapiro-Wilk


Are la baz aceeai ipotez nul, conform creia distribuia empiric nu difer de distribuia normal. Testul se folosete, n general, pentru eant ioane care nu depesc 50 de subieci, n timp ce testul 2 se preteaz foarte bine la eantioane de mari dimensiuni. Formula de calcul pentru testul Shapiro-Wilk este urmtoarea:

230

Cristian Opariuc-Dan

(formula 2.31)

unde b este o estimaie liniar a abaterii standard, care se calculeaz n baza valorilor ordonate din irul de date S presupunem un numr de 10 msurtori, dup cum urmeaz: 190, 250, 200, 330, 280, 260, 270, 240, 290, 220. Desigur, acest exemplu are un caracter pur didactic, deoarece este absurd s vorbim despre o distribuie normal la doar 10 scoruri. Pentru a calcula valoarea testului Shapiro-Wilk, trebuie s ordonm cresctor irul de date. Acesta va deveni: 190, 200, 220, 240, 250, 260, 270, 280, 290, 330 Pentru a stabili estimaia liniar a abaterii standard, avem nevoie de valoarea kmax care se calculeaz aproximativ la fel ca i poziia medianei. Dac irul de date este par, atunci kmax=n/2, iar dac este impar, kmax=n-1/2. Ei bine, dac v mai aducei aminte, poziia medianei se calculeaz puin diferit, de aceea am afirmat c procedeul este aproximativ la fel i nu identic. irul nostru fiind unul par, kmax=10/2=5. Urmeaz construirea unui tabel special necesar stabilirii valorii estimaiei liniare a abaterii standard, dup cum urmeaz n tabelul 2.19. n primul rnd, formm coloana XI pentru fiecare valoare a lui k xI xII Wk a Wk*a k. Practic, aceast coloan este for1 190 330 140 0,5739 80,346 2 200 290 90 0,3291 29,619 mat din primele k numere ordonate 3 220 280 60 0,2141 12,846 cresctor n cazul nostru, primele 5 4 240 270 30 0,1224 3,672 5 250 260 10 0,0399 0,399 numere. Coloana XII este format din 126,882 ultimele k numere 5 numere n cazul nostru de data aceasta ordonate descresctor. Vom avea, n situaia noastr, pentru fiecare valoare a lui k de la 1 la 5, irul X I=190, 200, 220, 240 i 250, i XII=330, 290, 280, 270 i 260. Urmeaz construcia coloanei Wk,
Tabelul 2.19 Calcului estimaiei b pentru testul Shapiro-Wilk

231

Statistic aplicat n tiinele socio-umane

unde Wk nu este altceva dect diferena dintre al doilea i primul ir. Adic, Wk=XII-XI. Coeficientul a se extrage din tabelul din anexa 14, pentru diferitele valori ale lui n i k. n cazul nostru, n=10 i, evident, k=5. Ne deplasm n tabel pe coloana numrul 10 (corespunztoare lui n) i vom avea pentru k=1, un coeficient a=0,5739. Pentru k=2 avem a=0,3291 i aa mai departe. Copiem aceti coeficieni n coloana corespunztoare din tabelul 2.19. Urmeaz apoi s nmulim, pentru fiecare k, coloana Wk i coloana a, rezultatele fiind trecute ntr-o ultim coloan din tabel. nsumnd toate aceste produse, obinem expresia estimrii liniare a abaterii standard (b), n situaia noastr aceasta fiind 126,882. Restul procesului este foarte simplu i nu l vom detalia. Este necesar s calculm media celor 10 scoruri (m=253 n cazul de fa), apoi s scdem fiecare scor din medie, la fel ca la calculul varianei, (xi-m), s ridicm la ptrat aceste diferene (xi-m)2 i, n final, s facem suma acestor ptrate. Pentru exemplul nostru, suma ptratelor diferenelor este 16410. Avnd toate datele, putem nlocui acum n formul:

Valoarea testului Shapiro-Wilk o raportm la pragurile de semnificaie din tabelul din anexa 15. Pentru n=10, pragul de semnificaie la un p<0,05 este de 0,842, iar la un p<0,01 este de 0,781. Deoarece valoarea testului este mai mare de 0,842, testul este nesemnificativ, ipoteza nul nu se respinge i, prin urmare, distribuia poate fi considerat o distribuie normal. Avei grij la interpretare. De aceast dat, testul este semnificativ dac valoarea sa este mai mic dect valoarea prag.

232

Cristian Opariuc-Dan

II.4.2.3 Testul momentelor centrate


Cred c mai reinei analiza simetriei i a boltirii. Am vorbit despre aceste elemente ntr-o lucrare anterioar. Totodat, am vzut atunci cteva metode prin care putem analiza normalitatea distribuiei plecnd de la aceti coeficieni. Metodele tratate atunci sunt bune, ns de cele mai multe ori avem nevoie de un plus de precizie, mai exact de o standardizare a acelor coeficieni. Ce standardizare poate fi mai bun dect calculul scorurilor z ale acestor coeficieni? ntr-adevr, acest test face exact transformarea coeficienilor de simetrie i boltire 1 i 2 n formele lor standardizate. Ipoteza nul este aceeai, conform creia repartiia datelor este normal i se respinge dac cel puin una dintre valorile z ale celor doi coeficieni este mai mare dect valoarea critic pentru pragul de semnificaie ales. Co nversia acestor coeficieni se poate face dup urmtoarele expresii: (
| |

(formula 2.32) ) (formula 2.33)

S presupunem c o cercetare efectuat pe un numr de 853 de st udeni, crora li s-a nregistrat greutatea, a condus la o distribuie avnd coeficientul de simetrie 1=-0,46 i coeficientul de boltire 2=0,87. S se decid dac datele empirice se distribuie sau nu normal.

233

Statistic aplicat n tiinele socio-umane

tim deja c pragul critic la un p<0,05 este de 1,96 iar la un p<0,01 este de 2,28. Coeficientul de boltire (0,43) este mai mic dect 1,96, prin u rmare distribuia poate fi considerat mezocurtic. Simetria ns (8,11) depete cu mult pragul critic 2,28 pentru un p<0,01. Aadar, distribuia nu este simetric, ci asimetric negativ, cu tendine ctre valori mari ale greutii. nainte de a ncheia acest capitol i de a trece la activitile practice utiliznd SPSS, va trebui s facem o serie de precizri privind interpretarea testelor statistice. Desigur, nu am epuizat subiectul testelor statistice de normalitate. Exist, spre exemplu, i alte teste de acest tip: dAgostino, Kolmogorov-Smirnov etc. Noi le-am prezentat pe cele mai folosite.

II.5 Interpretarea testelor statistice


Testele statistice fac parte din categoria procedeelor statistice infereniale. Testarea ipotezelor statistice reprezint, alturi de estimarea parametrilor statistici, una dintre principalele aspecte ale inferenei statistice (Sava, 2004). Atunci cnd testm ipotezele n cadrul unei cercetri tiinifice, avem n vedere trei dimensiuni principale (Sava, 2004): Analiza datelor empirice; Realizarea, pe baza datelor, a unor inferene logice; Meninerea unei atitudini sceptice legate de concluziile obinute. 234

Cristian Opariuc-Dan Atunci cnd vorbea despre teoriile tiinifice, marele Albert Einstein fcea o afirmaie pertinent n care putem regsi, de fapt, ntregul spirit al demersului tiinific: Oamenii de tiin nu sunt de invidiat. Natura, sau mai exact, experimentul este un judector neprietenos i inexorabil al muncii cercettorului. Niciodat nu i spune Da teoriei acestuia. n cele mai favorabile cazuri i spune Poate, iar n majoritatea cazurilor i spune Nu. Dac experimentul sprijin o teorie, pentru aceasta nseamn Poate, iar dac nu sprijin nseamn Nu. Probabil c orice teorie va experimenta ntr-o bun zi pe Nu cele mai multe chiar imediat dup conceperea lor. (Sava, 2004). innd cont de citatul de mai sus, chiar cu riscul de a ne repeta, vom efectua, n cele ce urmeaz, o serie de observaii referitoare la ipoteza nul: atunci cnd folosim testele statistice, ntotdeauna verificm ipoteza nul, niciodat cea experimental. De asemenea, plecm de la premiza c ipoteza nul este adevrat. Doar printrun asemenea algoritm putem asigura respectarea demersului tiinific; analiznd ipoteza nul, trebuie s menionm c, dup verificare, aceasta nu poate fi adevrat sau fals. Singurul lucru pe care l putem face cu ipoteza nul este s o respingem sau s nu o respingem. Ipoteza nul nu poate fi confirmat sau infirmat. Afirmaii precum ipoteza nul este fals sau testul nu este semnificativ, deci se confirm ipoteza nul sunt afirmaii eronate, dei frecvent ntlnite printre nceptori. n realitate, putem spune doar c respingem ipoteza nul sau nu respingem ipoteza nul; desigur, respingerea unei ipoteze nule se face n baza unui prag de semnificaie. De obicei, pragul de semnificaie este cel

235

Statistic aplicat n tiinele socio-umane

postulat de Fisher i corespunde, n tiinele sociale, unei v alori mai mici de 0,05. Dac respingem ipoteza nul, nu nseamn c aceasta nu se poate, la un moment dat, susine. Acest prag de semnificaie nu spune dect probabilitatea cu care am obine, ntmpltor, datele observate, pornind de la ideea c ipoteza nul este adevrat. Att i nimic mai mult; n general, folosim teste statistice pentru a extinde cunotinele dobndite prin studiul unui eantion la nivelul ntregii populaii. De aceea, asemenea procedee se numesc procedee statistice infereniale. n asemenea condiii, este important reprezentativitatea eantionului. Dac eantionul este redus ca dimensiuni, exist o probabilitate foarte mare s nu obinem niciun rezultat semnificativ, dei poate c relaia exist la nivelul populaiei. Cu alte cuvinte, cu ct eantionul este mai mic, cu att crete probabilitatea de a obine un rezultat nesemnificativ. Nici eantioanele foarte mari nu ne sunt utile, deoarece la volume foarte mari ale unui eantion, crete probabilitatea de a gsi un rezultat semnificativ, chiar dac acest de fapt nu exist la nivelul populaiei. Soluia o reprezint un eantion reprezentativ, de dimensiuni moderate.

Atunci cnd raportm rezultatele unui test statistic, ne intereseaz cteva elemente: n primul rnd, semnificaia. Vom considera testul ca fiind semnificativ, dac pragul de semnificaie este mai mic de 0,05. Despre aceste lucruri am discutat pe larg, deci nu vom mai insista; n al doilea rnd, semnul sau sensul. Acest element este util n cazul ipotezelor unidirecionale. De exemplu, dac una din-

236

Cristian Opariuc-Dan tre ipotezele experimentale afirm c exist o diferen semnificativ ntre brbai i femei sub aspectul anxietii, n sensul c brbaii sunt mai puin anxioi n comparaie cu femeile, aceasta ar putea fi susinut numai n condiiile n care, la comparaia mediei obinute de ctre brbai la anxietate cu cea obinut de ctre femei, se obine un test semnificativ, negativ (adic media brbailor este mai mic n comparaie cu media femeilor); Gradele de libertate reprezint o expresie a volumului eantionului studiat, raportarea lor fiind obligatorie;

De exemplu, s-a realizat o cercetare pe un numr de 438 de studeni, pornindu-se de la ipoteza nul c nu exist nicio diferen ntre brbai i femei cu privire la emotivitatea din timpul examenelor. Dup colectarea notelor obinute de cei 438 de studeni la un inventar de emotivitate, s-au comparat mediile scorurilor obinute de ctre brbai cu media scorurilor obinute de ctre femei, folosindu-se testul t Student pentru eantioane independente. A rezultat t=-48,46, la un prag de semnificaie p<0,01. V ntreb care este modalitatea corect de raportare a acestui studiu? Iat-o! Exist o diferen semnificativ ntre brbai i femei sub aspectul emotivitii din timpul examenelor (t(436)=48,46; p<0,01) n sensul c emotivitatea femeilor este semnificativ mai ridicat n comparaie cu emotivitatea brbailor. Prin urmare, respingem ipoteza nul i putem susine ipoteza de cercetare conform creia diferenele dintre brbai i femei sub aspectul emotivitii din timpul examenelor sunt semnificative. n formularea de mai sus am atins, dup cum se poate observa, toate punctele importante ale raportrii rezultatelor unui test statistic. Dei pentru cei mai muli dintre dumneavoastr expresia de mai sus pare suficient, mai

237

Statistic aplicat n tiinele socio-umane

exist un element extrem de important care trebuie precizat. Este vorba despre mrimea efectului.

II.5.1 Puterea testului i mrimea efectului


nainte de a ncepe discuia legat de mrimea efectului i puterea testelor statistice, voi relua un exemplu prezentat ntr-o lucrare anterioar (Opariuc-Dan, 2009). A fost odat un mprat care avea obiceiul s poarte multe rzboaie. nainte de a merge la rzboi, mpratul nostru l chema pe vrjitorul curii i l punea s-i prezic soarta btliei. De fiecare dat, bietul vrjitor era n mare impas, deoarece, dac greea previziunea, risca s-i piard capul, cum o piser muli alii naintea lui. Totui, vrjitorul avea muli ani de cnd i pstra capul pe umeri, iar prediciile acestuia, uneori, se dovedeau a fi adevrate. ntrebarea mea este cum proceda? Foarte simplu. Vrjitorul avea ceva noiuni legate de probabiliti i de verificarea ipotezelor i, naintea btliei, i formula ipotezele, apoi construia un tabel similar tabelului de mai jos:

H1: Prevd c mria sa va ctiga btlia H0: Prevd c mria sa nu va ctiga btlia Ce se ntmpl n urma btliei Ctig Pierde OK Eroare tip I p= 1- p= Caracteristica testului Pragul de semnificaie OK Eroare tip II p=1- p= Puterea testului

Ctig Ce a prevzut c se ntmpl Pierde

S analizm acum tabelul de mai sus. Observm c exist un numr de patru situaii: Vrjitorul a prezis c mpratul va ctiga btlia i mpratul a ctigat-o. Vrjitorul respinge ipoteza nul i susine ipoteza 238

Cristian Opariuc-Dan alternativ, deoarece probabilitatea de a nu ctiga btlia era foarte mic. Cellalt mprat avea probabil un numr mic de oameni i o tehnic de lupt net inferioar. Vrjitorul a obinut o nou avere i respectul mpratului; Vrjitorul a prezis ctigarea btliei i mpratul a pierdut-o. S-a comis astfel o eroare de tip I, respingndu-se ipoteza nul cnd, de fapt, ar fi trebuit s nu fie respins. Pragul de semnificaie a fost probabil apropiat de limit (0,05), ns vrjitorul a riscat. i-a pierdut i averea i capul. Este cea mai grav eroare pe care o poate face. Probabil c s-a bazat pe faptul c cellalt mprat are puini oameni i o tehnic de lupt inferioar, ns l-au dezinformat spionii i a subapreciat fanatismul ostailor; Vrjitorul a prezis pierderea btliei i mpratul a ctigat-o. S-a comis acum o eroare de tip II, nerespingnd ipoteza nul n condiiile n care ar fi trebuit respins. n bucuria victoriei, mpratul s-ar putea s-i crue capul vrjitorului, ns va pierde respectul i o parte din avere. Vrjitorul nu a vrut s rite, deoarece cunotea fanatismul lupttorilor celuilalt mprat; Vrjitorul a prezis pierderea btliei i mpratul a pierdut-o. Din fericire, i-a pstrat i capul i averea, deoarece a avut nelepciunea c calculeze puterea unui test statistic, adic probabilitatea de a respinge ipoteza nul atunci cnd ea este fals.

Dup cum observai, pragul de semnificaie nu ne arat dect dac avem de a face cu o diferen semnificativ sau, n cazul corelaiilor, cu o asociere semnificativ. Acesta nu ne spune care este mrimea acestei diferene. Pragul de semnificaie micoreaz riscul de a se comite erori de tip I, erori

239

Statistic aplicat n tiinele socio-umane

n care am respinge ipoteza nul n condiiile n care aceasta nu ar trebui s fie respins. Cu alte cuvinte, l ferete pe vrjitor s prezic faptul c mpr atul va ctiga btlia, n condiiile n care ar putea s o piard. Desigur, acesta este, poate, cel mai important element al unui test statistic, ns nu este singurul. Avem nevoie s tim i dimensiunea acestei diferene, element pe care nil furnizeaz mrimea efectului. Iat un exemplu. S presupunem c studiem efectul unui tratament asupra abandonului fumatului. tii deja exemplul, astfel nct nu vom mai insista asupra lui. Obinem, n final, o diferen semnificativ n sensul c subiecii, dup tratament, fumeaz un numr semnificativ mai mic de igri. Att ne spune pragul de semnificaie. Deocamdat nu tim dac cei care au fumat 40 de igri pe zi fumeaz acum 3 igri pe zi sau fumeaz 38 de igri pe zi. Cu alte cuvinte, nu tim ct de mare este efectul tratamentului ci doar c acel tratament are un efect semnificativ. Iat c studiul mrimii efectului are o importan aproape la fel de mare ca i studiul semnificaiei acestuia. Exist un numr destul de mare de indicatori pentru mrimea efectului i, n general, acetia se mpart n dou mari categorii: Indicatori calculai n baza diferenei standardizate ntre medii (indicele d al lui Cohen, coeficientul al lui Glass, coeficientul g al lui Hedges etc.); Indicatori calculai pe baza procentului de varian explicat (r, r2, 2, 2 etc.).

II.5.1.1 Indicatori ai mrimii efectului pentru date neparametrice


Din nefericire, testele neparametrice sunt recunoscute prin puterea lor redus. Majoritatea indicatorilor pentru mrimea efectului se bazeaz pe date continui i nu pe date situate la un nivel de msur ordinal sau nominal. Totui, exist un numr de doi indicatori statistici ai mrimii efectului pentru 240

Cristian Opariuc-Dan date neparametrice, unul pentru 2 (dup Rosenthal, Rosnow i Rubin) (Sava, 2004) iar cellalt pentru date ordinale coeficientul propus de Cliff. Estimarea mrimii efectului pentru 2 atunci cnd exist doar un singur grad de libertate se poate face prin intermediul coeficientului de determinare r2, dup expresia: (formula 2.34) n formula 2.34, la numrtor avem valoarea testului 2 pentru un singur grad de libertate, iar la numitor regsim numrul de cazuri observate. n exemplul de la capitolul II.2.1 am pornit de la ipoteza nul conform creia nu exist nicio diferen semnificativ ntre blonde i brunete referitor la producerea accidentelor rutiere. Am aplicat atunci testul 2 obinnd o diferen nesemnificativ la un singur grad de libertate. Valoarea testului a fost de 2,75, la un numr n=94 de femei studiate. Dac testul ar fi fost semnificativ, am putea calcula mrimea efectului pe baza expresiei de mai sus:

ntr-adevr, coeficientul de determinare este foarte mic, efectul este sczut, aproape inexistent, lucru perfect normal, deoarece i testul 2 nu este semnificativ. Ca repere pentru coeficientul de determinare r2, vom avea: Pentru r2 mai mic de 0,01 nu exist niciun efect; Pentru r2 cuprins ntre 0,01 i 0,05 efectul este sczut; Pentru r2 cuprins ntre 0,06 i 0,14 avem de a face cu un efect mediu, moderat;

241

Statistic aplicat n tiinele socio-umane

Pentru r2 mai mare de 0,14 avem de a face cu un efect puternic

Atunci cnd datele se afl la un nivel ordinal, nu mai putem folosi coeficientul de determinare exprimat anterior. O msur alternativ pentru acesta este reprezentat de coeficientul delta () propus de Cliff n anul 1993. Acest coeficient testeaz echivalena probabilitii ca scorurile dintr -un grup s fie mai mari dect scorurile din cellalt grup i se bazeaz pe conceptul de dominan. Formula de calcul a coeficientului este urmtoarea:
( )

(formula 2.35)

Pare complicat, dar nu este chiar aa. Practic #Xi1>Xj2 reprezint numrul de comparaii ntre observaiile dintre cele dou grupuri, atunci cnd numrul de observaii din primul grup este mai mare dect numrul de observaii din al doilea grup. S considerm un exemplu simplu pentru a lmuri formula de calcul. O cercetare efectuat pe brbaii i femeile dintr-o unitate militar pleac de la ipoteza nul conform creia nu exist nicio diferen ntre brbai i femei sub aspectul gradelor militare de ofieri. Desigur, ne situm la un nivel pur ordinal, unde am notat cu 1 locotenentul, 2 cpitanul, 3 maiorul, 4 locotenent colonelul i 5 colonelul. Datele noastre sunt urmtoarele Brbai: Femei: 1, 1, 2, 2, 2, 3, 3, 3, 4, 5 1, 2, 3, 4, 4, 5 n1=10 n2=6

Pentru a uura lucrul, am ordonat deja datele noastre. Urmeaz construcia aa-numitei matrice de dominan. n primul rnd, construim un tabel similar tabelului 2.20. Pe coloane trecem una dintre variabile iar pe linii cealalt variabil. Regula de completare a matricei de dominan este simpl. O celul poate lua valoarea +1 dac valoarea la nivel de linie este mai mare dect valoarea la nivel de coloan, 0 dac cele dou valori sunt la fel i -1 dac valoarea de pe linie este mai mic dect valoarea de pe coloan. 242

Cristian Opariuc-Dan
Tabelul 2.20 Calculul matricei de dominan

Brbai 1 1 2 2 2 3 3 3 4 5 dj

Femei 1 0 0 1 1 1 1 1 1 1 1 0,8 2 -1 -1 0 0 0 1 1 1 1 1 0,3 3 -1 -1 -1 -1 -1 0 0 0 1 1 -0,3 4 -1 -1 -1 -1 -1 -1 -1 -1 0 1 -0,7 4 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 -0,7 5 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 -0,9 di -0,833 -0,833 -0,500 -0,500 -0,500 -0,167 -0,167 -0,167 0,333 0,833 =-0,250

Pentru prima linie, valoarea pentru brbai (1) este egal cu prima coloan, valoarea pentru femei (1). La nivelul acestei celule, dominana ia valoarea 0. Tot la prima linie, valoarea pentru brbai (1) este mai mic dect valoarea pentru femei (2). Atunci celula ia valoarea -1 i aa mai departe, dup regula expus, pn la completarea ntregii matrice de dominan. n urmtorul pas, facem media dominanelor att pe linie ct i pe coloan. Astfel, pentru prima linie vom avea 0-1-1-1-1-1=-5, apoi -1/6=-0,833. Vei continua la fel pentru toate liniile i toate coloanele, aa cum observai n tabelul 2.20. nainte de a aplica formula, calculm indicii di i dj. Acetia nu reprezint altceva dect suma mediilor dominanelor. Adunai, aadar, toate valorile de pe ultima coloan i vei obine di=-2,50. Apoi adunai toate valorile de pe ultima linie i vei obine dj=-1,50. Valoarea pe care o reinem este valoarea cea mai mare luat n modul. Deoarece 2,50 este mai mare dect 1,50, reinem 2,50. Pentru a obine coeficientul este suficient s facem media valorilor nsumate pentru cea mai mare dominan. Deoarece cea mai mare sum a fost 2,50, obinut pentru cei 10 brbai, vom avea -2,50/10=-0,250. Prin urmare, =-0,250. Acest indicator ia valori cuprinse ntre -1 (atunci cnd toate observaiile din primul grup sunt mai mari dect observaiile din cel de-al doilea grup) 243

Statistic aplicat n tiinele socio-umane

i +1 (atunci cnd toate observaiile din primul grup sunt mai mici dect observaiile din al doilea grup). Valoarea 0 arat c observaiile din cele dou grupuri sunt perfect identice. Interpretarea acestui coeficient ca msur a mrimii efectului, va ine cont de urmtoarele repere: Pentru un mai mic de 0,147, nu exist niciun efect; Pentru cuprins ntre 0,147 i 0,33, efectul este sczut; Pentru cuprins ntre 0,33 i 0,474, efectul este unul mediu, moderat; Pentru mai mare de 0,474, efectul este puternic.

n cazul nostru, am obinut un efect sczut. Putem suspecta i existena unei diferene semnificative ntre brbai i femei n raport cu atribuirea gradelor militare. Ca exerciiu, v revine dumneavoastr sarcina s alegei testul statistic adecvat i s verificai dac, ntr-adevr, exist o asemenea diferen semnificativ, apoi s decidei ce facei cu ipoteza nul.

II.5.1.2 Indicatori ai mrimii efectului pentru date parametrice


Pentru date parametrice suntem, din fericire, posesorii unui numr destul de mare de indicatori ai mrimii efectului. Poate cel mai folosit coeficient este coeficientul de determinare, r2, indicator cu aceeai semnificaie interpretativ ca i varianta lui folosit la analiza efectului n cazul testului 2. (formula 2.36) unde t reprezint valoarea testului t Student, iar df se refer la numrul gradelor de libertate. n exemplul din capitolul II.3.2.2 am dorit s aflm dac exist diferene semnificative ntre cantitatea de bere but de ctre studenii universitii Ovidius din Constana, n comparaie cu studenii universitii Alexandru 244

Cristian Opariuc-Dan Ioan Cuza din Iai. Obinusem un t(88)=1,48, testul fiind nesemnificativ. Adic nu exist diferene semnificative ntre studenii celor dou universiti, sub aspectul consumului de bere. Dac ar fi existat diferene semnificative, ar fi trebuit s calculm i mrimea efectului.

Desigur, nu ne ateptam la existena vreunui efect. Conform principiilor interpretative ale acestui coeficient, efectul este sczut. Corespondentul coeficientului de determinare este coeficientul de corelaie a mrimii efectului. Formula de calcul a acestuia este extrem de simpl, el nefiind altceva dect rdcina ptrat din coeficientul de determinare (formula 2.37)

n cazul nostru, coeficientul de corelaie al efectelor este de 0,155, interpretarea sa fiind analoag interpretrii coeficientului de corelaie r BravaisPearson. Spre deosebire de coeficientul Bravais-Pearson, n acest caz ntlnim doar valori pozitive. Folosind cei doi coeficieni, putem deduce i ali indicatori ai mrimii efectului. Vom exemplifica doar civa, deoarece este posibil s-i ntlnii n studii i cercetri, mai ales n cele de factur meta-analitic. Coeficientul d al lui Cohen poate fi calculat pe baza coeficientului de determinare i a coeficientului de corelaie al efectelor, dup expresia:

(formula 2.38)

(formula 2.39)

245

Statistic aplicat n tiinele socio-umane

Intens folosit, acest coeficient are urmtoarele repere interpretative, propuse chiar de autor: Pentru d mai mic de 0,20, nu exist nici un efect; Pentru d cuprins ntre 0,20 i 0,50, efectul este unul slab; Pentru d cuprins ntre 0,50 i 0,80, efectul este unul mediu; Pentru d mai mare de 0,80, avem de a face cu un efect puternic;

Doar nu v-ai fi ateptat s obinei aici vreun efect puternic. Observai c i dup acest coeficient, ne situm n acelai domeniu al efectelor slabe. Coeficientul g al lui Hedges are o formul de calcul bazat tot pe coeficientul de determinare i pe cel de corelaie al efectelor:

(formula 2.40)

V lsm dumneavoastr ca exerciiu calculul acestui coeficient pentru mrimea efectului, precum i sarcina interpretrii sale.

II.5.1.3 Interpretarea mrimii efectului i puterea cercetrilor


Dincolo de reperele interpretative propuse pentru fiecare dintre coeficieni, o analiz pertinent a mrimii efectului presupune i alte demersuri. Coeficientul de determinare r2 se poate exprima i n termeni procentuali. Un coeficient de 0,024, obinut mai sus, arat c doar 2,4% din variana datelor folosite pentru investigarea cantitii de bere but de studeni se poate explica prin apartenena acestora la o universitate.

246

Cristian Opariuc-Dan Mrimea efectului se interpreteaz mpreun cu pragul de semnificaie. Vom furniza o serie de repere interpretative, aa cum au fost ele prezent ate de Florin Sava (Fan, 2001 apud Sava, 2004).
Tabelul 2.21 Interpretarea mrimii efectului i a semnificaiei

Mrime efect

Efect mic

1.

1.

Efect mediu

2.

1.

Efect mare

2.

Testare ipoteze (semnificaie) H0 nu este respins H0 este respins 1. Rezultatele nu au nicio importan practic deosebit, dei rezultatele sunt semnificative statistic; Ipoteza nul este sprijinit, nu exist 2. Risc mare de comitere a erorii de tip I ns vreun efect statistic sau practic. (s respingem ipoteza nul n condiii n care nu ar trebui respins). Puterea cercetrii este foarte mare. Mrimea efectului este bun, ns acesta poate s fi aprut din ntmpla- 1. Probabilitatea ca efectul obinut s re; apar din ntmplare este mic; Risc mare de comitere a erorilor de 2. Efectul este semnificativ statistic i tip II (s nu se resping ipoteza nul pare a fi important din punct de vedere n condiiile n care ar trebui respinpractic s). Puterea cercetrii este mic. Risc mare de comitere a erorii de tip II (s nu respingem ipoteza nul cnd aceasta ar trebui respins); Efectul a aprut din ntmplare sau 1. Testul este semnificativ att statistic, rezultatul nesemnificativ al testului ct i practic statistic apare din cauza numrului mic de subieci. Se impune creterea puterii cercetrii. SURSA: (Sava, 2004 p. 36)

Interpretarea valorii mrimii efectului se completeaz cu analiza sensului acesteia. Un efect pozitiv, determinat de valoarea pozitiv a mrimii efectului, conduce la ideea c efectele observate sunt n direcia presupus. De exemplu, dac obinem un efect puternic i pozitiv n baza ipotezei alternative conform creia exist o diferen semnificativ ntre cantitatea de bere but de studenii de la universitatea din Constana i cantitatea de bere but de studenii de la universitatea din Iai, n sensul c cei din universitatea moldovean beau semnificativ mai mult bere n comparaie cu cei din universitatea dobrogean, atunci datele observate susin aceast ipotez. Dac am obine un efect puternic i negativ, nseamn c ipoteza se susine, doar c 247

Statistic aplicat n tiinele socio-umane

studenii universitii dobrogene consum semnificativ mai mult bere n comparaie cu cei ai universitii din Moldova. Cele mai multe cercetri, realizate profesional, stabilesc nc de la nceput mrimea ateptat a efectului, n baza acesteia construindu-se lotul de cercetare. Exist mai multe metode prin intermediul crora se poate realiza acest deziderat (Sava, 2004): n baza meta-analizei, prin cercetarea studiilor efectuate anterior. Dac ne propunem s cercetm efectul exercitat de reactivitatea motorie asupra riscului de a se produce un accident rutier, este o bun idee s ncepem prin studiul literaturii de specialitate i a cercetrilor, destul de numeroase, referitoare la aceast tem. Astfel, ne putem da seama de modul n care variabilele se influeneaz, i putem proiecta studiul n cunotin de cauz; Printr-un studiu pilot, realizat pe un numr relativ redus de subieci, n care s putem estima mrimea indicatorilor tendinei centrale i ai dispersiei, i, implicit, mrimea efectului; Dac nu avem posibilitatea realizrii unei meta-analize i nici cea a efecturii unui studiu pilot, vom stabili numrul de subieci necesari pe baza unui nivel mediu al mrimii efectului.

n literatura de specialitate, vei ntlni deseori pragul de semnificaie notat cu , corespunztor riscului de a produce o eroare de tip I i mrimea efectului notat cu , corespunztoare riscului de a produce o eroare de tip II. Caracteristica testului statistic, adic situaia n care respingem ipoteza nul fr a comite o eroare de tip I, se noteaz cu 1 -, iar puterea unui test statistic, adic situaia n care nu respingem ipoteza nul, fr a comite o eroare de tip II se noteaz cu 1-. Aadar, puterea statistic a unei cercetri

248

Cristian Opariuc-Dan este intim legat de mrimea efectului, dei ia n considerare un numr de trei parametri importani: Mrimea efectului (); Mrimea eantionului (n); Mrimea pragului de semnificaie ()

Calculul efectiv al puterii unei cercetri nu presupune doar diferena 1-, ci este destul de laborios i nu l vom detalia aici. Pentru cei interesai, voi furniza legtura ctre programul GPower, care permite, alturi de multe alte procedee de analiz a datelor, i calculul puterii unei cercetri. Programul este gratuit, poate fi descrcat de pe site-ul http://www.psycho.uniduesseldorf.de/abteilungen/aap/gpower3/ aceast adres fiind pus la dispoziia mea i a dumneavoastr de ctre Florin Sava n excelenta sa lucrare (Sava, 2004). Fr s intrm n amnunte, vom furniza, n final, o serie de modaliti de cretere a puterii statistice ntr-o cercetare tiinific, aa cum au fost acestea exprimate de ctre Florin Sava (Sava, 2004), la care vom aduga completrile noastre. Autorul sus menionat, distinge ntre trei categorii de metode care pot mbunti puterea statistic ntr-o cercetare tiinific. Pentru detalii suplimentare, putei consulta lucrarea sa (Sava, 2004 pg. 40-46): Metode orientate spre designul cercetrii; Metode orientate spre msurrile efectuate n cadrul cercetrii; Metode exclusiv statistice.

II.5.1.3.1 Metode orientate spre designul cercetrii 1. Cea mai simpl metod de cretere a puterii statistice ntr-o cercetare tiinific se refer la creterea numrului de subieci eva249

Statistic aplicat n tiinele socio-umane

luai. Putei, fie include mai muli subieci n ntregul lot de studiu, fie mri numrul de subieci la nivelul grupelor de cercetare considerate cele mai importante din perspectiva ipotezelor stabilite; 2. Utilizarea unui design de cercetare cu msurri repetate. tii deja c un design cu msurri repetate care folosete eantioane dependente are o putere mai mare n comparaie cu design-ul bazat pe eantioane independente, deoarece variana rezidual cea determinat de erori, variana neexplicat este mai mic. Folosind, de obicei, aceiai subieci n dou condiii experimentale diferite, erorile determinate de factorii subiectivi sunt mult mai mici n comparaie cu situaia n care vei folosi dou eantioane independente; 3. Introducerea unei covariabile eficiente. nc nu avei noiunea complet asupra semnificaiei unei covariabile. Pentru a v face ct de ct o idee, revedei capitolul referitor la corelaii pariale. n acest volum ne-am limitat la studiul efectelor pe care le exercit o singur variabil independent asupra unei singure variabile d ependente. Majoritatea situaiilor de cercetare presupun ns analiza efectului generat de mai multe variabile independente asupra unei singure variabile dependente (ANOVA analiza de varian), a efectului generat de mai multe variabile independente asupra mai multor variabile dependente sau a efectului generat de variabilele independente asupra variabilelor dependente n condiiile meninerii constante a efectului unei variabile numit covariabil (ANCOVA analiza de covarian). Despre aceste elemente vom discuta, ns, n urmtoarea lucrare. Ceea ce trebuie s tii deocamdat este faptul c introducerea unei covariabile, aflat, desigur, n relaie cu variabila dependent, poate determina micorarea 250

Cristian Opariuc-Dan varianei neexplicate i, implicit, creterea puterii unei cercetri. Dac studiem efectul determinat de emotivitate asupra notelor obinute la examene, este posibil s nu obinem nicio diferen semnificativ ntre emotivi i neemotivi sub aspectul notelor obinute. Includerea unei covariabile de tipul timp dedicat studiului s-ar putea s conduc la efecte semnificative; 4. Utilizarea unui design de cercetare ct mai simplu. Cu ct includem ntr-un studiu mai multe variabile, cu att crete riscul de a comite o eroare de tip I, de a obine rezultate semnificative din ntmplare. Chiar dac aplicm corecii statistice pentru a reduce riscul de apariie a erorilor de tip I, vom crete probabilitatea de a obine erori de tip II. Principiul fundamental: cel mai simplu e cel mai bine; 5. Creterea numrului de grade de intensitate pentru variabila independent sau creterea amplitudinii factorilor. Dac vom studia efectul reactivitii asupra producerii de accidente rutiere, sar putea ca n condiiile n care variabila independent reactivitate are doar dou grade de intensitate, reactivitate mic i rea ctivitate mare s nu obinem diferene semnificative. Dac am include un grad de intensitate n plus, spre exemplu reactivitate medie, este foarte probabil s gsim un efect al reactivitii asupra producerii de accidente rutiere; 6. Tratarea variabilelor independente ca variabile discrete. Dac vom msura reactivitatea pe o scal continu (de interval), puterea statistic ar fi redus. n loc s punem n relaie scorurile variabilei reactivitate aflate la un nivel de interval cu scorurile variabilei accidente rutiere aflate la un nivel natural continuu preferm s recodificm variabila reactivitate variabil independen-

251

Statistic aplicat n tiinele socio-umane

t ntr-o variabil discret, spre exemplu reactivitate mic, reactivitate medie i reactivitate mare; 7. Utilizarea ipotezelor unilaterale. Am insistat de attea ori asupra acestui aspect, nct nu-l vom mai detalia aici. ntr-adevr, fa de ipotezele bilaterale, cele unilaterale mresc semnificativ puterea unei cercetri. II.5.1.3.2 Metode orientate spre msurrile efectuate n cadrul cercetrii 1. Utilizarea scalelor de msur numerice. Este evident faptul c n momentul n care utilizm scale numerice, situate la un nivel de msur parametric, beneficiem i de avantajele i puterea testelor statistice parametrice. n cercetri de acest tip, este bine ca cel puin variabilele dependente s fie msurate la un nivel parametric; 2. Transformarea datelor brute. Dei testele parametrice au ca cerin de baz nivelul parametric de msur, pentru a le folosi trebuie s fie ndeplinit i condiia unei distribuii normale a datelor. n caz contrar, va trebui s utilizm teste neparametrice, cu o putere statistic mult mai mic (aproximativ jumtate din puterea testelor parametrice). Este de preferat ca n condiiile n care distribuia nu este normal s folosim tehnici de normalizare a datelor, n loc s trecem pur i simplu la utilizarea testelor neparametrice; 3. Alegerea de probe cu caracteristici psihometrice ridicate. Metoda aproape c nu mai necesit comentarii. Una este s msurm emotivitatea cu un chestionar luat din revista Felicia i altceva e s msurm aceeai dimensiune cu un instrument profesional. Instrumentele folosite trebuie s prezinte caracteristici nalte, cel puin sub aspectul validitii i sub cel al fidelitii pentru ca cercetarea s fie relevant.

252

Cristian Opariuc-Dan II.5.1.3.3 Metode exclusiv statistice 1. Salvarea unor grade de libertate. Implicit, un experiment sau o cercetare ct mai simplu proiectat duce la un numr de grade de libertate mai redus. Planurile de cercetare complexe determin, pe lng calcularea unui numr mare de efecte, i o putere statistic mai mic; 2. Utilizarea tehnicilor statistice cu o putere mai mare. Atunci cnd situaia o permite, este de preferat s folosim cele mai puternice teste statistice. De exemplu, dac ntr-o cercetare avem de ales ntre folosirea testului z i folosirea testului t Student, vom alege utilizarea testului z, acesta fiind mai puternic n comparaie cu testul t.

II.6 Realizarea testelor statistice n SPSS


nainte de a ncepe activitatea care v place dumneavoastr cel mai mult, evident cea practic, unde vom folosi SPSS, vreau s v anun c SPSS nu mai exist. Firma SPSS Tabelul 2.22 Structura bazei de date pentru testul 2 Variable Position Label Measurement Level Inc. a fost cumprat de Daca ctre IBM, aadar ultima saptamana versiune de SPSS este verviitoare ar fi Intrebare_1 1 alegeri Nominal siunea 17. ntr-adevr, inprezidentiale, cu cine ati vestiia a fost n jur de 1,2 vota? miliarde de dolari i s-a Variables in the working file finalizat n anul 2009. AstValue Label fel, SPSS devine parte din Intrebare_1 1 Costachescu Virgil programul integrat al com2 Ionescu George paniei IBM - Business 3 Neacsu Vasile Analytics and Process Op4 Agape Alexandru timization, versiunea 18 a produsului numindu-se acum PASW (Predictive Analytics Software for Win253

Statistic aplicat n tiinele socio-umane

dows). Deoarece att aspectul ct i funcionalitatea PASW sunt radical diferite de ceea ce tiai deja, vom continua s utilizm SPSS n acest volum (versiunea 17), urmnd ca n celelalte cri s trecem ctre noua variant de la IBM.

II.6.1 Procedee neparametrice


Testul 2 n SPSS are o proprietate interesant, alta fa de care ne-am obinuit. Acesta permite analiza doar a unei singure variabile, comparnd frecvenele teoretice cu cele observate. S considerm situaia unui sondaj de opinie, n care un numr de 20 persoane au rspuns la urmtoarea ntrebare: Dac sptmna viitoare ar fi alegeri prezideniale, dumneavoastr cu cine ai vota? Variantele de rspuns au fost 1 Costchescu Virgil, 2 Ionescu George, 3 Figura 2.1 Lansarea analizei Neacu Vasile, 4 Agape Alexandru.
pentru testul chi ptrat

Variabila este situat, desigur, la un nivel nominal, structura bazei de date fiind prezentat n tabelul 2.22.

Tabelul 2.23 Rspunsurile subiecilor pentru testul 2

Costachescu Virgil Costachescu Virgil

Agape Alexandru Ionescu George

Rspunsurile celor 20 de subieci Costachescu Virgil Neacsu Vasile sunt reprezentate n tabelul 2.23. Problema Costachescu Virgil Costachescu Virgil care se pune este aceea de a verifica dac Ionescu George Ionescu George exist vreo diferen semnificativ ntre Neacsu Vasile Costachescu Virgil cei 4 candidai sub aspectul preferinei Neacsu Vasile Costachescu Virgil respondenilor. Ipoteza nul a acestui stu- Ionescu George Ionescu George diu ar fi c, toi cei patru candidai sunt Agape Alexandru Costachescu Virgil Neacsu Vasile preferai n mod egal de ctre respondeni. Agape Alexandru Desigur, verificarea unei asemenea ipoteze se face prin intermediul testului statistic 2. 254

Cristian Opariuc-Dan Lansarea acestui test se face din meniul Analyze, opiunea Nonparametric Tests i apoi opiunea ChiSquare. n aceast seciune (Nonparametric tests) vom regsi aproape toate testele statistice folosite n cazul datelor neparametrice. Executarea comenzii determin lansarea ferestrei de configurare pentru testul statistic 2. Fereastra are mai multe elemente de noutate, astfel nct vom insista puin Figura 2.2 Configurarea analizei asupra ei. Lista variabilelor din baza de date pentru testul chi ptrat se afl n partea stng, lista variabilelor incluse n vederea analizei o regsim n partea dreapt. Dup cum observai n figura 2.2, am inclus deja variabila noastr n vederea analizei acesteia. Seciunea Expected Range permite configurarea modalitii de calcul a amplitudinii frecvenelor teoretice. Astfel, cazul cel mai des ntlnit este Get from data, situaia n care SPSS calculeaz automat amplitudinea frecvenelor estimate, pornind de la datele existente la fel cum am procedat i noi. Putei alege i opiunea Tabelul 2.24 Rezultatul analizei pentru testul 2 Use specified range, caz n Daca saptamana viitoare ar fi alegeri prezidentiale, cu cine ati vota? care frecvenele estimate sunt Observed N Expected N Residual cele cuprinse ntre limita miCostachescu Virgil 8 5,0 3,0 nim (Lower) i limita maIonescu George 5 5,0 ,0 xim (Upper). Aceast ulNeacsu Vasile 4 5,0 -1,0 Agape Alexandru 3 5,0 -2,0 tim situaie se folosete n Total 20 cazul n care dorii s comparai frecvenele observate cu alte frecvene, nu cele calculate automat de SPSS. Este, dac vrei, o form neparametric a testului t Student pentru un singur eantion. 255

Statistic aplicat n tiinele socio-umane

Relaionat cu aceast seciune se afl i seciunea Expected values, care se refer nu la amplitudinea frecvenelor estimate ci chiar la valoarea acestora. Cazul tipic este All categories equal, adic frecvenele observate se compar cu situaia n care fiecare categorie ar avea o frecven de apariie teoretic, egal. Opiunea Values se folosete la fel ca i opiunea Use specified range din seciunea anterioar. Valorile pot fi adugate folosindu-se butonul Add, pot fi modificate cu butonul Change sau pot fi eliminate cu ajutorul butonului Remove.
Test Statistics Daca saptamana viitoare ar fi alegeri prezidentiale, cu cine ati vota? Chi-Square df Asymp. Sig. 2,800a 3 ,423

a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 5,0.

Butonul Exact permite definirea testelor suplimentare de semnificaie, iar butonul Options configureaz statisticile descriptive care vor fi calculate, precum i tratamentul cazurilor lips. Ambele opiuni au fost detaliate n capitolul anterior, drept urmare nu

vom reveni aici asupra lor. Lansarea efectiv a analizei se face prin apsarea butonului OK, aa cum tii deja. Programul furnizeaz dou tabele. n primul tabel, observm c un numr de 8 persoane l-ar alege pe Costchescu Virgil. Pentru fiecare prezideniabil, frecvena teoretic este 5. Prin urmare, frecvena observat pentru Costchescu Virgil supraestimeaz frecvena teoretic cu 3 alegeri.

Figura 2.3 Fereastra de configurare a testului binomial

256

Cristian Opariuc-Dan Agape Alexandru are o frecven observat de 3. Fa de frecvena teoretic 5, aceasta subestimeaz pentru acest prezideniabil cu 2 alegeri. Pentru a rspunde dac exist diferene semnificative ntre cei patru prezideniabili, vom urmri al doilea tabel din foaia de rezultate. Observm c pragul de semnificaie este de 0,423, mult mai mare dect limita admis, 0,05. Aadar diferena Tabelul 2.25 Structura bazei de date pentru testul binomial nu este semnificativ, Variable Information nu putem respinge ipoMeasurement Variable Position Label Level teza nul. Iat c, n culoare_par 1 Culoarea paru- Nominal ciuda aparenelor, opilui nia alegtorilor nu este accidente 2 Numar de Scale accidente conturat. Dup cum Variables in the working file vedei, pentru a vedea Variable Values dac o opinie este sau Value Label nu este conturat, avem culoare_par 1 Blond nevoie de ceva mai 2 Brunet mult dect exprimri procentuale sau simple frecvene absolute. O variant a acestui test, pentru situaia n care variabila are doar dou categorii (variabile de tip Masculin Feminin sau Da Nu) este testul binomial. Acesta poate fi lansat din aceeai categorie (Nonparametric Tests), opiunea Binomial, fiind mai precis dect chi-ptrat atunci cnd variabila are exact dou categorii. V mai amintii exemplul cu blondele, brunetele i accidentele rutiere? Haidei s construim o baz de date avnd structura din tabelul 2.25. Avem dou variabile: culoarea prului, o variabil nominal dihotomic, avnd dou valori blond i brunet i accidente, variabil scalar care nregistreaz numrul de accidente comise.

257

Statistic aplicat n tiinele socio-umane

Structura rspunsurilor celor 31 de femei este dat n tabelul 2.26. Ipoteza nul a acestui nou studiu este aceea c nu exist nicio diferen semnificativ ntre frecvena cu care comit accidente blondele i frecvena cu care comit accidente brunetele. Desigur, n aceast situaie, utilizarea testului binomial este cea mai adecvat. Fereastra de configurare a testului binomial nu pune probleme deosebite. Diferena fa de testul anterior const doar n titulatur. Avem acum seciunea Define Dichotomy n care putem alege calculul acesteia automat din date cu ajutorul opiunii Tabelul 2.26 Baza de date pentru testul binomial Get from data sau putem Culoare pr Accidente Culoare pr Accidente introduce o valoare n caseta Blond 0 Blond 3 Cut point pentru a construi Brunet 3 Brunet 4 instantaneu una. Ultima opiu- Blond 0 Blond 10 ne o vom alege dac variabila Brunet 4 Blond 2 nu are o dihotomie real. De Brunet 2 Brunet 3 exemplu, dac avem variabila Blond 2 Brunet 3 vrsta, variabil continu, cu Brunet 2 Brunet 1 3 Brunet 2 mediana, s spunem, 18 ani. Blond 1 Brunet 0 Dorim s folosim aceast vari- Brunet 0 Blond 2 abil n testul binomial. n Brunet 0 Brunet 3 acest caz, n caseta Cut point Blond 0 Brunet 3 vom introduce valoarea 18, iar Brunet 0 Blond 3 SPSS va transforma instanta- Brunet Blond 1 Brunet 1 neu variabila ntr-una dihotoBrunet 2 Brunet 2 mic subiecii cu vrsta sub Blond 3 18 ani vor face parte din primul grup, iar subiecii cu vrsta peste 18 ani fac parte din al doilea grup dup care efectueaz prelucrrile necesare.

258

Cristian Opariuc-Dan Caseta de text Test proportion permite specificarea proporiei teoretice cu care se va face comparaia. Implicit este inclus valoarea 0,50, ceea ce arat o comparaie cu situaia n care cele dou grupuri ar avea proporii egale, 50% i 50%. Rezultatul acestui test este Binomial Test Observed Test Asymp. Sig. foarte simplu de Category N Prop. Prop. (2-tailed) interpretat. Se obGroup 1 Blond 12 ,39 ,50 ,281a serv, n tabelul Culoarea Group 2 Brunet 19 ,61 parului 2.27, c testul nu Total 31 1,00 este semnificativ, a. Based on Z Approximation. pragul de semnificaie fiind mai mare de 0,05. Aadar, ipoteza nul nu se poate respinge, cu alte cuvinte lotul nostru de cercetare poate fi considerat omogen din punctul de vedere al caracteristicii culoarea prului. Proporia de blonde nu difer semnificativ de proporia de brunete.
Tabelul 2.27 Rezultatul analizei pentru testul binomial

Vom trata, n continuare, dei face parte dintr-o alt categorie testul de normalitate Kolmogorov-Smirnov. Acesta permite comparaia unei distribuii empirice cu o distribuie teoretic, de obicei normal, plecnd de la ipoteza nul conform creia cele dou distribuii nu difer. Este un test similar testelor de Figura 2.4 Fereastra de configurare a testului normalitate studiate n capitolele Kolmogorov-Smirnov anterioare. Aa cum am menionat i cu alt ocazie, testele de comparaie a unei distribuii empirice cu o 259

Statistic aplicat n tiinele socio-umane

distribuie teoretic nu se limiteaz doar la distribuia teoretic normal. Se poate folosi i o alt distribuie teoretic, aa cum ar fi distribuia Poisson, distribuia uniform, exponenial i altele. Nici testul Kolmogorov-Smirnov nu face excepii, dup cum vei vedea imediat. Fereastra de configurare a testului Kolmogorov-Smirnov poate fi lansat din aceeai opiune de meniu, cea a testelor non-parametrice, apoi 1Sample K-S. Formularul din figura 2.4 este destul de simplu. Alturi de ferestrele variabilelor, ntlnim n plus un numr de 4 csue de bifare, grup ate n seciunea Test Distribution. Caseta Normal se refer la compararea distribuiei empirice cu distribuia normal, caseta Poisson la compararea cu distribuia Poisson, caseta Uniform la compararea cu distribuia uniform, iar caseta Exponenial la compararea cu distribuia exponenial.
Tabelul 2.28 Rezultatul analizei pentru testul Kolmogorov-Smirnov

One-Sample Kolmogorov-Smirnov Test Numar de accidente N Normal Parametersa,,b Mean Std. Deviation Most Extreme Differences Absolute Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data. 31 2,10 1,938 ,224 ,224 -,140 1,246 ,090

Desigur, pe noi ne intereseaz doar comparaia cu distribuia normal, prin urmare vom bifa numai caseta Normal. De asemenea, variabila supus analizei va fi, n mod evident, o variabil continu numrul de accidente.

Tabelul rezultat este destul de generos n informaii. n primul rnd, ne sunt oferite informaii despre media i abaterea standard a populaiei pentru variabila estimat. n cazul nostru, media accidentelor comise este de 2,10 accidente cu o abatere standard de 1,938 accidente. n subsolul tabelului avem distribuia teoretic folosit la compararea distribuiei empirice dis-

260

Cristian Opariuc-Dan tribuia normal i informaia conform creia aceti parametri sunt estimai pe baza datelor calculate la nivelul celor 31 de femei investigate. Dup compararea cu distribuia normal, tabelul ne arat i diferenele extreme observate, n sens pozitiv i negativ. Cea mai mare diferen observat fa de distribuia normal este o diferen pozitiv, avnd valoarea 0,224. Urmtoarea ntrebare este dac aceast diferen se ncadreaz n limite acceptabile, pentru ca distribuia noastr s fie considerat normal. Ei bine, dup cum se poate constata, testul nu este semnificativ, pragul de semnificaie fiind de 0,09, mai mare dect pragul critic de 0,05. Cu alte cuvinte, vom accepta ipoteza nul conform creia nu exist nicio diferen ntre distribuia empiric i distribuia teoretic normal (ZKS(31)=1,24, p>0,05). Iat cum am demonstrat faptul c distribuia este una normal. V-am prezentat trei dintre cele mai utilizate teste neparametrice pentru un singur eantion. Cum procedm dac avem de a face cu dou eantioane independente? Pentru a verifica n exemplul nostru dac exist diferene semnificative ntre blonde i brunete sub aspectul Figura 2.5 Fereastra de configurare al testelor comiterii de accidente, vom folosi neparametrice pentru dou eantioane independente acelai sub-meniu, Nonparametric Test, din care vom alege opiunea 2 Independent Samples. Fereastra de configurare prezentat n figura 2.5 are o serie de particulariti. n primul rnd, lista Test Variable List reprezint locaia n care vom include variabila dependent numrul de accidente n cazul de fa. Caseta Grouping Variable reprezint locul n care vom include variabila 261

Statistic aplicat n tiinele socio-umane

independent sau variabila de grup. Variabila noastr de grup este culoarea prului, pe care o vom transfera n aceast list. Observai c, imediat dup transfer, la dreapta numelui variabilei apar dou semne de ntrebare, deoarece nu am definit nc grupurile. Ne aducem aminte c am notat cu cifra 1 blondele i cu cifra 2 brunetele. Pentru a defini grupurile, apsm butonul Define Groups. Se deschide un nou formular, de mici dimensiuni, similar celui din figura 2.6. Primul grup este reprezentat de blonde, care au fost codate cu cifra 1. Aadar vom scrie 1 n caseta Group 1. Al doilea grup, brunetele, au fost codate cu 2. Efectum aceeai operaiune n caseta Group 2, apoi apsm butonul Continue pentru a reveni la formularul anterior.
Figura 2.6 Formularul de configurare a grupurilor

Constatm c n paranteze, dup numele variabilei de grup, au aprut cifrele 1 i 2, semn c s-au definit grupurile. De asemenea, putem lansa analiza de date, deoarece s-a activat i butonul OK. S nu ne grbim nc. n seciunea Test Type, SPSS ne pune la dispoziie un numr de patru teste neparametrice pentru eantioane independente. Testul Mann-Whitney U a fost discutat deja i tim c reprezint unul dintre cele mai populare teste neparametrice pentru eantioane independente. Dei m repet, v reamintesc c acesta verific dac dou eantioane independente sunt echivalente din punctul de vedere al poziiei datelor. Testul Kolmogorov-Smirnov Z i testul iteraiilor Wald-Wolfowitz sunt teste mai generale, care detecteaz diferenele la nivelul poziiilor i a formei distribuiilor. Despre al doilea am mai discutat. Acesta combin i 262

Cristian Opariuc-Dan stabilete rangurile scorurilor din ambele grupuri. Dac cele dou eantioane sunt din aceeai populaie adic dac nu exist diferene ntre ele cele dou grupuri vor fi distribuite aleatoriu n jurul rangurilor generale. Testul Kolmogorov-Smirnov Z face deja ceea ce tii. Se bazeaz pe analiza diferenei maxime dintre cele dou distribuii cumulative. Practic, este un fel de test de normalitate, doar c nu se mai compar distribuia teoretic i cea empiric ci distribuiile celor dou eantioane. Testul Moses al reaciilor extreme presupune c variabila independent va afecta unii subieci ntr-o direcie i pe alii n direcia opus. De obicei, acest test se folosete atunci cnd lucrm cu un grup de control. Grupul de control este definit ca fiind grupul 1, n timp ce grupul experimental se definete ca fiind grupul 2. n cazul nostru, neavnd o cercetare cu grupuri de control, utilizarea acestui test este inadecvat.
Tabelul 2.29 Rezultatul analizei pentru testul Mann-Whitney U

Ranks Culoarea parului N Numar de accidente Blond Brunet Total 12 19 31 Test Statisticsb Mean Rank 16,25 15,84 Sum of Ranks 195,00 301,00

Din considerente care in de specificul datelor noastre, vom bifa doar testul MannWhitney U, acesta fiind singurul test adecvat, care ne poate furniza informaii utile.

Rezultatele testului Mann-Whitney U sunt furnizate Numar de accidente Mann-Whitney U 111,000 n tabelul 2.29. Observm c Wilcoxon W 301,000 media rangurilor pentru blonde Z -,125 este de 16,25 iar pentru brunete Asymp. Sig. (2-tailed) ,900 Exact Sig. [2*(1-tailed Sig.)] ,921a este de 15,84. Diferena mic dintre cele dou medii ale rangua. Not corrected for ties. b. Grouping Variable: Culoarea parului rilor se confirm i n tabelul statisticilor. ntr-adevr, testul nu este semnificativ, valoarea semnificaiei statistice (0,921) fiind mult mai mare n comparaie cu pragul critic 0,05. 263

Statistic aplicat n tiinele socio-umane

Aadar, nu respingem ipoteza nul i constatm c nu exist diferene ntre blonde i brunete sub aspectul comiterii de accidente rutiere. Toate sunt la fel
Tabelul 2.30 Completarea bazei de date cu variabila accidente_final Atunci cnd Culoare pr Accidente_final Culoare pr Accidente_final avem de a face cu 0 Blond 1 eantioane perechi Blond Brunet 2 Brunet 2 0 Blond 4 (dependente), va trebui Blond Brunet 1 Blond 1 s folosim alte teste Brunet 0 Brunet 3 0 Brunet 3 statistice neparametri- Blond Brunet 0 Brunet 2 ce, dup cum bine Blond 1 Brunet 3 1 Brunet 2 tim. Vom extinde Brunet Brunet 0 Blond 1 puin exemplul nostru, Blond 0 Brunet 2 0 Brunet 2 introducnd nc o Brunet Brunet 0 Blond 1 variabil, numit ac- Blond 1 Brunet 0 1 Brunet 0 cidente_final, variabi- Brunet Blond 2 l care va stoca numrul de accidente comise de cele 31 de femei dup efectuarea a 10 ore de co nducere. V atrag atenia c exemplul are un caracter pur didactic i nu corespunde n niciun caz unei cercetri reale.

Figura 2.7 Formularul de configurare al testelor pentru eantioane dependente

Scorurile acestei noi variabile sunt prezentate n tabelul 2.30, pstrndu-se, n mod evident, ordinea persoanelor. Dup completarea bazei de date SPSS, ne propunem s vedem dac cele 10 ore de conducere au avut sau nu au avut efect. Ipoteza nul va fi cea conform creia nu exist diferene ntre accidentele

264

Cristian Opariuc-Dan comise nainte de efectuarea celor 10 ore de curs i accidentele comise dup efectuarea celor zece ore de curs. Din sub-meniul Nonparametric Tests vom alege opiunea 2 Related Samples pentru a putea accesa formularul de configurare pentru testele neparametrice referitoare la dou eantioane perechi. De aceast dat, ferea stra este puin diferit. Lista variabilelor care urmeaz s fie analizate (Test Pairs) are un aspect special care invit la construcia variabilelor perechi. Iniial, dup cum este i firesc, lista va fi goal. Trebuie s alegem prima v ariabil din pereche (Numr de accidente din lista din partea stng) i s apsm butonul de transfer. Vom observa c aceast variabil s-a transferat n partea dreapt, pe rndul 1 al coloanei Pair, n coloana Variable1. Alegem apoi a doua variabil din pereche (Numr de accidente dup curs) i acionm acelai buton de transfer. Variabila se va copia pe acelai rnd, dar n a doua coloan (Variable2). Astfel am construit prima pereche de variabile. Dac dorii, putei aduga mai multe variabile perechi nu este cazul nostru iar cu butoanele din partea dreapt a listei Test Pairs putei modifica ordinea perechilor (primele dou butoane) sau putei modifica ordinea variabilelor n cadrul perechii selectate (ultimul buton). Testele statistice disponibile se afl n aceeai seciune Test Type. Cel mai puternic test este testul Wilcoxon, pe care l cunoatei deja foarte bine. Avei posibilitatea s efectuai i testul semnului dac bifai caseta Sign. Atunci cnd datele din cele dou variabile sunt dihotomice, vei folosi testul McNemar. Acesta determin dac rata de rspuns iniial (naintea evenimentului) este egal cu rata de rspuns final (dup eveniment). Testul este util n detectarea modificrilor n rspunsuri ca urmare a unei intervenii experimentale, n situaii de tipul nainte-dup. O extensie a testului McNemar pentru date categoriale este testul omogenitii marginale (Marginal Homogeneity). Acest test permite nu numai variabile dihotomice, ci i variabile cu mai multe variante de rspuns. 265

Statistic aplicat n tiinele socio-umane

Noi vom discuta doar testul Wilcoxon i testul semnelor, acestea fiind testele adecvate tipului nostru de date. Desigur, pornirea analizei se va face prin acionarea butonului OK. Cele dou tabele ale testului Wilcoxon ne arat c, n urma comparaiilor, avem un numr de 18 cazuri n care rangurile au fost calculate pentru diferene pozitive (ranguri n care numrul de accidente dup cursuri este mai mic n comparaie cu numrul de accidente nainte de cursuri) cu o medie a rangurilor de 11,39, un numr de 3 ranguri calculate pentru diferene negative cu o medie a rangurilor de 8,67 (ranguri n care numrul de accidente dup cursuri este mai mare n comparaie cu numrul de accidente nainte de cu rsuri) i 10 ranguri egale.
Tabelul 2.31 Rezultatele testului Wilcoxon

Ranks N Numar accidente dupa Negative Ranks cursuri - Numar de Positive Ranks accidente Ties Total Mean Sum of Rank Ranks 205,00 26,00
b c

18a 11,39 3 8,67

10

31

Pornind de la aceste date, obinem un Z(31)=3,18 la un p<0,01. Testul este semnificativ, aadar respingem ipoteza nul i putem considera c cele 10 ore de curs au avut efect. Interpretarea decurge aproape la fel i n cazul n care folosim testul semnului.

a. Numar accidente dupa cursuri < Numar de accidente b. Numar accidente dupa cursuri > Numar de accidente c. Numar accidente dupa cursuri = Numar de accidente Test Statisticsb Numar accidente dupa cursuri - Numar de accidente

i n aceast situaie avem un numr de 18 diferene negative, 3 difea. Based on positive ranks. rene pozitive i un numr b. Wilcoxon Signed Ranks Test de 10 egaliti (Revedei teoria acestui test dac ai uitat principul de calcul).
Z Asymp. Sig. (2-tailed) -3,180a ,001

266

Cristian Opariuc-Dan Raportat la aceste diferene, testul este semnificativ la un prag de semnificaie mai mic de 0,01. Respingem i n aceast situaie ipoteza nul i putem considera c cele 10 ore de curs au avut efect.
Tabelul 2.32 Rezultatele testului semnului

Frequencies N Numar accidente Negative Differences dupa cursuri Positive Differencesb Numar de accidente Tiesc Total
a

18 3 10 31

a. Numar accidente dupa cursuri < Numar de accidente b. Numar accidente dupa cursuri > Numar de accidente c. Numar accidente dupa cursuri = Numar de accidente Test Statisticsb Numar accidente dupa cursuri Numar de accidente

Aceasta este metoda de lucru i interpretarea testelor neparametrice pentru eantioane relaionate. Am observat c exist diferene ntre cele dou situaii (naintea orelor de curs i dup orele de curs) n sensul c numrul de accidente scade semnificativ dup ce subiecii parcurg un numr de 10 ore de curs.

Dac dorii, putei verifica dac n a doua situaie (dup Exact Sig. (2-tailed) ,001a orele de curs) exist diferene a. Binomial distribution used. ntre blonde i brunete sub asb. Sign Test pectul comiterii accidentelor rutiere. Luai aceast solicitare ca exerciiu, al egei testul statistic adecvat i interpretai rezultatele.

II.6.2 Procedee parametrice


Procedeele parametrice vor fi abordate folosindu-se aceeai baz de date, pentru a nu complica inutil demersul nostru. n definitiv, avem 31 de cazuri, avem dou variabile continui i o variabil dihotomic, ar trebui ca cele dou variabile continui s se i distribuie normal. tim c cel puin una

Figura 2.8 Meniul de lansare al testelor parametrice

267

Statistic aplicat n tiinele socio-umane

dintre variabile (numrul de accidente nainte de curs) se distribuie normal. n realitate, cea de-a doua variabil (numrul de accidente dup curs) nu se distribuie normal. Dac nu credei, efectuai testul Kolmogorov-Smirnov pentru un eantion i v vei convinge. Testele statistice parametrice testele t Student le putei gsi n meniul Analyze, sub-meniul Compare Means, aa cum putei observa n figura 2.8. Putei alege ntre testul t Student pentru un singur eantion OneSample T Test, testul t Student pentru eantioane independente Independent-Samples T Test i testul t Student pentru eantioane perechi PairedSamples T Test. n cadrul acestui sub-meniu exist i alte opiuni, pe care le vom studia ulterior. S ncepem cu primul test statistic parametric, testul t Student pentru un singur eantion. Efectund click pe opiunea One-Sample T Test vei determina deschiderea ferestrei de configurare a acestui test statistic. Iat o fereastr extrem de simpl. S presupunem c desfurm o cercetare n care dorim s comparm media accidentelor comise de femei ntr-un an cu media accidentelor din Romnia, n aceeai perioad de timp. tim, din statisticile oficiale, c media accidentelor n Romnia este de, s spunem, 1,5 accidente anual. Ipoteza nul a acestui studiu susine c nu exist nicio diferen semnificativ ntre media accidentelor comise de femei i media accidentelor din Figura 2.9 Fereastra de configurare a testului t Romnia, ntr-un an. Desigur, Student pentru un singur eantion testul statistic adecvat pentru a verifica aceast ipotez este testul t Student pentru un singur eantion. A a268

Cristian Opariuc-Dan dar, vom transfera variabila continu Numr de accidente n lista Test Variable(s) iar n caseta de text Test Value vom include valoarea cu care dorim s efectum comparaia n situaia de fa valoarea 1,5 care reprezint media anual a accidentelor din Romnia. Butonul Options conine modalitatea de tratare a cazurilor lips i stabilirea intervalului de ncredere (implicit 95%), fiind descris n detaliu ntr-un capitol anterior.
Tabelul 2.33 Rezultatele testului t Student pentru un singur eantion

One-Sample Statistics N Numar de accidente 31 Mean 2,10 Test Value = 1.5 t Numar de accidente 1,714 df Sig. (2-tailed) 30 ,097 Mean Difference ,597 95% Confidence Interval of the Difference Lower -,11 Upper 1,31 One-Sample Test Std. Deviation 1,938 Std. Error Mean ,348

Rezultatele acestei analize sunt sintetizate n dou tabele. Primul tabel conine statistici descriptive. Aflm numrul total al subiecilor analizai (31), media accidentelor comise de ctre femei (2,10 accidente) eroarea standard a mediei (0,348 accidente) i abaterea standard (1,93 accidente). Al doilea tabel prezint statisticile rezultate n urma testului t Student pentru un singur eantion. Astfel, se prezint valoarea cu care s-a realizat comparaia (1,5 accidente), valoarea testului t (1,714), numrul gradelor de libertate (30), semnificaia (0,097), diferena dintre media scorurilor eantionului i valoarea cu care s-a realizat comparaia (0,597), precum i intervalul de ncredere a acestei diferene (ntre -0,11 i 1,31).

269

Statistic aplicat n tiinele socio-umane

Concluzia este clar. Testul t Student pentru un eantion nu este semnificativ, valoarea semnificaiei sale depind valoarea prag 0,05. Prin urm are, nu putem respinge ipoteza nul. Aadar, nu exist nicio diferen semnificativ ntre media accidentelor comise de ctre femei i media anual a accidentelor din Romnia. Urmtoarea problem pe care ne-o punem se refer la solicitarea pe care v-am fcut-o la finalul subcapitolului anterior. S verificm dac exist diferene semnificative ntre blonde i brunete sub aspectul numrului de accidente comise ntr-un an, dup ce au efectuat cele 10 ore supli- Figura 2.10 Fereastra de configurare a testului t Student pentru eantioane independente mentare de curs. Ipoteza nul susine c nu exist nicio diferen semnificativ ntre blonde i brunete din acest punct de vedere. De aceast dat nu vom mai aborda problema la nivel neparametric ci la nivelul testelor parametrice. Mai precis, vom folosi testul t Student pentru eantioane independente. Fereastra de configurare seamn frapant cu cea a testelor neparametrice de tipul eantioanelor independente (Mann-Whitney U). Vom transfera variabila dependent Numr de accidente dup curs n lista Test Variable(s) i variabila independent Culoarea prului n lista Grouping Variable. Urmeaz definirea grupurilor, la fel ca la testele neparametrice. Blondele au Figura 2.11 Definirea grupurilor pentru testul t Student fost codate cu cifra 1, aadar vor forma primul grup, iar brunetele au fost codate cu cifra 2, constituind al doilea grup. Am 270

Cristian Opariuc-Dan folosit, n acest caz, opiunea Use specified values care ne permite introducerea precis a valorilor dintr-o variabil discret. n cazul n care am fi folosit o variabil continu, exist posibilitatea transformrii acesteia ntr-una discret alegnd opiunea Cut point. Aceast opiune funcioneaz la fel ca i n cazul testelor neparametrice, unde a fost detaliat i exemplificat.
Tabelul 2.34 Rezultatele testului t Student pentru dou eantioane independente

Group Statistics Culoarea parului Numar accidente dupa cursuri Blond Brunet Levene's Test for Equality of Variances N 12 19 Mean 1,00 1,26 Std. Deviation 1,128 1,147 Std. Error Mean ,326 ,263

Independent Samples Test t-test for Equality of Means 95% Confidence Interval of the Difference F Equal variances assumed Equal variances not assumed 2,005 Sig. t df 29 Sig. (2Mean Std. Error Lower Upper tailed) Difference Difference ,536 -,263 ,420 -1,123 ,597

,167 -,626

Numar accidente dupa cursuri

-,629 23,843

,536

-,263

,419 -1,128

,601

Tabelele generate de acest test sunt ceva mai complexe. Regsim tabelul statisticilor descriptive, n care, pentru fiecare grup, sunt prezentate numrul de cazuri, mediile, abaterile standard i erorile standard ale mediilor. Astfel, avem un numr de 12 blonde, media accidentelor acestora dup cursuri este de 1 cu o abatere standard de 1,12 accidente i o eroare standard a mediei de 0,32 accidente, precum i un numr de 19 brunete, avnd o medie a

271

Statistic aplicat n tiinele socio-umane

accidentelor de 1,26 cu abaterea standard de 1,14 i eroarea standard a mediei 0,26 accidente. Tabelul rezultatelor testului statistic este asemntor cu cel al testului t pentru un singur eantion. n plus, apar datele generate de testul Levene al egalitii varianelor. De asemenea, observm c ni se prezint dou seturi de rezultate: unul n cazul n care varianele sunt egale (primul rnd) i cellalt pentru variane inegale (al doilea rnd). Care dintre cele dou seturi de date vor fi folosite? Ei bine, utilizarea acestora depinde de rezultatul testului de egalitate a varianelor. Ne amintim c testul Levene pleac de la ipoteza nul conform creia varianele sunt egale. Dac acest test nu este semnificativ, atunci nu respingem ipoteza nul i acceptm faptul c varianele sunt egaFigura 2.12 Fereastra de configurare a testului t Student pentru eantioane perechi le. n acest caz, vom folosi primul set de date. Dac testul este semnificativ, atunci vom respinge ipoteza nul, varianele nu sunt egale i utilizm al doilea set de date. n situaia noastr, testul nu este semnificativ (F=2,005; p=0,167), deci varianele sunt egale. n primul set de date, observm c testul statistic t Student pentru eantioane independente nu este semnificativ (p=0,536). Aadar, ipoteza nul nu poate fi respins i rezult c nu exist nicio diferen semnificativ ntre blonde i brunete din punctul de vedere al numrului de accidente comise ntr-un an, dup cursul de 10 ore. Ultimul test studiat n cadrul acestui capitol are n vedere compararea accidentelor comise nainte de curs, cu accidentele comise dup curs, ntr-o 272

Cristian Opariuc-Dan manier similar testelor neparametrice. De altfel, se poate observa c ferea stra de configurare a testului t Student pentru eantioane perechi arat la fel ca fereastra de configurare a testelor neparametrice pentru aceleai eantioane. Nu intrm n detalii. Vom construi perechea format din cele dou variabile numr de accidente nainte de curs i numr de accidente dup curs, apoi apsm butonul OK pentru a porni analiza statistic.
Tabelul 2.35 Rezultatele testului t Student pentru dou eantioane perechi

Paired Samples Statistics Mean Pair 1 Numar de accidente Numar accidente dupa cursuri 2,10 1,16 N Pair 1 Numar de accidente & Numar accidente dupa cursuri Paired Samples Test Paired Differences Std. Std. Error Mean Deviation Mean Pair 1 Numar de accidente - Numar accidente dupa cursuri ,935 1,459 ,262 95% Confidence Interval of the Difference Lower ,400 Upper 1,471 3,570 30 ,001 t df Sig. (2tailed) 31 Paired Samples Correlations Correlation ,663 Sig. ,000 N 31 31 Std. Deviation 1,938 1,128 Std. Error Mean ,348 ,203

De aceast dat, rezultatele se prezint sub forma a trei tabele. n primul tabel sunt afiate statisticile descriptive. Media anual a accidentelor nainte de curs este de 2,10 accidente, cu o abatere standard de 1,93 accidente i o eroare standard a mediei de 0,34 accidente. Dup curs, media anual a accidentelor se reduce la 1,16, cu o abatere standard de 1,12 i o eroare standard a mediei de 0,20. Desigur, ideea central a testului este dac aceast reducere a numrului de accidente poate fi considerat semnificativ. 273

Statistic aplicat n tiinele socio-umane

ntr-adevr, n ultimul tabel, constatm c diferena este semnificativ. Putem aadar respinge ipoteza nul conform creia nu exist niciun efect al cursurilor asupra numrului de accidente comise. Iat c exist o diferen semnificativ ntre numrul de accidente comise nainte de curs i numrul de accidente comise dup curs (t(30)=3,54; p<0,01), n sensul c, dup efectuarea celor 10 ore de curs, numrul de accidente anuale a sczut semnificativ. Al doilea tabel conine un coeficient de corelaie. M vei ntreba ce treab are coeficientul de corelaie ntr-un test statistic. Acesta urmrete pstrarea ierarhiei datelor. Cu alte cuvinte, un coeficient de corelaie semnificativ i pozitiv ne spune c subiecii care iniial aveau scoruri mici, n final vor avea tot scoruri mici; cei care iniial aveau scoruri mari, n final vor avea tot scoruri mari, cu toate c exist diferene semnificative ntre situaia inii al i cea final. Coeficientul de corelaie semnificativ i negativ ne arat c subiecii care iniial aveau scoruri mici au obinut n final scoruri mari i invers. Dac acest coeficient nu este semnificativ, nseamn c ierarhia iniial a scorurilor nu se mai pstreaz. n exemplul nostru, avem un coeficient de corelaie semnificativ i pozitiv. Acest lucru arat c, dei n final subiecii au fcut mai puine accidente ca urmare a participrii acestora la curs, totui cei care nainte fceau puine accidente, n final vor face i mai puine; cei care iniial au fcut foarte multe accidente, n final vor face tot multe accidente, cu toate c accidentele n final sunt totui mai puine n comparaie cu situaia iniial.

II.6.3 Analiza normalitii i a scorurilor aberante


n partea teoretic a acestui capitol am vzut cteva procedee statistice de analiz a normalitii i a scorurilor aberante. De asemenea, n subcapitolul destinat testelor neparametrice, am studiat testul Kolmogorov-Smirnov

Figura 2.13 Lansarea analizei pentru normalitate

274

Cristian Opariuc-Dan pentru un singur eantion i am observat maniera n care acest test se poate folosi pentru a analiza normalitatea unei distribuii empirice de date. n cadrul acestui subcapitol vom vedea i alte variante prin care putem decide dac o distribuie este sau nu este normal i/sau dac ne confruntm cu scoruri extreme. Foarte multe dintre informaiile prezentate aici au fost deja detaliate n lucrri anterioare, luFigura 2.14 Fereastra de configurare a statisticilor exploratorii crri dedicate statisticilor univariate. Nu vom relua acele explicaii, deoarece consider c sunt cunoscute. Vom insista doar asupra particularitilor care in de analiza normalitii i a scorurilor aberante prin prisma testelor statistice. Procedeele de analiz pot fi lansate din meniul Descriptive Statistics, opiunea Explore. n mod normal, aceast fereastr ar trebui s v fie foarte bine cunoscut. n lista Dependent list vom include variabila pe care dorim s o analizm. De asemenea, comunicm programului s afieze att statisticile, ct i graficele, prin alegerea opiunii Both din cadrul seciunii Display.

Figura 2.15 Opiuni de analiz pentru normalitate

n vederea configurrii opiunilor de analiz, vom apsa butonul Plots. Vom vedea fereastra din figura 2.15, n care regsim mai multe 275

Statistic aplicat n tiinele socio-umane

elemente. Pe unele le cunoatei (cum ar fi cele din seciunile Descriptive i Boxplots), n timp ce altele necesit unele clarificri. Caseta Normality plots with tests va afia graficele pentru probabilitatea teoretic a distribuiei normale i pentru tendinele datelor empirice ctre distribuia normal teoretic (distribuia z). De asemenea, se vor afia rezultatele testelor de normalitate Kolmogorov-Smirnov i Shapiro-Wilks, testul Kolmogorov-Smirnov fiind ajustat prin procedura de corecie a semnificaiei Lilliefors. Alturi de bifarea graficelor descriptive, vom alege i afiarea grafic elor i a testelor de normalitate.
Tabelul 2.36 Statistici descriptive

Case Processing Summary Cases Valid N Numar accidente dupa cursuri Percent N 0 31 100,0% Descriptives Statistic Numar accidente dupa cursuri Mean 95% Confidence Interval for Lower Bound Mean Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis 1,16 ,75 1,58 1,09 1,00 1,273 1,128 0 4 4 2 ,704 -,242 ,421 ,821 Std. Error ,203 Missing Percent ,0% N 31 Total Percent 100,0%

276

Cristian Opariuc-Dan Primele dou tabele furnizeaz statisticile descriptive univariate. Alturi de numrul de cazuri, ntlnim media i intervalul de ncredere al mediei, media 5% trim, mediana, Tabelul 2.37 Teste de normalitate Tests of Normality variana i abaterea stana Kolmogorov-Smirnov Shapiro-Wilk dard, amplitudinea de variStatistic df Sig. Statistic df Sig. aie, valorile minime i Numar acciden,203 31 ,002 ,862 31 ,001 maxime, intervalul te dupa cursuri intercuartil, coeficienii de a. Lilliefors Significance Correction simetrie i boltire. Pentru detalii despre aceti indicatori, consultai lucrarea anterioar dedicat statisticilor univariate. Urmtorul tabel este acela al testelor de normalitate. Avem att valorile pentru Kolmogorov-Smirnov, ct i valorile pentru Shapiro-Wilk. Se observ cu uurin c ambele teste sunt semnificative. Aadar, respingem ipoteza nul conform creia nu exist nicio diferen ntre distribuia empiric i distribu- Figura 2.16 Histograma distribuiei pentru variabila studiat ia teoretic normal. Iat c, scorurile pentru variabila Numr de accidente dup cursuri nu prezint o distribuie normal. Acest lucru devine evident dac analizm coeficientul de simetrie Skewness. Vom constata o asimetrie pozitiv, o tendin ctre valori mici, fapt mai mult dect clar din analiza histogramei.
Figura 2.17 Graficul boxplot al distribuiei pentru variabila studiat

Desigur, n asemenea situaii nu am putea folosi testele parametrice, aa cum am procedat n acest capitol, fr o 277

Statistic aplicat n tiinele socio-umane

normalizare a datelor. Dac nu dorim normalizarea datelor, singura alternativ pe care o avem este cea a testelor neparametrice. Aceleai tendine se pot observa i n graficul boxplot din figura 2.17. Putei remarca modul n care datele se concentreaz n zona scorurilor mici (cutia), n timp ce una dintre musti determin asimetria pozitiv. Din fericire, nu exist scoruri aberante. Graficul nu remarc asemenea valori dincolo de limita mustilor. Programul SPSS ne prezint i dou grafice prin intermediul crora se compar distribuia datelor empirice cu distribuia teoretic normal. Primul grafic Numit Normal Q-Q Plot traseaz dreapta probabilitilor distribuiei normale i prezint modul n care categoriile variabilei analizate se abat de la distribuia normal. n figura 2.18 se poate observa c pentru scoruri Figura 2.18 Graficul Q-Q Plot al distribuiei pentru variabila studiat mici (scoruri de la 0 la 2), abaterile de la distribuia normal nu sunt semnificative. n zona scorurilor mici, distribuia empiric respect caracteristicile distribuiei normale. Probleme apar n zona scorurilor mari (scoruri peste valoarea 2). Categoriile cu valori mari se abat n sens negativ de la distribuia normal. Prin urmare, pentru ca datele s se distribuie normal, ar trebui ca scorurile mari s aib valori mult mai mici n comparaie cu cele actuale.

278

Cristian Opariuc-Dan Acest lucru nu ne spune dect c distribuia este asimetric pozitiv, fapt pe care l cunoteam deja. Al doilea grafic furnizat de SPSS compar distribuia z (distribuie cu media 0 i abaterea standard 1) cu distribuia empiric, n termeni de abateri standard. Se observ n figura 2.19 dreapta distribuiei z i modul n care se abat categoriile variabilei studiate de la aceasta. Lucrurile sunt mult mai clare n acest caz. Tendinele sunt aceleai. Scorurile mici se apropie Figura 2.19 Graficul Q-Q Plot al distribuiei pentru variabila studiat, n raport cu distribuia z de distribuia normal, n timp ce scorurile mari sunt puternic distanate. Totui nu avem de a face cu scoruri extreme, deoarece nicio valoare nu depete o abatere standard n jurul mediei. Iat i abordarea profesionist a analizei normalitii unei distribuii, inclusiv tratarea scorurilor extreme. Nu vom ncheia acest capitol nainte de a v furniza aa cum v-am obinuit un exemplu profesional de analiz i interpretare a unui test statistic. Ne vom rezuma la testele parametrice, deoarece acestea sunt cele mai folosite, menionnd c analiza testelor neparametrice se face dup un algoritm asemntor.

279

Statistic aplicat n tiinele socio-umane

ntr-o cercetare efectuat pe un numr de 62 de deinui, femei i brbai, s-a urmrit investigarea emotivitii. n acest sens, s-a administrat inventarul de personalitate 16 PF, reinndu-se doar factorul de personalitate C. Ipoteza nul susine c nu exist nicio diferen ntre brbai i femei sub aspectul emotivitii. Deoarece scorurile variabilei Factorul C se distribuie normal, analiza va folosi testul t Student pentru eantioane independente.
Group Statistics Genul biologic al subiectilor Factorul C Masculin Feminin N 32 30 Mean 5,98 7,60 Std. Deviation 1,369 1,639 Std. Error Mean ,214 ,423

Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference F Factorul C Equal variances assumed Equal variances not assumed 1,696 Sig. t df 60 Sig. (2Mean tailed) Difference ,000 ,002 -1,624 -1,624 Std. Error Lower Upper Difference ,436 -2,498 ,474 -2,609 -,751 -,640

,198 -3,728

-3,426 27,570

Statisticile de grup indic un numr de 32 de deinui i 30 de deinute. Media brbailor la factorul emotivitate este de 5,98, cu o eroare sta ndard a mediei de 0,21 i o abatere standard de 1,36. n cazul femeilor, media la factorul emotivitate este de 7,60, cu o eroare standard a mediei de 0,423 i o abatere standard a scorurilor de 1,63.

280

Cristian Opariuc-Dan Conform testului Levene de egalitate a varianelor, varianele celor dou grupuri studiate sunt egale, deoarece testul este nesemnificativ (F=1,69; p=0,198), prin urmare nu putem respinge ipoteza nul conform creia varianele scorurilor celor dou eantioane sunt egale. n aceste condiii, constatm existena unei diferene semnificative ntre brbai i femei sub aspectul emotivitii (t(60)=3,728; p<0,01), n sensul c emotivitatea femeilor este semnificativ mai mare n comparaie cu emotivitatea brbailor (mfemei=7,60 > mbrbai=5,98), aa cum rezult i din graficul ataat. Astfel, vom respinge ipoteza nul conform creia nu exist diferene semnificative ntre brbai i femei sub aspectul emotivitii i vom susine ipoteza alternativ. ntr-adevr, diferena dintre brbai i femei din punctul de vedere al variabilei studiate exist i este semnificativ. Efectul exercitat de variabila independent gen biologic asupra variabilei dependente emotivitate este un efect puternic (r2=0,188), testul fiind semnificativ att statistic, ct i din punctul de vedere al utilitii pra ctice. Efectul se manifest n sensul testului statistic, susinnd ipoteza alternativ propus. Astfel, 18,8% din variana emotivitii se poate explica prin genul biologic, aspect care confirm teoria dup care emotivitatea femeilor este mai mare n comparaie cu cea a brbailor, chiar i n mediul penitenciar.

281

Statistic aplicat n tiinele socio-umane

Iat o demonstraie statistic realizat complet i profesional. Desigur, mai este loc. Am putea completa rezultatele cu puterea cercetrii pentru a avea o imagine definitiv asupra acestei analize. Oricum, printr-un asemenea demers nu v putei face de rs la nicio conferin din ar ori din strintate.

n concluzie:
Extinderea cunotinelor dobndite n urma studierii unui eantion la nivelul ntr egii populaii, face parte din domeniul statisticilor infereniale. Orice cercetare tiinific are la baz un plan (design) de cercetare; Un design de cercetare este un plan care permite atribuirea subiecilor n diferite condiii experimentale, mpreun cu modalitile de analiz a le datelor rezultate. Planurile de cercetare pot fi de baz sau complexe. Planurile de cercetare compl exe deriv din combinaiile planurilor de cercetare de baz ; Planurile de cercetare de baz sunt: designul complet aleatoriu (CR -p), designul aleatoriu cu blocuri (RB-p) i designul ptratelor latine (LS-p); Testele statistice neparametrice se aplic atunci cnd datele sunt situate la un nivel de msur neparametric sau cnd datele sunt parametrice, ns nu este ndeplinit condiia distribuiei normale; Principalele teste neparametrice sunt: testul diferenelor dintre frecvene 2, testul medianei pentru eantioane independente, testul Mann -Whitney U pentru eantioane independente, testul iteraiilor Wald-Wolfowitz (Runs), testul semnelor pentru eantioane dependente, testul Wilcoxon; Principalele teste parametrice sunt: testele pentru un singur eantion, teste pentru dou eantioane independente i teste pentru dou eantioane perechi; Exist i teste specifice, testele de depistare a unor valori aberante i testele de comparare a distribuiei empirice cu o distribuie teoretic, n general distribuia normal; La interpretarea unui test statistic se ine cont de pragul de semnificaie, valoarea testului, semnul testului i mrimea efectului; Creterea puterii unei cercetri tiinifice se poate realiza prin msuri care in de: designul cercetrii, msurtorile efectuate n cadrul cercetrii i metodele statistice folosite.

282

Cristian Opariuc-Dan

III.ANALIZA FIDELITII
n acest capitol se va discuta despre: Conceptul de fidelitate i validitate; Tehnicile i metodele de calcul ale fidelitii; Modalitatea de alegere a metodei de analiz a fidelitii; Relevana i strategiile de calcul ale fidelitii; Dup parcurgerea capitolului, cititorii vor fi capabili s: neleag principiile generale i utilitatea fidelitii i a validitii; Calculeze coeficienii de fidelitate, n funcie de specificul cercetrii; Analizeze i s interpreteze elementele specifice de studiu ale fidelitii; Utilizeze SPSS n calculul coeficienilor de fidelitate.

Stimate doamne, domnioare i domni, fidelitatea, n aceast accepiune, nu este ceea ce credei. Nu se refer la fidelitatea partenerului sau la cea a partenerei, ci vizeaz un cu totul alt concept. Cei dintre dumneavoastr, care urmeaz sau au urmat cursurile unei faculti de psihologie, i mai amintesc probabil comarul teoretic al validitii i fidelitii din cadrul disciplinelor psihodiagnostic i metodologia elaborrii instrumentelor psihologice. Fii linitii, deoarece nu doresc s detaliez aceste elemente aici. Totui, se impun anumite precizri. Atunci cnd ne gndim la validitatea unui instrument de cercetare sau la cea a unuia de diagnostic, avem n vedere faptul c itemii acelui instrument reuesc s msoare, ntr-adevr, ceea ce-i propun s msoare. Fidelitatea, pe de alt parte, pleac de la supoziia c itemii deja msoar dimensiunea investigat i ncearc s determine ct de precis, ct de fiabil se msoar acest lucru. Vom clarifica imediat definiiile prin cteva exemple. M vei ntreba,

283

Statistic aplicat n tiinele socio-umane

desigur, pentru ce avem nevoie de studiul acestor elemente? Cred c v mai amintii caracteristicile msurrii n tiinele socio-umane. tii, desigur, c aceasta are un caracter subiectiv i c nu se poate compara cu msurarea din lumea fizic. Deoarece nu putem msura direct fenomenele sociale, ci prin intermediul unor indicatori observabili, indicatori care doar presupunem c ar avea legtur cu fenomenul investigat, apare fireasc ntrebarea cu privire la modul n care aceti indicatori chiar reprezint fenomenul studiat i, de asemenea, ct de precis l reprezint. Aceasta este, de fapt, problema validitii i cea a fidelitii. Deseori aud, chiar printre profesionitii cu experien, ntrebarea dar testul acela a fost validat pe populaia romneasc?, ntrebare care nu sintetizeaz tocmai exact conceptul pe care-l vizeaz. n mod corect, nu ar trebui s se vorbeasc despre validare, ci despre adaptare, presupunnd c vorbim despre un instrument de diagnostic din import. tim, deja, c verificarea validitii validarea, cum o numesc unii este doar o etap n procesul de adaptare. n mod normal, adaptarea unui instrument debuteaz cu traduceri i retroversiuni multiple ale itemilor, pentru a se asigura specificul cultural al populaiei, se continu apoi cu asigurarea validitii, n multiple forme, ncepnd cu cea teoretic, de construct, apoi validitatea de coninut, cea concurent i predictiv, se studiaz fidelitatea, i, la sfrit, se asigur etalonarea. Termenul de validare pe populaia romneasc este inadecvat, ca s nu mai vorbim de cei care folosesc pentru adaptarea unui instrument, termenul de etalonare. Adic, este etalonat pe populaia romneasc, sau nu? Nu v amuzai prea tare, exist i asemenea specialiti, la care nivelul cunotinelor de construcie a instrumentelor de psihodiagnostic se rezum doar la etalon. Nu ne mai mirm c acetia folosesc teste depite de zeci de ani, sau, mai simplu, dau un aviz psihologic n baza unei discuii de trei minute. Doar testul e test, nu-i aa? Ce, un test psihologic are termen de garanie??!!

284

Cristian Opariuc-Dan Pe scurt, un instrument de cercetare sau unul de diagnostic pentru care nu exist studii serioase de validitate i de fidelitate, este un instrument pe ct de inutil, pe att de periculos, deoarece, n baza rezultatelor obinute, se pot lua decizii complet false. S presupunem c dorii s investigai anxietatea colegilor de serviciu, iar pentru aceasta vei construi un chestionar. Putei s msurai anxietatea direct? Desigur, nu! Anxietatea nu se msoar n metri sau n kilograme, ci prin intermediul unor ntrebri, care vizeaz comportamente asociate cu aceast dimensiune. S presupunem c ai inclus n chestionar urmtoarele ntrebri, la care subiectul va rspunde prin Da sau Nu: Mncai pine n fiecare zi? Obinuii s v plimbai prin parc cel puin o dat pe sptmn? V place s citii cri de aventuri?

Credei c un chestionar care conine ntrebri similare cu cele de mai sus msoar anxietatea? Rspunsul este extrem de simplu. Evident c nu! Ce treab are mncatul pinii sau plimbarea prin parc cu anxietatea Alta ar fi situaia n care am dispune de ntrebri precum: Avei uneori o stare de team inexplicabil, fr obiect? Atunci cnd v cheam eful, v ngrijorai i v este fric deoarece credei c ai fcut ceva ru? Atunci cnd avei de rezolvat o sarcin, ntr-un timp scurt, v agitai i credei c nu o vei putea duce la bun sfrit?

Dac subiectul rspunde afirmativ la aceste trei ntrebri, atunci comportamentul su poate fi suspectat de anxietate. Iat, pe scurt, modalitatea de prezentare a validitii. Dac primul set de ntrebri este invalid, iar itemii nu

285

Statistic aplicat n tiinele socio-umane

au nimic n comun cu anxietatea, al doilea set poate fi considerat valid, acetia fiind puternic saturai n dimensiunea investigat. Relaia dintre validitate i fidelitate poate fi foarte uor neleas dac apelm la un exemplu. S presupunem c instrumentul de diagnostic sau cel de cercetare este asimilat unui trgtor cu pistolul5. Situaia trgtorilor din punctul de vedere al validitii i fidelitii poate fi prezentat n figura 3.1.

Figura 3.1 Relaia dintre validitate i fidelitate

n prima figur (a) vom avea un instrument valid i fidel. Trgtorul nu numai c a ochit grupat (fidel), ns a atins i obiectivul urmrit, cent rul intei (valid). Figura (b) reprezint situaia unui instrument valid, ns cu probleme referitoare la fidelitate. Trgtorul i-a concentrat loviturile spre mijlocul intei, spre obiectivul urmrit (valid) ns nu a tras prea grupat (nefidel). Figura (c) reprezint un instrument fidel, ns invalid. Dei trgtorul a grupat foarte bine loviturile (fidel), totui este departe de centrul intei, de obiectivul urmrit (invalid). n sfrit, figura (d) este expresia unui instrument i invalid i infidel. Imaginea nu necesit comentarii. Trgtorul nu numai c nu reuete s ating obiectivul (invalid), mai mult, loviturile nici mcar nu sunt grupate (nefidel).

Exemplul nu-mi aparine n totalitate. A fost citit sau mi s -a povestit de ctre Florin Sava. Din nefericire, nu am sursa s-l pot cita, ns mi fac datoria de onoare s menionez acest lucru.

286

Cristian Opariuc-Dan Ce se ntmpl, ns, din punct de vedere statistic? Orice cercetare efectuat, va fi afectat de dou surse de eroare: erori aleatorii i erori nealeatorii (sistematice). Erorile aleatorii reprezint influene ale factorilor externi care pot afecta msurtorile. Nici mcar n lumea fizic msurtorile nu sunt scutite de asemenea erori. Dac msurm un obiect la o temperatur de 45 de grade Celsius, vom obine o valoare, diferit de valoarea obinut la msurarea aceluiai obiect la -10 grade Celsius. Mai mult, n domeniul socio-uman pot interveni o mulime de factori externi care s afecteze rspunsurile subiecilor i, deci, msurtoarea. Vremea de afar, genul biologic al cercettorului sau modul n care acesta s-a mbrcat, faptul c subiectul s-a certat cu soia sau cu soacra, faptul c nu a dormit noaptea sau c l strnge un pantof sunt tot attea surse externe de influen care pot genera erori aleatorii i care pot influena msurtorile. Din nefericire, asemenea erori apar fie c vrem fie c nu vrem i de multe ori sunt aproape imposibil de controlat. Este cunoscut faptul c influena acestor erori coreleaz negativ cu gradul de fidelitate al unui instrument de cercetare. Cu ct influena erorilor aleatorii este mai mare, cu att instrumentul este mai puin fidel, reciproca fiind, de asemenea, valabil. Un instrument are un grad ridicat de fidelitate, dac aplicat acelorai subieci, n condiii variate, conduce la aceleai rspunsuri sau la rspunsuri foarte apropiate. Erorile nealeatorii, numite i erori sistematice, au un caracter constant i sunt legate, de cele mai multe ori, de instrumentul de cercetare. De exemplu, dac avei un ceas care merge cu 10 minute nainte, aceast difere n dintre ora exact i ora indicat de ceas reprezint o eroare sistematic. La fel, un termometru care arat cu 20 de grade mai puin dect temperatura re al este un termometru invalid. Iat c am ajuns i la esena problemei. Dup cum ai constatat deja, controlul erorilor sistematice ine de validitatea unui

287

Statistic aplicat n tiinele socio-umane

instrument (revedei figura cu inta), n timp ce minimizarea influenei erorilor aleatorii reprezint o problem de fidelitate. Nu intenionez s susin aici o prelegere referitoare la aceste dou concepte, deoarece fac parte dintr-o alt disciplin. Se pare c m-a cam luat valul i nu m-am putut abine s nu ncerc s lmuresc aceste lucruri. De fapt, de buna lor nelegere depinde nsuirea tehnicilor de analiz ale fidelitii. Ct despre validitate, o parte dintre instrumentele menite s o asigure va fi discutat cu alt ocazie.

III.1 Metode de analiz a fidelitii


n condiiile n care orice msurtoare este supus erorilor aleatorii, nseamn c niciodat nu putem afla exact valoarea unui indicator. Conform teoriei clasice a testului, un rezultat obinut conine scorul real i suma erorilor aleatorii. Probabil c formula X = t + e nu reprezint o noutate pentru dumneavoastr. Aceasta este, de fapt, expresia matematic a afirmaiei de mai sus. Dac vei lua un test de inteligen i l vei efectua, n fiecare zi, timp de 10 zile, vei observa c nu ajungei, de fiecare dat, la acelai rezu ltat. Acest lucru nu se ntmpl din cauz c inteligena dumneavoastr fluct ueaz, ci din cauza efectului exercitat de erorile aleatorii. Practic, valoarea t din expresia de mai sus este constant. Nu cred c este probabil ca inteligena dumneavoastr s fluctueze de la o zi la alta, ns este foarte probabil ca ntro zi s v simii mai obosit, fr chef, ori s v fi zgriat pisica DVD-ul preferat, iar n alt zi s v putei concentra mai bine, s fii plin de energie. Strile dumneavoastr interne pot influena scorul observat (X), de la o zi la alta. Dac inteligena este constant n aceast perioad de timp, ns scorul observat se modific, putei identifica sursa acestor fluctuaii? Desigur, ai rspuns corect! ntr-adevr, sursa variaiilor scorului observat nu este dat de inteligen ci de erorile aleatorii, elementul e din expresia anterioar.

288

Cristian Opariuc-Dan n realitate, scorul real (t) nu poate fi niciodat cunoscut. Nu vei putea ti vreodat, absolut exact, ce cantitate de inteligen avei. Acesta este un indicator ipotetic, imposibil de observat i de msurat direct. Poate, doar n condiiile n care ai efectua testul de inteligen vreo 50 de ani, n fiecare zi, iar apoi ai face media tuturor rezultatelor obinute, ar rezulta o msur foarte apropiat de scorul real (conform teoremei limitei centrale), ns nu vom uita c i inteligena este afectat de timp. Totui, dac singura surs de variaie a scorului real este reprezentat de erorile aleatorii, nseamn c vor exista zile n care scorul dumneavoastr observat va fi mai mare dect scorul real, dup cum vor fi evaluri n care scorul observat se va situa sub cel real. Acest lucru ne spune, de fapt, c sc orurile observate situate peste valoarea scorului real vor anula, n cele din urm, scorurile situate sub scorul real. Cu alte cuvinte, la un numr suficient de mare de evaluri, erorile aleatorii tind s fie nule. Sintetiznd, vom considera urmtoarele asumpii referitoare la ecuaia fundamental a teoriei clasice a testului (Carmines, i alii, 1979): Media erorilor aleatorii tinde spre zero, deoarece erorile care determin situarea scorului observat peste scorul real compenseaz erorile care determin situarea scorului observat sub scorul real; Din acelai motiv, corelaia dintre scorul real i erorile aleatorii tinde spre zero, cele dou variabile fiind independente; Corelaia dintre erorile aleatorii, la diferite msurtori, va fi, de asemenea zero, erorile aleatorii exercitnd efecte independente.

Plecnd de la aceste asumpii de baz, care, desigur, au i o demonstraie matematic pertinent, putem ajunge la concluzia c vom reui s aflm scorul real, dac evalum o persoan de foarte multe ori cu acelai in289

Statistic aplicat n tiinele socio-umane

strument. ns, acest lucru nu este posibil din mai multe motive. Nu cred c vom gsi o asemenea persoan disponibil, i apoi intervin factorii de memorie i ali factori care pot influena rezultatele, prin noi erori aleatorii. n acest caz, renunm la a evalua o singur persoan i evalum, cu acelai instr ument, un grup de persoane. Intuii deja c fundamentul teoretic de mai sus se poate aplica i n aceast situaie. Nu intrm n detalii i n demonstraii. Cei care doresc mai multe informaii, pot consulta literatura de specialitate. O prezentare excelent a acestor elemente este realizat de ctre Carmines i Zeller (Carmines, i alii, 1979) n lucrarea lor. n linii mari, aceasta este logica evalurii fidelitii. La un numr suficient de mare de persoane evalu ate cu acelai instrument, erorile aleatorii se compenseaz reciproc i putem avea msura fidelitii scorului real. Repet, problema nu se refer la aflarea scorului real, ci la analiza fidelitii unui instrument de msur, a stabilitii sale. Dac ceea ce fluctueaz sunt erorile aleatorii, atunci, identificnd ceva stabil, acel lucru trebuie s fie scorul real. n practic, exist mai multe metode prin care putem evalua fidelitatea unui instrument: metoda test-retest, metoda formelor paralele, metoda njumtirii, metoda acordului ntre evaluatori i metoda consistenei interne. Le vom analiza pe fiecare n parte.

III.1.1 Metoda test-retest


Se refer la analiza stabilitii n timp a rezultatelor i presupune administrarea instrumentului unui grup de subieci, colectarea rezultatelor i apoi administrarea aceluiai instrument, aceluiai grup de subieci, dup un interval de timp. Rezultatele obinute la cele dou evaluri sunt apoi corelate, coeficientul numindu-se coeficient de fidelitate test-retest sau coeficient de stabilitate, deoarece arat ct de stabile sunt rezultatele dup un interval de timp.

290

Cristian Opariuc-Dan Una dintre cele mai controversate ntrebri care se pune este cea referitoare la intervalul de timp dintre cele dou evaluri (Stan, 2002). Ei bine, intervalul de timp depinde de stabilitatea dimensiunii msurate. Retestarea dup un an poate fi inadecvat pentru un chestionar de opinii, acestea putndu-se schimba ntre timp, ns poate fi perfect valabil pentru un test de inteligen. Oricum, durata dintre cele dou evaluri nu poate fi mai mic de 3-4 sptmni. n cele mai multe cazuri, cercettorii acord un interval de 5-6 luni, considerat suficient pentru o analiz pertinent a fidelitii. Aceast metod, dei intens folosit, nu este agreat n mod deosebit de ctre cercettori, din cauza unor motive obiective. n primul rnd, unii nu o consider o msur a fidelitii, ci una a stabilitii scorurilor. Apoi, dac intervalul de timp este prea scurt, metoda nu mai estimeaz n mod real stabilitatea, intervenind influena memoriei i efectul de nvare. Subiecii i pot aminti unele rspunsuri de la evaluarea trecut, fapt care biaseaz masiv analiza de fidelitate. Dac intervalul de timp este prea lung, intervine efectul de maturizare, prin care dimensiunea evaluat se modific, mai ales dac vorbim de factori de personalitate. Mai mult dect att, subiecii tind s dea rspunsuri la ntmplare n condiiile celei de-a doua administrri. Ideea este c nu se poate folosi aceast metod ca metod unic de estimare a fidelitii, ci doar nsoit de o alt metod, de obicei de metoda co nsistenei interne. Foarte muli consider metoda test-retest ca o form a metodei njumtirii, poate i datorit faptului c procedeele statistice de calcul sunt analoage. Din aceast cauz, nu vom prezenta aici calculul coeficientului de fidelitate test-retest, ci l vom aborda n cadrul celei de-a doua metode studiate.

III.1.2 Metoda njumtirii


Se mai numete metoda split-half, este mult mai precis n comparaie cu metoda test-retest i nu mai presupune o readministrare a instrumentului

291

Statistic aplicat n tiinele socio-umane

dup un interval de timp. Ideea de baz a metodei este aceea c, dac avem un set de itemi care msoar o dimensiune, oricare dou subseturi din acei itemi, msurnd aceeai dimensiune, vor corela puternic. De exemplu, dac avem un chestionar care msoar depresia, chestionar format din 20 de ntrebri, dintre care, aleatoriu, formm dou chestionare de cte 10 ntrebri (lum la ntmplare 10 itemi din chestionar i construim o form, ceilali 10 itemi rmai reprezentnd cealalt form), i apoi corelm cele dou chesti onare, ar trebui s obinem un coeficient de corelaie ridicat. Acest coeficient poart numele de coeficient de fidelitate split-half i reprezint o msur mai precis a fidelitii n comparaie cu cellalt indicator, coeficientul de stabilitate. Dac ai fost ateni, ai observat c metoda test-retest este o variant a metodei njumtirii. Pentru test-retest se folosete ntregul instrument aplicat la dou intervale de timp, iar pentru split-half folosim cele dou jumti ale instrumentului, aplicate o singur dat. Ambele metode presupun aceleai operaii statistice, i anume corelarea celor dou administrri n cazul testretest i corelarea celor dou jumti pentru split-half. Fidelitatea prin metoda split-half msoar, de fapt, echivalena celor dou jumti de instrument. Unii autori o numesc i fidelitate a formelor paralele sau chiar fidelitatea consistenei interne, dei aceste denumiri sunt oarecum improprii metodei. Att fidelitatea prin metoda test-retest, ct i cea evaluat prin metoda njumtirii se pot analiza prin mai multe procedee statistice. Unul dintre acestea implic obinerea coeficientului de fidelitate split-half dup formula Spearman-Brown, numit i coeficient de predicie Spearman-Brown.

292

Cristian Opariuc-Dan

(formula 3.1) unde, rij reprezint coeficientul de corelaie Bravais-Pearson ntre cele dou forme, iar k se refer la numrul total de itemi mprit la numrul de itemi din fiecare form i are, n general, valoarea 2. Aceast formul se folosete exclusiv n situaia n care utilizm m etoda njumtirii, factorul k jucnd rolul de factor de corecie. S presupunem c avem un chestionar cu un numr de 25 de itemi pentru care dorim s verificm fidelitatea prin metoda njumtirii. Dintre cei 25 de itemi, vom construi dou forme, alegerea ntrebrilor fiind absolut aleatorie. Vor rezulta, aadar, dou forme, una coninnd 13 itemi iar cealalt 12 itemi. Am ales intenionat un numr inegal de itemi n cele dou forme, pentru a v arta modul n care se poate calcula factorul k. Pentru un plus de precizie, vom considera forma cea mai scurt, cea cu 12 itemi. Fcnd raportul dintre numrul total al itemilor din chestionarul original i numrul de itemi din prima jumtate, obinem 25/12=2,08. Practic, chestionarul original este de 2,08 ori mai lung n comparaie cu aceast form. Similar, raportul pentru forma a doua, cea cu 13 itemi devine 25/13=1,92. Aceast form este de 1,92 ori mai scurt n comparaie cu chestionarul original. Singurul element care ne lipsete este coeficientul de corelaie dintre cele dou forme. Acest indicator tii deja s-l calculai foarte bine i, s presupunem c ai obinut r= 0,87. nlocuind n formul, vom obine un coeficient de predicie Spearman -Brown rSB1= 0,93, valoare care arat o fidelitate foarte bun, cele dou forme fiind echivalente, iar pe ansamblu chestionarul fiind fidel.

293

Statistic aplicat n tiinele socio-umane

Dac dorim un exces de precizie, putem calcula coeficientul de predicie a fidelitii ajustat i pentru cealalt parte. Vom obine valoarea 0,92 pentru coeficientul de fidelitate split-half, diferena dintre cele dou valori fiind foarte mic.

Acest coeficient l vom folosi doar dac analizm fidelitatea prin m etoda split-half. n ceea ce privete semnificaia lui, majoritatea autorilor consider c valorile de peste 0,80 sunt adecvate pentru o fidelitate acceptabil, iar dac dorim un grad ridicat al fidelitii, nu vom putea accepta coeficieni sub 0,90. Totui, pentru cercetri exploratorii i nu diagnostice, se pot lua n considerare coeficieni de fidelitate de peste 0,60, sub aceast limit considerndu-se instrumentul ca nefiind fidel. Probabil c v vei ntreba de ce acest coeficient se numete coeficient de predicie? Rspunsul const n analiza formulei. Practic, formula prezice fidelitatea ntregului chestionar, pornind de la o form a acestuia form pentru care s-a calculat factorul k , i n baza corelaiei dintre cele dou forme. n cazul n care s-a utilizat metoda test-retest pentru calculul fidelitii, formula 3.1 nu mai corespunde. Un caz particular al acestei formule este exprimat prin relaia urmtoare: (formula 3.2) Este, de fapt, situaia n care am construi dou forme ale unui chesti onar, ambele cu acelai numr de itemi. Prin extensie, metoda se poate aplica i n cazul formei test-retest. S presupunem c acelai chestionar cu 25 de itemi este aplicat unui lot de cercetare de 130 de subieci, cu readministrare peste 8 luni. Coeficie n294

Cristian Opariuc-Dan tul de corelaie dintre cele dou administrri este r= 0,79. n acest caz, fidelitatea test-retest va fi 0,88, artnd c instrumentul are o foarte bun stabilitate.

Pentru a nelege mai bine calculul acestui coeficient, vom lua exemplul unui chestionar cu 40 de itemi, aplicat unui numr de 10 studeni. Rezu ltatele vor fi centralizate n tabelul 3.1. Se observ c, pentru fiecare subiect, am inclus att scorul total obinut (la nivelul ntregului chestionar) ct i scorul obinut pentru fiecare dintre cele dou jumti (forma x cu 20 de itemi i forma y, tot cu 20 de itemi). Primul pas este reprezentat de calculul mediilor, att pentru forma complet a instrumentului, ct i pentru cele dou sub-forme. Media scorurilor este de 31 pentru ntregul chestionar (mtot), 15,2 pentru prima form (mx) i 15,8 pentru forma a doua (my).
Tabelul 3.1 Calculul coeficientului de fidelitate split-half Student A B C D E F G H I J Media Scor (40) 40 28 35 38 22 20 35 33 31 28 31.0 Forma x (20) 20 15 19 18 l0 12 16 16 12 14 15.2 Forma y (20) 20 13 16 20 12 8 19 17 19 14 15.8 x-mx 4.8 -0.2 3.8 2.8 -5.2 -3.2 0.8 0.8 -3.2 -1.2 y-my 4.2 -2.8 0.2 4.2 -3.8 -7.8 3.2 1.2 3.2 -1.8 (x-mx)2 23.04 0.04 14.44 7.84 27.04 10.24 0.64 0.64 10.24 1.44 95.60 (y-my) 2 17.64 7.84 0.04 17.64 14.44 60.84 10.24 1.44 10.24 3.24 143.60 (x-mx)( y-my) 20.16 0.56 0.76 11.76 19.76 24.96 2.56 0.96 -10.24 2.16 73.40

Corelaia Bravais-Pearson se va calcula dup una dintre procedurile expuse n primul capitol, cea prin care folosim direct formula de definiie. Pentru aceasta v reamintim trebuie fcut diferena dintre scor i medie, pentru fiecare dintre cele dou forme, apoi ridicm la ptrat aceste diferene 295

Statistic aplicat n tiinele socio-umane

i, n final, le vom nmuli. Sunt, de asemenea, necesare sumele ptratelor diferenelor, pentru fiecare variabil, precum i suma produselor diferenelor. Toate calculele au fost realizate n tabelul 3.1, nu rmne dect s aplicm formula de definiie a coeficientului de corelaie r Bravais-Pearson.

Avnd coeficientul de corelaie r Bravais-Pearson (0,62), restul devine o simpl problem de aplicare a formulei Spearman-Brown n vederea obinerii coeficientului de fidelitate split-half (0,76).

Coeficientul de predicie a fidelitii Spearman-Brown este foarte bun, n condiiile n care cele dou forme au un numr egal de itemi, iar varianele celor dou forme sunt, i ele, egale. Ai vzut deja c n cazul n care numrul de itemi nu este egal, apar diferene ntre cei doi coeficieni de fidelitate. Formula 3.1 poate fi folosit i n acest caz, de obicei raportndu-se coeficientul de fidelitate cel mai mic. Totui, dac varianele nu sunt egale, fidelit atea analizat prin intermediul formulei Spearman-Brown poate s nu fie relevant. n acest caz, vom aplica o alt tehnic, bazat pe coeficientul de fidelitate split-half Guttman. Acest coeficient reprezint o form adaptat a relaiei Spearman Brown, folosit n cazul n care varianele celor dou forme nu sunt egale, iar calculul se poate realiza dup formula urmtoare: (formula 3.3) unde reprezint variana ntregului chestionar, reprezint variana primei forme iar reprezint variana celei de-a doua forme.

296

Cristian Opariuc-Dan Acest coeficient calculeaz direct fidelitatea, bazndu-se doar pe variane, nu i pe ali coeficieni de corelaie. Tot ceea ce avem de fcut este s calculm varianele instrumentului original i varianele celor dou forme ale sale, apoi s nlocuim n formul. tii deja c variana nu este altceva dect abaterea standard la ptrat, modalitatea de calcul fiind prezentat ntr-un alt volum6. S presupunem c variana total a unui chestionar de 37 de ntrebri este 132,43, variana primei forme, care conine 18 ntrebri este de 40,01 iar variana celei de-a doua forme, cu 19 ntrebri este de 32,21. Aplicnd n formul, obinem un coeficient de fidelitate de 0,90.

Aceast form a coeficientului de fidelitate Guttman este, de fapt, forma 4 din cei ase coeficieni pe care i propune autorul, fiind i cea mai recomandat metod de studiu a fidelitii prin split-half. Dei metoda njumtirii este mult mai precis n comparaie cu metoda test-retest, ai remarcat faptul c nu ne spune nimic despre structura intern a celor dou forme. Coeficienii de fidelitate split-half sunt puternic influenai de modul n care vor fi selectai itemii n cele dou forme, acest lucru putnd asigura egalitatea varianelor, ns nu las nicio posibilitate prin care cercettorul s poat verifica, propriu-zis, itemii. Pot s apar diferene importante dac itemii sunt selectai aleatoriu n cele dou forme, n comparaie cu situaia n care o form conine itemii pari iar cealalt conine itemii impari sau printr-o alt selecie aleatorie a itemilor. De exemplu, dac am avea un chestionar pentru evaluarea depresiei, format din 40 de itemi, dintre care 39 ar viza depresia, ns un singur item s 6

Putei consulta lucrarea Statistic aplicat n tiinele socio-umane. Noiuni de baz Statistici univariat, de acelai autor, aprut la editura ASCR, Cluj -Napoca, 2009

297

Statistic aplicat n tiinele socio-umane

ar referi la numrul de la pantofi, probabil c includerea acestuia ntr-una dintre forme ar furniza un anumit coeficient de fidelitate, chiar i acceptabil, dar nu am avea nicio posibilitate s depistm c acel item nu este consistent cu ansamblul celorlali 39. Aceasta este, de fapt, principala deficien a metodei split-half i principala critic ce i se aduce n lumea tiinific. Pornind de la acest lucru, Cronbach a avut n anul 1951 ideea de a trata fiecare item ca o form a testului. n loc s construim dou forme de cte 20 de itemi pentru chestionarul nostru, vom construi, practic, 40 de forme, fiecare coninnd un singur item. Corelarea tuturor celor 40 de itemi, prin aceast variant de split-half, determin apariia unui nou concept, cel de consisten intern.

III.1.3 Metoda consistenei interne


nc de la nceput, doresc s menionez c analiza consistenei interne este o metod de verificare a fidelitii, nu o metod de verificare a validitii, aa cum am auzit i am citit prin unele cri. Ea nu se bazeaz pe tratarea erorilor sistematice, ci tot pe tratarea erorilor aleatorii, fiind o derivaie a met odei split-half. Coeficientul de consisten intern Cronbach este, poate, cea mai popular msur a fidelitii evaluat prin aceast metod. Acesta poate lua valori ntre 0 i 1, unde valoarea 0 arat c instrumentul nu msoar dect erorile aleatorii, neavnd nimic de a face cu scorul real, iar valoarea 1 arat c instrumentul msoar doar scorul real, fiind eliminate complet erorile aleatorii. Una dintre formulele de calcul ale coeficientului Cronbach este urmtoarea:

298

Cristian Opariuc-Dan

(formula 3.4)

unde n reprezint numrul de itemi analizai, iar este media corelaiilor inter-itemi. S considerm un chestionar cu un numr de 10 itemi, care msoar satisfacia profesional. Primul pas n calcularea coeficientului de fidelitate Cronbach l reprezint construirea matricei de corelaii. n afara faptului c este foarte migloas, construirea tabelului 3.2 nu pune probleme deosebite de calcul. Nu trebuie dect s luai fiecare item i s-l corelai cu ceilali. Desigur, dac ai corelat itemul 3 cu itemul 5, nu are rost s corelai itemul 5 cu itemul 3, pentru c vei ajunge la acelai rezultat. Acesta este i motivul pentru care sunt afiate doar rezultatele de deasupra (sau de dedesubtul, dac preferai) diagonalei principale. Coeficientul de corelaie a unui item cu el nsui este ntotdeauna 1, de aceea diagonala tabel ului va avea ntotdeauna valoarea 1.
Tabelul 3.2 Matricea de corelaii inter-itemi
Item 1 1 Item 2 ,185 1 Item 3 ,451 ,048 1 Item 4 ,399 ,209 ,350 1 Item 5 ,413 ,248 ,399 ,369 1 Item 6 ,263 ,246 ,209 ,415 ,338 1 Item 7 ,394 ,230 ,381 ,469 ,446 ,474 1 Item 8 ,352 ,050 ,427 ,280 ,457 ,214 ,315 1 Item 9 ,361 ,277 ,276 ,358 ,317 ,502 ,577 ,299 1 Item 10 ,204 ,270 ,332 ,221 ,425 ,189 ,311 ,374 ,233 1 3,022 1,578 2,374 2,112 1,983 1,379 1,203 0,673 0,233 -

Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8 Item 9 Item 10

=14,557

Dac nu v-ai plictisit realiznd un numr destul de mare de corelaii, v mai ateapt o surpriz, i anume calculul mediei corelaiilor inter-itemi. Conceptul nseamn exact ceea ce-i spune i numele. Avem un numr de 45 de corelaii inter-itemi (desigur, fr corelaiile itemului cu el nsui corela-

299

Statistic aplicat n tiinele socio-umane

iile cu valoarea 1). Trebuie s adunm toate aceste corelaii i s mprim suma rezultat la 45 numrul total al corelaiilor. V recomand s procedai ca n tabelul 3.2. Efectuai suma corelaiilor inter-itemi pentru fiecare item (pe fiecare linie) i apoi adunai sumele pariale. Atenie, sumele se calculeaz fr valorile de pe diagonal, fr corelaiile cu valoarea 1. Totalul obinut este 14,557. Dac mprim aceast sum la 45 (numrul total al corelaiilor inter-itemi) obinem valoarea 0,323, valoare care reprezint tocmai media corelaiilor inter-itemi. tiind aceast medie i cunoscnd numrul total de itemi (10), putem acum aplica formula pentru a calcula coeficientul de consisten intern Cronbach.

S-a obinut un coeficient de consisten intern bun, putem accepta faptul c instrumentul are consisten intern, este un instrument fidel. Exist, desigur, mai multe variante de formule pentru calculul coeficientului de consisten intern. Formula 3.4 se bazeaz pe media corelaiilor inter-itemi, fiind i cea mai uoar. Altele se centreaz pe calculul varianelor, crendu-se matricea varian-covarian. Pentru a nu complica inutil expunerea, ne vom rezuma doar la formula prezentat. Oricum, este prea puin probabil s calculai manual acest coeficient, volumul de munc fiind foarte mare. n general, vei apela la SPSS, dup cum vom vedea imediat. La fel ca i coeficientul de fidelitate split-half, Cronbach nu trebuie s aib o valoare mai mic de 0,60 n cazul cercetrilor exploratorii. n scop diagnostic, se recomand ca valoarea acestui coeficient s depeasc 0,70, un instrument bun avnd o consisten intern de peste 0,80. Dei coeficientul de consisten intern Cronbach este intens folosit, totui nu este scutit de probleme. Kline (Kline, 1999) afirma c valoarea recomandat pentru acest coeficient (0,80) poate fi o valoare de referin n 300

Cristian Opariuc-Dan cazul testelor de inteligen, n timp ce pentru inventarele de personalitate se poate cobor pn la 0,70, iar pentru chestionarele de opinie chiar i mai jos. Totui, niciun autor nu susine posibilitatea ca un coeficient de consisten intern s fie mai mic de 0,60. De asemenea, Cortina (Cortina, 1993) ridic o alt problem a acestui coeficient, cea conform creia valoarea sa depinde de numrul de itemi. Pe msur ce crete numrul de itemi dintr-un instrument, crete i coeficientul Cronbach. De aceea, exist posibilitatea s obinem un instrument sau o scal consistent, nu pentru c aceasta ar fi, ntr-adevr, fidel, ci pentru c are un numr foarte mare de ntrebri. O alt eroare des ntlnit n interpretarea coeficientului de consisten intern se refer la faptul c cercettorii pleac de la premisa unidimensi onalitii. Cu alte cuvinte, se presupune c n spatele acelor itemi se afl o singur dimensiune, ceea nu este, de multe ori, corect. Consistena intern nu poate reliefa structura dimensiunilor, a factorilor instrumentului, acest lucru fiind de competena analizei factoriale. Tot Cortina (Cortina, 1993) a artat c seturi de itemi cu acelai coeficient de consisten intern, pot avea structuri foarte diferite. Itemii pot s vizeze un singur factor, doi factori corelai sau factori complet necorelai. Cercetrile au artat c Cronbach nu poate i nu trebuie folosit ca o msur a unidimensionalitii. Obinerea unui coeficient nalt arat doar c itemii sunt corelai ntre ei, nu i c vizeaz o singur dimensiune. Din nefericire, destui cercettori confund aceste elemente i creeaz instrumente de cercetare valide bazndu-se exclusiv pe Cronbach, lucru, desigur, eronat. Chiar Cronbach afirma c dac un instrument are mai multe scale, coeficientul va fi calculat pentru fiecare scal i nu pe ntregul chestionar, un asemenea demers neavnd sens. De obicei, coeficientul de consisten intern are valori pozitive. S-ar putea, ns, s avei surpriza obinerii unor coeficieni negativi. De unde po ate s apar acest lucru? Ei bine, un asemenea coeficient are valori negative n 301

Statistic aplicat n tiinele socio-umane

cazul n care covariana negativ este mai mare n comparaie cu cea pozitiv. tim foarte bine, c pentru a evita tendina subiecilor ctre un rspuns pozitiv, de multe ori folosim itemi inversai. Adic, dac la unii itemi rspunsul Da este semnificativ i primete un punct, la ali itemi primete un punct rspunsul Nu. Sau, dac vom nuana puin, avnd o evaluare pe o scal de la 1 la 5, pentru unii itemi 5 nseamn foarte mult, n timp ce pentru ali itemi, 1 va nsemna foarte mult. n acest caz, unii itemi vor corela negativ. n funcie de numrul itemilor inversai, per ansamblu este posibil s obinem o covarian negativ mai mare n comparaie cu cea pozitiv, i, evident, un coeficient negativ. Vom vedea, atunci cnd vom discuta despre aplicaiile n SPSS, ce avem de fcut n acest caz, fiind vorba despre un proces de recodare al itemilor. Cronbach a descoperit formula sa n anul 1951. S nu credei c pn atunci cercettorii nu aveau idee despre consistena intern. nc din anul 1937 conceptul era bine cunoscut, cel puin pentru Kuder i Richardson, care au pus la punct o metod de calcul a consistenei interne, n condiiile n care itemii sunt dihotomici. Adic, atunci cnd rspunsurile sunt de tipul Da i Nu. Este cazul, desigur, al binecunoscutei formule Kuder-Richardson KR20, formul alternativ pentru Cronbach. (

) (formula 3.5)

unde p reprezint proporia subiecilor care au rspuns semnificativ la acel item (au primit punct), q reprezint proporia subiecilor care au rspuns nesemnificativ la acel item (nu au primit punct), 2 se refer la variana scorului total iar k reprezint numrul total de itemi Vom considera un instrument cu 12 itemi, la care subiecii pot rspunde prin Da sau Nu, rspunsul Da fiind semnificativ i primind un punct. Acest instrument a fost administrat unui numr de 10 persoane.

302

Cristian Opariuc-Dan
Tabelul 3.3 Calculul coeficientului Kuder-Richardson pentru itemi dihotomici
Subieci A B C D E F G H I J p q pq 1 1 1 1 1 1 1 1 1 1 0 9 0,9 0,1 ,09 2 1 1 1 1 1 1 1 1 1 0 9 0,9 0,1 ,09 3 1 1 1 1 1 1 1 0 1 0 8 0,8 0,2 ,16 4 1 1 1 0 1 0 1 1 0 1 7 0,7 0,3 ,21 5 1 1 1 1 1 0 0 0 1 1 7 0,7 0,3 ,21 Itemi (k) 6 1 1 1 1 0 1 0 0 0 0 5 0,5 0,5 ,25 7 1 1 1 0 0 1 1 0 0 0 5 0,5 0,5 ,25 8 0 1 1 1 1 0 0 1 0 0 5 0,5 0,5 ,25 9 1 0 1 1 1 0 0 0 0 0 4 0,4 0,6 ,24 10 1 1 0 0 0 1 0 0 0 0 3 0,3 0,7 ,21 11 1 1 0 0 0 0 0 0 0 0 2 0,2 0,8 ,16 12 1 0 0 0 0 0 0 0 0 0 1 0,1 0,9 ,09 11 10 9 7 7 6 5 4 4 2 Media 6.5 pq=2,21 -m 4.5 3.5 2.5 0.5 0.5 -0.5 -1.5 -2.5 -2.5 -4.5 (-m)2 20.25 12.25 6.25 0.25 0.25 0.25 2.25 6.25 6.25 20.25 74.50

n tabelul 3.3 putei observa modul de aranjare al datelor n vederea calculrii coeficientului de fidelitate Kuder-Richardson. n primul rnd, vom construi o matrice a rspunsurilor subiecilor. Astfel, primul subiect a rspuns de 11 ori Da i doar o singur dat Nu, la itemul 8. Al doilea subiect are dou rspunsuri Nu, la itemii 9 i 12, i aa mai departe. Dup completarea matricei, va trebui s realizm suma rspunsurilor corecte pentru fiecare item. Astfel, la primul item au rspuns Da 9 subieci, un singur subiect r spunznd Nu. Suma va fi aadar 9, la fel ca i pentru itemul al doilea. La itemul al treilea, au rspuns Nu dou persoane, opt persoane rspunznd Da, aadar suma rspunsurilor Da va fi 8. Procedm la fel pn la ultimul item, itemul 12, unde observm c doar o singur persoan a rspuns Da. Urmeaz calculul proporiilor. Deoarece tii deja c proporiile se exprim sub form zecimal, avnd valori ntre 0 i 1, vom calcula doar proporia rspunsurilor semnificative, a rspunsurilor Da pentru fiecare item (p), cunoscnd c proporia rspunsurilor nesemnificative, Nu, se afl foarte simplu, pe baza unei operaii de scdere (q=1-p). Pentru primul item, din 10 subieci, 9 au rspuns Da. Evident, proporia este de 0,9 (sau 90% dintre subieci au rspuns Da amintii-v regula de trei simpl. Dac 10 rspunsuri Da

303

Statistic aplicat n tiinele socio-umane

nseamn 100%, atunci 9 rspunsuri Da ct la sut nseamn?). Aceeai proporie o calculm i la al doilea item, i aa mai departe, pn la ultimul item. Dup stabilirea proporiilor p i q pentru toi cei 12 itemi, vom face produsul acestora (pq), aa cum apare pe ultima linie a tabelului. n final, calculm suma acestor produse i obinem valoarea 2,21. Singurul element care ne mai lipsete pentru a putea aplica formula, se refer la variana scorului total. Pentru a o afla, folosii-v de ultimele trei coloane din tabelul 3.3 i de informaiile din cartea anterioar, referitoare la calculul varianei i al abaterii standard. n final, vei obine variana egal cu 8,28. S calculm acum coeficientul Kuder-Richardson.
( ) ( )

Nu este deloc greu, aa cum deja v-ai obinuit. Un asemenea coeficient indic o consisten intern bun a celor 12 itemi din instrumentul de mai sus. Ce ne facem ns dac nu avem la dispoziie structura datelor, la nivel de item, ci doar scorul brut total, aa ca n tabelul 3.4?
Tabelul 3.4 Calculul coeficientului Kuder-Richardson pe baza notelor brute

Subieci A B C D E F G H I J

NB 11 10 9 7 7 6 5 4 4 2

-m 4.5 3.5 2.5 0.5 0.5 -0.5 -1.5 -2.5 -2.5 -4.5

(-m)2 20.25 12.25 6.25 0.25 0.25 0.25 2.25 6.25 6.25 20.25 =74,5 m=6,5

304

Cristian Opariuc-Dan Ai remarcat, sunt aceleai date, ns nu mai avem rspunsurile celor zece subieci la fiecare dintre cei 12 itemi, ci doar scorul brut, total, pentru fiecare dintre subieci. Fr s intrm n detalii, avem i media acestor eval uri, precum i suma abaterilor ptratice de la medie, rezultnd, evident, aceeai varian, care va avea valoarea 8,28. Exist acum vreo posibilitate s aflm consistena intern? Rspunsul este pozitiv i va trebui s aducei mu lumiri lui Kuder i Richardson pentru acest lucru. Iat c cei do i autori ne mai ofer o relaie, exact pentru situaii de acest gen, numit formula de calcul a coeficientului Kuder-Richardson 21 (KR21). (

(formula 3.6)

Elementele formulei nu necesit explicaii. Ne trebuie doar numrul de itemi (12 n cazul nostru), media evalurilor (tim, este 6,5) i variana (pe care o cunoate deja, fiind 8,28).
( ) ( )

Se constat o important reducere a coeficientului de consisten intern, de la 0,79 la 0,70. Acest lucru apare din cauza faptului c nu cunoatem structura intern a rspunsurilor. Formula Kuder-Richardson 21 utilizeaz o aproximare matematic a proporiilor i nu o evaluare exact a a cestora. Este perfect normal faptul c se pierde foarte mult informaie, iar coeficientul de consisten intern va fi mult mai mic. ns, dac nu avem alt soluie, este bine i aa. Spre deosebire de Cronbach, care se poate calcula pentru orice fel de itemi, coeficientul Kuder-Richardson se folosete numai pentru itemi dihotomici. Desigur, exist i alte metode de evaluare a consistenei interne, pe care le vom analiza n cadrul aplicaiei computerizate. Cele mai importante tehnici au fost expuse n acest subcapitol, cunoaterea lor oferindu-v o baz 305

Statistic aplicat n tiinele socio-umane

solid pentru nelegerea i utilizarea conceptului de fidelitate prin consiste n intern

III.1.4 Metoda formelor paralele


Reprezint o form hibrid de verificare a fidelitii, prin combinarea metodelor test-retest i split-half i se folosete destul de frecvent n domeniul educaional. Ca i metoda test-retest, presupune utilizarea aceluiai lot de subieci, realizndu-se n dou etape: n prima etap se mparte instrumentul original n dou forme, numite forme paralele, opional studiindu-se coeficientul de fidelitate split-half pe un grup de cercetare. Studiul acestui coeficient nu reprezint, ns, o etap obligatorie, ci poate fi folosit ca referin pentru etapa a doua; n a doua etap se administreaz prima form unui alt grup de subieci, apoi, dup un interval de dou sptmni sau o lun, se administreaz, acelorai subieci, cea de-a doua form.

Un lucru foarte important l reprezint verificarea celor dou forme, astfel nct s nu difere ntre ele din punctul de vedere al erorilor sistematice (al validitii). Practic, cele dou forme trebuie s msoare acelai construct. Cea mai simpl metod prin care se poate realiza acest lucru este aceea a repartizrii aleatorii a itemilor n cele dou forme. Coeficientul de corelaie dintre cele dou forme reprezint o msur a fidelitii. Dac, de exemplu, avem un test de evaluare a competenelor de calcul numeric, ce conine un numr de 60 de itemi, i cruia dorim s-i studiem fidelitatea. n prima etap, vom mpri, absolut aleatoriu, cei 60 de itemi n dou forme ale testului: una cu 30 de itemi i cealalt cu 30 de itemi. Dac dorim s fim foarte riguroi, administrm cele dou forme paralele unui lot de cercetare i verificm coeficientul de fidelitate split-half. Dei acest lucru nu este obligatoriu, eu vi-l recomand, deoarece se pot corecta, n aceast eta306

Cristian Opariuc-Dan p, unele imperfeciuni. O bun practic ar fi s studiai i consistena intern a fiecrei scale. Repet, aceste operaii nu sunt obligatorii i nu fac parte din metoda propriu-zis. Dac ns suntei maniaci ai preciziei, le vei folosi. n a doua etap vom aplica prima form unui alt lot de cercetare, apoi, dup minimum dou sptmni, aplicm, aceluiai lot de cercetare, forma a doua i calculm coeficientul de stabilitate ntre cele dou forme, aplicate la un anumit interval de timp. Metoda formelor paralele este net superioar metodei test-retest, din mai multe motive, dintre care poate cel mai important este acela c se reduce efectul memoriei i al nvrii. Timpul relativ redus ntre cele dou administrri nu permite apariia efectului de maturizare, acesta fiind un alt argument al superioritii metodei formelor paralele. Singura deficien major a metodei const n dificultatea de a se obine forme perfect paralele (forme cu proprieti psihometrice absolut identice). De cele mai multe ori, repartiia itemilor duce la forme echivalente, nu la forme paralele. Diferene ntre forme pot exista, acestea contribuind la influenarea coeficientului de fidelitate. Iat cel puin un motiv pentru care recomandam studiu consistenei interne i al coeficientului de fidelitate split-half n prima etap. n realitate, aceast metod implic i o analiza factorial pentru a se putea asigura unidimensionalitatea scalei.

III.1.5 Metoda acordului ntre evaluatori


Termenul cred c v sun cunoscut, deoarece l-am discutat i n cadrul capitolului referitor la corelaii. Poate c atunci v-ai ntrebat pentru ce avei nevoie de informaiile respective? Iat un prim rspuns, o prim aplicaie practic. De obicei, n domeniul evalurii performanelor, subiecii nu sunt analizai de ctre un singur evaluator, ci de ctre o comisie de evaluare. Motivele pentru care se prefer comisia sunt evidente i nu trebuie comentate, putndu307

Statistic aplicat n tiinele socio-umane

se referi la plusul de obiectivitate sau la evitarea situaiilor prin care evaluatorul ar beneficia gratuit de mielul de Pati ori de porcul de Crciun. n asemenea evaluri, bazate pe judecat, este foarte important s analizm un tip special de fidelitate, numit grad de acord ntre evaluatori. Cu alte cuvinte, suntem interesai s vedem dac prerile evaluatorilor sunt sau nu sunt consistente, acest lucru reprezentnd una dintre cele mai importante msuri a obiectivitii evalurii. Pentru a se putea realiza o evaluare a fidelitii prin acordul ntre evaluatori, este necesar ndeplinirea urmtoarelor condiii (Carmines, i alii, 1979): Scala de evaluare sau categoriile de evaluare trebuie s fie foarte clar definite, precise, lipsite de ambiguitate, astfel nct evaluarea s poat avea un grad acceptabil de obiectivitate; Evaluatorii trebuie s cunoasc foarte bine scala sau categoriile de evaluare, precum i modul de nregistrare a performan elor, pentru a putea nregistra acelai lucru.

n final, protocolul de evaluare ar trebui s reprezinte un sistem consistent, care s vizeze evaluarea obiectiv a performanelor. Consistena evalurilor efectuate de diferii evaluatori unuia i aceluiai subiect, poart numele de fidelitate inter-evaluatori. Pentru ca fidelitatea inter-evaluatori s fie ct mai mare, metoda presupune, iniial, o instruire a evaluatorilor, instruire care s cuprind: O prezentare general a scalei de evaluare, tuturor evaluatorilor, astfel nct s fie clarificate, de la nceput, toate interpretrile posibile. De obicei, n urma acestei discuii au loc modificri ale scalei, n funcie de aspectele mai puin clare ale ev alurii;

308

Cristian Opariuc-Dan Furnizarea unor modele operaionale cu privire la scala de evaluare, prin posibilitatea organizrii unor demonstraii, accentundu-se pe semnificaia fiecrui scor acordat; Organizarea de evaluri demonstrative, n care s se discute fiecare scor acordat. Rezultatele pot fi folosite i n scopul perfecionrii nelegerii conceptelor care stau la baza evalurii. n aceast etap se vor elimina evaluatorii care furnizeaz constant evaluri divergente.

Fiind o evaluare cu un pronunat caracter subiectiv, la care totui se dorete atingerea obiectivitii n urma unui proces de acord, exist o probabilitate foarte mare ca aceast evaluare s fie contaminat de o serie de erori, numite, generic, erori de evaluare. Dintre acestea, Gronlund distinge (Gronlund, 1985): Erori de evaluare individual, n situaia n care evaluatorul folosete doar o parte a scalei n vederea realizrii evalurilor. Este exemplul evaluatorilor foarte severi (care utilizeaz valorile mici ale scalei) sau cel al evaluatorilor foarte generoi (orientai ctre valori mari ale scalei). Exist, de asemenea, categoria evaluatorilor mpciuitori care prefer evalurile medii, din mijlocul scalei. Toate aceste elemente se pot constitui n surse de eroare, surse ce biaseaz analiza; Efectul de halo reprezint o surs de eroare foarte bine cunoscut n special n domeniul educaional. Percepia general asupra celor evaluai poate influena evaluarea unei persoane sau a unui grup de persoane. Un grup de evaluatori de la Universitatea Harvard ar putea genera un asemenea efect n condiiile n care evalueaz studenii universitii din Lehliu-Gar. O posibil percepie a calitii slabe a celor evaluai poate de309

Statistic aplicat n tiinele socio-umane

termina evaluri mult mai exigente, chiar dac lucrurile nu stau ntotdeauna aa; Erorile logice pot s apar atunci cnd un evaluator confund semnificaia i sensul scalelor de evaluare. Aceste confuzii pot s apar n condiiile n care elementele scalei de evaluare nu sunt clar definite ori n cazul n care evaluatorii nu au fost instruii foarte bine.

Avnd n vedere cele expuse mai sus, ajungem la concluzia c putem crete fidelitatea acestor evaluri n condiiile unei instruiri foarte bune a evaluatorilor i n condiiile proiectrii responsabile a instrumentului de evaluare. Referitor la procedeele statistice prin intermediul crora se individualizeaz acest tip de fidelitate, literatura de specialitate distinge fie un coeficient de corelaie r Bravais-Pearson, atunci cnd numrul de cazuri evaluate este suficient de mare, fie coeficieni de concordan (cum ar fi coeficientul W Kendall i omologul acestuia, coeficientul de concordan al lui Cohen). Elementele specifice referitoare la aceti coeficieni nu le mai discutm aici, aplicarea lor rmnndu-v dumneavoastr ca exerciiu.

III.1.6 Interpretarea coeficienilor de fidelitate


Interpretarea coeficienilor de fidelitate variaz destul de mult n literatura de specialitate, fiind influenat, de obicei, de preteniile i cercetrile diferiilor productori de instrumente de evaluare. Astfel, Aiken (Aiken, 1994 apud Albu, 2000) ofer o list de praguri critice de la care se poate accepta un instrument ca fiind fidel, n funcie de dimensiunile pe care acesta le msoar: 0,26 pentru bateriile de teste de aptitudini; 0,42 pentru inventarele de interese; 0,46 pentru teste obiective de personalitate; 310

Cristian Opariuc-Dan 0,47 pentru scalele de atitudini; 0,56 pentru testele de aptitudini colare; 0,66 pentru bateriile de teste de cunotine.

n clasificarea de mai sus, observm c Aiken a fost extrem de gen eros cu aceste praguri. Personal, consider c un coeficient de fidelitate de 0,26 nu poate reprezenta o valoare serioas pentru fidelitatea unui instrument. Mai mult dect att, este discutabil calcularea fidelitii pe ansamblul unei baterii care conine mai multe scale, mai multe instrumente. Rmnem totui la id eea unui coeficient de fidelitate de peste 0,55 0,60 pentru orice scal care se dorete serioas. Exist totui, o serie de recomandri importante n cea ce privete utilizarea coeficienilor de fidelitate (Albu, 2000): Testele folosite pentru luarea deciziilor asupra persoanelor sau cele care mpart indivizii n categorii, pe baza unor diferene mici, vor avea valori mari ale coeficienilor de fidelitate, n general peste 0,85 0,90. Nu putem, de exemplu, angaja sau concedia o persoan n baza rezultatelor unui test lipsit de o fidelitate nalt. Din pcate, n Romnia exist nc destule persoane care ncalc aceast regul, deciziile fiind bazate pe utilizarea unor instrumente mai mult dect discutabile; Niveluri mici ale fidelitii putem accepta doar n cercetrile cu caracter exploratoriu, cercetri care nu presupun decizii finale i care pot mpri persoanele n baza unor diferene relativ mari ntre acestea. Chiar i n aceste condiii, coeficienii de fidelitate mai mici de 0,50 0,60 trebuie privii cu maxim rezerv.

311

Statistic aplicat n tiinele socio-umane

Kubiszyn i Borich (Kubiszyn, Borich, 1996 Albu, 2000) remarc o serie de elemente importante pentru analiza i interpretarea coeficienilor de fidelitate: n eantioanele n care variabilitatea scorurilor este mare, coeficientul de fidelitate are valori mai mari n comparaie cu eantioanele omogene; Fidelitatea este puternic afectat de erorile de cotare; Creterea numrului de itemi atrage dup sine i creterea coeficientului de fidelitate; Dac toi itemii unui instrument sunt foarte uori sau foarte dificili, coeficientul de fidelitate are o valoare mic.

Avnd n vedere aceste opinii, se observ c, dei la prima vedere analiza fidelitii nu pune probleme deosebite, n realitate construirea unui instrument fidel nu este un lucru att de uor. Personal, nu recomandm utilizarea instrumentelor cu un coeficient de fidelitate sub 0,60, n aceste condiii o revizie a conceptelor i a itemilor fiind necesar. n sperana c s-au lmurit sensul, semnificaia i procedurile de calcul ale fidelitii, nu ne rmne dect s aflm cum putem folosi computerul pentru a scpa de corvoada formulelor.

III.2 Analiza fidelitii n SPSS for Windows


Lansarea procedeelor de analiz ale fidelitii se realizeaz, n SPSS for Windows, accesnd acelai meniu, Analyze, apoi submeniul Scale i, n final, opiunea Reliability Analysis. Analiza fidelitii fiind o procedur ceva mai complex n comparaie cu celelalte tehnici discutate pn acum, presupune i un alt tip de baz de date. De aceea, nu v vei supra pe mine dac, la nceput, voi ncerca s v prezint opiunile de analiz din SPSS i abia mai trziu vom discuta despre baza de date necesar. De asemenea, 312

Cristian Opariuc-Dan sper s nu v uitai urt dac n baza de date va trebui s definii mai multe variabile dect pn acum i, n acelai timp, vei introduce mai multe date. V pot promite c aceste date le vom folosi i pentru analiza factorial. Iat, n figura 3.3, formularul de definire al analizei de fidelitate. Nu, s nu v induc n eroare simplitatea extraordinar a acestuia. AnaFigura 3.2 Accesarea meniuliza este chiar mai simpl dect credei. Cele lui de analiz a fidelitii dou liste, lista variabilelor din baza de date i lista variabilelor supuse analizei, separate prin butonul de transfer, nu mai necesit nicio precizare suplimentar. La fel, observai butoanele de comand. n realitate, exist doar trei elemente de noutate, i anume lista der ulant Model, seciunea Scale label i butonul Statistics care include opiuni specifice analizei de fidelitate. n comparaie cu expunerea teoretic din acest capitol, SPSS v propune chiar mai multe elemente de studiu ale fidelitii, v permite s analizai proprietile scalelor de msur i proprietile tuturor itemilor componeni, Figura 3.3 Formularul de configurare al analiinclusiv relaiile dintre acetia i zei de fidelitate relaiile itemilor cu scala n ansamblul ei. Credei-m, nu ai vrea s calculai manual aceste lucruri Lista derulant Model v permite s alegei metoda de studiu a fidelitii pe care o dorii. Iat ce posibiliti avei:

313

Statistic aplicat n tiinele socio-umane

Alpha (Cronbach) v ofer posibilitatea studiului fidelitii prin consisten intern, cu calculul coeficientului de consisten intern Cronbach; Split-half prezint posibilitatea de analiz a fidelitii prin metoda njumtirii; Guttman se refer la aceeai metod de analiz a fidelitii (split-half), aplicabil situaiilor n care varianele nu sunt egale; Parallel permite aprecierea fidelitii prin metoda formelor paralele, n situaia n care itemii au aceleai variane i aceleai erori ale varianelor; Strict parallel este un model nou de analiz de fidelitate, model care presupune, pe lng condiiile de administrare ale formelor paralele, i egalitatea mediilor. Caseta de text Scale label nu are dect o valoare informativ, de etichetare a scalei pentru care se realizeaz analizele. Dac, de exemplu, studiai fidelitatea unui numr de 20 de itemi pentru o scal de anxietate, putei introduce n aceast seciune textul Anxietate n vederea unei mai bune organizri a informaiilor n fereastra de rezultate.

Apsarea butonului Statistics determin apariia formularului din figura Figura 3.4 Formularul de configurare a opiunilor statistice 3.4, formular prin intermediul cruia vom alege prelucrrile de date necesare.

314

Cristian Opariuc-Dan Seciunea Descriptives for determin afiarea statisticilor descriptive pentru fiecare item inclus n analiz (la bifarea casetei Item), la nivelul scalelor (bifnd caseta Scale) i pentru scal atunci cnd un item este eliminat (bifarea casetei Scale if item deleted). Acesta din urm este i un element extrem de important, pe care l vom discuta n detaliu ceva mai trziu. Statisticile afiate la nivel de item se refer la media, abaterea standard i numrul de cazuri pentru fiecare item analizat. La nivelul scalei, programul prezint media, variana i abaterea standard a scalei (a tuturor itemilor supui analizei) precum i numrul total de itemi. Dac alegem i afiarea compoziiei scalei la eliminarea itemului, atunci SPSS va calcula, pentru fiecare item, comportamentul scalei dac acel item nu ar mai exista. Astfel, se va include media i variana scalei dac acel item este eliminat, precum i corelaia item-scal i comportamentul noului coeficient de fidelitate, dac itemul respectiv nu va mai fi inclus n scal. Seciunea Inter-Item v ofer posibilitatea prezentrii matricei de corelaii ntre toi itemii scalei (bifnd opiunea Correlations) precum i cea a afirii matricei de covarian a itemilor scalei (bifnd opiunea Covariances), ambele elemente fiind extrem de utile atunci cnd dorim s studiem detaliat compoziia scalei. Seciunea Summaries furnizeaz statistici descriptive privind distribuia itemilor n raport cu toi ceilali itemi ai scalei. Bifnd caseta Means vei putea calcula statisticile legate de media itemilor. Astfel, SPSS va afia cea mai mic i cea mai mare medie a itemilor, media mediilor itemilor, amplitudinea i variana mediilor itemilor, precum i numrul de itemi inclui n analiz. Bifarea casetei Variances determin calculul statisticilor centralizate pentru variana itemilor. La fel ca mai sus, se va calcula variana cea mai mic, variana cea mai mare, media varianelor, amplitudinea i variana varianelor. Aceleai elemente vor fi calculate i pentru cov a315

Statistic aplicat n tiinele socio-umane

riane, la bifarea casetei Covariances, precum i n cazul corelaiilor dac alegem s bifm caseta Correlations. Informaiile sunt utile n cazul analizei compoziiei scalei, de aceea le vom relua ulterior. Seciunea ANOVA Table permite lansarea procedurilor de calcul referitoare la egalitatea mediilor. tiu c deocamdat nu avei suficiente i nformaii pentru a nelege bine aceste elemente, totui voi ncerca s le prezint ct mai clar cu putin. Un test de egalitate a mediilor pleac de la ipoteza nul conform creia toi itemii scalei au aceeai medie. Dac testul este semnificativ, nseamn c putem respinge ipoteza nul, apreciind c mediile itemilor sunt semnificativ diferite. Un test nesemnificativ ne spune c putem considera itemii ca avnd medii egale. Desigur, discutnd despre fidelitate, vom observa c pentru scalele consistente sau pentru instrumentele fidele, de obicei acest test nu este semnificativ. Opiunea None este cea mai simpl, deoarece comunic programului SPSS s nu calculeze niciun test de egalitate a mediilor. Opiunea F test realizeaz o analiz de varian cu msurri repetate n vederea stabilirii egalitii mediilor. Procedeul se folosete pentru date parametrice. Opiunea Friedman chi-square afieaz coeficienii de concordan Friedman 2 i W Kendall. La modul forat, aceti coeficieni pot fi considerai similari testului F, pentru date aflate la un nivel de msur ordinal; Opiunea Cochran chi-square se folosete pentru date dihotomice, afind statisticile Q ale lui Cochran, oarecum analoage testului F. Opiunea Hotellings T-square reprezint o versiune simpl a tabelelor ANOVA, i pleac de la aceeai ipotez nul, ipoteza egalitii mediilor itemilor care compun scala.

316

Cristian Opariuc-Dan Opiunea Tukeys test of additivity verific dac exist interaciuni multiplicative ntre itemi. Dac testul este semnificativ, nseamn c asem enea interaciuni exist. Opiunea Intraclass correlation coefficient determin evaluarea consistenei, adic evaluarea acordului la nivelul scorurilor fiecrui subiect. Este o opiune foarte interesant, folosit mai ales la analiza fidelitii interevaluatori, i presupune definirea mai multor elemente de calcul: Alegerea modelului de calcul al coeficientului de corelaie a consistenei la nivel de subiect, prin intermediul listei derulante Model. Opiunea Two-Way Mixed o putei folosi atunci cnd efectele subiecilor sunt aleatorii i efectul itemului (evaluatorului) este constant. Reprezint cea mai folosit opiune, deoarece se presupune c subieci diferii vor rspunde diferit la acel item, n funcie de nivelul la care este prezent trstura. Dac nu putem anticipa efectul itemului (evaluatorului) presupunnd c itemul nu a fost suficient studiat, nu se tie n ce msur acoper variana trsturii vom folosi opiunea Two-Way Random. n sfrit, dac avem certitudinea c modificarea valorilor la nivelul itemilor se datoreaz numai diferenelor inter-individuale, adic numai efectelor generate de ctre subieci, vom folosi opiunea OneWay Random. Alegerea tipului de analiz, din cadrul listei derulante Type. n funcie de specificul cercetrii, putei selecta ntre analiza consistenei Consistency i analiza acordului Absolute Agreement;

317

Statistic aplicat n tiinele socio-umane

Alegerea intervalului de ncredere, n cadrul casetei Confidence interval. De obicei, intervalul de ncredere este cel implicit, 95%; Alegerea valorii de test cu care se vor compara valorile observate n cadrul casetei Test Tabelul 3.5 Structura bazei de date value. Valoarea implicit Nivelul de este zero, ns adeseori Variabila Eticheta msur Format Itemul 1 Scale F1 aceast valoare va trebui item1 item2 Itemul 2 Scale F1 modificat. item3 Itemul 3 Scale F1
item4 item5 item6 item7 item8 item9 item10 item11 item12 item13 item14 item15 item16 item17 item18 item19 item20 item21 item22 item23 item24 Sexul Varsta Itemul 4 Itemul 5 Itemul 6 Itemul 7 Itemul 8 Itemul 9 Itemul 10 Itemul 11 Itemul 12 Itemul 13 Itemul 14 Itemul 15 Itemul 16 Itemul 17 Itemul 18 Itemul 19 Itemul 20 Itemul 21 Itemul 22 Itemul 23 Itemul 24 Genul biologic Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Scale Nominal F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F1 F3

III.2.1 Analiza consistenei interne


Finaliznd prezentarea opiunilor, s trecem la treab. Mai uor vom nelege conceptele exersnd dect efectund infinite speculaii teoretice. n primul rnd, baza de date. Putei observa, n tabelul 3.5, modul de definire al variabilelor. Avem un numr de 24 de itemi, toi asimilai unui nivel de msur scalar, variabilele fiind definite numeric, cu un singur caracter i fr valori zecimale. La sfritul bazei de date, exist variabila nominal sexul, care stocheaz genul biologic al subiecilor i variabila scalar vrsta. n tabelul 3.6 observai i modalitatea de codificare a genului biologic, procedur care ar trebui s v fie deja familiar.

Varsta Scale subiectilor

nainte de a prezenta efectiv datele, s v edem cteva dintre particularitile acestei baze de date. S presupunem c 318

Variables in the working file

Cristian Opariuc-Dan avem un chestionar cu 24 de itemi care msoar orice dorii dumneavoastr. Din considerente practice, vom alege s vorbim despre un chestionar de evaluare a climatului organizaional. Acest chestionar are un numr de ase scale:7 motivaia se refer la climatul motivaional din firm, viznd aspecte precum retribuia, promovarea, competena. Aceast scal este evaluat de itemii 12, 13, 14, 15 i 16;
Tabelul 3.6 Codificarea variabilei sex Valoare sexul 1 2 Etichet Barbati Femei

suportul are n vedere resursele i condiiile de munc pe care le asigur organizaia n vederea realizrii unor activiti performante. Itemii corespunztori acestei scale sunt 17, 18, 19 i 20; conducerea evalueaz stilul de conducere eficient, sprijinind performana individual i colectiv. Itemii 5, 6, 7 i 8 sunt cei care se refer la acest indicator; sarcina este prezentat ca modul de definire al sarcinilor i obiectivelor, att la nivelul organizaiei ct i la nivelul fiecrui angajat. Aceast scal are n componen itemii 1, 2, 3, 4; structura vizeaz modul de organizare a muncii, cu referire la eficien, flexibilitatea i adaptabilitatea posturilor i a funciilor. Itemii componeni sunt 21, 22, 23 i 24; relaiile reprezint indicatorul care evalueaz calitatea relaiilor dintre angajai, cu referire la comunicare i colaborare pe linie profesional. Itemii caracteristici acestei scale sunt 9, 10 i 11.

Chestionarul este absolut fictiv. Datele nu corespund unor cercetri reale. Descrierea scalelor a fost preluat din lucrarea Evaluarea psihologic a personalului Ticu Constantin, Editura Polirom, Iai, 2004.

319

Statistic aplicat n tiinele socio-umane

Pn n acest moment, nu cred ca sunt neclariti. Chestionarul poate fi tratat per ansamblu, ca un indicator total al climatului organizaional, sau pe scale, dac dorim s investigm componena acestuia. Itemii (ntrebrile) acestui chestionar primesc rspunsuri pe o scal de la 1 la 7, unde 1 nseamn foarte puin, iar 7 nseamn foarte mult. Scorul tot al la nivelul chestionarului poate varia ntre un minimum de 24 de puncte i maximum 168 de puncte. La nivelul scalelor, scorul poate varia ntre numrul de itemi (3, 4 sau 5), scorul minim, i de 7 ori numrul de itemi (21, 28 sau 35), scorul maxim. Nu suntem interesai de modul de formulare al itemilor. Vom presupune c itemii au fost bine concepui, au validitate teoretic i validitate de construct, per ansamblu chestionarul atingndu-i obiectivele. Pentru a verifica fidelitatea i n vederea unei analize factoriale confirmatorii (pe care o vom discuta n urmtoarele volume) vom considera o cercetare efectuat ntro organizaie de dimensiuni mari. Lotul de cercetare este format dintr-un numr de 160 de persoane. Putei observa, n tabelul 3.7, structura complet a bazei de date. Desigur, pentru a putea analiza fidelitatea, ne intereseaz r spunsurile subiecilor la fiecare item i nu scorurile brute obinute la nivelul scalelor sau la nivelul ntregului chestionar. Nu v speriai. narmai-v cu rbdare i completai toate aceste informaii, exact aa cum v sunt prezentate8.

Toate fiierele de date SPSS le putei descrca de la adresa http://www.statistica-social.ro

320

It1 7 6 7 6 4 7 7 3 7 5 6 3 3 6 7 7 5 7 6 6 7 6 6 7 6 5 7 7 6 7 3 4 7 6 6

It2 7 6 7 5 5 7 7 5 7 5 6 4 4 6 7 7 5 7 4 6 7 6 6 7 6 3 6 7 6 7 4 4 7 6 6

It3 7 6 7 3 4 7 7 4 7 5 6 5 5 6 7 7 5 7 5 5 7 6 6 7 6 5 6 7 6 7 5 4 7 6 6

It4 7 6 7 4 4 7 7 5 7 6 6 5 4 6 7 7 4 7 4 4 7 6 6 7 6 4 6 7 5 7 5 4 7 6 6

It5 6 5 6 7 4 6 7 5 5 5 6 7 5 6 7 7 7 7 7 7 7 4 6 7 5 6 6 7 6 5 6 7 7 6 6

It6 5 5 6 7 4 6 7 5 4 5 6 7 6 6 7 7 6 7 7 7 7 4 6 7 5 6 6 7 6 7 3 7 5 6 5

It7 5 5 6 7 5 5 6 5 4 5 6 7 6 6 7 7 6 7 7 7 7 4 6 7 5 6 6 7 6 7 4 7 7 6 6

It8 6 4 6 7 4 5 7 5 4 5 6 7 5 6 7 7 7 7 6 6 7 4 6 7 5 6 6 7 6 6 5 7 7 6 4

It9 6 7 7 6 7 7 7 7 7 7 7 7 6 6 7 6 7 7 6 6 7 7 7 7 7 6 6 7 7 7 5 7 7 7 7

It10 6 7 7 5 6 6 7 7 7 6 7 7 6 7 7 6 7 7 6 6 7 7 7 7 6 7 7 7 7 7 5 7 7 6 7

Tabelul 3.7 Baza de date pentru analiza fidelitii It11 It12 It13 It14 It15 It16 It17 It18 7 6 7 7 7 7 7 7 6 7 7 7 7 7 6 6 6 7 7 7 7 7 5 3 6 5 6 5 6 6 6 6 7 7 7 6 6 6 6 6 7 5 4 7 6 6 7 7 7 6 6 6 6 6 7 7 7 7 6 7 6 6 4 4 7 5 6 5 6 6 5 5 7 7 7 7 7 7 4 3 7 5 6 5 6 6 6 6 7 6 5 5 6 6 5 3 7 6 6 7 7 6 6 6 7 6 6 6 4 4 6 6 7 7 7 6 4 4 6 6 6 5 5 6 6 5 3 3 7 6 6 6 6 6 6 6 7 7 7 7 7 7 3 5 6 5 5 6 6 6 5 6 6 6 6 5 6 6 6 6 7 6 6 6 5 5 7 7 7 7 7 7 7 7 6 6 7 4 5 5 5 4 6 6 7 5 6 5 6 6 3 4 6 7 7 7 6 7 7 7 7 4 4 4 5 5 7 7 7 5 5 5 5 4 6 6 7 6 6 6 6 6 7 7 7 5 6 5 6 6 4 5 7 5 5 4 4 4 7 7 6 5 5 4 4 4 6 6 7 7 7 6 6 6 7 7 7 6 6 6 7 7 7 7 6 4 4 5 5 5 6 6 7 6 7 7 7 7 6 6

It19 7 6 3 6 6 7 7 3 4 4 5 5 6 6 6 4 6 4 6 7 7 6 6 5 7 7 6 7 4 7 6 7 7 6 6

It20 7 6 3 6 6 7 7 3 5 3 5 5 6 6 6 4 5 5 6 7 7 6 6 5 7 7 6 7 5 7 6 7 7 6 6

It21 6 6 6 6 6 6 7 6 7 4 7 5 6 5 6 7 6 7 6 5 5 6 7 7 7 6 6 7 7 5 6 6 7 6

It22 6 6 6 6 6 6 7 6 6 5 6 5 6 5 6 6 6 7 6 5 5 6 6 7 7 6 5 6 7 5 6 6 7 6

It23 5 6 5 6 6 5 7 7 6 5 6 5 6 5 6 6 6 7 6 3 5 6 6 7 7 6 5 6 7 5 6 6 6 6

It24 5 6 5 5 5 5 7 7 7 5 6 6 6 4 6 7 6 7 5 4 6 6 6 7 7 6 5 7 7 6 6 6 6 7

Sex 2 1 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1

Varsta 46 48 52 35 48 53 58 46 53 58 56 50 50 47 50 54 48 39 31 48 50 43 54 55 46 44 50 54 31 57 53 58 35 53 36

Statistic aplicat n tiinele socio-umane


6 3 7 5 6 5 5 5 6 6 6 6 7 7 6 7 7 6 5 5 6 3 6 3 7 6 2 6 7 6 6 7 6 5 3 4 7 5 6 6 5 5 6 6 6 6 7 7 6 7 7 6 5 5 6 4 6 4 7 5 3 6 7 6 6 7 6 4 5 5 7 5 6 5 6 7 6 6 6 6 7 7 6 7 7 6 5 5 6 4 6 5 7 3 4 6 7 6 6 7 6 5 4 5 7 6 5 6 6 5 5 6 5 6 7 7 6 7 7 6 5 4 5 3 5 7 7 4 5 6 7 6 6 7 6 4 7 3 7 7 6 6 6 5 6 6 7 6 7 7 6 7 6 6 5 7 6 2 6 5 7 6 5 6 6 2 5 4 6 7 7 4 7 7 6 6 6 6 6 6 7 6 7 7 6 7 5 6 6 7 6 3 6 5 7 6 5 6 5 3 5 4 6 7 7 5 7 7 7 6 6 5 6 6 7 6 7 7 6 7 5 6 5 6 6 5 7 5 7 7 5 6 5 5 5 5 6 7 7 5 7 7 7 6 6 6 6 6 7 6 7 6 6 7 6 6 4 7 6 4 7 5 7 7 4 6 6 4 5 4 6 7 7 7 7 7 7 6 7 6 5 5 7 7 6 7 7 7 7 6 6 6 7 6 6 6 7 6 6 7 7 6 7 6 7 7 7 7 7 7 7 7 7 6 5 6 7 7 7 7 7 7 7 7 6 7 7 5 6 6 7 5 6 7 7 7 5 7 7 7 6 7 6 7 7 7 7 7 6 7 7 7 7 7 7 7 7 7 7 6 7 5 6 6 7 6 7 7 6 7 6 7 6 7 7 7 5 7 5 6 6 6 5 7 6 5 7 7 7 5 4 7 5 6 6 5 7 5 6 4 4 5 6 6 5 7 6 6 7 7 5 7 5 6 6 7 5 7 6 5 7 5 6 5 5 7 5 6 6 5 7 5 7 4 4 6 6 7 5 7 7 5 7 7 7 7 6 6 6 7 5 7 6 6 7 6 6 7 7 6 5 6 6 5 7 5 5 4 4 5 7 7 4 7 6 5 7 7 6 7 6 6 6 7 5 7 6 4 7 6 5 6 6 6 4 6 5 5 7 4 5 5 4 6 6 7 5 7 4 7 7 6 6 7 6 6 6 7 5 7 6 4 6 7 5 5 6 6 4 6 5 4 7 4 5 5 4 6 7 7 4 7 4 5 5 6 7 3 5 6 6 7 5 6 7 6 6 7 6 4 5 7 6 5 4 3 5 4 7 7 6 1 6 6 6 7 6 5 5 6 7 5 4 6 6 7 5 6 7 5 6 7 5 3 5 7 6 5 4 3 5 2 7 7 4 4 7 6 6 7 6 5 5 6 7 4 5 6 6 7 3 6 7 5 6 7 6 4 6 7 6 6 5 4 6 5 7 7 6 4 6 6 6 7 6 6 6 6 7 5 5 6 6 7 3 6 7 6 6 7 5 3 6 7 6 7 5 5 6 5 6 7 5 5 6 6 6 7 6 5 6 6 4 7 6 5 7 6 5 5 6 6 6 7 6 6 6 7 5 6 7 4 6 4 7 7 6 6 7 7 5 6 6 7 6 6 4 6 6 6 7 6 5 5 6 6 6 7 6 7 6 7 6 6 6 4 6 3 7 7 6 6 7 7 5 6 6 6 6 6 4 7 6 6 6 6 5 6 6 5 6 7 6 7 6 7 6 6 6 3 6 5 7 7 6 6 7 6 5 6 5 7 5 6 5 7 6 6 6 6 4 5 6 5 6 7 6 6 6 7 6 6 7 3 6 5 7 7 7 6 7 6 5 6 5 6 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 50 49 23 50 58 46 59 50 48 39 44 43 56 58 48 46 48 50 53 53 48 56 48 36 51 39 47 53 48 47 56 57 31 48

322

Cristian Opariuc-Dan
7 6 6 6 5 6 3 6 7 5 6 6 6 7 3 4 7 7 6 6 5 7 6 6 6 6 5 5 5 6 5 4 7 4 7 6 6 6 5 6 3 6 7 5 6 6 6 7 3 4 7 6 6 6 4 6 6 6 6 6 5 7 6 3 5 3 7 4 5 6 6 6 5 6 4 6 7 5 6 6 6 7 4 4 7 6 6 6 5 7 6 6 6 7 3 6 7 5 5 3 7 4 7 5 6 6 6 5 4 6 7 6 6 6 6 7 4 4 7 7 5 6 4 5 6 6 6 7 3 7 7 4 6 4 7 5 4 5 3 6 5 6 3 5 7 7 6 6 6 7 6 5 7 6 6 5 7 5 5 6 5 7 4 6 4 6 3 6 6 6 4 5 4 5 5 7 4 5 7 7 6 6 6 7 6 4 7 6 6 5 6 4 6 6 6 7 4 5 5 6 4 6 6 6 4 4 5 5 5 6 5 5 7 7 6 6 6 7 7 5 7 6 7 7 7 5 6 6 5 7 4 6 5 7 5 6 6 6 4 4 5 6 5 7 5 4 7 7 6 6 6 7 7 5 7 6 7 5 6 5 5 6 6 7 4 7 5 7 4 6 6 6 7 7 7 6 7 6 6 7 7 7 6 7 7 7 6 7 6 7 7 7 7 6 7 7 7 7 6 6 7 6 6 7 7 7 6 6 6 6 7 7 6 7 7 7 6 7 5 7 5 6 6 7 7 7 7 6 7 7 7 7 7 6 7 6 7 7 7 6 6 7 7 6 6 7 6 7 7 7 6 7 6 7 6 7 6 7 6 7 7 6 7 7 6 7 7 6 7 6 7 7 7 7 6 5 5 7 7 6 5 4 5 5 5 6 5 7 6 5 5 6 6 5 5 6 4 7 5 5 6 6 5 6 7 7 7 5 6 5 5 6 7 6 5 5 6 5 5 7 5 7 6 5 5 6 6 5 5 5 4 7 5 6 7 6 6 6 5 7 7 4 7 5 6 7 6 6 5 5 5 5 6 5 5 7 6 7 6 7 6 6 5 7 6 6 6 5 7 6 5 6 5 7 7 4 6 6 4 6 4 6 6 4 6 5 4 5 5 7 6 6 6 7 6 6 5 6 4 7 6 6 7 5 6 6 6 7 7 5 6 6 4 6 4 6 6 5 6 5 4 5 3 6 6 6 6 6 6 6 5 6 4 7 6 6 7 5 6 5 6 7 7 4 6 5 6 4 3 4 7 6 2 3 5 3 6 6 7 7 3 7 5 6 7 6 4 7 3 6 6 7 7 6 6 6 7 7 7 5 7 5 3 5 7 7 3 4 6 4 6 6 6 7 4 7 4 6 7 6 5 6 3 6 6 7 7 6 6 6 7 7 6 6 6 4 4 5 7 6 4 5 5 3 6 6 5 7 5 7 5 6 7 6 5 7 4 6 6 7 6 6 6 6 7 7 6 6 6 4 4 5 7 7 5 5 6 4 6 6 5 7 5 7 5 7 7 6 5 6 4 7 6 7 6 6 6 6 7 7 6 5 6 6 4 6 6 6 6 6 6 6 5 7 7 6 7 5 6 5 7 6 4 6 5 7 6 6 7 4 6 7 7 7 6 5 6 6 4 6 6 6 7 7 5 6 5 7 7 6 7 5 6 6 7 6 5 6 5 6 6 6 7 3 6 7 7 7 5 6 5 5 5 6 5 6 6 7 5 6 6 7 7 5 7 5 6 4 7 6 5 6 7 6 7 5 7 5 6 7 77 7 5 6 5 5 5 6 5 7 7 7 5 6 6 7 7 5 7 4 6 5 7 7 5 6 7 6 7 5 7 5 6 7 7 7 2 1 2 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 52 31 30 50 48 53 31 35 53 36 46 59 51 48 57 43 58 31 49 57 56 50 31 53 52 50 59 58 52 51 53 53 45 55

323

Statistic aplicat n tiinele socio-umane


5 6 7 3 3 7 6 5 3 3 6 3 6 3 7 6 7 6 6 5 3 6 4 5 6 7 7 6 4 7 3 7 3 6 7 6 7 3 4 7 6 6 3 4 6 4 6 3 7 5 7 6 6 6 4 4 4 7 6 7 7 6 5 7 4 7 4 6 6 5 7 4 6 7 6 5 4 5 6 4 6 5 7 6 7 6 6 7 3 3 4 6 6 7 7 7 4 7 5 7 3 6 7 5 7 4 4 7 6 6 4 5 6 3 6 7 7 6 7 6 6 7 4 4 5 7 6 7 7 7 5 7 5 7 4 6 7 6 6 4 7 6 6 5 7 2 4 6 6 4 3 6 7 5 6 7 5 6 3 6 7 7 6 4 6 3 5 6 6 6 5 6 5 4 7 7 6 5 7 3 5 6 6 5 4 6 7 5 6 7 5 6 4 6 6 7 6 4 6 4 6 6 6 6 6 6 5 4 7 6 5 6 6 5 5 6 6 5 5 6 7 6 5 6 5 5 5 5 7 7 6 4 7 5 6 6 6 6 7 4 6 4 7 7 6 6 6 4 5 6 6 5 4 6 7 6 5 6 5 4 5 5 6 7 6 4 7 5 5 6 6 6 7 6 7 5 7 6 7 6 6 5 7 6 7 6 7 7 7 7 7 7 6 5 7 6 7 5 6 7 7 6 6 7 7 6 5 6 7 4 7 7 6 6 6 5 7 7 7 5 7 7 7 6 7 6 6 5 7 6 7 6 6 6 7 7 7 5 7 7 6 7 7 5 7 7 6 7 6 6 7 6 7 5 7 7 6 6 7 7 6 6 7 6 6 5 6 6 7 7 7 6 7 7 7 6 5 4 7 7 7 5 6 1 5 6 7 7 3 7 5 7 5 5 4 5 7 6 5 6 3 6 5 5 6 7 7 6 6 6 5 4 7 6 6 5 6 4 5 6 7 7 4 7 6 7 5 5 4 5 6 7 6 6 3 7 5 6 5 7 7 6 5 5 7 5 7 6 7 7 6 2 6 6 6 7 3 7 5 7 7 5 4 4 6 7 5 6 7 7 5 5 7 7 7 6 7 7 6 5 7 6 6 6 6 3 6 6 4 7 3 7 6 7 6 5 3 4 6 7 6 6 6 7 5 6 7 6 7 6 7 7 6 3 7 7 6 6 6 4 6 6 4 7 4 7 6 6 6 5 4 4 6 7 6 6 6 7 5 6 6 6 7 6 7 6 7 5 4 6 3 6 6 6 6 6 7 4 5 4 4 6 4 5 5 5 5 7 6 6 7 6 7 6 5 3 6 3 6 6 6 5 4 5 5 6 6 6 6 6 6 3 5 4 5 6 4 5 5 5 6 7 6 6 7 6 7 6 5 5 6 3 6 6 6 5 5 6 4 6 5 6 5 6 6 5 6 5 5 6 4 6 5 6 5 7 6 6 7 6 7 6 5 4 6 4 6 6 6 5 5 5 5 6 6 6 5 6 6 5 6 5 5 6 4 6 5 5 7 7 6 6 7 6 7 6 6 5 6 4 7 6 7 6 6 6 7 6 7 5 4 7 6 5 6 6 6 4 6 7 2 5 6 6 6 7 6 6 7 6 5 4 7 6 6 6 7 6 6 6 7 6 7 5 4 7 6 5 6 6 6 4 6 7 2 5 6 6 6 6 6 6 7 6 6 4 7 6 7 6 7 6 6 6 7 5 7 5 4 7 6 5 5 7 6 4 6 7 5 3 6 7 6 6 6 6 7 6 5 4 7 6 6 6 7 6 6 6 7 5 7 5 4 7 6 5 5 7 7 4 6 7 6 4 6 7 6 6 6 6 7 6 5 5 7 6 1 1 1 1 1 2 1 1 1 1 1 1 1 1 2 1 1 2 2 1 2 1 1 2 1 1 1 1 1 2 1 1 1 2 55 53 56 51 45 50 54 54 53 50 50 53 49 39 30 48 57 44 30 53 30 56 36 44 49 53 54 31 50 46 23 58 50 50

324

Cristian Opariuc-Dan
7 7 5 7 6 7 3 6 5 6 7 5 6 5 6 5 6 6 5 7 3 5 6 5 7 5 7 7 7 4 7 6 6 7 5 6 5 7 5 6 6 6 7 4 5 6 5 7 6 7 6 5 5 6 7 7 7 5 6 7 5 4 6 6 5 7 3 5 6 5 7 6 7 7 6 5 7 7 7 5 5 6 7 7 4 6 6 5 7 4 6 6 5 7 5 7 6 5 6 5 6 5 5 7 6 6 6 7 6 6 7 3 2 7 6 6 7 5 7 6 7 6 6 6 6 7 7 6 6 5 7 6 6 7 4 3 7 6 6 7 5 7 7 6 6 6 6 6 7 7 6 6 6 7 6 6 7 5 5 7 6 5 7 5 7 7 7 6 5 7 5 7 7 6 6 5 7 6 6 7 4 4 7 6 6 7 7 7 7 5 6 6 6 6 7 7 6 6 6 6 6 6 6 7 4 7 7 6 7 6 7 6 6 6 7 6 6 6 7 7 6 6 6 7 6 6 6 5 7 7 6 7 6 7 7 7 6 7 6 6 7 7 7 7 6 6 7 6 6 6 5 7 6 6 7 5 6 4 7 7 6 6 5 7 7 7 7 5 6 6 7 5 5 5 7 7 7 7 5 6 5 7 7 5 6 6 6 7 7 7 6 6 6 5 5 5 5 7 7 7 7 5 6 5 6 7 5 6 7 6 7 7 7 6 5 6 7 4 5 5 7 6 7 7 6 7 5 5 7 5 6 7 4 7 7 7 5 6 6 6 4 5 3 7 7 7 6 6 7 4 4 7 6 7 6 4 7 7 7 5 5 5 6 4 5 4 7 7 7 3 6 6 6 7 7 7 7 7 6 4 6 7 7 5 6 6 5 4 6 3 7 7 4 6 5 6 7 7 7 7 7 6 4 6 6 7 5 7 6 5 5 6 4 7 7 4 6 5 6 7 7 7 7 7 6 5 7 6 7 5 6 6 4 5 6 5 7 7 5 6 6 6 7 7 7 7 7 7 5 7 6 7 6 6 6 3 5 6 5 7 5 5 6 5 6 6 7 4 5 5 7 6 6 7 6 7 5 6 4 5 5 7 6 5 4 6 5 7 6 7 4 5 5 7 6 7 7 6 6 5 6 4 6 5 6 6 5 4 6 5 7 6 7 4 5 4 7 6 6 7 5 7 4 6 5 5 5 7 5 5 4 7 5 7 6 7 5 5 5 7 6 6 7 5 6 5 6 5 5 5 7 5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 43 45 55 57 53 50 53 50 56 47 59 54 48 57 45 57 53 23 54 23 46 35 48

325

V felicit pentru rbdare! ntr-adevr, ai muncit ceva, iar acum s vedem rsplata. Pentru nceput, vom analiza consistena intern a fiecrei scale, folosind metoda Cronbach. Deoarece acest chestionar are ase scale, analiza consistenei interne pentru ntregul instrument nu are sens. Vom ncepe cu scala motivaie, itemii componeni fiind 12, 13, 14, 15 i 16.

n figura 3.5 am inclus aceti itemi n vederea analizei, am ales modelul de analiz (modelul Alpha) i am scris o etichet descriptiv pentru aceste proceduri n seciunea Scale label. n principiu, aceste informaii sunt suficiente pentru ca programul s calculeze coeficientul dorit. Totui, fiind cercettori cu experien, vom dori s aflm n detaliu i compoziia scalei. Accesnd butonul Statistics vom alege, imediat, i opiunile care ne intereseaz n mod deosebit. Vom alege calculul statisticilor descriptive la nivel de item, la nivel de scal i Figura 3.6 Analiza compoziiei scalei motivaie la nivel de scal atunci cnd eliminm un item. Matricele de corelaie i de covarian sunt, de asemenea, foarte utile, precum i statisticile cumulate (mediile, varianele, covarianele i corelaiile). Nu vom proceda la analiza de varian, ns vom dori s testm ipoteza egalitii mediilor prin testul T-square Hotelling. Toate aceste configurri le putei urmri n figura 3.6.

Figura 3.5 Analiza consistenei interne pentru scala motivaie

Cristian Opariuc-Dan Dup ce am prsit acest formular, prin apsarea butonului Continue, va trebui s apsm butonul OK n vederea lansrii procedurilor de calcul. Primul tabel din foaia de Case Processing Summary rezultate se refer la sumarul N % cazurilor analizate. Observm c Cases Valid 160 100,0 studiul consistenei interne s-a Excludeda 0 ,0 realizat pe un numr de 160 de Total 160 100,0 subieci, toi avnd rezultatele a. Listwise deletion based on all variables in the procedure. completate corect, procentul de rezultate valide fiind de 100%. A doua linie din tabel ne informeaz asupra cazurilor excluse din analiz. Dac unii di ntre subieci ar fi avut date lips la vreunul dintre cei cinci itemi, n aceast linie ar fi fost prezentat numrul acestora. Desigur, ntr-o asemenea situaie, numrul de cazuri valide nu ar mai fi fost 160, ci un alt numr, diminuat cu valoarea din linia cazurilor excluse. Din fericire, nu ne aflm ntr-o asemenea situaie, iar SPSS nu raporteaz niciun caz exclus. n mod firesc, linia Total reprezint suma dintre cazurile valide i cazurile excluse, numr egal cu subiecii din baza de Tabelul 3.9 Coeficientul de consisten intern Cronbach Reliability Statistics date.
Tabelul 3.8 Sumarul cazurilor analizate on Standardized Items Items Urmtorul tabel conine ,899 ,899 5 datele care ne intereseaz pe noi cel mai mult, i anume valoarea coeficientului de consisten intern. Observm c scala analizat, format din cinci itemi, are un coeficient de consisten intern Cronbach de 0,899, att n form brut ct i n form standardizat. Diferena dintre cele dou valori const n procedura de lucru. n forma brut, calculul de bazeaz pe numrul de itemi din scal i pe raportul dintre media covarianelor inter-item i media varianelor itemilor. Formula de calcul nu a fost prezentat n acest volum, prefernd calculul coeficientului standardizat. Acesta din urm pleac de la supoziia c variCronbach's Alpha Cronbach's Alpha Based N of

327

Statistic aplicat n tiinele socio-umane

ana itemilor este egal aa cum am discutat deja i se bazeaz pe corelaiile dintre itemi. Indiferent de metoda de lucru, am constatat c scala motivaie este o scal fidel sub aspectul consistenei interne (o scal consistent). Tabelul urmtor pe care l afieaz formularul de rezultate conine Mean Std. Deviation N statisticile descriptive pentru fiecare Itemul 12 5,77 1,059 160 Itemul 13 5,84 ,955 160 dintre cei cinci itemi analizai. ObserItemul 14 5,92 1,009 160 vm c SPSS a calculat, pentru fiecaItemul 15 5,82 1,045 160 re dintre itemi, media i abaterea Itemul 16 5,72 1,065 160 standard. Privind mediile, am putea aprecia, la prima vedere, c acestea sunt relativ egale, fr diferene semn ificative ntre ele. Ne amintim, totui, c am ales un test statistic pentru a verifica egalitatea mediilor testul T-square care pleac de la ipoteza nul a egalitii acestora. Ultimul tabel din formularul de rezultate arat rezult atele administrrii acestui test statisTabelul 3.11 Testul de egalitate a mediilor Hotelling's T-Squared Test tic. ntr-adevr, ne-am fi nelat Hotelling's Tdac am fi presupus c mediile sunt F df1 df2 Sig Squared egale. Testul este semnificativ 14,277 3,502 4 156 ,009 (F(4,156)=3,50, p<0,01), prin urmare ipoteza nul nu poate fi acceptat. Mediile nu sunt egale la nivelul celor cinci itemi, existnd diferene semnificative ntre rspunsurile subiecilor la aceste ntrebri, fapt de Tabelul 3.12 Matricea de corelaii inter-itemi Inter-Item Correlation Matrix altfel pozitiv, care asigur Itemul 12 Itemul 13 Itemul 14 Itemul 15 Itemul 16 variabilitatea, eterogenita1,000 ,803 ,635 ,558 ,533 Itemul 12 tea necesar. ,803 1,000 ,567 ,570 ,562 Itemul 13
Tabelul 3.10 Statistici descriptive la nivel de itemi Item Statistics Itemul 14 Itemul 15 Itemul 16 ,635 ,558 ,533 ,567 ,570 ,562 1,000 ,672 ,622 ,672 1,000 ,880 ,622 ,880 1,000

Urmtoarele dou tabele v arat matricele de corelaii i de covarian-

328

Cristian Opariuc-Dan e inter-itemi. Tabelul 3.12 prezint tocmai matricea de corelaii dintre cei cinci itemi, similar celei pe care am construit-o n capitolul anterior, la calcularea manual a acestui coeficient. La o simpl priviTabelul 3.13 Matricea de covarian inter-itemi Inter-Item Covariance Matrix re, observm coeficieni de Itemul 12 Itemul 13 Itemul 14 Itemul 15 Itemul 16 corelaie ridicai ntre cei 1,122 ,813 ,679 ,618 ,601 Itemul 12 cinci itemi, aceasta fiind Itemul 13 ,813 ,913 ,547 ,569 ,572 explicaia obinerii unei Itemul 14 ,679 ,547 1,019 ,708 ,669 ,618 ,569 ,708 1,093 ,980 fideliti ridicate la nivelul Itemul 15 ,601 ,572 ,669 ,980 1,134 Itemul 16 scalei. Studiul covarianelor ne permite, de asemenea, aprecierea omogenitii scalei. ntr-adevr, diferenele dintre itemi sunt relativ mici, subiecii rspunznd compact pe scala motivaie, lucru care ne permite s deducem, din nou, existena unei valori mari pentru fidelitatea scalei.
Tabelul 3.14 Statistici cumulate la nivelul scalei Summary Item Statistics Mean Minimum Maximum Range Item Means Item Variances Inter-Item Covariances Inter-Item Correlations 5,814 1,056 ,676 ,640 5,719 ,913 ,547 ,533 5,919 1,134 ,980 ,880 ,200 ,222 ,433 ,348 Maximum / Variance N of Items Minimum 1,035 1,243 1,792 1,652 ,006 ,008 ,017 ,013 5 5 5 5

Dac analiza corelaiilor i a covarianelor nu v-a convins, haidei s abordm perspectiva sintetic din tabelul 3.14. La nivelul mediilor, avem o medie a mediilor celor cinci itemi de 5,81, cea mai mic medie fiind de 5,71 iar cea mai mare medie este de 5,91. Dei amplitudinea dintre cea mai mic medie i cea mai mare este de doar 0,20, am observat c aceast diferen este semnificativ (prin testul statistic de mai sus), n timp ce variana med iilor este mic. Aceleai tendine le observm i la nivelul analizei varian elor, precum i atunci cnd studiem sintetizat covarianele i corelaiile. 329

Statistic aplicat n tiinele socio-umane

Pn n acest moment, avem toate motivele s credem c valoarea coeficientului Cronbach pe care am obinut-o este, ntr-adevr, o valoare real, iar scala poate fi considerat fidel. Un singur lucru mai avem de fcut, i anume s analizm proprietMean Variance Std. Deviation N of Items ile scalei. n acest sens, avem la dis29,07 18,794 4,335 5 poziie dou tabele: tabelul statisticilor descriptive la nivel de scal i tabelul relaiilor dintre itemi i scal.
Tabelul 3.15 Statistici descriptive la nivel de scal Scale Statistics

n tabelul 3.15 observm c scala motivaie este format din 5 itemi, are o medie de 29,07 puncte cu o abatere standard de 4,33 puncte. Desigur, la acest nivel, informaiile nu ne sunt de prea mare folos.
Tabelul 3.16 Relaii ntre itemi i scal Item-Total Statistics Squared MulScale Mean if Scale Variance Corrected Itemtiple CorrelaItem Deleted if Item Deleted Total Correlation tion Itemul 12 Itemul 13 Itemul 14 Itemul 15 Itemul 16 23,30 23,23 23,15 23,25 23,35 12,249 12,880 12,569 11,950 12,015 ,731 ,729 ,728 ,796 ,765 ,693 ,671 ,551 ,802 ,781 Cronbach's Alpha if Item Deleted ,881 ,881 ,881 ,866 ,873

Situaia se schimb, ns, dac analizm i tabelul 3.16. Se observ c dac eliminm oricare dintre cei cinci itemi, media, variana dar i corelaia dintre item i scal vor scdea. Cel mai important item pare a fi itemul 14, deoarece dac l eliminm, variana comun a scalei scade la 0,55. Practic acesta este itemul care introduce cele mai multe distorsiuni, care biaseaz cel mai puternic scala. Folosind toi cei cinci itemi, obinusem un coeficient de consisten intern de 0,89. Se poate constata c eliminarea oricrui item nu duce la creterea consistenei interne ci, din contra, la diminuarea acesteia. 330

Cristian Opariuc-Dan n final, am adus suficiente dovezi n sprijinul fidelitii acestei scale, demonstrnd c toi cei cinci itemi sunt consisteni, fidelitatea prin aceast metod fiind bun, putem pstra scala n forma ei actual. Desigur, n general nu vom folosi toate aceste opiuni statistice pentru calculul fidelitii prin metoda consistenei interne. Spre exemplu, statisticile descriptive la nivel de scal se folosesc, n special, pentru metoda split-half i nu pentru metoda consistenei interne. Pentru a clarifica problematica analizei de fidelitate prin metoda consistenei interne, vom considera o nou scal scala sarcina, format din itemii 1, 2, 3 i 4. nainte de a ncepe studiul acestei scale, s vedem ce se ntmpl dac avem un item inversat. Anterior, am afirmat c rspunsurile subiecilor se dau pe o scal de la 1 la 7, unde 1 nseamn foarte puin iar 7 nseamn foarte mult. De obicei, n chestionare nu vei ntlni toi itemii prezentai n forma natural a scalei (1 foarte puin, 7 foarte mult). Din cnd n cnd, vei observa itemi la care 1 nseamn foarte mult iar 7 foarte puin. Motivul pentru care cercettorii folosesc un asemenea sistem, cu itemi inversai, este unul foarte simplu. Se evit tendina de rspuns n sensul pozitiv sau negativ al scalei, i oblig subiecii s fie ateni la rspunsurile pe care le dau. Cu alte cuvinte, elimin rutina rspu nsurilor. Dei practica este apreciat i rspndit n lumea tiinific, ea poate crea probleme atunci cnd apare necesitatea analizei datelor. Chestionarul nostru nu are itemi cu scale de rspuns inversate, ns putem crea foarte uor un item de acest tip. Care ar fi procedeul? n primul rnd, vom reine valoarea maxim a scalei de rspuns. n cazul nostru, aceasta este valoarea 7 (variantele de rspuns sunt de la 1 la 7). Apoi adugm o unitate la aceast valoare (7+1=8). Din valoarea astfel rezultat, scdem scorul obinut de ctre subieci la itemul respectiv. De exemplu, dorim s inversm itemul 4 din scala sarcina. Desigur, subiecii au rspuns la aceast scal de la 1 la 7, valoarea maxim fiind 331

Statistic aplicat n tiinele socio-umane

7. Adugm o unitate acestei valori i obinem 8. Pn aici este clar. Acum, observm c primul subiect a dat rspunsul 7 la itemul 4. Atunci, 8-7=1, aceasta fiind valoarea inversat pentru primul subiect. Al doilea subiect a dat rspunsul 6 i vom avea 8-6=2 ca valoare inversat. Al treilea subiect va avea valoarea inversat 8-7=1 i aa mai departe. Practic, inversarea este o operaiune de reflectare n oglind a scorurilor. Dac scala ar fi de tipul 7 foarte puin i 1 foarte mult, v dai seama c prin inversare vom restabili sensul natural al acesteia. Realizarea acestui lucru manual ar nsemna munc de chinez btrn. Din fericire, SPSS ne pune la dispoziie un utilitar foarte important, situat n cadrul meniului TransFigura 3.7 Meniul de transformare a variabilelor form, opiunea Compute Variable. Despre acest meniu am discutat i n volumul anterior, astfel nct aici ne vom concentra doar pe elementele eseniale. n figura 3.8 avei rezultatul accesrii acestui meniu. Chiar dac nu ai lecturat lucrarea anterioar, fereastra este destul de intuitiv. V putei da seama c formularul permite efectuarea diferitelor calcule folosind variabilele din baza de date. Vom folosi aceste proceduri pentru a inversa itemul 4 al scalei sarcina. n caseta Target Variable vom include noul nume al variabilei noastre. Vom conveni Figura 3.8 Inversarea unui item ca noua variabil creat s se numeasc item4tr, prescurtare pentru itemul 4 transformat. n caseta 332

Cristian Opariuc-Dan Numeric Expression scriem formula de calcul, n cazul nostru 8-item4. La apsarea butonului OK, programul va crea o nou variabil, numit item4tr, apoi va lua scorul fiecruia dintre cei 160 de subieci i l va scdea din valoarea 8, rezultatul fiind depozitat n variabila nou creat. Ce am obinut de fapt? Dac rspunsurile la itemul 4 original nsemnau 1 foarte puin i 7 foarte mult, rspunsurile la itemul 4 transformat vor nsemna 1 foarte mult i 7 foarte puin. Iat metoda prin care putem inversa itemii, Figura 3.9 Analiza fidelitii scalei sarcina atunci cnd constatm probleme n consistena scalei. Simplu i elegant! Totui, care ar putea fi problemele legate de consistena scalei? n seciunea teoretic din cadrul acestui capitol am discutat despre posibilitatea obinerii unui coeficient de consisten intern foarte mic, sau chiar negativ, din cauza existenei itemilor inversai. A venit momentul s ne i confruntm cu o asemenea situaie. S ne imaginm c scala sarcina avea itemii 1, 2 i 3 n sensul natural al scalei iar itemul 4 era inversat. Acum, ne intereseaz studiul consistenei interne a acestei scale.
Figura 3.10 Statistici calculate pentru scala sarcina

Observm, n figura 3.9, includerea celor patru itemi. Itemii 1, 2 i 3 au fost inclui n forma original, iar itemul

333

Statistic aplicat n tiinele socio-umane

4 a fost inclus n forma transformat (acest item l gsii la sfritul bazei de date, ultimul element din lista variabilelor din baza de date). Calculele statistice sunt, de aceast dat, mult mai simple. Vom opta doar pentru analiza statisticilor la nivel de item i la nivel de scal dac itemul este eliminat i, de asemenea, afiarea matricei de corelaii interitem. S vedem acum ce minuni Reliability Statistics obinem. Surpriz, coeficientul de Cronbach's Cronbach's Alpha Based N of consisten intern Cronbach Alpha on Standardized Items Items ,171 ,084 4 este de 0,171 n forma brut i 0,084 n form standardizat, forma bazat pe corelaii. Primul impuls ar fi s credei c scala nu are consi sten intern i s v grbii s umblai la itemi. Dar, s continum totui analiza.
Tabelul 3.17 Consistena intern a scalei sarcina

La nivelul itemilor, observm Item Statistics c mediile sunt apropiate pentru toi Mean Std. Deviation N 5,61 1,304 160 cei 3 itemi, singura medie diferit Itemul 1 Itemul 2 5,68 1,200 160 fiind cea a itemului 4. n acelai timp, Itemul 3 5,74 1,124 160 abaterile standard sunt, din nou, des- Itemul 4 transformat 2,23 1,132 160 tul de apropiate. Problema poate fi, prin urmare, la nivelul celui de-al patrulea item. Acesta ori nu coreleaz cu ceilali, ori coreleaz negativ. Se pare c ne aflm n cea de-a doua situaie, dac vom privi tabelul 3.19. Tabelul 3.19 Matricea de corelaii inter-itemi Inter-Item Correlation Matrix Itemii 1, 2 i 3 coreleaz Itemul 4 Itemul 1 Itemul 2 Itemul 3 puternic ntre ei, avnd coetransformat Itemul 1 1,000 ,834 ,723 -,621 ficieni de corelaie cuprini Itemul 2 ,834 1,000 ,780 -,779 ntre 0,723 i 0,834. Pe de Itemul 3 ,723 ,780 1,000 -,803 alt parte, i itemul 4 coreItemul 4 transformat -,621 -,779 -,803 1,000 leaz puternic cu itemii 1, 2 334

Tabelul 3.18 Statistici descriptive la nivel de itemi

Cristian Opariuc-Dan i 3, coeficienii fiind cuprini ntre 0,62 i 0,80, singura problem fiind aceea c itemul 4 coreleaz negativ. Este foarte clar faptul c avem de a face cu un item inversat. n mod normal, analiza s-ar opri la aceast faz, dup care vom proceda la inversarea sensului scalei itemului 4 i reluarea studiului de fidelitate.
Tabelul 3.20 Relaii ntre itemi i scal Item-Total Statistics Squared MulScale Mean if Scale Variance Corrected Itemtiple CorrelaItem Deleted if Item Deleted Total Correlation tion Itemul 1 Itemul 2 Itemul 3 Itemul 4 transformat 13,64 13,57 13,51 17,02 1,931 2,486 3,082 11,239 ,799 ,686 ,552 -,790 ,723 ,809 ,730 ,718 Cronbach's Alpha if Item Deleted -1,598a -1,062a -,653a ,912

a. The value is negative due to a negative average covariance among items. This violates reliability model assumptions. You may want to check item codings.

Chiar i SPSS i-a dat seama de acest lucru, dac observai subsolul tabelului 3.20. Strict informativ, putei vedea ce se ntmpl dac eliminm al patrulea item. Media i variana scalei vor crete, la fel i coeficientul de consisten intern. Totui, acesta nu este un item neconsistent ci un item care coreleaz bine cu scala, singura sa problem fiind aceea a sensului de rspuns. Relund analiza, prin nlocuirea itemului 4 transformat cu itemul 4 original, vom obine un coeficient de consisten intern de 0,92, aceasta fiind i cea mai mare valoare obinut a consistenei interne. Exerciii: Efectuai analiza consistenei interne a scalei sarcina folosind itemul 4 original i explicai diferenele.

335

Statistic aplicat n tiinele socio-umane

Realizai analiza de fidelitate prin metoda consistenei interne pentru celelalte patru scale rmase. Nu vom mai insista asupra acestei metode, deoarece consider c avei deja suficiente informaii pentru a realiza analize pertinente. Vreau doar s menionez, n final, c metoda consistenei interne prin calculul co eficientului Cronbach nu este, de fiecare dat, cea mai bun variant. S -au analizat, anterior, limitele sale. De aceea, Raykov (1998) a pus la punct o modalitate de analiz a consistenei interne, numit fidelitate compozit sau fidelitate Raykov , care pleac de la un principiu al analizei factoriale, conform creia un set de variabile poate s acopere o singur dimensiune, un singur factor. Aceast metod este, la ora actual, preferat metodei lui Cronbach i se consider c estimeaz mult mai bine fidelitatea real a unei scale. Din nefericire, procedurile de calcul nu au fost nc implementate n SPSS. Ele sunt ns disponibile n alte aplicaii, precum EQS i LISREL sau AMOS. Exist controverse ntre cercettori privind ordinea analizelor. Unii afirm c este util, nti, s studiem consistena intern, pentru a ne asigur a de fidelitatea scalei, apoi s verificm unidimensionalitatea prin metoda analizei factoriale. Alii se situeaz la polul opus. nti vom verifica dimensiunile unui instrument, prin analiza factorial, apoi vom studia, pentru fiecare dimensiune, fidelitatea acestora. n realitate, au dreptate i unii i alii. Dac instrumentul este bine conceput i vizeaz o singur dimensiune, studiul iniial al consistenei poate furniza informaii preioase, iar analiza factorial confirmatorie le va susine. Pentru instrumente complexe, multidimensionale, este mai util s realizm o analiz factorial sau o scalare multidimensional iniial, pentru a verifica numrul de dimensiuni i modul n care acestea sunt saturate prin itemi, iar apoi vom apela la studiul consistenei interne.

336

Cristian Opariuc-Dan Dac instrumentul este greit conceput, fr consisten, atunci nici analiza factorial, nici consistena intern, nicio metod nu-l poate repara. n definitiv, nu putem face minuni cu procedeele statistice, dac cercettorul a fost neinspirat sau diletant. Analiza consistenei interne nu se folosete, de obicei, independent, ci este asociat cu alte metode de explorare ale dimensionalitii instrumentelor. Cele mai utilizate proceduri asociate consistenei interne sunt analiza factorial, scalarea multidimensional sau analiza de cluster. Cu rbdare, le vom aborda pe toate n decursul lucrrilor noastre.

III.2.2 Analiza fidelitii prin metoda njumtirii


Metoda njumtirii (split-half) poate fi utilizat n SPSS n mod similar procedeului de studiu al consistenei interne. Singurul lucru pe care l avem de fcut este acela de a alege modelul adecvat (n cazul nostru, selectarea opiunii Split-half din
Case Processing Summary N Cases Valid Excluded Total
a

Figura 3.11 Analiza fidelitii prin metoda split-half

Tabelul 3.21 Sumarul cazurilor analizate % 159 1 160 99,4 ,6 100,0

cadrul casetei derulante Model). S presupunem c dorim s studiem fidelitatea, prin metoda njumtirii, pentru ntregul chestionar. Dup alegerea

a. Listwise deletion based on all variables in the procedure.

337

Statistic aplicat n tiinele socio-umane

modelului, vom include, n vederea analizei, toi cei 24 de itemi. n afar de statisticile descriptive la nivelul scalei, nu avem nevoie de calculul altor indicatori de acest tip. Primul tabel din formulaTabelul 3.22 Statistici descriptive la nivel de scal rul de rezultate se refer, dup Scale Statistics cum bine tii, la sumarul cazuriMean Variance Std. Deviation N of Items lor analizate. Observm c dintr- Part 1 71,33 53,728 7,330 12a un numr de 160 de persoane, au Part 2 70,16 93,884 9,689 12b 13,555 24 fost analizate doar 159. Probabil Both Parts 141,49 183,733 a. The items are: Itemul 1, Itemul 2, Itemul 3, Itemul 4, c unul dintre subieci nu a com- Itemul 5, Itemul 6, Itemul 7, Itemul 8, Itemul 9, Itemul 10, Itemul 11, Itemul 12. pletat rspunsul la unul sau la b. The items are: Itemul 13, Itemul 14, Itemul 15, Itemul 16, mai muli itemi, acesta fiind un Itemul 17, Itemul 18, Itemul 19, Itemul 20, Itemul 21, Itemul 22, Itemul 23, Itemul 24. motiv suficient pentru a fi exclus din prelucrare. n orice caz, avem suficiente date pentru a putea trage concluzii utile. Tabelul 3.23 Analiza fidelitii prin metoda split-half
Reliability Statistics Cronbach's Alpha Part 1 Value N of Items Part 2 Value N of Items Total N of Items Correlation Between Forms Spearman-Brown Coefficient Equal Length Unequal Length Guttman Split-Half Coefficient ,839 12a ,572 12b 24 ,254 ,405 ,405 ,393

a. The items are: Itemul 1, Itemul 2, Itemul 3, Itemul 4, Itemul 5, Itemul 6, Itemul 7, Itemul 8, Itemul 9, Itemul 10, Itemul 11, Itemul 12. b. The items are: Itemul 13, Itemul 14, Itemul 15, Itemul 16, Itemul 17, Itemul 18, Itemul 19, Itemul 20, Itemul 21, Itemul 22, Itemul 23, Itemul 24.

Ultimul tabel din formularul de rezultate conine statisticile descriptive la nivelul scalei. Se observ c SPSS a inclus primii 12 itemi din chestionar ntr-o form i ultimii 12 itemi n cealalt form.

Din primele informaii, aflm c media itemilor din prima form este mai mare n comparaie cu media itemilor din cea de-a doua form, iar varianele sunt, din nou, diferite. A doua form are o varian mai mare n comparaie cu prima form. Dac diferenele dintre 338

Cristian Opariuc-Dan medii sunt sau nu semnificative, am fi putut afla utiliznd unul dintre testele statistice prezentate mai sus, sau prin construirea tabelelor de analiz de varian. Dac v-ai format puin ochiul statistic, deja putei suspecta ceva. Oare despre ce este vorba? S rezulte, oare, un coeficient de fidelitate split-half cu o valoare mic? ntr-adevr, aa este! S privim puin tabelul 3.23, cel mai important tabel generat de SPSS. Consistena intern pentru prima parte a instrumentului este bun (0,839), n timp ce a doua parte are o consisten intern aproape satisfctoare (0,572). Este firesc s obinem un coeficient de cor elaie ntre cele dou pri de numai 0,254. Mai mult dect att, se observ o fidelitate split-half redus, de doar 0,40, estimat prin intermediul coeficientului Spearman-Brown. Cele dou forme, avnd un numr egal de itemi, expresia acestui coeficient va fi prima valoare (Equal Length). Dac formele ar fi avut un numr inegal de itemi (de exemplu prima parte 12 itemi i a doua parte 13 itemi), am fi luat ca referin cea de-a doua valoare a coeficientului (Unequal Length). Am vzut, totui, c varianele nu sunt egale. Dac ne-am raporta precis la teorie, am alege ca indicator coeficientul de fidelitate split-half Guttman. ns, lucrurile par mai sumbre. Coeficientul este de numai 0,39 (de fapt, coeficientul Guttman 4), cea mai mic sub aspectul fidelitii. n realitate, Guttman a propus ase coeficieni de fidelitate care furnizeaz limitele inferioare ale fidelitii reale. Dac dorim s-i calculm, tot ceea ce avem de fcut este s nlocuim modelul (alegem modelul Guttman din lista derulant Model). Vom obine tabelul din figura 3.24. Primul coeficient (1) este o estimare simpl a fideTabelul 3.24 Fidelitatea split-half pe baza modelului Guttman Reliability Statistics Lambda 1 2 3 4 5 6 N of Items ,690 ,738 ,720 ,393 ,724 ,806 24

339

Statistic aplicat n tiinele socio-umane

litii, formnd baza tuturor celorlalte estimri. Conform acestuia, fidelitatea ar fi acceptabil. Al treilea coeficient (3) nu este altceva dect coeficientul de consisten intern Cronbach, calculat pentru toi cei 24 de itemi. Am observat c, dei consistena intern poate fi considerat acceptabil (0,720), totui sunt probleme serioase de fidelitate prin metoda njumtirii. Coeficientul (2) este un coeficient mult mai precis n comparaie cu primul sau cu al treilea, ns calculul acestuia se poate face doar computerizat. Este, dac dorii, o variant optimizat i ajustat a consistenei interne pentru ntregul instrument. Desigur, al patrulea coeficient, (4) este exact coeficientul de fidelitate Guttman split-half. n mod cert, are valoarea cea mai mic. Al cincilea i al aselea coeficient (5) i (6) reprezint estimri mult mai precise n comparaie cu al doilea coeficient (2). Coeficientul 5 l folosim atunci cnd instrumentul prezint itemi din domenii specifice i itemi aparinnd unor domenii generale. Practic, acest coeficient este utilizat cnd avem un item care acoper o mare parte din variana altor domenii (item din domeniul general), domenii acoperite la modul specific de ctre ceilali itemi. Situaia este frecvent ntlnit n cazul testelor de cunotine generale i specifice. Coeficientul 6 este util atunci cnd lucrm cu baterii de teste, caz n care testul acoper mai multe dimensiuni. Fiecare item satureaz o anumit dimensiune, dar toate aceste dimensiuni pot participa la construcia unui factor general. Bateria de teste de inteligen Wechsler este unul dintre cele mai bune exemple de utilizare ale acestui coeficient. Folosind toate aceste informaii, ce putem spune despre chestionarul nostru? Desigur, instrumentul nu este fidel n baza metodei split-half, fapt confirmat att de coeficientul Spearman-Brown, ct i de coeficientul Guttman 4. Totui, putem spune c instrumentul, luat n ansamblu, are consisten intern (Guttman 3, i 2). ntr-adevr (dup Guttman 6), se poate 340

Cristian Opariuc-Dan aprecia c msura comportamentului organizaional este o msur fidel, ns acesta prezint mai multe scale, fiind aadar necesar studierea struct urii dimensionale a instrumentului. n realitate, tim bine c acest chestionar este format din ase scale. Chiar dac nu am fi cunoscut acest lucru, iat c studiul coeficienilor Guttman ne poate avertiza asupra acestor aspecte particulare. n mod evident, primii 12 itemi acoper anumite scale, ultimii 12 acoper alte scale. Chiar dac per ansamblu chestionarul poate fi consistent, nu este necesar s exist o corelaie ntre scalele instrumentului.

III.2.3 Analiza fidelitii prin metoda formelor paralele


n vederea analizei de fidelitate prin metoda formelor paralele, metod numit i a echivalenei, SPSS pune la dispoziie dou modele: modelul Parallel i modelul Strictly parallel. Modelul strict paralel pleac de la prezumia c scorurile reale la itemi au aceeai medie i aceeai varian, n timp ce modelul paralel simplu postuleaz existena doar a aceleiai variane, n timp ce mediile pot s nu fie egale. n general, atunci cnd ne ref erim la forme echivalente, avem n vedere modelul paralel strict. Deoarece sunt extrem de rare cazurile n care putem obine instrumente cu adevrat echivalente, SPSS ne ajut cu o form simplificat, forma paralel simpl. Lsnd la o parte diferenele subtile dintre cele dou modele, metoda formelor paralele pleac de la ipoteza nul conform creia avem de a face, ntr-adevr, cu forme paralele, cu forme care au cel puin variana egal. Dac varianele nu sunt semnificativ egale, atunci nu putem vorbi de forme paralele. Destul ns cu teoria. S verificm dac putem vorbi de forme paralele n cazul chestionarului nostru. Din cte tim pn acum, nu cred c se poate discuta despre acest lucru, ns haidei s ne convingem. Vom alege modelul Parallel i cam att, deoarece procedurile sunt identice.

341

Statistic aplicat n tiinele socio-umane

Primul element de noutate l reprezint tabelul 3.25. Desigur, Chi-Square Value 5525,347 pentru a vorbi de forme paralele, df 298 va trebui s ne asigurm c acesSig ,000 Log of Determinant of Unconstrained Matrix -17,280 tea sunt, ntr-adevr, paralele. Constrained Matrix 19,607 Pentru aceasta, SPSS furnizeaz Under the parallel model assumption un test statistic, testul potrivirii cu modelul teoretic, practic verificarea ipotezei nule expus mai sus. V reamintesc faptul c ipoteza nul afirma c varianele celor dou forme sunt egale. Dac pragul de semnificaie al acestui test este mai mare de 0,05 nu putem respinge ipoteza nul i vom accepta faptul c varianele sunt egale, deci vom vorbi despre forme paralele. Dac pragul de semnificaie este mai mic de 0,05, ipoteza nul se va respinge, cele dou forme neavnd variane egale. Respingnd ipoteza nul, respingem i modelul formelor paralele.
Tabelul 3.25 Evaluarea paralelismului formelor Test for Model Goodness of Fit

n cazul nostru, testul este semnificativ, pragul de semnificaie fiind mai mic de 0,05, n condiiile unui test 2(298) = 5525,37 (atenie, este vorba despre testul 2 de diferene ntre frecvene i nu despre coeficientul de co ntingen 2. Despre acest test am vorbit deja n capitolul anterior). Este foarte clar faptul c putem respinge ipoteza nul, ipoteza varianelor egale, i vom lua n considerare faptul c varianele nu sunt egale implicit faptul c formele nu sunt paralele. Dac nu putem vorbi de forme paralele, nu putem vorbi nici de fidelitate a Common Variance 2,376 formelor paralele (echivalen). Totui, True Variance ,230 SPSS ne furnizeaz, n tabelul 3.26, chiar Error Variance 2,147 Common Inter-Item Correlation ,097 i n acest caz, rezultatele analizei de fideReliability of Scale ,720 litate. Constatm c din totalul varianei Reliability of Scale (Unbiased) ,723 comune a celor 24 de itemi, o foarte mic parte este explicat de variana real, diferena datorndu-se erorilor aleatoTabelul 3.26 Fidelitatea formelor paralele Reliability Statistics

342

Cristian Opariuc-Dan rii. Coeficientul de corelaie ntre itemii formelor paralele este foarte mic. Totui, fidelitatea scalei pare s fie ridicat (0,72). ntr-adevr, fidelitatea este estimat similar coeficientului Cronbach, bazndu-se pe consistena intern. Dac am fi folosit modelul paralel strict, acest coeficient ar fi fost i mai mic, deoarece consistena intern se ajusteaz n funcie de diferenele dintre mediile itemilor. Desigur, dac am decis c modelul paralel simplu nu poate fi aplicat, deoarece formele nu sunt paralele, nu vom putea aplica nici modelul paralel strict. n realitate, modelul paralel simplu este, aa cum am specificat anterior, o variant mai permisiv a modelului paralel strict. n concluzie, nu putem vorbi de existena formelor paralele la nivelul acestui chestionar. De fapt, bnuiam deja acest lucru n urma analizei fidelitii prin metoda split-half. n realitate, foarte puine instrumente ndeplinesc condiiile formelor paralele, i, de aceea, nici metoda nu este intens folosit.

III.2.4 Analiza fidelitii inter-evaluatori


n situaia n care avei mai muli evaluatori i dorii s analizai gradul de acord ntre acetia n condiiile n care ei evalueaz un anumit numr de subieci, putei apela la o alt variant de calcul. S considerm un exemplu fictiv, n care o comisie de trei profesori evalueaz, pe o scal de la 1 la 7, performanele obinute la statistic de un numr de 160 de studeni. Figura 3.12 Analiza acordului ntre evaluatori S presupunem c primul profesor este itemul 1, al doilea profesor este itemul 2 iar al treilea profesor va 343

Statistic aplicat n tiinele socio-umane

fi itemul 3. Cum putem s tim dac acetia au czut de acord n privina evalurilor i care ar fi nivelul acestui acord? Dac ar fi fost doar doi eval uatori, lucrurile erau mult mai simple vei folosi, de exemplu, coeficientul de concordan W Kendall cu trei evaluatori, pare mai complicat. S vedem dac aa i este. n figura 3.12 am inclus, n vederea analizei, gradului de acord interevaluatori, evalurile efectuate de ctre cei trei profesori. De aceast dat nu ne mai intereseaz modelul folosit. Putem lsa modelul Alpha dac dorim, sau orice alt model se afl n lista derulant, deoarece opiunile principale se regsesc n formularul datelor statistice. Ne amintim c, la nivelul acestui formular (vezi figura 3.13), avem posibilitatea calculrii coeficientului de corelaie ca expresie a acordului cu privire la Figura 3.13 Calculul coeficientului scorurile fiecrui subiect (Intraclass de acord ntre evaluatori correlation coefficient). Vom selecta aceast opiune, mpreun cu afiarea statisticilor descriptive ale fiecrui evaluator (bifarea opiunii Item din cadrul seciunii datelor descriptive). Pn acum este n regul, ns ce model folosim? S ne gndim. Avem vreun element constant n ecuaia noastr? Nu cred! Nu putem anticipa nici evalurile profesorilor, nici rspunsurile subiecilor. n acest caz, modelul Two-Way Random este cel mai potrivit. Intervalul de ncredere va fi cel implicit, de 95%, semnificaia testndu-se la un prag de 0,05. Comparaiile se vor face cu valoarea 0, adic valoarea lipsei totale de acord ntre cei trei profesori. Acum s apsm butonul OK i s vedem ce se ntmpl.

344

Cristian Opariuc-Dan Dintre tabelele afiate, nu ne intereseaz dect dou. n primul rnd, tabelul 3.27, Item Statistics care prezint statisticile descriptive ale fiecrui Mean Std. Deviation N Itemul 1 5,61 1,304 160 profesor. Fiecare dintre cei trei profesori a evaItemul 2 5,68 1,200 160 luat un numr de 160 de studeni. Cel mai geItemul 3 5,74 1,124 160 neros a fost profesorul Itemul 3, cu o medie a notelor de 5,74 (atenie, ne aflm pe o scal de l a 1 la 7, nu de la 1 la 10), iar cel mai exigent a fost profesorul Itemul 1 cu o medie a notelor de 5,61. Abaterile standard ne informeaz c, primul profesor, dei mai ex igent, are o variabilitate a notelor acordate mai mare n comparaie cu ult imul profesor, care nu numai c este cel mai tolerant, dar ofer i note mai apropiate. Mediile relativ apropiate, acordate de ctre cei trei profesori, ne ndeamn s credem c, n linii mari, acetia au fost de acord. Din pcate, n statistic lucrurile nu in de aparen, ci trebuie demonstrate.
Tabelul 3.27 Statistici descriptive la nivel de evaluatori

Programul mai ofer un tabel, tabelul coeficienilor de corelaie ai acordului ntre scorurile subiectului, tabelul 3.28.
Tabelul 3.28 Coeficienii de corelaie a acordurilor Intraclass Correlation Coefficient 95% Confidence Interval Intraclass Correlationa Lower Upper Bound Bound Single Measures Average Measures ,776b ,912 ,721 ,886 F Test with True Value 0 Value df1 df2 Sig ,000 ,000

,824 11,387 159 318 ,933 11,387 159 318

Two-way random effects model where both people effects and measures effects are random. a. Type C intraclass correlation coefficients using a consistency definition-the between-measure variance is excluded from the denominator variance. b. The estimator is the same, whether the interaction effect is present or not.

n medie, evalurile celor trei profesori (a doua linie din tabel), pr ezint un grad ridicat de acord (0,91), la un interval de ncredere 95% cuprins ntre 0,88 i 0,93. Este mai mult dect evident faptul c cei trei profesori au evaluat consistent studenii. Dac v ndoiai de acest lucru, testul F pleac 345

Statistic aplicat n tiinele socio-umane

de la ipoteza nul a dezacordului total. Faptul c este semnificativ, ne permite s respingem ipoteza nul i s susinem acordul semnificativ ntre cei trei profesori (F(159,318)=11,387, p<0,01). Prima linie a tabelului (Single Measures) ne arat gradul de acord, de fapt fidelitatea evalurilor, dac s-ar fi utilizat un singur profesor. Desigur, acest coeficient de fidelitate este mai mic n comparaie cu evaluarea realizat de comisie (coeficientul de fidelitate are valoarea 0,76), totui, constatm, n baza testului F, c i o asemenea evaluare ar fi fost semnific ativ. Prin urmare, nu mai dai vina pe profesori i trecei la nvat. Iat c evaluarea realizat de o comisie nu va duce la note de trecere a examenului. Glumeam, desigur!

III.2.5 Analiza fidelitii test-retest (stabilitii)


Programul SPSS for Windows nu include o procedur special i distinct prin intermediul creia s putei studia coeficientul de stabilitate, folosind metoda test-retest. Motivele sunt evidente. n primul rnd, metoda test-retest presupune o corelaie bivariat ntre cele dou administrri, coeficientul de corelaie Bravais-Pearson fiind apoi ajustat prin intermediul celei de-a doua formule Spearman-Brown (formula 3.2). n al doilea rnd, am artat c aceast metod nu este Tabelul 3.29 Corelaia Bravais-Pearson ntre 2 administrri la interval de 5 luni altceva dect o form ajustat a meCorrelations todei njumtirii. Poate nu n ultiItemul 3 Itemul 4 Itemul 3 Pearson Correlation 1 ,803** mul rnd, din cauza numeroaselor Sig. (2-tailed) ,000 critici aduse acestei proceduri de N 160 160 verificare a fidelitii.
Itemul 4 Pearson Correlation Sig. (2-tailed) N ,803** ,000 160 160 1

**. Correlation is significant at the 0.01 level (2tailed).

Foarte pe scurt, vom considera un test de inteligen administrat, la un interval de timp de 5 luni, unui 346

Cristian Opariuc-Dan lot de cercetare format din 160 de subieci. Prima administrare a fost nr egistrat n baza de date sub numele de Itemul 3, iar a doua administrare sub numele de Itemul 4. Ne intereseaz s aflm dac scorurile obinute de cei 160 de subieci sunt stabile n timp. n primul rnd, vom calcula coeficientul de corelaie r BravaisPearson ntre cele dou administrri. Desigur, nu vom mai intra n amnuntele procedeului de calcul, aceste lucruri fiind deja discutate anterior. Analiznd tabelul 3.29, observm existena unei corelaii semnificative, puternice i pozitive ntre cele dou administrri ale testului de inteligen (r=0,80, p<0,01). Coeficientul de stabilitate se calculeaz, apoi, n baza formulei a doua a lui Spearman-Brown (formula 3.2). Vom avea, deci, . Valoarea coeficientului de stabilitate este 0,88, o valoare, desigur, semnificativ, care arat o bun stabilitate a rezultatelor n timp.

III.2.6 Consideraii finale


Am parcurs, mpreun, cele mai importante tehnici de analiz ale fidelitii. Ai vzut c toate metodele se bazeaz pe corelaii de diferite tipuri. n principiu, dac stpnii corelaiile, v va fi extrem de simplu s nelegei i fidelitatea. De asemenea, am neles c analiza fidelitii nu este un panaceu care s rezolve toate problemele unui instrument de diagnostic sau de cercetare. n acelai timp, s-a artat c nu poate exista o singur metod suficient pentru acest lucru. Uneori un instrument poate avea o consisten intern foarte bun, ns poate s prezinte probleme la alte forme de fid elitate sau poate fi instabil n timp. De aceea, este util investigarea mai multor forme 347

Statistic aplicat n tiinele socio-umane

de fidelitate. n funcie de complexitatea instrumentului, se aleg i metodele de analiz ale fidelitii. Totul ine, de fapt, de experiena, seriozitatea, creativitatea i intuiia cercettorului. Metodele de studiu ale fidelitii nu sunt folosite niciodat singure. Ele nu pot releva uni sau multidimensionalitatea unui instrument. Pentru a stabili acest lucru, vom folosi analiza factorial, scalarea multidimensional, analiza de cluster. n acelai timp, fidelitatea se refer doar la erorile aleat orii. n privina erorilor sistematice, care in de validitate, se pronun, alturi de metodele de scalare expuse mai sus, i altele, cum ar fi regresia, analiza datelor panel, analiza energiei informaionale, ecuaiile structurale ori reelele neuronale. Despre toate, ns, vom avea ocazia s vorbim. n capitolul de fa au fost analizate cele mai cunoscute tehnici din sfera noastr problematic. Trebuie s tii c acestea nu sunt singurele. V voi enuna doar dou tehnici mai complexe, asta pentru a v determina s gsii i dumneavoastr (i eventual s-mi spunei i mie) altele. Coeficientul de fidelitate (theta) Armor. A fost dezvoltat de ctre Armor i publicat n anul 1974. Se calculeaz dup formula ( ), unde p reprezint numrul de itemi ai scalei iar 1 se refer nu la coeficientul similar Guttman ci la prima i de obicei cea mai mare valoare eigenvalue rezultat din analiza componentelor principale generat de itemii scalei. Aceast valoare este obinut n urma analizei factoriale, demonstrnd din nou legtura puternic ntre analiza fidelitii i analiza factorial. Acest coeficient se interpreteaz la fel ca oricare alt coeficient de fidelitate. Oricum, asupra sa vom reveni dup ce vom studia cteva lucruri legate de analiza factorial.

348

Cristian Opariuc-Dan Coeficientul de fidelitate (theta) pentru date ordinale. Are la baz o matrice de coeficieni de corelaie polichoric ce funcioneaz ca date de intrare pentru o analiz factorial pe componente principale. Metoda folosete i date aflate la un nivel de msur ordinal n vederea stabilirii fidelitii. n general, acest coeficient are valori superioare coeficientului de consisten intern Cronbach.

Ne vom opri aici cu studiul fidelitii. Informaii suplimentare putei gsi n literatura de specialitate sau parcurgnd bibliografia specific de la sfritul acestui volum. n concluzie:
Fidelitatea se refer la controlul erorilor aleatorii, n timp ce validitatea se ocup cu limitarea efectului pe care l exercit erorile sistematice (nealeatorii); Orice scor observat reprezint suma dintre scorul real i erorile de msurare (erorile aleatorii). Aceasta este ecuaia fundamental a teoriei clasice a testului; Metoda test-retest vizeaz analiza stabilitii scorurilor n timp i presupune a dministrarea aceluiai instrument, acelorai subieci, dup un interval de timp; Metoda njumtirii (split-half) presupune mprirea instrumentului n dou pri, pe ct posibil egale, i administrarea celor dou forme aceluiai lot de su bieci; Metoda consistenei interne trateaz fiecare item ca o mini form a instrumentului i verific msura n care toi aceti itemi sunt corelai; Metoda formelor paralele este o variant a metodei njumtirii i presupune echivalena celor dou pri sub aspectul varianelor i, pe ct posibil, sub aspe ctul mediilor; Metoda acordului ntre evaluatori urmrete identificarea msurii n care mai muli judectori efectueaz evaluri consistente asupra unui grup de subieci; Fidelitatea nu ne informeaz asupra unidimensionalitii scalei, i doar asupra modului n care itemii sunt relaionai ntre ei; Nu exist un acord ntre specialiti sub aspectul valorii de la care un instrument poate fi considerat fidel. Recomandrile oscileaz n jurul coeficienilor de la 0,50 la 0,60;

349

Statistic aplicat n tiinele socio-umane

Bibliografie
1. Albu, Monica. 2000. Metode i instrumente de evaluare n psihologie. Cluj-Napoca : Argonaut, 2000. 973-9350351-8. 2. Bakeman, Roger i Robinson, Byron F. 2004. Understanding Statistics in the Behavioral Sciences. New Jersey : Lawrence Erlbaum Associates, 2004. 0-8058-4944-0. 3. Carmines, Edward i Zeller, Richard. 1979. Reliability and Validity Assessment. Iowa : Sage Publication, Inc, 1979. 9780803913714. 4. Cortina, J.M. 1993. What is coefficient alpha? An examination of theory and applications. Journal of Applied Psychology. 98-104, 1993, 78. 5. Field, A. 2000. Discovering statistics using SPSS for Windows. London : Sage, 2000. 6. Fisher, Ronald A. 1971. The design of experiments. New York : Hafner Press, 1971. 7. Gibbons, Jean Dickinson. 1993. Nonparametric Measures of Association. Iowa : Sage Publications, Inc, 1993. Vol. 07-091. 9780803946644. 8. Havrneanu, Corneliu Eugen. 2000. Cunoaterea psihologic a persoanei. Posibiliti de utilizare a computerului n psihologia aplicat. Iai : Polirom, 2000. 9. . 2000. Metodologia cercetrii n tiinele sociale. Iai : Erota, 2000. 10. Kenny, David A. 1987. Statistics for the social and behavioral sciences. Ontario : Little, Brown and Company, 1987. 0-316-489158. 11. Kirk, Roger E. 1995. Experimental design: Procedures for the behaioral sciences. 3rd. Pacific Grove : Brooks/Cole, 1995. 12. Kline, P. 1999. The handbook of psychological testing, 2nd Edition. London : Routledge, 1999. 13. Liebetrau, Albert M. 1983. Measures of Association. Washington : Sage Publications, 1983. 0-8039-1974-3.

350

Cristian Opariuc-Dan 14. Opariuc-Dan, Cristian. 2009. Statistic aplicat n tiinele socioumane. Noiuni de baz - Statistici univariate. Cluj-Napoca : ASCR & Cognitrom, 2009. 9737973631. 15. Radu, Ioan, i alii. 1993. Metodologie psihologic i analiza datelor. Cluj-Napoca : Sincron, 1993. 16. Sava, Florin. 2004. Analiza datelor n cercetarea psihologic. ClujNapoca : ASCR, 2004. 973-7973-11-9. 17. Sntion, Filaret. 2009. Statistic psihologic. Constana : Europolis, 2009. Vol. 1. 9789736763823. 18. Stan, Aurel. 2002. Testul psihologic - Evoluie, construcie, aplicaii. Iai : Polirom, 2002. 19. Swinscow, T.D.V. i Campbell, M.J. 2002. Statistic at Square One, 10th Edition. Navarra : BMJ Books, 2002. 0-7279-1552-5. 20. Urdan, Timothy. 2005. Statistics in Plain English, 2nd Edition. New Jersey : Lawrence Erlbaum Associates, 2005. 0-8058-5241-7. 21. Vasilescu, Ilie Puiu. 1992. Statistic informatizat pentru tiinele despre om. Bucureti : Militar, 1992.

351

Statistic aplicat n tiinele socio-umane

Anexe
Anexa 1
Praguri de semnificaie la diferite valori ale coeficientului de corelaie a rangurilor Spearman pentru loturi de cercetare de diferite dimensiuni.

Anexa 1 Praguri de semnificaie pentru diferitele valori ale lui Spearman Pragul de semnificaie ipotez unidirecional 0,05 0,02 0,01 0,005 N Prag de semnificaie ipotez bidirecional 0,10 0,05 0,02 0,01 4 1,000 5 0,900 1,000 1,000 6 0,829 0,886 0,943 1,000 7 0,714 0,786 0,893 0,929 8 0,643 0,738 0,833 0,881 9 0,600 0,700 0,783 0,833 10 0,564 0,648 0,735 0,794 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 0,536 0,503 0,484 0,464 0,443 0,429 0,414 0,401 0,391 0,380 0,370 0,361 0,353 0,344 0,337 0,331 0,324 0,317 0,618 0,587 0,560 0,538 0,521 0,503 0,485 0,472 0,460 0,447 0,435 0,425 0,415 0,406 0,398 0,390 0,382 0,375 0,709 0,671 0,648 0,622 0,604 0,582 0,566 0,550 0,535 0,520 0,508 0,496 0,486 0,476 0,466 0,457 0,448 0,440 0,755 0,727 0,703 0,675 0,654 0,635 0,615 0,600 0,584 0,570 0,556 0,544 0,532 0,521 0,511 0,501 0,491 0,483

352

Cristian Opariuc-Dan
29 30 35 40 45 50 60 70 80 90 100 0,312 0,306 0,283 0,264 0,248 0,235 0,214 0,190 0,185 0,174 0,165 0,368 0,362 0,335 0,313 0,294 0,279 0,255 0,235 0,220 0,207 0,197 0,433 0,425 0,394 0,368 0,347 0,329 0,300 0,278 0,260 0,245 0,233 0,475 0,467 0,433 0,405 0,382 0,363 0,331 0,307 0,287 0,271 0,257

SURSA: dup (Vasilescu, 1992)

Mod de utilizare: Cutai rndul din tabel ce conine n prima coloan (n) numrul de subieci din lotul dumneavoastr de cercetare. Dac nu gsii exact numrul de subieci dorit, alegei numrul imediat inferior (de exemplu, dac avei 21 de subieci, alegei rndul cu 20 de subieci). Pe rndul selectat, alegei pragul de semnificaie dorit, n funcie de ipoteza dumneavoastr (unidirecional sau bidirecional) . n cazul n care coeficientul dumneavoastr de corelaie este mai mare dect valoarea nscris, atunci este semnificativ la pragul ales. De exemplu, dac pe un lot de cercetare de 20 de subieci am obinut un coeficient de corelaie de 0,68, atunci este semnificativ la un prag de semnificaie mai mic de 0,01 (0,68 este mai mare de 0,591, valoarea de referin pentru acest prag).

353

Statistic aplicat n tiinele socio-umane

Anexa 2
Praguri de semnificaie la diferite valori ale coeficientului de corelaie a rangurilor Kendall pentru loturi de cercetare de diferite dimensiuni. Anexa 2 Praguri de semnificaie pentru diferitele valori ale lui Kendall Pragul de semnificaie Pentru ipoteze unidirecionale 0,01 Pentru ipoteze bidirecionale 0,02 1 0,89 0,81 0,72 0,67 0,60 0,54 0,52 0,49 0,47 0,45 0,43 0,42 0,40 0,39 0,38 0,37 0,36 0,35 0,34 0,33 0,33 0,32 0,31 0,30 0,30 0,29 0,29 0,29

0,025 0,05 1 0,87 0,71 0,64 0,56 0,51 0,46 0,43 0,41 0,39 0,38 0,36 0,35 0,34 0,33 0,32 0,31 0,30 0,29 0,29 0,28 0,27 0,27 0,26 0,26 0,25 0,25 0,25 0,24

0,005 0,01 1 0,91 0,79 0,72 0,64 0,60 0,57 0,54 0,52 0,50 0,47 0,46 0,45 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,36 0,35 0,35 0,34 0,33 0,33 0,33 0,32

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

354

Cristian Opariuc-Dan
34 35 36 37 38 39 40 Mod de utilizare: Cutai rndul din tabel ce conine n prima coloan (n) numrul de subieci din lotul dumneavoastr de cercetare. Pe rndul selectat, alegei pragul de semnificaie dorit, n funcie de tipul intervalului, unilateral sau bilateral. n cazul n care coeficientul dumneavoastr de corelaie este mai mare dect valoarea nscris, atunci este semnificativ la pragul ales. De exemplu, dac pe un lot de cercetare de 31 de subieci am obinut un coeficient de corelaie de 0,68, atunci este semnificativ la un prag de semnificaie mai mic de 0,01 (0,68 este mai mare de 0,33, valoarea de referin pentru acest prag). 0,24 0,23 0,23 0,23 0,22 0,22 0,22 0,28 0,28 0,27 0,27 0,26 0,26 0,26 0,32 0,32 0,31 0,31 0,30 0,30 0,30
SURSA: dup (Vasilescu, 1992)

355

Statistic aplicat n tiinele socio-umane

Anexa 3
Praguri de semnificaie la diferite valori ale coeficientului de contingen 2 pentru loturi de cercetare de diferite dimensiuni. Anexa 3 Praguri de semnificaie pentru diferitele valori ale lui 2 df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,050 3.84146 5.99146 7.81473 9.48773 11.07050 12.59159 14.06714 15.50731 16.91898 18.30704 19.67514 21.02607 22.36203 23.68479 24.99579 26.29623 27.58711 28.86930 30.14353 31.41043 32.67057 33.92444 35.17246 36.41503 37.65248 38.88514 40.11327 41.33714 42.55697 43.77297 Praguri de semnificaie 0,025 0,01 5.02389 6.63490 7.37776 9.21034 9.34840 11.34487 11.14329 13.27670 12.83250 15.08627 14.44938 16.81189 16.01276 18.47531 17.53455 20.09024 19.02277 21.66599 20.48318 23.20925 21.92005 24.72497 23.33666 26.21697 24.73560 27.68825 26.11895 29.14124 27.48839 30.57791 28.84535 31.99993 30.19101 33.40866 31.52638 34.80531 32.85233 36.19087 34.16961 37.56623 35.47888 38.93217 36.78071 40.28936 38.07563 41.63840 39.36408 42.97982 40.64647 44.31410 41.92317 45.64168 43.19451 46.96294 44.46079 48.27824 45.72229 49.58788 46.97924 50.89218 0,005 7.87944 10.59663 12.83816 14.86026 16.74960 18.54758 20.27774 21.95495 23.58935 25.18818 26.75685 28.29952 29.81947 31.31935 32.80132 34.26719 35.71847 37.15645 38.58226 39.99685 41.40106 42.79565 44.18128 45.55851 46.92789 48.28988 49.64492 50.99338 52.33562 53.67196

SURSA: dup (Vasilescu, 1992)

356

Cristian Opariuc-Dan Anexa 4


Praguri de semnificaie la diferite valori ale testului t pentru loturi de cercetare de diferite dimensiuni. Anexa 4 Praguri de semnificaie pentru diferitele valori ale lui t Valori ale lui t pentru diferite praguri de semnificaie ipotez unidirecional 0,20 0,10 0,05 0,02 0,01 0,002 0,001 Valori ale lui t pentru diferite praguri de semnificaie ipotez bidirecional 0,10 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 0,05 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 0,025 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 0,01 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 0,005 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 0,001 318,309 22,327 10,215 7,173 5,893 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 0,0005 636,619 31,599 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707

df

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

357

Statistic aplicat n tiinele socio-umane

27 28 29 30 31 32 33 34 35 36 37 38 39 40 50 60 80 100 150 Infinit

1,314 1,313 1,311 1,310 1,309 1,309 1,308 1,307 1,306 1,306 1,305 1,304 1,304 1,303 1,299 1,296 1,292 1,290 1,287 1,282

1,703 1,701 1,699 1,697 1,696 1,694 1,692 1,691 1,690 1,688 1,687 1,686 1,685 1,684 1,676 1,671 1,664 1,660 1,655 1,645

2,052 2,048 2,045 2,042 2,040 2,037 2,035 2,032 2,030 2,028 2,026 2,024 2,023 2,021 2,009 2,000 1,990 1,984 1,976 1,960

2,473 2,467 2,462 2,457 2,453 2,449 2,445 2,441 2,438 2,434 2,431 2,429 2,426 2,423 2,403 2,390 2,374 2,364 2,351 2,326

2,771 2,763 2,756 2,750 2,744 2,738 2,733 2,728 2,724 2,719 2,715 2,712 2,708 2,704 2,678 2,660 2,639 2,626 2,609 2,576

3,421 3,408 3,396 3,385 3,375 3,365 3,356 3,348 3,340 3,333 3,326 3,319 3,313 3,307 3,261 3,232 3,195 3,174 3,145 3,090

3,690 3,674 3,659 3,646 3,633 3,622 3,611 3,601 3,591 3,582 3,574 3,566 3,558 3,551 3,496 3,460 3,416 3,390 3,357 3,291

SURSA: dup (Vasilescu, 1992)

Mod de utilizare: Cutai rndul din tabel ce conine n prima coloan (n) numrul de subieci din lotul dumneavoastr de cercetare. Pe rndul selectat, alegei pragul de semnificaie dorit, n funcie de tipul intervalului, unilateral sau bilateral. n cazul n care coeficientul dumneavoastr de corelaie este mai mare dect valoarea nscris, atunci este semnificativ la pragul ales. De exemplu, dac pe un lot de cercetare de 31 de subieci am o binut o valoare t de 3,68, atunci este semnificativ la un prag de semnificaie mai mic de 0,01 (3,68 este mai mare de 0,37, valoarea de refe rin pentru acest prag).

358

Cristian Opariuc-Dan Anexa 5


Valori critice ale testului de concordan W Kendall. Sunt furnizate att pragurile pentru S ct i, direct, pragurile pentru W. Anexa 5 Valori critice ale testului de concordan W Kendall N k 3 4 5 6 7 Valori pentru un prag de semnificaie mai mic de 0,05 S W S W S W S W S W 64,4 0,716 103,9 0,660 157,3 0,624 3 49,5 0,619 88,4 0,552 143,3 0,512 217,0 0,484 4 62,6 0,501 112,3 0,449 182,2 0,417 276,2 0,395 5 75,7 0,421 136,1 0,378 221,4 0,351 335,2 0,333 6 48,1 0,379 101,7 0,318 183,7 0,287 299,0 0,267 453,1 0,253 8 0,204 10 60,0 0,300 127,8 0,256 231,2 0,231 376,7 0,215 571,0 0,137 15 89,8 0,200 192,9 0,171 349,8 0,155 570,5 0,145 864,9 0,103 20 119,7 0,150 258,0 0,129 468,5 0,117 764,4 0,109 1158,7 Valori pentru un prag de semnificaie mai mic de 0,01 75,6 0,840 122,8 0,780 185,6 0,737 3 61,4 0,768 109,3 0,683 176,2 0,629 265,0 0,592 4 80,5 0,644 142,8 0,571 229,4 0,524 343,8 0,491 5 99,5 0,553 176,1 0,489 282,4 0,448 422,6 0,419 6 66,8 0,522 137,4 0,429 242,7 0,379 388,3 0,347 579,9 0,324 8 0,263 10 85,1 0,425 175,3 0,351 309,1 0,309 494,0 0,282 737,0 0,179 15 131,0 0,291 269,8 0,240 475,2 0,211 758,2 0,193 1129,5 0,136 20 177,0 0,221 364,2 0,182 641,2 0,160 1022,2 0,146 1521,9 SURSA: dup (Radu, i alii, 1993) Valori suplimentare cnd n=3 p<0,05 p<0,01 54,0 0,333 75,9 0,469 9 12 71,9 0,250 103,5 0,359 14 83,8 0,214 121,9 0,311 16 95,8 0,187 140,2 0,274 18 107,7 0,166 158,6 0,245

359

Statistic aplicat n tiinele socio-umane

Anexa 6
Valori critice privind testarea coeficienilor de corelaie r Bravais-Pearson Anexa 6 Valori critice ale testului de concordan W Kendall Nivel de semnificaie pentru ipotez bidirecional df= n-2 0,10 0,05 0,02 0,01 1 0.988 0.997 0.9995 0.9999 2 0.900 0.950 0.980 0.990 3 0.805 0.878 0.934 0.959 4 0.729 0.811 0.882 0.917 5 0.669 0.754 0.833 0.874 6 0.622 0.707 0.789 0.834 7 0.582 0.666 0.750 0.798 8 0.549 0.632 0.716 0.765 9 0.521 0.602 0.685 0.735 10 0.497 0.576 0.658 0.708 11 0.476 0.553 0.634 0.684 12 0.458 0.532 0.612 0.661 13 0.441 0.514 0.592 0.641 14 0.426 0.497 0.574 0.628 15 0.412 0.482 0.558 0.606 16 0.400 0.468 0.542 0.590 17 0.389 0.456 0.528 0.575 18 0.378 0.444 0.516 0.561 19 0.369 0.433 0.503 0.549 20 0.360 0.423 0.492 0.537 21 0.352 0.413 0.482 0.526 22 0.344 0.404 0.472 0.515 23 0.337 0.396 0.462 0.505 24 0.330 0.388 0.453 0.495 25 0.323 0.381 0.445 0.487 26 0.317 0.374 0.437 0.479 27 0.311 0.367 0.430 0.471 28 0.306 0.361 0.423 0.463 29 0.301 0.355 0.416 0.456 30 0.296 0.349 0.409 0.449 35 0.275 0.325 0.381 0.418 40 0.257 0.304 0.358 0.393 45 0.243 0.288 0.338 0.372 50 0.231 0.273 0.322 0.354 60 0.211 0.250 0.295 0.325

360

Cristian Opariuc-Dan
70 80 90 100 0.195 0.183 0.173 0.164 0.232 0.217 0.205 0.195 0.274 0.256 0.242 0.230 0.302 0.284 0.267 0.254

SURSA: dup (Vasilescu, 1992)

Mod de utilizare:

Cutai rndul din tabel ce conine n prima coloan ( df) numrul de grade de libertate (n-2). Pe rndul selectat, alegei pragul de semnificaie dorit. n cazul n care coeficientul dumneavoastr de corelaie este mai mare dect valoarea nscris, atunci este semnificativ la pragul ales. De exemplu, dac pe un lot de cercet are de 31 de subieci am obinut o valoare r de 0,68, atunci este semnificativ la un prag de semnificaie mai mic de 0,01.

361

Statistic aplicat n tiinele socio-umane

Anexa 7
Valori de referin privind coeficientul de corelaie biserial i triserial
Anexa 7 Valori de referin pentru calculul coeficientului biserial i triserial p q 0,350 0,351 0,352 0,353 0,354 0,355 0,356 0,357 0,358 0,359 0,360 0,361 0,362 0,363 0,364 0,365 0,366 0,367 0,368 0,369 0,370 0,371 0,372 0,373 0,374 0,375 0,376 0,377 0,378 0,379 0,380 0,381 0,382 0,383 0,384 0,385 0,386 0,387 0,6142 0,6144 0,6145 0,6147 0,6149 0,6151 0,6152 0,6154 0,6155 0,6157 0,6158 0,6160 0,6162 0,6163 0,6165 0,6166 0,6168 0,6169 0,6171 0,6172 0,6174 0,6175 0,6177 0,6178 0,6179 0,6181 0,6182 0,6184 0,6185 0,6186 0,6188 0,6189 0,6190 0,6192 0,6193 0,6194 0,6196 0,6197 1,288 1,287 1,287 1,286 1,286 1,285 1,285 1,284 1,284 1,283 1,283 1,283 1,282 1,282 1,281 1,281 1,280 1,280 1,280 1,279 1,279 1,278 1,278 1,278 1,277 1,277 1,276 1,276 1,276 1,275 1,275 1,274 1,274 1,274 1,273 1,273 1,273 1,272 1,0583 1,0564 1,0544 1,0525 1,0506 1,0487 1,0468 1,0449 1,0430 1,0411 1,0392 1,0373 1,0354 1,0336 1,0317 1,0289 1,0279 1,0261 1,0242 1,0223 1,0205 1,0186 1,0167 1,0149 1,0130 1,0112 1,0093 1,0075 1,0057 1,0038 1,0020 1,0002 0,9983 0,9965 0,9947 0,9929 0,9910 0,9892 p q 0,401 0,402 0,403 0,404 0,405 0,406 0,407 0,408 0,409 0,410 0,411 0,412 0,413 0,414 0,415 0,416 0,417 0,418 0,419 0,420 0,421 0,422 0,423 0,424 0,425 0,426 0,427 0,428 0,429 0,430 0,431 0,432 0,433 0,434 0,435 0,436 0,437 0,438 0,6213 0,6214 0,6215 0,6216 0,6218 0,6219 0,6220 0,6221 0,6222 0,6223 0,6224 0,6225 0,6225 0,6226 0,6227 0,6228 0,6229 0,6230 0,6231 0,6233 0,6233 0,6234 0,6234 0,6235 0,6236 0,6237 0,6238 0,6239 0,6239 0,6240 0,6241 0,6242 0,6242 0,6243 0,6244 0,6244 0,6245 0,6246 1,268 1,267 1,267 1,267 1,267 1,266 1,266 1,266 1,265 1,265 1,265 1,265 1,264 1,264 1,264 1,264 1,263 1,263 1,263 1,263 1,262 1,262 1,262 1,262 1,261 1,261 1,261 1,261 1,261 1,260 1,260 1,260 1,260 1,260 1,259 1,269 1,259 1,259 0,9644 0,9623 0,9605 0,9587 0,9570 0,9552 0,9534 0,9517 0,9499 0,9482 0,9464 0,9446 0,9429 0,9411 0,9394 0,9376 0,9359 0,9342 0,9342 0,9307 0,9290 0,9272 0,9255 0,9237 0,9221 0,9203 0,9186 0,9169 0,9152 0,9134 0,9117 0,9100 0,9083 0,9066 0,9049 0,9032 0,9015 0,8998 p q 0,451 0,452 0,453 0,454 0,455 0,456 0,457 0,458 0,459 0,460 0,461 0,462 0,463 0,464 0,465 0,466 0,467 0,468 0,469 0,470 0,471 0,472 0,473 0,474 0,475 0,476 0,477 0,478 0,479 0,480 0,481 0,482 0,483 0,484 0,485 0,486 0,487 0,488 0,6254 0,6254 0,6255 0,6255 0,6256 0,6256 0,6257 0,6257 0,6258 0,6258 0,6258 0,6259 0,6259 0,6260 0,6260 0,6260 0,6261 0,6261 0,6261 0,6262 0,6262 0,6262 0,6263 0,6263 0,6263 0,6263 0,6264 0,6264 0,6264 0,6264 0,6265 0,6265 0,6265 0,6265 0,6265 0,6266 0,6266 0,6266 1,257 1,257 1,256 1,256 1,256 1,256 1,256 1,256 1,256 1,256 1,256 1,255 1,255 1,255 1,255 1,255 1,255 1,255 1,255 1,255 1,255 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 1,254 0,8779 0,8762 0,8746 0,8729 0,8712 0,8695 0,8679 0,8662 0,8646 0,8629 0,8612 0,8596 0,8579 0,8563 0,8546 0,8530 0,8513 0,8497 0,8480 0,8464 0,8448 0,8431 0,8415 0,8399 0,8382 0,8366 0,8350 0,8333 0,8317 0,8301 0,8285 0,8268 0,8252 0,8236 0,8220 0,8204 0,8188 0,8171

362

Cristian Opariuc-Dan
0,388 0,389 0,390 0,391 0,392 0,393 0,394 0,395 0,396 0,397 0,398 0,399 0,400 0,6198 0,6199 0,6200 0,6202 0,6203 0,6204 0,6205 0,6206 0,6208 0,6209 0,6210 0,6211 0,6212 1,272 1,272 1,271 1,271 1,271 1,270 1,270 1,270 1,269 1,269 1,269 1,268 1,268 0,9874 0,9856 0,9838 0,9820 0,9802 0,9784 0,9766 0,9748 0,9730 0,9712 0,9694 0,9676 0,9659 0,439 0,440 0,441 0,442 0,443 0,444 0,445 0,446 0,447 0,448 0,449 0,450 0,6246 0,6247 0,6248 0,6248 0,6249 0,6250 0,6250 0,6251 0,6251 0,6252 0,6253 0,6253 1,259 1,259 1,258 1,258 1,258 1,258 1,258 1,258 1,257 1,257 1,257 1,257 0,8981 0,8964 0,8947 0,8930 0,8913 0,8896 0,8880 0,8863 0,8846 0,8829 0,8813 0,8796 0,489 0,6266 1,253 0,8155 0,490 0,6266 1,253 0,8139 0,491 0,6266 1,253 0,8123 0,492 0,6266 1,253 0,8107 0,493 0,6266 1,253 0,8091 0,494 0,6266 1,253 0,8075 0,495 0,6266 1,253 0,8059 0,496 0,6266 1,253 0,8043 0,497 0,6266 1,253 0,8027 0,498 0,6267 1,253 0,8011 0,499 0,6267 1,253 0,7995 0,50 0,6267 1,253 0,7979 SURSA: dup (Radu, i alii, 1993)

363

Statistic aplicat n tiinele socio-umane

Anexa 8
Valori critice pentru testul U Mann-Whitney la un prag de semnificaie p < 0,05. Pentru a fi semnificativ la acest prag, valoarea U trebuie s fie MAI MIC SAU CEL MULT EGAL cu valoarea de referin din acest tabel.
Anexa 8 Valori de referin pentru calculul testului U Mann-Whitney
Eantionul cu numrul cel mai mare de subieci n1 5 3 4 5 6 Eantionul cu numrul cel mai mic de subieci n2 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 6 1 2 3 5 7 1 3 5 6 8 8 2 4 6 8 10 13 9 2 4 7 10 12 15 17 10 3 5 8 11 14 17 20 23 11 3 6 9 13 16 19 23 26 30 12 4 7 11 14 18 22 26 29 33 37 13 4 8 12 16 20 24 28 33 37 41 45 14 5 9 13 17 22 26 31 36 40 45 50 55 15 5 10 14 19 24 29 34 39 44 49 54 59 64 16 6 11 15 21 26 31 37 42 47 53 59 64 70 75 17 6 11 17 22 28 34 39 45 51 57 63 67 75 81 87 18 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 19 7 13 19 25 32 38 45 52 58 65 72 78 85 92 99 106 113 20 8 14 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127

SURSA: dup (Vasilescu, 1992)

364

Cristian Opariuc-Dan Anexa 9


Praguri de semnificaie pentru coeficientul de corelaie parial xy.z Kendall.
Anexa 9 - Valori critice pentru coeficientul de corelaie parial Kendall

n 0,05 0,025 0,01 0,005 3 1 1 1 1 4 0,707 1 1 1 5 0,667 0,802 0,816 1 6 0,600 0,667 0.764 0,866 7 0,527 0,617 0,712 0,761 8 0,484 0,565 0,648 0,713 9 0,443 0,515 0,602 0,660 10 0,413 0,480 0,562 0,614 11 0,387 0,453 0,530 0,581 12 0,365 0,430 0,505 0,548 13 0,346 0,410 0,481 0,527 14 0,331 0,391 0,458 0,503 15 0,317 0,375 0,439 0,482 16 0,305 0,361 0,423 0,466 17 0,294 0,348 0,410 0,450 18 0,284 0,336 0,395 0,434 19 0,275 0,326 0,382 0,421 20 0,267 0,317 0,372 0,410 25 0,235 0,278 0,328 0,362 30 0,211 0,251 0,297 0,328 SURSA: Adaptare dup S. Maghsoodloo (1975), Estimates of the quantiles of Kendall's partial rank correlation coefficient and additional quantile estimates, Journal of Statist ical Computation and Simulation 4: 155-164

Mod de utilizare:

Cutai rndul din tabel ce conine n prima coloan (n) numrul de subieci. Pe rndul selectat, alegei pragul de semnificaie dorit. n cazul n care coeficientul dumneavoastr de corelaie este mai mare dect valoarea nscris, atunci este semnificativ la pragul ales. De exemplu, dac pe un lot de cercetare de 13 de subieci am obinut o valoare de 0,481, atunci este semnificativ la un prag de semnificaie mai mic de 0,01.

365

Statistic aplicat n tiinele socio-umane

Anexa 10
Praguri de semnificaie pentru valoarea de referin s n cazul semnelor, la diferite valori ale lotului de cercetare (n).

Anexa 10 - Valori critice pentru s testul semnelor

n 6-7 8 9-11 12-14 15-16 17 18-19 20 21-22 23 24 25 26-27 28 29 30-31

p<0,05 0 0 1 2 3 4 4 5 5 6 6 7 7 8 8 9

p<0,01 0 0 0 1 2 2 3 3 4 4 5 5 6 6 7 7
SURSA: dup (Radu, i alii, 1993)

Mod de utilizare:

Cutai rndul din tabel ce conine n prima coloan (n) numrul de subieci. Pe rndul selectat, alegei pragul de semnificaie dorit, pentru s. Dac valoarea este mai mic dect valoarea nscris, atunci este semnificativ la pragul ales.

366

Cristian Opariuc-Dan Anexa 11


Praguri de semnificaie pentru suma de referin a rangurilor n cazul testului Wilcoxon, la diferite valori ale lotului de cercetare (n).

Anexa 11 - Valori critice pentru s testul Wilcoxon

n 7 8 9 10 11 12 13 14 15 16 17 18 19 20

p<0,05 2 4 6 8 11 14 17 21 25 30 35 40 46 52

p<0,01 0 0 2 3 5 7 10 13 16 20 23 28 32 38
SURSA: dup (Radu, i alii, 1993)

Mod de utilizare:

Cutai rndul din tabel ce conine n prima coloan (n) numrul de subieci. Pe rndul selectat, alegei pragul de semnificaie dorit, pentru s. Dac valo area este mai mic dect valoarea nscris, atunci este semnificativ la pragul ales.

367

Statistic aplicat n tiinele socio-umane

Anexa 12
Praguri de semnificaie pentru valorile de referin n cazul testului Romanovski, la diferite valori ale lotului de cercetare (n) i pentru diferite praguri de semnificaie .

Anexa 12 - Valori critice pentru Romanovski

n 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

p<0,05 4,93 3,56 3,04 2,78 2,62 2,51 2,43 2,37 2,33 2,29 2,26 2,24 2,22 2,20 2,18 2,17 2,16 2,15

p<0,01 11,46 6,53 5,04 4,36 3,96 3,71 3,54 3,41 3,31 3,23 3,17 3,12 3,08 3,04 3,01 3,00 2,95 2,93
SURSA: dup (Sntion, 2009)

Mod de utilizare:

Cutai rndul din tabel ce conine n prima coloan (n) numrul de subieci. Pe rndul selectat, alegei pragul de semnificaie dorit, pentru R. Dac valoarea este mai mare dect valoarea nscris, atunci este semnificati v la pragul ales.

368

Cristian Opariuc-Dan Anexa 13


Funcia de repartiie normal normat (funcia cumulativ F (z) a lui Laplace).
Anexa 13 Funcia cumulativ F(z) Laplace

z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4

0,00 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9023 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9977 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997

0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997

0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7321 0,7642 0,7939 0,8212 0,8161 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9729 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997

0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7337 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9913 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997

0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7380 0,7704 0,7995 0,8261 0,8508 0,8702 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9981 0,9988 0,9992 0,9994 0,9996 0,9997

0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8719 0,8914 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9916 0,9960 0,9970 0,9978 0,9983 0,9989 0,9992 0,9994 0,9996 0,9997

0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9932 0,9918 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997

0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,830 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997

0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997

0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7519 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9979 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998

369

Statistic aplicat n tiinele socio-umane

Anexa 14
Coeficienii a pentru testul de normalitate W Shapiro-Wilk.
Anexa 14 Coeficienii a pentru testul de normalitate W Shapiro-Wilk
n k 1 2 3 4 5 n k 1 2 3 4 5 6 7 8 9 10 n k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 0,7071 11 0,5601 0,3315 0,2260 0,1429 0,0695 0 21 0,4643 0,3185 0,2578 0,2119 0,1736 0,1399 0,1092 0,0804 0,0530 0,0263 0 3 0,7071 0 12 0,5475 0,3325 0,2347 0,1586 0,0922 0,0303 22 0,4590 0,3156 0,2571 0,2131 0,1764 0,1443 0,1150 0,0878 0,0618 0,0368 0,0122 4 0,6872 0,1677 13 0,5359 0,3325 0,2412 0,1707 0,1099 0,0539 0 23 0,4542 0,3126 0,2563 0,2139 0,1787 0,1480 0,1201 0,0941 0,0696 0,0459 0,0228 0 5 0,6646 0,2413 0 14 0,5251 0,3318 0,2460 0,1802 0,1240 0,0727 0,0240 24 0,4493 0,3098 0,2554 0,2145 0,1807 0,1512 0,1245 0,0997 0,0764 0,0539 0,0321 0,0107 6 0,6431 0,2806 0,0875 15 0,5150 0,3306 0,2495 0,1878 0,1353 0,0880 0,0433 0 25 0,4450 0,3069 0,2543 0,2148 0,1822 0,1539 0,1283 0,1046 0,0823 0,0610 0,0403 0,0200 0 7 0,6233 0,3031 0,1401 0 16 0,5056 0,3290 0,2521 0,1939 0,1447 0,1005 0,0593 0,0196 26 0,4407 0,3043 0,2533 0,2151 0,1836 0,1563 0,1316 0,1089 0,0876 0,0672 0,0476 0,0284 0,0094 8 0,6052 0,3164 0,1743 0,0561 17 0,4958 0,3273 0,2540 0,1988 0,1524 0,1109 0,0725 0,0359 0 27 0,4366 0,3018 0,2522 0,2152 0,1848 0,1584 0,1346 0,1128 0,0923 0,0728 0,0540 0,0358 0,0178 0 9 0,6052 0,3244 0,1976 0,0947 0 18 0,4886 0,3253 0,2553 0,2027 0,1587 0,1137 0,0837 0,0496 0,0163 28 0,4328 0,2992 0,2510 0,2151 0,1857 0,1601 0,1372 0,1162 0,0965 0,0778 0,0598 0,0424 0,0253 0,0084 10 0,5888 0,3291 0,5141 0,1224 0,0399 19 0,4808 0,3232 0,2561 0,2059 0,1641 0,1271 0,0932 0,0612 0,0303 0 29 0,4291 0,2968 0,2499 0,2150 0,1864 0,1616 0,1395 0,1192 0,1002 0,0822 0,0650 0,0483 0,0320 0,0159 0 20 0,4743 0,3211 0,2565 0,2085 0,1686 0,1334 0,1013 0,0711 0,0422 0,0140 30 0,4254 0,2944 0,2487 0,2148 0,1870 0,1630 0,1415 ,1219 0,1036 0,0862 0,0697 0,0537 0,0381 0,0227 0,0076

370

Cristian Opariuc-Dan

n k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 n k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

31 0,4220 0,2921 0,2475 0,2145 0,1874 0,1641 0,1433 0,1243 0,1066 0,0899 0,0739 0,0585 0,0435 0,0289 0,0144 0 41 0,3940 0,2719 0,2357 0,2091 0,1876 0,1693 0,1531 0,1384 0,1249 0,1123 0,1004 0,0891 0,0782 0,0677 0,0575 0,0476 0,0379 0,0283 0,0188 0,0094 0 -

32 0,4188 0,2829 0,2463 0,2141 0,1878 0,1651 0,1449 0,1265 0,1093 0,0931 0,0777 0,0629 0,0485 0,0344 0,0206 0,0068 42 0,3917 0,2701 0,2345 0,2085 0,1874 0,1694 0,1535 0,1392 0,1259 0,1136 0,1020 0,0909 0,0804 0,0701 0,0602 0,0506 0,0411 0,0318 0,0227 0,0136 0,0045 -

33 0,4156 0,2876 0,2451 0,2137 0,1880 0,1660 0,1463 0,1284 0,1118 0,0961 0,0812 0,0669 0,0530 0,0395 0,0262 0,0131 0 43 0,3894 0,2684 0,2334 0,2078 0,1871 0,1695 0,1539 0,1398 0,1269 0,1149 0,1035 0,0927 0,0824 0,0724 0,0628 0,0534 0,0442 0,0352 0,0263 0,0175 0,0087 0 -

34 0,4127 0,2854 0,2439 0,2132 0,1882 0,1667 0,1475 0,1301 0,1140 0,0988 0,0844 0,0706 0,0572 0,0441 0,0314 0,0187 0,0062 44 0,3872 0,2667 0,2323 0,2072 0,1868 0,1695 0,1512 0,1405 0,1278 0,1160 0,1049 0,0943 0,0824 0,0745 0,0651 0,0560 0,0471 0,0383 0,0296 0,0211 0,0126 0,0042 -

35 0,4096 0,2834 0,2427 0,2127 0,1883 0,1673 0,1487 0,1317 0,1160 0,1013 0,0873 0,0739 0,0610 0,0484 0,0631 0,0239 0,0119 0 45 0,3850 0,2651 0,2310 0,2065 0,1865 0,1695 0,1541 0,1410 0,1286 0,1170 0,1062 0,0959 0,0860 0,0765 0,0673 0,0584 0,0497 0,0412 0,0328 0,0245 0,0163 0,0081 0 -

36 0,4068 0,2813 0,2415 0,2121 0,1883 0,1678 0,1496 0,1331 0,1179 0,1036 0,0900 0,0770 0,0645 0,0523 0,0404 0,0287 0,0172 0,0057 46 0,3830 0,2635 0,2303 0,2058 0,1862 0,1695 0,1548 0,1415 0,1293 0,1180 0,1073 0,0972 0,0876 0,0783 0,0694 0,0607 0,0522 0,0439 0,0357 0,0277 0,0197 0,0118 0,0039 -

37 0,4040 0,2794 0,2403 0,2116 0,1883 0,1683 0,1505 0,1344 0,1196 0,1056 0,0924 0,0798 0,0677 0,0559 0,0444 0,0331 0,0220 0,0110 0 47 0,3808 0,2620 0,2291 0,2052 0,1859 0,1695 0,1550 0,1420 0,1300 0,1189 0,1085 0,0986 0,0892 0,0801 0,0713 0,0628 0,0546 0,0465 0,0385 0,0307 0,0229 0,0153 0,0076 0 -

38 0,4015 0,2774 0,2391 0,2110 0,1881 0,1680 0,1513 0,1356 0,1211 0,1075 0,0947 0,0824 0,0706 0,0592 0,0481 0,0372 0,0264 0,0158 0,0053 48 0,3789 0,2604 0,2281 0,2045 0,1855 0,1693 0,1551 0,1423 0,1306 0,1197 0,1095 0,0998 0,0906 0,0817 0,0731 0,0648 0,0568 0,0489 0,0411 0,0335 0,0259 0,0185 0,0111 0,0037 -

39 0,3989 0,2755 0,2380 0,2101 0,1880 0,1689 0,1520 0,1366 0,1225 0,1092 0,0967 0,0848 0,0733 0,0622 0,0515 0,0409 0,0305 0,0203 0,0101 0 49 0,3770 0,2589 0,2271 0,2038 0,1851 0,1692 0,1553 0,1427 0,1312 0,1205 0,1105 0,1010 0,0919 0,0832 0,0718 0,0667 0,0588 0,0511 0,0436 0,0361 0,0288 0,0215 0,0143 0,0071 0

40 0,3964 0,2737 0,2368 0,2098 0,1878 0,1691 0,1526 0,1376 0,1237 0,1108 0,0986 0,0870 0,0759 0,0651 0,0546 0,0444 0,0343 0,0244 0,0116 0,0049 50 0,3751 0,2574 0,2260 0,2032 0,1847 0,1691 0,1554 0,1430 0,1317 0,1212 0,1113 0,1020 0,0932 0,0816 0,0764 0,0685 0,0608 0,0532 0,0459 0,0386 0,0314 0,0244 0,0174 0,0104 0,0035

371

Statistic aplicat n tiinele socio-umane

Anexa 15
Praguri de semnificaie pentru testul de normalitate W Shapiro -Wilk.
n 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Anexa 15 Valori critice pentru testul de normalitate W Shapiro-Wilk 0,01 0,02 0,653 0,756 0,686 0,707 0,687 0,715 0,713 0,743 0,730 0,760 0,749 0,778 0,764 0,791 0,781 0,806 0,792 0,817 0,805 0,828 0,814 0,837 0,825 0,846 0,835 0,855 0,844 0,863 0,851 0,869 0,858 0,871 0,863 0,879 0,868 0,884 0,873 0,888 0,878 0,892 0,881 0,895 0,881 0,898 0,888 0,901 0,891 0,904 0,894 0,906 0,896 0,908 0,898 0,910 0,900 0,912 0,902 0,914 0,904 0,915 0,906 0,917 0,908 0,919 0,910 0,920 0,912 0,922 0,914 0,924 0,916 0,925 0,917 0,927 0,919 0,928 0,05 0,767 0,748 0,762 0,788 0,803 0,818 0,829 0,842 0,850 0,859 0,866 0,874 0,881 0,887 0,892 0,897 0,901 0,905 0,908 0,911 0,914 0,916 0,918 0,920 0,923 0,924 0,926 0,927 0,929 0,930 0,931 0,933 0,934 0,935 0,936 0,938 0,939 0,940

372

Cristian Opariuc-Dan
41 42 43 44 45 46 47 48 49 50 0,920 0,922 0,923 0,924 0,926 0,927 0,928 0,929 0,929 0,930 0,929 0,930 0,932 0,933 0,934 0,935 0,936 0,937 0,937 0,938 0,941 0,942 0,943 0,944 0,945 0,945 0,946 0,947 0,947 0,947

SURSA: dup (Vasilescu, 1992)

373

You might also like