You are on page 1of 11

Testul Fisher F cu valori semnicative mici n eantioane de volum redus*

STUDIU DE CAZ
Drd. Alina BARBU Academia de Studii Economice, Bucureti Abstract Testarea diferenelor ntre grupuri se realizeaz ndeosebi cu ajutorului testului Fisher F. n practic, acesta returneaz uneori valori mici, dar semnicative. Situaia a fost rareori discutat din punct de vedere teoretic, n general ind pus pe seama unor probleme n specicarea modelului sau n analiz. Se prezint un caz real n care au fost ntlnite valori F semnicative mici i modul de tratare a acestora. Cuvinte cheie: testul Fisher F; valori F semnicative mici; aditivitate; omiterea factorilor semnicativi; distribuie normal; eantioane de volum redus. *** Testarea diferenelor ntre grupuri: aspecte teoretice Vericarea (testarea) ipotezelor statistice, ansamblu de metode ale statisticii inductive, permit, plecnd de la date experimentale sau de la observaii, precizarea formei legilor de repartiie a variabilelor aleatoare referitoare la populaiile considerate sau validitatea anumitor supoziii referitoare la valorile parametrilor acestor legi. Testul statistic este criteriul pentru vericarea ipotezei statistice, constnd n calculul unei statistici i stabilirea unei reguli xate n prealabil de acceptare sau de respingere a ipotezei nule, H0, cu o anumit probabilitate de a lua o decizie inexact cnd H0 este confruntat cu H1. (Trebici, 1985)
* Articol elaborat ca parte a proiectului Doctorat i doctoranzi n triunghiul educaie-cercetare-inovare (DOC-ECI) , proiect conanat din Fondul Social European prin Programul Operaional Sectorial Dezvoltarea Resurselor Umane 2007-2013 i coordonat de Academia de Studii Economice Bucureti.

Romanian Statistical Review nr. 4 / 2011

Pentru vericarea existenei diferenelor ntre dou grupuri se pot folosi diferite teste statistice, n funcie de tipul variabilelor i de tipul eantioanelor analizate. Teste statistice pentru vericarea diferenelor dintre grupuri Tabel 1
Eantioane dependente Scala nominal Scala ordinal Scala de (raport) interval Testul McNemar Testul Wilcoxon Testul t pentru medii Eantioane independente Fisher Mann- Whitney Testul Z sau t pentru medii Regresie Testul Fisher F

Dintre acestea, testele t, Z, Fisher, 2 sunt teste parametrice validarea concluziilor lund n calcul premise fundamentale legate de forma distribuiei variabilei. Performana testelor parametrice n ipoteza nerespectrii normalitii distribuiei a fost vericat de-a lungul timpului cu ajutorul Metodelor de simulare Monte-Carlo: ind generat un numr mare de seturi de date, se veric erorile i abaterile n cazul n care datele nu sunt distribuite normal. S-a observat c testele parametrice nu au rezultate att de slabe cum s-a crezut iniial, ceea ce nu nseamn c ipoteza de normalitate a distribuiei ar trebui ignorat. n cazul aplicrii testului Fisher F n modele liniare, majoritatea abordrilor teoretice prezint situaia n care se nregistreaz valori mari, semnicative, deoarece acestea permit respingerea ipotezei nule (respingerea ipotezei de echivalen a celor dou eantioane). Puini autori au menionat situaia n care valorile nregistrate sunt mici semnicative, mult mai mici dect ar trebui s e dac nu s-ar nregistra nicio legtur ntre variabile. Abordri n literatura de specialitate: Small F-ratios: Red Flags in the Linear Model Singurul articol care dezbate pe larg problema valorilor semnicative mici ale Testului F este Small F-ratios: Red Flags in the Linear Model (Meek, Ozgur i Dunning, 2007). Autorii remarc faptul c singurele referine la valori mici ale testului F au aprut n propriile lucrri: Meek i Turner (1983) prezint un model bifactorial analizat ca unul unifactorial, concluzia ind c valoarea sczut a testului F indica omiterea unui factor semnicativ, iar Meek, Ozgur i Dunning (2005) prezint rezultate pariale ale unei discuii mai largi pe tema valorilor F mici semnicative.
Revista Romn de Statistic nr. 4 / 2011

Meek, Ozgur i Dunning (2007) susin c sunt mai multe cauze ale apariiei valorilor F mici n testarea de ipoteze bazat pe analiza varianei i c orice astfel de situaie trebuie investigat n detaliu. Autorii detaliaz trei cazuri n care ele pot aprea: Interaciune n blocuri randomizate, exemplicat prin construirea unui experiment ncruciat fr replicare (two-factor design without replication) ntre 3 colegii i 5 programe de studii. Cinci studeni sunt alei aleator din ecare grup i este calculat scorul mediu pe care ei l obin la Graduate Management Admission Test (GMAT). Programul de studii nregistreaz F=0,14, p=0,962 (1-p=0,038), valoare semnicativ neobinuit de mic. Interaciunea ntre rnd (colegiu) i coloan (program de studii) este vericat cu ajutorul testului Tukey pentru (non-)aditivitate, ns nu este observat un efect semnicativ de aditivitate (interaciune). Experimentul este redenit cu repetare (two-factor design with replication): se aleg aleator 10 studeni de la ecare colegiu i se aloc aleator cte doi ecrui program de studii. Este posibil evaluarea independent a interaciunii colegiu-program de studii. Noul tabel ANOVA prezint F=3,09, p=0,048 pentru programul de studii i F=3,15, p=0,026 pentru efectul de interaciune, ambele valori semnicative pentru =0,05. Autorii concluzioneaz c valoarea F sczut obinut n prima variant indica o problem cu modul n care experimentul a fost construit, dar c efectul interaciunii nu este n mod necesar responsabil pentru valoarea F sczut. Omiterea factorilor semnicativi, exemplicat prin analiza numrului de zile petrecute de o femeie n spital dup natere, urmrind 4 spitale, ecare cu 9 observaii. Analiza unifactorial (variabila de inuen: spitalul) returneaz F=0,08, p=0,971 (1-p=0,029), valoare neobinuit de mic. Datele sunt reprezentate grac i se observ gruparea acestora, n cadrul ecrui spital, n dou categorii; testul Hartlett F max permite acceptarea ipotezei variantelor egale ntre spitale, ns distribuiile variabilelor nu par a respecta forma normal. Gruparea datelor n clustere distincte sugereaz omiterea unui factor semnicativ. Este introdus un factor suplimentar: tipul de natere (natural, cezarian sau asistat medical) i analiza este reluat. Sunt evideniate diferene ntre tipurile de natere (F=560,67, p=0,0) i, la un prag de semnicaie =0,10, ntre spitale (F=2,83, p=0,06). n acest caz, omiterea factorului semnicativ a dus la apariia valorilor F mici, semnicative. Neliniaritatea sau specicarea incorect a modelului, exemplicat prin analiza vnzrilor de casete video (VHS) ntre 1995-2004 printr-un model

Romanian Statistical Review nr. 4 / 2011

liniar. Valoarea F obinut este 0,00, p=0,984 (1-p=0,016), iar reprezentarea grac a datelor exprim clar o distribuie neliniar a valorilor. Folosind un model (o ecuaie) de gradul II, autorii obin F=41,15, p=0,0, demonstrnd c modelul iniial liniar nu era potrivit pentru datele disponibile. Meek, Ozgur i Dunning ncheie cu observaia c valoarea testului F nu ar trebui niciodat s se apropie de 0; o valoare F apropiat de 0 i semnicativ indic, cel mai probabil, o problem n construcia modelului sau n analiza datelor i ar trebui investigat n aceeai msur ca o valoare mare semnicativ. n afara cauzelor prezentate pe larg n articol, ei enumer i: nerespectarea ipotezelor legate de distribuie, multicoliniaritate n cazul regresiei i/sau falsicarea datelor. *** Investigarea apariiei valorilor F mici a pornit de la dou studii de caz reale din domeniul cercetrii medicale: n dou studii de pia, medicii au fost solicitai s evalueze performana reprezentanilor medicali ai unor companii farmaceutice pe o serie de atribute, folosind note de la 1 la 10. Fiecare eantion a fost mprit n dou sub-eantioane, n funcie de specialitatea medical a respondenilor, iar testul F a fost folosit pentru evaluarea diferenelor semnicative ntre specialiti. Sunt redate evalurile medii; din motive de condenialitate, nu s-au redat numele specialitilor i atributelor.* Rezultatele testului F pentru atributele A, B, C i specialitile 1 i 2 Tabelul 2
medie Specialitate 1 (N=56) Specialitate 2 (N=33) Total eantion* (N=89) Testul F Atributul A 9,50 9,52 9,51 F=0,01, p=0,086 Atributul B 9,52 9,68 9,57 F=1,32, p=0,253 Atributul C 9,66 9,67 9,66 F=0, p=0,037

* Sunt rspunsuri complete; eantionul cuprinznd i non-rspunsurile numr 150 de respondeni. S-a ales eliminarea non-rspunsurilor din analiz pentru a spori acurateea, susinut de faptul c eantionul redus cuprinde > 50 de respondeni.

Revista Romn de Statistic nr. 4 / 2011

Studiu de caz 2: rezultatele testului F pentru atributele D, E i specialitile 3 i 4* Tabelul 3


medie Specialitate 3 (N=30) Specialitate 4 (N=21) Total eantion* (N=51) Testul F Atributul D 8,79 8,75 8,77 F=0,01, p=0,077 Atributul E 8,74 8,75 8,74 F=0, p=0,02

Sunt evideniazte dou aspecte: - Eantioanele sunt mici (89, respectiv 51 de evaluri), ind o caracteristic a cercetrii prin sondaj n domeniul medical comparativ cu domeniul consumer (totalitatea consumatorilor unui produs sau serviciu). - Evaluarea pe o scal de la 1 la 10 nu este recomandat de teoria cercetrii de pia, deoarece nu difereniaz destul de bine ntre mai multe atribute; n exemplele anterioare, rezult c evalurile medii sunt foarte apropiate. Valori foarte sczute ale testelor F se nregistreaz pe atributele A, C, D i E, ns doar pentru atributele C i E exist semnicaie la pragul 0,05, indicat de valoarea p0,05. Situaia este neobinuit i se ncadreaz, potenial, n categoria red ag identicat de Meek, Ozgur i Dunning (2007). nainte de a considera c aceste valari sunt ntmpltoare, s-a vericat n ce msur ele pot justicate de soluiile identicate de autori. Omiterea factorilor semnicativi din model Nu exist o metod universal valabil de a detecta factori semnicativi omii, deoarece n realitate relaiile dintre variabile sunt complexe i nu ntotdeauna uor de observat. n cele dou studii prezentate, dispunem de o singur alt variabil socio-demograc, localitatea, cu trei valori: Bucureti, orae mari, orae medii. n continuare s-a testat dac aceasta inueneaz semnicativ evaluarea medicilor. Pentru un prag de semnicaie = 0,05, testul F indic: - O legtur semnicativ ntre localitate i evalurile pe atributul A (F=3,87, p=0,024). - Absena unei legturi semnicative ntre localitate i evalurile pe atributul C (F=2,45, p=0,09), ns relaia devine semnicativ
* 31 de rspunsuri valide; din cauza volumului foarte mic al eantionului, valorile lips au fost nlocuite prin mediere global pentru a diminua pierderea de informaie. Sunt cunoscute implicaiile ratei mari a non-rspunsurilor asupra validitii concluziilor. Un eantion N=31 ar prea redus pentru orice fel de test.

Romanian Statistical Review nr. 4 / 2011

dac pragul de semnicaie este cobort la 0,10. Eantionul este mic i distribuit neuniform: N=45 n Bucureti, N=87 n orae mari, N=18 n orae medii (deoarece nu a fost construit pentru a reprezentativ la nivel regional). Nu se recomand coborrea pragului de semnicaie. - Absena unei legturi semnicative ntre localitate i evalurile pe atributul D (F=0,44, p=0,345). - Absena unei legturi semnicative ntre localitate i evalurile pe atributul E (F=0,3, p=0,25). ncadrarea valorilor F n limite normale, ar putea nsemna c localitatea este un factor explicativ mai bun dect specialitatea. Absena legturilor semnicative generale ntre localitate i evaluri nu permite acceptarea ipotezei omiterii factorilor semnicativi ca explicaie a valorilor F semnicative mici. Interaciunea (aditivitatea) Aditivitatea reprezint proprietatea variabilelor independente de a interaciona semnicativ pentru a inuena o variabil dependent. Pe lng inuena individual a variabilelor independente se adaug inuena interaciunii. Exist o serie de teste care veric aditivitatea, printre care: Tukey, Mandel, Johnson-Graybill, locally best invariant (LBI) i Tussel. imekov, imeek i Rasch (2008) compar aceste cinci teste pentru a observa riscul de tip I nregistrat efectiv pe baza simulrilor pe calculator. Testul Tukey (1949) este una dintre cele mai cunoscute opiuni pentru a verica aditivitatea; se urmrete un tip specic de aditivitate, de tipul celei n care interaciunea este proporional cu efectul rndului i coloanei. imekov, imeek i Rasch argumenteaz c este foarte potrivit pentru detectarea acestui tip de interaciune, mai puin de 4% dintre simulri nregistrnd valori >0,05. Statistica testului este un raport ntre media ptratelor efectelor interaciunii i erori: MS

ST =

interactiune

MSeroare

Statistica testului Tukey este F-distribuit cu 1; (a-1)(b-1) grade de libertate, unde a = numrul de rnduri i b = numrul de coloane din model. Modelul iniial este unifactorial, ipoteza interaciunii nu este aplicabil. n schimb, s-a testat dac un model ncruciat specialitate-localitate poate ncadrat n aceast situaie. Nu se recomand testarea aditivitii pentru cazul 2, deoarece: - Distribuia rspunsurilor pe rnduri (localitate) i coloane (specialitate) genereaz foarte puine valori n ecare grup 4 din

Revista Romn de Statistic nr. 4 / 2011

6 grupe conin cel mult 6 rspunsuri. - La punctul anterior s-a observat c nu exist legtur semnicativ ntre localitate i evalurile pe atributele D i E. Pentru cazul 1, s-a obinut urmtoarea distribuie a rspunsurilor:
numr de respondeni Bucureti Orae mari Orae medii Total medie Bucureti Orae mari Orae medii Total Specialitate 1 16 37 3 56 Specialitate 1 9,81 9,62 9,33 9,66 Specialitate 2 8 18 7 33 Specialitate 2 9,75 9,78 9,29 9,67 Total 24 55 10 89 Total 9,79 9,67 9,30 9,66

Prin analiza ANOVA se susine faptul c efectul localitii este la limita semnicaiei pentru un prag =0,05 (F=17,03, p=0,055, Fcritic=19), iar specialitatea nregistreaz o valoare F mic, nesemnicativ (F=0,04, p=0,84). Testul Tukey: T=-3207,14, valoare inferioar n modul celei critice F0,01;1,1=4052,18 dar nu i F0,05;1,1=161,45. innd cont de dimensiunea subeantioanelor, rezult c, pe baza testului Tukey, susinut de analiza ANOVA, nu exist suciente dovezi pentru a accepta existena interaciunilor ntre variabile. Folosirea unui model incorect innd cont de evalurile medii nregistrate, este puin probabil s existe o legtur neliniar ntre specialitate i evaluare. Poate o problem ns aplicarea testului (parametric) F dac distribuiile evalurilor nu respect ipoteza de normalitate n special n eantioane mici, deoarece pentru eantioanele mari, Teorema Limit Central garanteaz faptul c media variabilei va urma o distribuie normal chiar dac variabila din eantion nu urmrete distribuia normal. Normalitatea distribuiei este de obicei vericat cu ajutorul testelor: - Kolmogorov-Smirnov, care nu mai necesit prezentare; - Shapiro-Wilk W, tot mai popular datorit puterii bune comparativ cu alte teste de normalitate, n special n eantioane medii i mici (Shapiro i Wilk, 1965; Shapiro i Wilk, 1968). n particular, puterea testului W este
Romanian Statistical Review nr. 4 / 2011

mai mare dect a testului Kolmogorov-Smirnov deoarece detecteaz inclusiv deviaii cauzate de asimetrie (skewness) i aplatizare (kurtosis). Relaia de calcul a testului: 2

n ci X i W = n i =1 Xi X
i =1

Coecienii ci i valorile critice ale statisticii W sunt constante, tabelate iniial de Shapiro i Wilk pn la n=50. n prezentarea original, testul W nu a fost extins pentru eantioane mai mari de n=50 din cauza calculului anevoios al coecienilor, dar extensia Shapiro-Francia ofer coecieni pentru 50 n 99 . Nici n prezent testul nu este implementat de toate pachetele statistice, ind dicil de calculat*. Burdenski (2000) recomand testul Kolmogorov-Smirnov pentru eantioane mai mari de 25 de uniti i testul Shapiro-Wilk pentru eantioane mai mici de 25 de uniti. Testul KolmogorovSmirnov ar trebui s e aplicabil n ambele studii de caz. Testul Kolmogorov-Smirnov indic deviaii de la distribuia normal pentru atributele A i C (89 rspunsuri complete), dar normalitate pentru atributele D i E (31 rspunsuri complete). Dei eantionul este mai mare de 25 de uniti, valorile F mici indic o potenial problem a aplicrii testelor parametrice pentru ultimele dou atribute. Se veric normalitatea distribuiei atributelor D i E cu ajutorul testului Shapiro-Wilk. Vericarea normalitii distribuiilor pentru atributele D i E folosind testul Shapiro-Wilk Tabelul 4
W calculat W critic pentru =0,05 Decizie Atributul D 0,834 0,902 Nu este distribuie normal Atributul E 0,830 0,902 Nu este distribuie normal

Pentru toate atributele care nregistreaz valori F mici se constat abateri de la distribuia normal. n ciuda recomandrii lui Burdenski, testul de normalitate Kolmogorov-Smirnov nu se dovedete adecvat n cazul eantionului 2 (N=31 rspunsuri complete), ind preferabil testul Shapiro-Wilk.
* O versiune online a testului Shapiro-Wilk este disponibil la adresa: http://dittami.gmxhome. de/shapiro/. Este sucient copierea datelor , iar rezultatul, inclusiv valorile critice i decizia de acceptare/ respingere, este calculat automat. Conform testului original, eantioanele acceptate sunt cuprinse ntre 5 i 50 de uniti.

Revista Romn de Statistic nr. 4 / 2011

Teorema Limit Central nu poate aplicat pentru aceste eantioane, ntruct ele sunt de volum mediu i mic. Este recomandat folosirea testelor neparametrice pentru evaluarea atributelor cu probleme: A, C, D i E: Testul Mann-Whitney U cel mai uzual test neparametric pentru variabile ordinale (s-a folosit o scal inferioar), calculat pe baza sumei rangurilor nregistrate de ecare sub-eantion:

n (n + 1) U = max n1n2 + i i Ri , unde suma rangurilor este 2 ni Ri = rji i i=1,2.


j =1

pentru atributele A, C, D i E. (tabelul urmtor) Testul median este o alt opiune neparametric, ind calculat pe baza numrului de observaii mai sczute i mai ridicate dect mediana din ecare grup:

U ' > U critic . Sunt sintetizate rezultatele aplicrii testului Mann-Whitney

Ipoteza nul se respinge dac valoarea calculat

=
2 i =1

(n

1i

n1i ' ) + (n2i n2i ' )


2

n1i

2 1

Testul median este mai slab dect Mann-Whitney, dar este mai potrivit dac evalurile conin multe valori extreme (evaluri cu not 10). Testarea diferenelor cu ajutorul testului Mann-Whitney Tabelul 5
N U (Ucritic) Atributul A 89 911 (<963) Atributul C 89 890 (<990) Atributul D 31 103.5 (<128.5) Atributul E 31 124.5 (>107)

Pentru atributele A, B, C, D nu se poate spune c exist diferene semnicative ntre cele dou specialitai medicale. Pentru atributul E, testul F nu a evideniat existena unei diferene ntre evaluri, ns testul Mann-Whitney arat diferene semnicative. Testul median nu este aplicabil deoarece, n urma eliminrii valorilor egale cu mediana, rmn mai puin de 20 de valori volum minim de date cu care poate opera testul. Valorile efective (8,74 i 8,75) nu susin existena diferenelor. Pentru atributul E rezultatele statistice sunt neconcludente n principal, din cauza eantionului mic - de aceea nu se poate admite existena unor diferene semnicative.

Romanian Statistical Review nr. 4 / 2011

*** Examinarea minuioas a celor dou studii de caz nu este justicat din cauza evalurilor foarte apropiate i a dimensiunii reduse a eantioanelor. Analiza se bazeaz pe studii de caz reale, situaii care nu sunt acoperite de teoria statistic. Studiile provin din domeniul medical, unde este mai comun abordarea unor eantioane de volum redus deoarece populaia de provenien este, la rndul su, mai redus. Claricarea acestor situaii n teorie conduce la completarea unei lacune n vericarea ipotezelor statistice (poteniala problem a testului F n eantioane medii i mici) i la o mai bun abordare a apariiei valorilor F semnicative mici n practic. Singura lucrare teoretic ce dezbate pe larg problema valorilor F semnicative mici este a lui Meek, Ozgur i Dunning (2007). S-a atras atenia c valorile F mici pot ascunde probleme ale modelului dac sunt semnicative i ar trebui vericate cauzele posibile nainte de a le considera valori ntmpltoare. Sugestiile identicate de autori sunt adaptate n studiul de caz prezentat pentru a identica i trata cauza valorilor F mici. Rezult c principala cauz a valorilor F mici a fost aplicarea testului F pe date ce nu urmresc distribuia normal, provenite din eantioane medii-mici. S-a observat i c testul Shapiro-Wilk este mai potrivit dect Kolmogorov-Smirnov pentru a testa normalitatea n eantioane de volum redus (N<50, pentru siguran). Problema valorilor F mici nu este lmurit n totalitate. Se poate suspecta faptul c nsi dimensiunea redus a eantionului poate afecta testele statistice: n cazul prezentat, N=51 i N=89, iar Meek, Ozgur i Dunning au prezentat cazuri cu 10-50 de observaii. n eantioanele medii i mici nu se poate aplica Teorema Limit Central, iar aceasta poate cauza principal a valorilor F mici. n eantioane de volum redus ar trebui aplicate testele neparametrice (ex. Mann-Whitney) ca regul general. Concluzii Se recomand pentru cercetrile viitoare n acest domeniu orientarea asupra a trei probleme eseniale: - Identicarea frecvenei de apariie a valorilor F mici semnicative n eantioane mai mari, de exemplu N>100-150; - Dac valorile F mici semnicative apar i n acest caz, intereseaz evaluarea normalitii distribuiei i compararea testelor KolmogorovSmirnov i Shapiro-Wilk; - n cazul n care variabilele nu urmresc distribuia normal, este indicat evaluarea aplicabilitii Teoremei Limit Central cnd sunt deja nregistrate valori F mici.

Revista Romn de Statistic nr. 4 / 2011

n cazul n care se constat apariia valorilor F mici doar n cazul eantioanelor de volum redus, putem considera aplicarea exclusiv a testelor neparametrice; trebuie ns identicat i volumul-limit al eantionului pentru care valorile F mici nceteaz s apar.
Bibliograe - Burdenski, T. (2000), Evaluating Univariate, Bivariate and Multivariate Normality using Graphical and Statistical Procedures. Multiple Linear Regression Viewpoints, nr 26 - Meek, G., Ozgur, C., Dunning, K. (2005). Some implications of signicantly small F-ratios. Proceedings of the 2005 Annual National Meeting of the Decision Sciences Institute - Meek, G., Ozgur, C., Dunning, K. (2007). Small F-ratios: Red Flags in the Linear Model. Journal of Data Science, nr. 5, - Meek, G., Turner, S. (1983). Statistical Analysis for Business Decisions. Boston: Houghton Mifin. - Shapiro, S.S., Wilk, M.B. (1965). An analysis of variance test for normality (complete samples). Biometrika, nr. 52 - Shapiro, S.S., Wilk, M.B., Chen, H.J. (1968). A comparative study of various tests for normality. Journal of the American Statistical Association, nr. 63 - imekov, M., imeek, P., Rasch, D. (2008) Tests of Additivity in two-way ANOVA Models with Single Subclass Numbers, Statistical Papers of the Union of Czech Mathematicians and Physicists JMF - Trebici, V. (coord) (1985), Mic Enciclopedie de Statistic, Bucureti: Editura tiinic i Enciclopedic - Tukey, J.W. (1949). One Degree of Freedom for Non-Additivity. Biometrics, nr. 5

Romanian Statistical Review nr. 4 / 2011

You might also like