Professional Documents
Culture Documents
Instituto de Psicologia
Curso de Ps-Graduao em Psicologia Social, do Trabalho e das Organizaes
Braslia, DF
2008
Universidade de Braslia
Instituto de Psicologia
Curso de Ps-Graduao em Psicologia Social, do Trabalho e das Organizaes
Braslia, DF
2008
ii
Universidade de Braslia
Instituto de Psicologia
Curso de Ps-Graduao em Psicologia Social, do Trabalho e das Organizaes
Tese
de
Doutorado
apresentada
ao
Braslia, DF
Outubro de 2008
iii
Relao entre caractersticas do teste educacional e estimativa de habilidade do estudante
Tese de Doutorado defendida diante e aprovada pela banca examinadora constituda por:
_________________________________________________________________________
Prof. Jacob Arie Laros, Ph.D. (Presidente)
Programa de Ps-Graduao em Psicologia Social, do Trabalho e das Organizaes
_________________________________________________________________________
Prof. Bartholomeu Trres Trccoli, Ph.D.
Instituto de Psicologia da Universidade de Braslia.
_________________________________________________________________________
Prof. Dr. Hliton Ribeiro Tavares
Diretoria de Avaliao da Educao Bsica do Instituto Nacional de Estudos e Pesquisas
Educacionais Ansio Teixeira - INEP
Departamento de Estatstica da Universidade Federal do Par.
_________________________________________________________________________
Prof. Joaquim Jos Soares Neto, Ph.D.
Ncleo de Pesquisa e Avaliao do Centro de Seleo e de Promoo de Eventos - CESPE
Instituto de Fsica da Universidade de Braslia.
_________________________________________________________________________
Prof. Luiz Pasquali, Docteur
Instituto de Psicologia da Universidade de Braslia.
_________________________________________________________________________
Dr. Marcos Ruben de Oliveira (Suplente)
Banco Central do Brasil
iv
Dedico o trabalho para
v
Agradecimentos
Ao Professor e Orientador Jaap Laros, que sempre me incentivou na realizao de
pesquisas na rea de avaliao. Ensinou-me muito desde a poca do PROAV, com os
estudos sobre a dimensionalidade e forneceu-me o conhecimento e a confiana necessria
realizao do mestrado e do doutorado.
Ao Prof. Luiz Pasquali. S estou nesse ramo hoje em funo do Pasquali. A paixo
pela rea de medidas em psicologia veio nas disciplinas TEP e psicometria na graduao e
nas pesquisas que realizei como bolsista do LabPAM na rea de avaliao do
Temperamento. Seu carisma permitiu transformar o estudo em algo realizador, em funo
da clareza e da paixo com que trata o conhecimento cientfico.
Aos membros da banca de doutoramento Bartholomeu Trres Trccoli, Hliton
Ribeiro Tavares, Joaquim Jos Soares Neto e Marcos Ruben de Oliveira por todo apoio
oferecido para a consecuo de meu doutoramento e, principalmente, pelas oportunidades
que tive em atuar profissionalmente com todos eles.
Professora Amlia Regina Alves, desde a poca da TELEBRS. Amiga que me
possibilitou assimilar um conjunto de conhecimentos e de preceitos ticos que balizaram
toda minha formao e desenvolvimento profissional.
Aos amigos Guilherme Coelho Rabello, Eduardo de So Paulo e Robson Medeiros
de Arajo, parceiros no desenvolvimento do presente trabalho. Extremamente presentes em
minha trajetria acadmica e profissional, agradeo-lhes toda colaborao e amizade.
Ao Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira, que,
no s me disponibilizou as bases de dados, mas forneceu todo o suporte tcnico
necessrio para o desenvolvimento deste estudo. Em especial, agradeo a Hliton Ribeiro
Tavares, Amaury Patrick Gremaud, Luiza Massae Uema, Maria Cndida Lacerda Muniz
Trigo, Maria Ins Pestana, Iza Locatelli, Maria Alejandra Schulmeyer Iriarte, Tefilo
Francisco de Paula e Elaine Cristina Sampaio Castelo Branco Barros, extremamente
presentes em minha trajetria de quase dez anos de DAEB.
Ao Instituto de Educao Superior de Braslia - IESB, minha instituio de ensino.
Em especial, agradeo Prof. Eda Coutinho B. Machado, Prof. Joo Cludio Todorov,
Prof. Glucia Melasso Garcia de Carvalho, Prof. Teobaldo Rivas, Prof Graziela Furtado
Scarpelli Ferreira, Prof. Mrcio Borges Moreira e a todos os professores e alunos do curso
de Psicologia.
vi
Sumrio
Lista de tabelas...................................................................................................
vii
Lista de figuras...................................................................................................
Resumo................................................................................................................
xi
Abstract................................................................................................................ xiii
vii
Lista de tabelas
Tabela 3.1 - Informaes sobre exemplos de delineamentos BIB analisados por Bekman
(2001).
Tabela 4.1 - Delineamento de Blocos Incompletos Balanceados (BIB) para 26 cadernos.
Tabela 4.2 - Temas e descritores dos itens que compem o bloco 1 do teste de matemtica,
4a Srie EF, do SAEB 2003.
Tabela 4.3 - Nmero de alunos avaliados na ANEB 2005.
Tabela 4.4 - Delineamento de Blocos Incompletos Balanceados (BIB) da Prova Brasil.
Tabela 4.5 - Nmero de alunos avaliados na ANEB 2005 e na Prova Brasil 2005 de escolas
pblicas urbanas com mais de 30 alunos.
Tabela 4.6 - Tempo de aplicao dos testes da ANEB 2005 e da Prova Brasil 2005.
Tabela 4.7 - Desempenho dos estudantes na ANEB 2005 e na Prova Brasil 2005 - Brasil lngua portuguesa e matemtica, 4 e 8 sries do EF - Escolas Pblicas
Urbanas com Federais.
Tabela 6.1 - Comparao das mdias de estimativas de habilidade dos estudantes em
matemtica, 8 srie EF, para ANEB e Prova Brasil - Brasil, Regies e UFs.
Tabela 6.2 - Estatstica de estimativas de habilidade dos estudantes em matemtica, 8 srie
EF, ANEB e Prova Brasil - Brasil.
Tabela 6.3 - Itens excludos das anlises do teste de matemtica 8 srie EF da ANEB
2005.
Tabela 6.4 - Itens excludos das anlises do teste de matemtica 8 srie EF da Prova Brasil
2005.
Tabela 6.5 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie,
ANEB e Prova Brasil.
Tabela 6.6 - Nmero, percentual de itens por descritor e diferena entre percentuais dos
testes de matemtica, 8 srie EF, ANEB e Prova Brasil.
Tabela 6.7 - Parmetros psicomtricos dos itens estimados pela TRI - testes de matemtica,
8 srie EF, ANEB e Prova Brasil.
viii
Tabela 6.8 - Parmetros psicomtricos dos itens estimados pela TRI por Bloco - teste de
matemtica, 8 srie EF, ANEB.
Tabela 6.9 - Parmetros psicomtricos dos itens estimados pela TRI por Bloco - teste de
matemtica, 8 srie EF, Prova Brasil.
Tabela 6.10 - Parmetros psicomtricos dos itens estimados pela TRI por Caderno - teste
de matemtica, 8 srie EF, ANEB.
Tabela 6.11 - Parmetros psicomtricos dos itens estimados pela TRI por Caderno - teste
de matemtica, 8 srie EF, Prova Brasil.
Tabela 6.12 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF,
Prova Brasil, ANEB e Teste A.
Tabela 6.13 - Parmetros psicomtricos dos itens e habilidades estimadas - teste de
matemtica, 8 srie EF, Prova Brasil, ANEB e Teste A.
Tabela 6.14 - Parmetros psicomtricos dos itens e habilidades estimadas - teste de
matemtica, 8 srie EF, Prova Brasil, ANEB original, Teste A e Teste B.
Tabela 6.15 - Percentual de estudantes por faixa de habilidade estimada, nmero e
percentual de itens, mdia e DP do parmetro a - teste de matemtica, 8 srie
EF, Prova Brasil.
Tabela 6.16 - Percentual de estudantes por faixa de habilidade estimada, nmero e
percentual de itens, mdia e DP do parmetro a - teste de matemtica, 8 srie
EF, Teste B.
Tabela 6.17 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF,
para Prova Brasil, ANEB e Teste B.
Tabela 6.18 - Parmetros psicomtricos dos itens e habilidades estimadas - teste de
matemtica, 8 srie EF, Prova Brasil, ANEB e Teste C.
Tabela 6.19 - Percentual de estudantes por faixa de habilidade estimada, nmero e
percentual de itens, mdia e DP do parmetro a - teste de matemtica, 8 srie
EF, Teste C.
Tabela 6.20 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF,
para Prova Brasil, ANEB e Teste C.
ix
Tabela 6.21 - Parmetros psicomtricos dos itens e habilidades estimadas - teste de
matemtica, 8 srie EF, Prova Brasil, ANEB e Teste D.
Tabela 6.22 - Percentual de estudantes por faixa de habilidade estimada, nmero e
percentual de itens, mdia e DP do parmetro a - teste de matemtica, 8 srie
EF, Teste D.
Tabela 6.23 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF,
para Prova Brasil, ANEB e Teste D.
Tabela 6.24 - Parmetros psicomtricos dos itens e habilidades estimadas - teste de
matemtica, 8 srie EF, Prova Brasil, ANEB original, Testes A a D.
Tabela 6.25 - Percentual de itens por faixa de habilidades estimadas - teste de matemtica,
8 srie EF, Prova Brasil, ANEB, Testes A a D.
Tabela 6.26 - Parmetro a mdio por faixa de habilidades estimadas - teste de matemtica,
8 srie EF, Prova Brasil, ANEB, Testes A a D.
Tabela 6.27 - Erro-padro de mensurao mdio ponderado pelo nmero de estimativas de
habilidade - teste de matemtica, 8 srie EF, Prova Brasil, ANEB, Testes A a
D.
x
Lista de Figuras
Figura 4.1 - Desempenho dos estudantes na ANEB 2005 e na Prova Brasil 2005 em
matemtica, 8 srie EF - Escolas Pblicas Urbanas com Federais para o
Brasil.
Figura 6.1 - Percentual de estudantes por faixa de estimativa de habilidades em
matemtica, 8 srie EF, ANEB e para a Prova Brasil - Brasil.
Figura 6.2 - Distncias entre percentuais de estudantes por faixa de estimativas de
habilidade em matemtica, 8 srie EF, ANEB e Prova Brasil - Brasil.
Figura 6.3 - Distncias entre percentuais de estudantes por faixa de habilidade matemtica, 8 srie EF, Prova Brasil, ANEB original e Teste A.
Figura 6.4 - Distncias entre percentuais de estudantes por faixa de habilidade matemtica, 8 srie EF, Prova Brasil, ANEB e Teste B.
Figura 6.5 - Distncias entre percentuais de estudantes por faixa de habilidade matemtica, 8 srie EF, Prova Brasil, ANEB e Teste C.
Figura 6.6 - Distncias entre percentuais de estudantes por faixa de habilidade matemtica, 8 srie EF, Prova Brasil, ANEB e Teste D.
Figura 6.7 - Grfico de disperso entre nmero de itens no teste e habilidade estimada
mdia - matemtica, 8 srie EF, Prova Brasil, ANEB, Testes A a D.
Figura 6.8 - Grfico de disperso entre parmetro a mdio e habilidade estimada mdia matemtica, 8 srie EF, Prova Brasil, ANEB, Testes A a D.
Figura 6.9 - Percentuais de estudantes por faixa de estimativas de habilidade - matemtica,
8 srie EF, Prova Brasil, ANEB, Teste A a D.
Figura 6.10 - Percentuais de estudantes por faixa de estimativas de habilidade matemtica, 8 srie EF, Prova Brasil, ANEB, Teste A a D.
Figura 6.11 - EPM mdio por faixa de habilidade estimada - matemtica, 8 srie EF, Prova
Brasil, ANEB, Teste A a D.
Figura 6.12 - Informao por faixa de habilidade estimada - matemtica, 8 srie EF, Prova
Brasil, ANEB, Teste A a D.
xi
Resumo
O presente estudo teve como objetivo verificar a relao de caractersticas de testes
educacionais de matemtica e a validade e a fidedignidade das habilidades de estudantes
estimadas por meio da Teoria de Resposta ao Item (TRI). Estudos prvios mostraram que
dois testes de matemtica aplicados em 2005 a estudantes de 8 srie do Ensino
Fundamental, a ANEB, contendo 155 itens, e a Prova Brasil, contendo 81 itens,
apresentaram resultados de estimativas de habilidade diferentes para grupos com
caractersticas semelhantes. Esses resultados no foram os esperados, j que a TRI,
teoricamente, permite a estimao das habilidades dos estudantes independentemente das
caractersticas do teste, uma vez que seus pressupostos so atendidos. O grau de cobertura
da matriz de referncia e os parmetros psicomtricos dos testes foram analisados para
subsidiar a composio de testes simulados. Utilizando o teste ANEB como referncia,
quatro testes (formas A, B, C e D) foram simulados com diferentes nmeros de itens (104 e
81) itens, a partir da variao de seu grau de dificuldade e de discriminao. As estimativas
de habilidade dos estudantes foram comparadas entre os testes originais ANEB e Prova
Brasil e entre os quatro testes simulados. Evidncias de validade e de fidedignidade foram
investigadas. Resultados revelaram que estudantes que responderam Prova Brasil
obtiveram estimativas de habilidade maiores em 0,2 desvios-padro que estudantes que
responderam ao teste ANEB. Essa diferena, significativa ao nvel de 5%, no pode ser
explicada em funo de baixo grau de validade de um dos testes, j que foram encontradas
evidncias de bom grau de validade para ambos os testes quanto s caractersticas: grau de
cobertura da matriz de referncia, elaborao e reviso de itens, anlise pedaggica e
anlise
de
Funcionamento
Diferencial
do
Item.
Os
resultados
de
anlise
unidimensionalidade podiam ter sido utilizados para decidir quais itens seriam
considerados para estimar as habilidades dos estudantes e serviriam como uma evidncia
adicional de validade. A comparao ente quatro testes simulados e os testes originais
indicaram que o nmero de itens dos testes respondidos pelos estudantes, a qualidade
discriminativa dos itens e a relao do parmetro b com o parmetro de habilidade so
acompanhados de um aumento da fidedignidade dos testes. Os resultados da investigao
sugerem que as diferenas observadas quanto s estimativas de habilidade entre ANEB e
Prova Brasil esto associadas ao pequeno nmero de itens discriminativos para estudantes
com estimativas baixas e mdias. Com base nos resultados do estudo, recomenda-se a
incluso, nos testes de matemtica, 8 srie, de um nmero maior de itens discriminativos
para as faixas baixa e mdia de habilidades estimadas. Os resultados podem auxiliar o
xii
Instituto Nacional de Estudos e Pesquisas Educacionais (INEP) na composio de testes
para os prximos processos avaliativos.
Palavras-chave: Construo de testes, Teoria de Resposta ao Item, Validade,
Fidedignidade, SAEB, Prova Brasil.
xiii
The relation between characteristics of educational tests assessing Mathematics and the
estimation of students proficiency
Frederico Neves Cond
Abstract
The main purpose of this investigation was to verify the relation between psychometric
properties of educational tests assessing Mathematics and the validity and reliability of the
estimated proficiencies of students using Item Response Theory (IRT). Earlier studies
showed that two equalized Mathematics tests applied in 2005 to students attending the 8th
grade of basic education, one containing 155 items (ANEB), and the other containing 81
items (Prova Brasil) presented different outcomes for the estimated proficiencies of groups
of students with similar characteristics. These results were not expected considering the
fact that IRT theoretically permits the estimation of students proficiency independent of
the characteristics of a test, once the assumptions underlying the IRT model are satisfied.
The degree of coverage of the reference matrices and the psychometric parameters of the
two Mathematics tests were analyzed in order to obtain a basis for the creation of
simulated test forms. Taking the ANEB test as point of reference, four tests (forms A, B, C,
and D) were simulated with different number of items (104 or 81) and displaying varying
degrees of difficulty and discrimination. Estimated students proficiencies were compared
among the original ANEB and Prova Brasil tests and among the four simulated test forms.
Also indications of validity and reliability were compared. Results from this comparison
revealed that students who took the Prova Brasil received a higher estimated proficiency
than the students who took the ANEB test. The difference amounted to .2 standard
deviations and was significant at the 5% level. This observed difference cant be explained
by poor validity of one of the measuring instruments because both tests present evidence of
good validity based on the following characteristics: degree of coverage of the reference
matrices, elaboration and revision of the items, pedagogical analysis and analysis of
Differential Item Functioning. Results of the unidimensionality analysis can be used to
decide which items should be included to esteem the proficiency of the students, and serve
as an additional indication of the validity of the tests. Comparing the four simulated test
and the original tests indicated that the number of items answered by the students, the
discrimination quality of the items and the relation of the b parameter with the estimated
proficiency are accompanied by an increase of the reliability of the tests. The results of this
investigation suggest that the observed difference in the estimation of students proficiency
of the ANEB and Prova Brasil test is related to the low number of highly discriminating
xiv
items for students with low and medium proficiences. Based on the results of this study it
is recommended to include in tests assessing Mathematics for 8th grade students of basic
education a greater number of good discriminating items for the low and medium
proficiences in Mathematics. The results of this study can assist INEP, the National
Institute for Educational Research of Brazil, in the composition and elaboration process of
future tests.
Key-words: Test Construction, Item Response Theory, Validity, Reliability, SAEB, Prova
Brasil.
xv
ndice
1. Introduo
2. Objetivos
3. Reviso da Literatura
10
3.1.4 Validade
11
3.1.5 Fidedignidade
13
19
19
21
28
28
31
32
33
34
35
37
3.4.3 Dimensionalidade
40
42
43
44
46
4.3 Testes
47
51
xvi
4.5 Prova Brasil 2005
52
54
5. Mtodo
60
61
62
62
63
63
63
63
64
65
66
66
67
67
6. Resultados
68
68
72
73
77
84
85
86
xvii
6.3.2 Estimao das habilidades a partir da desvinculao dos itens entre
sries para o ano de 2005
86
86
89
93
97
100
7. Discusso
111
8. Concluses
121
9. Referncias
124
xviii
1. Introduo
Programas educacionais de mbito governamental tm como objetivo promover
uma educao com qualidade e eqidade tendo em vista a demanda da sociedade e a
formao de seus cidados. Geralmente esto associados a sistemas avaliativos com a
funo de monitoramento de sua efetividade e eficcia. Segundo esta perspectiva,
avaliao entendida como qualquer mtodo de obteno de informaes oriundas de
testes e de outros instrumentos utilizadas para realizar inferncias sobre caractersticas de
pessoas, objetos e programas (AERA, APA & NCME, 1999, p. 172).
Barreto e Pinto (2001), aps anlise da produo acadmica sobre avaliao da
educao bsica no Brasil na dcada de 90, constaram a predominncia de produes com
foco na discusso sobre teorias e metodologias acerca da avaliao da aprendizagem.
Identificaram basicamente ensaios, sem grande pretenso emprica, explorando conceitos,
modelos tericos, pressupostos e alguma produo sobre aspectos tcnico-metodolgicos
relativos avaliao. Observaram uma evidente preocupao com o significado da
avaliao educacional em nosso contexto.
As autoras identificaram um subgrupo dos estudos que abordava os modelos de
avaliao em larga escala, sobre trajetria escolar, desenvolvimento cognitivo dos alunos e
modelos de monitoramento de redes de ensino e avaliao dos resultados de aprendizagem
dos estudantes, denominados avaliao de monitoramento. Avaliao de monitoramento
(...) entendida como a avaliao padronizada do rendimento escolar dos alunos, realizada
no mbito dos sistemas nacionais ou estaduais de avaliao do ensino bsico (Barreto &
Pinto, 2001, p. 49). Sobre o tema, foram identificados artigos que tratavam de diferentes
tpicos: (a) medida da qualidade da educao, por meio do estabelecimento de
mecanismos de quantificao dos produtos do processo educativo; (b) bases para o
desenho de instrumentos de medida da qualidade educativa; (c) mensurao sistemtica
como meio de fornecer informaes para a avaliao, para o desenvolvimento de uma
cultura avaliativa e servir de base ao monitoramento do sistema educacional com o
objetivo de melhoria de sua qualidade; e (d) gerenciamento do sistema de avaliao e sua
implementao.
A partir da dcada de 1990, o Instituto Nacional de Estudos e Pesquisas
Educacionais Ansio Teixeira (INEP) do Ministrio da Educao (MEC) implementou o
Sistema Nacional de Avaliao da Educao Bsica (SAEB). Trata-se de uma avaliao
em larga escala do desempenho dos estudantes brasileiros, bem como de fatores associados
a esse desempenho, que impactam na qualidade da educao.
1
Realizado nos anos 1990, 1993, 1995, 1997, 1999, 2001, 2003, 2005 e 2007, o
SAEB tem como principais objetivos: (a) monitorar a qualidade, a eqidade e a
efetividade do sistema de educao bsica; (b) oferecer s administraes pblicas de
educao, informaes tcnicas e gerenciais que lhes permitam formular e avaliar
programas de melhoria da qualidade do ensino; e (c) proporcionar aos agentes
educacionais e sociedade uma viso clara e concreta dos resultados dos processos de
ensino e das condies em que so desenvolvidos e obtidos (Rabello, 2001).
O SAEB avalia, dentre outros aspectos, o nvel de desempenho dos estudantes de 4
e 8 sries do Ensino Fundamental (EF) e de 3 srie do Ensino Mdio (EM) em diversas
disciplinas, a partir da aplicao de testes educacionais: lngua portuguesa e matemtica,
para todas as edies do SAEB; cincias da natureza (qumica, fsica e biologia), avaliadas
pelo SAEB 97 e pelo SAEB 99; histria e geografia, avaliadas pelo SAEB 99.
Esse sistema de avaliao de monitoramento, a partir de 1995, assumiu um
delineamento de composio dos testes e distribuio de cadernos aos respondentes por
Blocos Incompletos Balanceados BIB (Bekman, 2001; Johnson, 1992). O desenho
permite que cada grupo de estudantes responda a cadernos de teste diferentes e que um
maior nmero de itens de teste seja utilizado, de tal forma que o clculo das habilidades
dos estudantes possa contemplar, de forma vlida, uma ampla matriz de referncia com os
contedos e os domnios cognitivos avaliados.
O uso do BIB, no caso do SAEB, est associado estimao das habilidades (do
desempenho) dos estudantes de acordo com a Teoria de Resposta ao Item (TRI) sob o
modelo logstico de trs parmetros (Baker, 2001; Cronbach, 1996; Hambleton & Jones,
1993; Hambleton, Swaminathan & Rogers, 1991; Lord, 1980; Pasquali, 2003). As
habilidades so estimadas e apresentadas em uma escala que varia de 0 a 500 pontos,
comum entre anos e sries para cada disciplina, de forma a possibilitar a construo de
uma srie histrica e permitir a comparao entre as sries. A escala foi construda
utilizando-se como grupo de referncia a 8 srie do SAEB 1997 de cada disciplina, com
mdia 250 e desvio-padro (DP) de 50.
De 1995 a 2003, o SAEB tinha carter amostral e utilizava, geralmente, testes de
169 itens, divididos em 26 cadernos de 39 itens, em que cada estudante respondia a um
nico caderno composto por trs blocos de itens. Em 2005, o SAEB foi dividido em dois
processos de avaliao: (a) a Avaliao Nacional da Educao Bsica (ANEB) (D.O.U.,
n.100, Portaria n. 89, de 25 de maio de 2005) e (b) a Avaliao Nacional do Rendimento
2. Objetivos
2.1 Objetivo Geral
O presente estudo tem como objetivo verificar a relao das caractersticas dos
testes com a validade e a fidedignidade das estimativas de habilidade da TRI. As
caractersticas dos testes envolvidas no estudo: qualidade pedaggica dos itens e seu
alinhamento matriz de referncia, qualidade psicomtrica dos itens, tamanho dos testes
5
(nmero total e nmero de itens por caderno) e distribuio dos itens pela escala de
estimativas de habilidade.
O estudo pertinente, pois (a) fornece orientaes elaborao de testes
educacionais, ao INEP e a outros interessados no desenvolvimento desses instrumentos; (b)
subsidia uma anlise da qualidade dos resultados da ANEB e da Prova Brasil divulgados
em 2005; e (c) levanta informaes sobre fatores associados diferena dos resultados de
estimativas de habilidade entre ANEB 2005 e Prova Brasil 2005.
De acordo com delineamentos especficos, foram comparadas estimativas de
habilidade dos estudantes em matemtica 8 srie EF obtidos por: (a) teste original ANEB,
com 155 itens; (b) tendo por base a seleo de itens do teste ANEB, testes simulados com
104 itens, mas com 24 itens por caderno semelhante ao delineamento da Prova Brasil; (c) a
partir da reduo de itens do Teste ANEB, teste simulado com 81 itens de forma a
equiparar ao nmero de itens total da Prova Brasil; (d) teste original Prova Brasil, com 81
itens. Os testes ANEB, na prtica foram compostos por 155 itens, pois foram excludos dos
169 originais, aqueles que apresentaram baixa qualidade pedaggica e psicomtrica. Esta
a mesma justificativa para a reduo de 84 para 81 da Prova Brasil.
2.2.6 Estimar as habilidades dos estudantes da ANEB sob novas configuraes de teste
(Formas A, B, C e D).
2.2.6.1 Estimar as habilidades com base no Teste A, composto por 104 itens de
forma que cada estudante tenha respondido a 24 itens, aproximadamente o
mesmo nmero de itens do caderno da Prova Brasil, mantendo a
discriminao e a dificuldade prximas da ANEB.
2.2.6.2 Estimar as habilidades com base no Teste B, composto por 104 itens a partir
da manuteno dos itens mais discriminativos dos blocos.
2.2.6.3 Estimar as habilidades com base no Teste C, composto por 104 itens a partir
da manuteno dos itens mais discriminativos que permitam manter a
dificuldade semelhante da Prova Brasil.
2.2.6.4 Estimar as habilidades com base no Teste D, composto pelos 81 itens mais
discriminativos, nmero total da Prova Brasil.
2.2.7 Verificar a relao entre caractersticas dos testes (nmero de itens, discriminao e
dificuldade dos itens) com a validade e a fidedignidade das estimativas de habilidade
obtidas por meio dos diferentes modelos de testes.
2.2.7.1 Comparar os resultados de estimativas de habilidade obtidas por meio da
ANEB e do Teste A. Como a alterao principal entre os testes foi o
nmero de itens, pode-se fazer inferncias sobre o impacto do nmero de
itens nas estimativas de habilidade.
2.2.7.2 Comparar as estimativas de habilidade obtidas por meio dos Testes A, B, C
e D com os resultados da Prova Brasil. Comparar a distncia entre essas
distribuies com a obtida a partir da comparao ANEB e Prova Brasil.
2.2.7.3 Verificar o grau de fidedignidade dos testes e sua associao com o nmero
de itens, com a discriminao e com a dificuldade dos testes. Comparar seus
resultados associando o EPM dos estudantes em resposta aos testes e o
perfil de informao do teste com os parmetros a e b dos itens.
3. Reviso da literatura
3.1 Avaliao e testagem educacional
3.1.1 O construto competncia
O termo competncia geralmente est associado ao ser capaz de realizar alguma
tarefa ou um conjunto delas. Nos campos da Psicologia e da Educao, o termo
competncia utilizado como definio de um objeto de estudo, embora seu entendimento
7
3.1.4 Validade
Validade dos resultados de uma testagem o grau em que todas as evidncias
acumuladas corroboram a interpretao pretendida dos escores de um teste para os fins
11
propostos (AERA, APA & NCME, 1999, p. 11). Esta definio envolve alguns aspectos a
serem discutidos.
Primeiramente, no se pode falar que um teste apresenta ou no validade, e sim que
os resultados advindos da testagem possuem um determinado grau de validade. Ainda, o
conceito de validade, que foi por muito tempo considerado como um parmetro do teste,
passa a ser atribudo aos escores da testagem. Depois, o grau de validade dos resultados da
testagem relativo ao contexto para o qual o teste foi construdo ou teve sua qualidade
avaliada. Evidncias acumuladas se referem aos estudos empricos que mostram o grau de
validade dos resultados do teste para contextos especficos.
Esta definio contempornea de validade exige no s do elaborador do teste a
tarefa de analis-la, mas exige do usurio (professor, gestor educacional, etc.) a realizao
de estudos que possam garantir um bom grau de validade de seus resultados para o
contexto de interesse. Percebe-se ser fundamental a realizao de estudos para a infinidade
de contextos possveis, incluindo replicaes peridicas.
Validade um conceito nico e no possvel falar em tipos de validade, mas em
tipos ou fontes de evidncia do grau de validade da testagem (AERA, APA & NCME,
1999). As vrias fontes de evidncia do grau de validade da testagem so as baseadas no
contedo do teste, nos processos de respostas, na estrutura interna, na relao com outras
variveis e nas conseqncias da testagem (AERA, APA & NCME, 1999). Para
instrumentalizar o presente trabalho, duas fontes de evidncias sero detalhadas: as
baseadas no contedo do teste e as baseadas em sua estrutura interna.
O tipo de evidncia de validade baseada no contedo do teste obtido pela relao
entre o contedo do teste e o construto que se pretende medir. O contedo do teste se
refere aos temas, s expresses e ao formato dos itens, tarefas ou questes de um teste,
associado s orientaes aos procedimentos de administrao do teste e de interpretao de
seus resultados (AERA, APA & NCME, 1999, p. 11). O grau de validade de contedo dos
resultados do teste est intimamente ligado relao das tarefas com o construto avaliado
(domnio de contedo, processo cognitivo). Assim, se um teste construdo para avaliar
geometria, garante-se um bom grau de validade de contedo de seus resultados quando os
itens efetivamente esto avaliando conhecimento nesta rea e no em outra.
Urbina (2007) considera que os procedimentos de validao para testes de
verificao da competncia so simples pois (...) as evidncias a partir das quais as
inferncias sero feitas podem ser defendidas com argumentos lgicos e relaes
demonstrveis entre o contedo do teste e o construto que este pretende representar (p.
12
165). Estudos que buscam o grau de evidncia de validade baseada no contedo do teste
necessitam da colaborao de especialistas ou juizes, conhecedores do construto em
questo e de tcnicas de construo de itens, para duas tarefas: (a) elaborar e revisar as
questes do teste orientado pela teoria; e (b) compor o teste, organizando-o de forma
equilibrada quanto ao domnio de contedo previsto pela teoria (Pasquali 1998). Essa
busca pelas evidncias da validade de contedo do teste traduzida por Herman, Webb e
Zuniga (2002) e por Bhola, Impara e Buchendahl (2003) como a busca pelo alinhamento
(alignment) entre o teste e o contedo ou domnio cognitivo avaliado.
Evidncias baseadas na estrutura interna do teste indicam o grau de relao entre os
itens e os componentes do teste em conformidade ao construto que o teste se props medir
(AERA, APA & NCME, 1999, p. 13). Essas evidncias tm relao direta com a
dimensionalidade do teste. Quanto maior a inter-relao entre as questes de cada
dimenso (ou fator), maior o grau de validade dos resultados obtidos.
Uma questo associada estrutura interna do teste se refere Funo Diferencial
do Item (DIF), cujos estudos de consistncia interna do teste procuram verificar se um
conjunto particular de itens pode funcionar diferentemente para determinados subgrupos de
examinandos. No caso de diferentes grupos de examinandos com habilidades similares
diferirem em termos de desempenho em um grupo especfico de itens, pode estar
acontecendo DIF. Os resultados da testagem podem apresentar um baixo grau de validade
j que grupos com habilidades semelhantes deveriam apresentar resultados semelhantes.
Toda a argumentao de investigao da validade (...) pode indicar a necessidade
de refinar a definio dos construtos, pode sugerir revises no teste e em outros aspectos
do processo da testagem e podem indicar necessidade de estudos adicionais em
determinadas reas (AERA, APA & NCME, 1999, p. 17).
3.1.5 Fidedignidade
A fidedignidade (...) a qualidade dos escores de teste que sugere que eles so
suficientemente consistentes e livres de erros de mensurao para serem teis (Urbina,
2007, p. 121). Os resultados da testagem apresentam um bom grau de fidedignidade na
medida em que o procedimento de testagem repetido para um mesmo grupo de pessoas e
os resultados so consistentes ou semelhantes, em situaes que no se esperam alteraes
na magnitude do construto psicolgico avaliado.
Assim, medir de forma fidedigna medir com um baixo grau de erro. Um erro de
mensurao pode ser definido como (...) qualquer flutuao nos escores resultantes de
13
fatores relacionados aos processos de mensurao que so irrelevantes ao que est sendo
medido (Urbina, 2007, p. 121).
Da mesma forma que, para o conceito validade, importante falarmos (a) em grau
de fidedignidade e no considerarmos se h ou no h fidedignidade; (b) que o grau de
fidedignidade est relacionado aos resultados da testagem e no ao teste; e (c) que depende
constantemente de evidncias empricas e sofrem influncia das variveis envolvidas no
processo de mensurao em variados contextos. A dissociao da fidedignidade ao teste e
associao desta aos seus resultados implicam em relativizar o parmetro fidedignidade ao
contexto em que est sendo aplicado. Assim um teste pode apresentar resultados com
excelente fidedignidade para o mbito de sala de aula, mas uma baixa preciso para
avaliaes em larga escala.
Pelo menos trs teorias so relevantes para o estudo da fidedignidade do teste ou do
erro de mensurao: a Teoria do Escore Verdadeiro, a Teoria da Generalizabilidade e a
Teoria de Resposta ao Item.
A Teoria do Escore Verdadeiro baseia as concluses da testagem em um escore
ideal livre de erro. Uma das formas de alcanarmos uma proximidade entre o escore
observado e o escore verdadeiro a replicao da testagem inmeras vezes no mesmo
grupo. De acordo com este procedimento, os erros de mensurao tendem a se anular, pois
poderemos trabalhar com um nico resultado que represente a variabilidade desse erro.
Sabe-se, no entanto, que praticamente invivel coletar inmeros conjuntos de
comportamentos de um mesmo grupo ou pessoa. Uma vez que a amostra do
comportamento limitada, esse escore observado difere do escore verdadeiro (Cronbach,
1996, p. 178). Por definio, a diferena entre esses dois escores o erro de mensurao.
Quando temos vrias mensuraes de um mesmo evento, observamos erro-padro
de mensurao (EPM). A varincia do erro , portanto, o quadrado de um EPM. O EPM
diz o quo amplamente as medidas de uma mesma pessoa tendem a se distribuir
(Cronbach, 1996, p. 178). A teoria permite estimarmos a proporo de vezes que o escore
verdadeiro se encontra dentro de um determinado intervalo de escore observado. Uma
definio mais tcnica de fidedignidade, que torna mais clara a relao inversa com o erro
de mensurao apresentada por Cohen e Swerdlik (2002): o coeficiente de fidedignidade
(...) a proporo que indica a razo entre a varincia do escore verdadeiro da testagem e
a varincia total (p. 128). O coeficiente atinge seu valor mximo (1,0) quando a medida
no contm nenhum erro de varivel.
14
Estudo de Embretson (1996) indica que o EPM de acordo com a TCT constante
pelos nveis da escala de escores, mas difere quando a populao avaliada, j que essa
costuma apresentar variabilidade diferente. O EPM nico para uma populao, j que
aplicado a todos os nveis de escores.
A Teoria da Generalizabilidade (Brennan, 1983; Cronbach, Gleser, Rajaratnam &
Nanda, 1972), tambm chamada de Teoria G, procura distinguir as fontes de erro,
decompondo o erro em componentes de forma a descobrir a sua magnitude. De acordo
com Cronbach (1996) a teoria (...) nos diz mais sobre um procedimento de mensurao do
que a anlise tradicional (p. 180). Diferentemente da Teoria do Escore Verdadeiro (ou da
Teoria Clssica dos Testes), que considerava a varincia do erro como de um tipo s e de
forma que a pessoa tivesse um nico escore verdadeiro, a teoria G reconhece universos
alternativos de generalizao, e, portanto, muitos escores de universo (Cronbach, 1996, p.
180).
De acordo com essa teoria, a medida de uma varivel pretende generalizar para um
domnio ou universo relevante de observaes. Da surge a definio de escores de
universo, diferente do escore verdadeiro, que consideram diversas fontes de varincia
como erro. Pretende responder questes como: quais os erros oriundos de um
procedimento de testagem? Quanta varincia de erro decorre de cada fonte?
Urbina (2007) considera que (...) para se aplicarem os delineamentos
experimentais requeridos pela teoria G, necessrio obter mltiplas observaes do
mesmo grupo de indivduos em todas as variveis independentes que podem contribuir
para a varincia de erro em um dado teste (por exemplo, escore em todas as ocasies, por
todos os avaliadores, entre formas alternativas, etc.) (p. 141-142). Uma ferramenta
estatstica bastante utilizada quando se quer estimar a fora que cada varivel contribui
para a varincia do erro a anlise de varincia (ANOVA).
A Teoria de Resposta ao Item (TRI) fornece mtodos mais sofisticados para estimar
a fidedignidade dos resultados de uma testagem. (...) As vantagens que esses modelos
oferecem, especialmente para a testagem em larga escala e a testagem adaptativa
computadorizada, tm estimulado seu desenvolvimento e aplicao nas ltimas dcadas
(Urbina, 2007, p. 143). De acordo com a autora, os mtodos da TRI, a fidedignidade e o
erro de mensurao so abordados sob o ponto de vista da funo de informao de itens
individuais do teste, em oposio ao teste como um todo.
Para a TRI, a funo de informao do teste nada mais que a soma das funes de
informao dos itens que compem o teste. Hambleton, Jones e Rogers (1993) destacam
15
16
17
20
& Bernstein, 1994) e a discriminao (r) (Hambleton & Jones, 1993). Esses parmetros
esto associados, sob o modelo clssico dos testes, s estatsticas do teste tais como a
mdia e o desvio-padro do escore e sua fidedignidade dentro do processo de
desenvolvimento de testes com propriedades estatsticas desejadas. Trata-se de um modelo
til no desenvolvimento de testes quando (...) a amostra de examinandos similar
populao para qual o teste est sendo desenvolvido (Hambleton & Jones, 1993, p. 40), j
que os parmetros dos itens dependem da amostra de examinandos utilizada para estimlos e os escores totais dependem dos parmetros utilizados para calcul-los.
O clculo do valor p dos itens se d pela proporo de examinandos que os
acertaram. Assim, um item considerado difcil se esse percentual for baixo, e fcil, se for
alto. Por outro lado, quando um teste difcil, o examinando tender a apresentar uma
habilidade mais baixa e, quando mais fcil, tender a apresentar uma habilidade mais
alta. Essa dependncia circular pode ser minimizada e o modelo se ajustar aos dados
quando a amostra de examinandos similar populao.
Um exemplo de ndice r o coeficiente de correlao bisserial (rbis) que (...) uma
medida de associao entre o desempenho no item e o desempenho no teste. O coeficiente
bisserial estima a correlao entre a varivel de desempenho no teste e uma varivel latente
(no observvel) com distribuio normal que, por hiptese, representa a habilidade que
determina o acerto ou erro no item (CESGRANRIO, 2006, p. 26). Como seus resultados
esto atrelados ao desempenho no teste, tambm fundamental, para o clculo do rbis que a
amostra de examinandos apresente caractersticas similares da populao.
Uma das implicaes prticas (ou pouco prticas) dos valores p e r dos itens serem
dependentes do grupo que um mesmo conjunto de itens pode apresentar dois conjuntos
diferentes de ndices, se estes so calculados para duas amostras diferentes. Na
administrao de um banco de itens, por exemplo, torna-se um problema de difcil soluo
quando a amostra no apresenta as mesmas caractersticas da populao. Assim, se um
item foi submetido a um pr-teste e a duas avaliaes, por exemplo, recebe trs conjuntos
de ndices TCT. Se o item o mesmo, como pode apresentar mais de um conjunto de
parmetros, ou seja, mais de uma identidade psicomtrica?
A TRI uma teoria estatstica sobre a performance do examinando no item e no
teste e sobre como essa performance relata as habilidades que so mensuradas pelos itens
no teste (Hambleton & Jones, 1993, p. 40). composta de um conjunto de modelos
matemticos que se estrutura por meio de uma srie de pressupostos e propriedades e
envolve procedimentos de estimao de parmetros. Sua aplicao na teoria psicomtrica
23
se mostrou bastante conveniente, sob um paradigma que especifica uma relao terica
entre as pontuaes empricas dos examinandos em um teste e o trao latente no
observvel, teorizado como o responsvel por tais pontuaes.
Hambleton e Jones (1993, p. 40) consideram que vrios so os modelos utilizados
pela TRI para o estabelecimento da relao entre a resposta ao item com as habilidades
subjacentes, sendo que os mais comuns (a) assumem uma habilidade nica subjacente
performance ao teste; (b) podem ser aplicados a dados oriundos de testes compostos por
itens dicotmicos; e (c) assumem a relao entre a performance no item e a habilidade em
funo de modelos logsticos de um, dois ou trs parmetros.
A TRI fornece modelos que atribuem parmetros para itens e para indivduos
separadamente de forma a predizer probabilisticamente a resposta de qualquer indivduo a
qualquer item. Requena (1990) ressalta que as funes de resposta ao item estabelecem as
relaes, matematicamente formalizadas, de como cada resposta depende de certo nvel ou
grau de habilidade no trao considerado. Quando a Psicometria se apropria desses
modelos, percebe-se que seus parmetros podem ser utilizados como meio de
caracterizao de itens de testes.
Geralmente, os itens podem ser avaliados por meio de modelos de um, dois ou trs
parmetros. O modelo de um parmetro envolve apenas a dificuldade (parmetro b); o de
dois, envolve o parmetro b e a discriminao (parmetro a); e o de trs, envolve os
parmetros a, b e o de probabilidade de acerto ao acaso (parmetro c) (Cronbach, 1996;
Hambleton & Jones, 1993; Hambleton, Swaminathan & Rogers, 1991; Pasquali, 2003). O
parmetro teta () representa a estimativa ou o parmetro de habilidade dos testandos.
Hambleton, Swaminathan e Rogers (1991) consideram que a TRI capaz de
fornecer contribuies na construo de testes, na identificao de vis de itens, na
equalizao de resultados de desempenho de examinandos em resposta a diferentes testes
ou de diferentes formas de um mesmo teste e na apresentao ou relato desses resultados.
Para esses autores, a TRI supera certas limitaes tericas que a Psicometria tradicional,
baseada na Teoria Clssicas dos Testes (TCT), contm.
De acordo Hambleton e Jones (1993), tipicamente, dois pressupostos esto
relacionados com os modelos da TRI: a estrutura matemtica da funo ou da Curva
Caracterstica do Item (CCI) e a estrutura dimensional dos dados do teste.
A CCI representa graficamente os parmetros a, b e c, apontando a probabilidade
de responder corretamente um determinado item em funo da habilidade. Pela variao
dos parmetros do item, vrias CCI podem ser geradas para o ajuste aos dados do teste. A
24
funo caracterstica do teste a soma de todas as funes caractersticas dos itens que
compem o teste e pode ser usada para predizer os escores dos examinandos em funo
dos nveis de habilidade.
As funes de informao do item apresentam a contribuio de cada item para
avaliao da habilidade. De modo geral, itens com alto poder discriminativo contribuem
mais para a fidedignidade da medida que itens com baixo poder discriminativo. A funo
de informao do teste, I(), a soma das funes de informao dos itens (Hambleton &
Jones, 1993).
27
28
evidncias relatadas para a validade das interpretaes dos escores do teste (Bhola,
Impara & Buckendahl, 2003, p. 22).
Especialistas nas reas de interesse da avaliao so chamados a elaborar questes
em quantidade suficiente para cada uma das habilidades avaliadas. Sua ao est orientada
busca do alinhamento dos itens aos contedos e processos cognitivos apresentados na
matriz de referncia.
O nmero total de questes que ser construdo, o nmero de itens por conjunto de
contedos/processos cognitivos, o grau de complexidade dos itens, os tipos de itens que
sero utilizados (mltipla escolha, resposta construda, etc.), a forma de aplicao, os
recursos que os estudantes tero disposio para responder s questes, a metodologia de
anlise dos dados e as estratgias de divulgao dos resultados devem estar em sincronia e
alinhados. Esses aspectos, por sua vez, devem ser inerentes ao propsito da avaliao, ao
prprio teste, administrao, ao tipo de anlise, publicao e utilizao dos resultados
orientaro a elaborao de itens. Para tanto, os especialistas devem possuir um
conhecimento aprofundado, no s sobre as tcnicas de construo dos itens e sobre a
matria da disciplina para a qual pretende constru-los, mas sobre todos os aspectos de um
sistema avaliativo.
Antes do processo de elaborao das questes, fundamental que os planejadores
da avaliao j definam o desenho do teste, nmero de itens, nmero de cadernos e os tipos
de itens. Hambleton e Jones (1993) sugerem que sejam estabelecidos previamente uma as
teoria e os modelos dos testes que orientaro sua construo e as etapas posteriores de
anlise dos resultados. Tendo por base esse planejamento, parte-se para a elaborao dos
itens.
O Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira (INEP),
para a aquisio de itens de mltipla escolha referentes s disciplinas matemtica e lngua
portuguesa para o Sistema Nacional de Avaliao da Educao Bsica (SAEB), elaborou
um documento com as especificaes tcnico-pedaggicas para elaborao de itens
(PNUD, 2006). Amparados pelos propsitos, pela cobertura das matrizes de referncia e
pelo pblico alvo da avaliao, o documento apresenta 21 critrios gerais para construo
de itens, seis para construo dos enunciados e 13 para construo das alternativas dos
itens de mltipla escolha.
De acordo com as especificaes (PNUD, 2006), os itens devem: (a) ser inditos;
(b) considerar o cotidiano dos alunos; (c) enfocar apenas um problema; (d) utilizar
terminologias de carter universal; (e) apresentar independncia local; (f) no apresentar
29
vis cultural e propagandas; (g) depender pouco ou nada da memorizao; (h) evitar
expresses duplamente negativas; (i) no conter pegadinhas; (j) considerar o tempo de
leitura exigido do aluno; (k) utilizar linguagem apropriada srie; (l) usar linguagem clara
e direta; (m) apresentar redao gramaticalmente consistentes e pontuao correta; (n)
contemplar um contexto para o problema que atinja a realidade dos estudantes; (o) utilizar
distratores plausveis; e (p) no conter erros conceituais.
Por mais preparados que sejam os especialistas elaboradores de itens, preciso
assegurar que esses itens apresentem boa qualidade tcnico-pedaggica. Por isso, dentro de
qualquer processo de desenvolvimento de instrumentos, fundamental a atividade de
validao ou de reviso terica de itens.
A verificao do grau de validade de contedo ou de alinhamento entre os itens e as
matrizes de referncia tambm realizada por especialistas na rea do construto avaliado,
conhecedores do contedo e dos processos cognitivos envolvidos, das prprias matrizes e
de tcnicas de construo de itens.
A reviso dos itens, tambm chamada de validao terica, a etapa de busca a
priori (antes de qualquer aplicao) da validade dos resultados da testagem. Pasquali
(1998) sugere procedimentos para a busca das evidncias empricas que comprovem um
bom grau de validade de contedo ou de construto das escalas psicolgicas. Para
verificao da pertinncia, os itens construdos com base na teoria devem, por argumentos
lgicos e semnticos, avaliar o contedo previsto.
Bhola, Impara e Buckendahl (2003) realizaram uma reviso da literatura sobre
mtodos utilizados para garantir um bom grau de alinhamento entre o sistema avaliativo,
incluindo o teste, e os contedos/processos cognitivos especificados nas matrizes de
referncia. Sumarizaram os mtodos de alinhamento em trs categorias: baixa, moderada e
alta complexidade.
No caso dos mtodos de baixa complexidade, especialistas de contedo (...)
examinam cada item do teste e indicam em que medida os itens apresentam relao com os
standards de contedo ou aos elementos da tabela de especificao do teste (Bhola,
Impara e Buckendahl, 2003, p. 22). No caso dos mtodos de complexidade moderada, os
especialistas so questionados sobre a relao entre os standards e os itens do teste sob a
perspectiva do contedo e da complexidade cognitiva. Como apresenta um critrio
adicional em comparao ao mtodo de baixa complexidade, ou seja, a avaliao da
complexidade cognitiva, os autores alertam para a reduo do nmero de itens
considerados alinhados, ou seja, cuja utilizao contribuir para a validade dos resultados
30
do teste. validade. Ressaltam tambm que o Council of Basic Education (CBE), dos
Estados Unidos, associadamente a esse mtodo, busca avaliar o balanceamento do nmero
de itens por contedo e grau de complexidade cognitiva dos testes em fase de montagem,
bem como verificar se o tipo de itens (resposta construda, mltipla escolha) fornecero
resultados satisfatrios aos propsitos avaliativos.
So vrios os mtodos de alinhamento de complexidade alta sumarizados por
Bhola, Impara e Buckendahl (2003). Apresenta-se aqui o modelo de La Marca (2000),
citado como relevante pelos autores, que busca determinar o quo bem os standards esto
sendo mensurados pela avaliao, usando cinco dimenses inter-relacionadas: relao com
o contedo, profundidade do contedo, nfase, relao com o desempenho e acessibilidade
(Bhola, Impara e Buckendahl, 2003, p. 22).
As duas primeiras dimenses so coerentes com o mtodo de moderada
complexidade, que contemplam o alinhamento do teste com as matrizes de referncia de
acordo com o contedo e com o grau de complexidade cognitiva. A dimenso denominada
nfase analisa o grau em que a avaliao est alinhada nfase terica da avaliao. A
dimenso relao com o desempenho verifica o grau no qual os itens permitem aos
estudantes demonstrar seus conhecimentos. A dimenso acessibilidade verifica a
extenso em que a avaliao inclui itens cuja dificuldade permite que os estudantes de
todos os nveis de proficincia tenham oportunidade de demonstrar seu nvel de
conhecimento.
Em suma, a busca pelo alinhamento a funo principal da reviso dos itens. Tem
como objetivo, por meio da utilizao de algumas tcnicas, prover os futuros resultados do
teste de um bom grau de validade. Essa etapa capaz de proporcionar um maior
aproveitamento do percentual de itens aps o pr-teste.
31
NCME, 1999, p. 39). Considerando que os itens j apresentam boa qualidade pedaggica, a
seleo daqueles que integraro o teste deve ser orientada em funo de seus ndices
estatsticos.
35
A TRI, por sua vez, fornece um (...) poderoso mtodo para descrio de itens e de
testes e para seleo de itens quando se observa que os dados do teste se ajustam ao
modelo (Hambleton, Jones & Rogers, 1993, p. 144). Para utilizao dos modelos de
resposta ao item, fundamental que os itens sejam aplicados em grandes amostras para
viabilizar uma calibrao adequada.
A curva caracterstica do item (CCI) fornece um conjunto de informaes que
permite ao desenvolvedor do teste selecionar os itens que faro parte do teste. A partir da
CCI, o desenvolvedor tem acesso s informaes da discriminao, da dificuldade e da
probabilidade de acerto ao acaso (parmetros a, b e c) (Cronbach, 1996; Hambleton,
Swaminathan, & Rogers, 1991; Hambleton & Jones, 1993; Hambleton, Jones & Rogers,
1993; Pasquali, 2003).
Hambleton, Jones e Rogers (1993) e Hambleton e Jones (1993), citando Lord
(1980), indicam os passos a serem seguidos para o uso das funes de informao do item
para construir testes:
(1) Decidir o formato desejado da funo de informao do teste (funo de
informao meta).
(2) Selecionar itens do banco de itens com funes de informao que se ajustam
funo de informao meta.
(3) Calcular a funo de informao do teste para os itens selecionados.
(4) Continuar selecionando itens at que a funo de informao do teste esteja
satisfatoriamente de acordo com a funo de informao meta.
A funo de informao do teste est associada ao parmetro a ou inclinao das
curvas dos itens. Procura-se selecionar itens com parmetro a alto, sempre que possvel, e
no utilizar itens com baixa discriminao, ou seja, aqueles com valor a baixo positivo ou
negativo (Hambleton & Jones, 1993, p. 45).
A funo de informao meta, sugerida por Lord (1980), reflete o propsito da
avaliao. Para avaliaes diagnsticas, a funo meta tende a se aproximar de uma curva
normal. Os itens sero selecionados de acordo com o parmetro b, necessariamente,
orientados pela funo de informao meta. Deve-se selecionar itens para ao vrios
intervalos de habilidade. De maneira prtica, selecionam-se itens representativos de cada
uma das faixas de habilidades, de acordo com a funo de informao meta, e avalia-se o
quanto a funo de informao do teste se aproxima dessa, substituindo-se itens
posteriormente se necessrio (passos 2 a 4, citados por Lord, 1980).
36
37
38
Tabela 3.1 - Informaes sobre exemplos de delineamentos BIB analisados por Bekman (2001).
n cadernos
n blocos
(c)
(b)
10
Exemplo
c=(r.b)/ =[r.(k-1)
n=c/b fu=k/b
fu=r/c
BIB
0,67
0,67
Espiral
0,43
0,43
Espiral
0,40
0,40
Espiral
13
0,31
0,31
Espiral
20
1,25
0,25
0,25
21
0,29
0,29
Espiral
21
21
0,24
0,24
Espiral
13
26
0,23
0,23
Espiral
/(b-1)
10
13
13
20
16
21
21
26
Noespiral
Para estimar os parmetros dos itens por meio da TRI, necessrio que cada
um deles seja respondido por um nmero mnimo de alunos. O autor sugere
39
que cada item seja respondido por pelo menos 200 alunos de forma que: (fu
>200)/nmero total de respondentes.
b)
c)
O nmero de itens inseridos em cada bloco merece destaque, pois tem impacto
direto na validade, no que tange cobertura da matriz de referncia, e na fidedignidade dos
resultados da avaliao. Johnson (1992) alerta para a relevncia da realizao de estudos
sobre a fidedignidade quando poucos itens so utilizados para a estimao da performance
individual dos sujeitos. Quando muitos sujeitos recebem poucos itens de uma determinada
rea, resulta uma considervel impreciso na estimao das proficincias individuais (p.
105). O autor sugere para esse caso que a tecnologia de valores plausveis seja utilizada
para o alcance de estimativas fidedignas. O aumento do nmero de itens por bloco e,
consequentemente, o aumento do nmero de itens que cada estudante responde reduz a
necessidade de utilizar metodologias como valores plausveis para estimar a fidedignidade
das estimativas de proficincia.
3.4.3 Dimensionalidade
Se um conjunto de itens mede um mesmo trao latente, considera-se que
apresentam um bom grau de unidimensionalidade. Trata-se de um pressuposto da TCT e da
TRI que apresenta impacto na validade dos resultados do teste.
No caso da TCT, um teste com bom grau de unidimensionalidade aquele cujos
itens apresentam uma boa correlao com o escore total. Pasquali (2003) alerta para os
problemas de verificao da dimensionalidade utilizando a TCT, pois o escore total
consiste na soma das respostas dadas aos itens; assim, ela faz a suposio que eles so
somveis e isto faz sentido somente se eles referem mesma coisa (...) (p. 114). A
incoerncia ocorre quando um item no contribui significativamente para a
unidimensionalidade e utilizado para o clculo do escore total.
No mbito da TRI, unidimensionalidade tambm um pressuposto em que apenas
uma habilidade medida por um conjunto de itens em um teste. Praticamente, um teste
unidimensional se apresenta um componente ou fator dominante que influencia o
desempenho dos examinandos.
Para a estimao dos parmetros dos itens e das habilidades pela TRI, a verificao
da unidimensionalidade da prova utilizada se torna fundamental. Laros, Pasquali e
40
Rodrigues (2000) apresentaram quatro efeitos negativos que podem surgir quando
violado o pressuposto da unidimensionalidade dos itens na utilizao da TRI: (a)
diminuio da validade de construto do teste, dificultando a interpretao dos escores; (b)
aumento da funo diferencial do item; (c) dificuldade de realizao da equalizao dos
resultados de vrias formas de uma prova; e (d) probabilidade do parmetro de habilidade,
dado o padro de resposta, no vlida e as estimativas e os desvios-padro do parmetro
podem ser errneos.
Os autores realizaram uma reviso da literatura psicomtrica e relataram cinco
ndices para determinar a unidimensionalidade de um conjunto de itens. So eles (1)
ndices baseados em padres de resposta; (2) ndices baseados na fidedignidade; (3) ndices
baseados na anlise de componentes principais; (4) ndices baseados na anlise fatorial e
(5) ndices baseados na TRI (p. 12). Concordam com o proposto por Hattie (1985), que os
ndices baseados na TRI so os mais adequados para a verificao da unidimensionalidade.
Laros, Pasquali & Rodrigues (2000) analisaram ainda a dimensionalidade das
provas do SAEB aplicadas em 1997 utilizando esse mtodo e alguns ndices
complementares porcentagem de varincia explicada pelo primeiro fator, a correlao
bisserial item-total e a correlao tetracrica entre os itens. Os resultados para a prova de
matemtica, 8 srie, com 161 itens, indicaram que o modelo de dois fatores exibe um quiquadrado maior do que o modelo com um fator. Dessa forma, o modelo de um fator se
ajustou melhor que o de dois fatores, ou seja, a prova apresenta unidimensionalidade. No
entanto, nem todos os itens contriburam igualmente para a unidimensionalidade da prova.
Foram encontrados, do conjunto total de itens da prova, 26 itens (16% dos itens avaliados)
com cargas fatoriais inferiores a 0,20 no primeiro e nico fator. Os autores sugeriram que,
aps a excluso destes itens que praticamente no contribuem para a unidimensionalidade,
a prova de matemtica pode ser considerada unidimensional e pode ser analisada pela TRI,
sem a violao do seu pressuposto principal.
Cond (2002) e Cond e Laros (2007) investigaram se a estimativa de habilidade
pela TRI independe da dificuldade dos itens utilizados para estim-la, bem como em que
medida a unidimensionalidade da prova influencia na propriedade de invarincia da
habilidade dos sujeitos. Concluram que a estimativa de habilidade da TRI apresenta uma
diminuio da dependncia com relao dificuldade quando a prova se aproxima da
unidimensionalidade. Percebe-se necessrio um maior rigor no controle da condio de
unidimensionalidade da prova para a obteno de estimativas de habilidade mais
invariantes.
41
perda concentrada de respostas para os ltimos itens do teste. Como para garantir a
validade de contedo dos resultados do teste, os ltimos itens do teste so necessrios, a
perda concentrada de itens gerar uma sub-explorao de alguns contedos e habilidades.
Oshima (1994) realizou uma simulao em que estimou, por meio da TRI, os
parmetros a, b e c dos itens localizados nas ltimas posies dos blocos, bem como o
parmetro de habilidade. Encontrou que os parmetros a e b foram subestimados e o
parmetro c, superestimado na grande maioria dos itens. Como esses parmetros sero
apresentados ao software utilizado para anlise dos dados como base para a estimao das
habilidades, esperava-se tambm uma influncia nesses resultados. Oshima (1994)
concluiu que (...) a velocidade pode contribuir levemente para a distoro da estimao da
habilidade (p. 214). O autor recomenda que, em situaes de velocidade para testes de
potncia, os itens sejam apresentados em ordem crescente de dificuldade e que a opo
no-apresentados (not-presented ou not-reached) do software BILOG (Bock &
Zimowski, 1995) seja atribuda aos itens. Itens no-apresentados so muitas vezes
identificados como aqueles no respondidos aps a ltima resposta do examinando. Esta
estratgia pautada em uma inferncia, j que na prtica, fica muito difcil saber a partir de
qual item o estudante no teve tempo disponvel para responder. J Lord (1980) sugeriu
uma estratgia mais conservadora: os itens em situao de velocidade deveriam ser
excludos da anlise se a estimativa dos estudantes fosse estimada. Por sua vez, Oshima
(1994) considerou que excluir itens no respondidos a anlise pode gerar srios efeitos se
um grupo tnico particular tende a ter um maior grau de omisso (p. 214). Os estudos da
velocidade em testes de poder indicam tambm a possibilidade de encontrarmos Funo
Diferencial dos Itens (DIF) localizados nas ltimas posies do teste. Isso ocorre porque
dois grupos de mesma habilidade tero diferentes probabilidades de acertar a esses itens
(Oshima, 1994).
informaes
sobre
desempenho
dos
estudantes
sobre
diversas
disciplinas,
44
46
4.3 Testes
At 1993, o SAEB utilizou provas clssicas para avaliar o desempenho dos
estudantes. Esse formato de instrumento limitado em funo da impossibilidade de
cobertura de uma matriz que abranja a amplitude do construto, trazendo impacto para a
validade de seus resultados. O modelo clssico dificulta ainda a insero no teste de um
nmero razovel de itens total e por descritor, o que traz impacto para a fidedignidade de
seus resultados. Sobre esse aspecto, cabe lembrar que testes com um maior nmero de itens
apresentam resultados mais fidedignos (Cronbach, 1996).
Para corrigir limitaes geradas pela instrumentao clssica, o SAEB, a partir de
1995, passou a utilizar um nmero maior de itens. Nos SAEB 1999, 2001, 2003 e na
ANEB 2005 foram aplicados 169 itens, o que possibilitou uma ampla cobertura dos
descritores. No seria vivel para um estudante responder a esse quantitativo de itens em
funo do tempo e do cansao. Por isso, para viabilizar a utilizao desse grande nmero
de itens, o SAEB incorporou a metodologia baseada na amostragem matricial de itens, que
utiliza o esquema de montagem e aplicao de provas por BIB (Bekman, 2001; Johnson,
1992).
Do SAEB 1999 ao 2003 e na ANEB 2005, foram montados 26 cadernos (c) a partir
da composio e combinao de 13 blocos (b) de 13 itens, de acordo com a orientao BIB
apresentado na tabela 4.1.
47
Caderno
Primeiro
Bloco
Segundo
Bloco
Terceiro
Bloco
Caderno
Primeiro
Bloco
Segundo
Bloco
Terceiro
Bloco
14
15
16
10
17
11
18
12
10
19
13
11
20
12
21
10
10
13
22
11
10
10
11
23
10
12
11
11
12
24
11
13
12
12
13
25
12
13
13
26
13
=1
fu = 0,23
Essa distribuio de itens por blocos e combinao de blocos por cadernos (k)
permite que um mesmo conjunto de itens esteja localizado na primeira posio (primeiro
bloco) em dois cadernos de teste, na segunda posio, em outros dois cadernos e na
terceira posio, em outros dois, o que o caracteriza como desenho espiralado. Por
exemplo, o bloco 1 est localizado na primeira posio nos cadernos 1 e 14; na segunda
posio nos cadernos 13 e 25; e na terceira posio nos cadernos 10 e 20.
Os testes do SAEB, a partir de 2001, foram compostos exclusivamente por itens de
mltipla escolha, com quatro alternativas e uma resposta correta para as 4 e 8 sries EF e
48
com quatro e cinco alternativas com uma resposta certa para a 3 srie EM, com base nas
Matrizes de Referncia do SAEB 2001 (INEP, 2002). O nmero de itens por tpicos/temas
e por descritor foi calculado a partir do estudo de prioridades do SAEB 2001 (INEP, 2002).
Nos casos, buscou-se reservar um nmero maior de itens para os descritores com
prioridades mais prximas de P1.
Para o desenvolvimento dos testes do SAEB, foram compostos 13 blocos para cada
srie e disciplina avaliadas, cujas caractersticas dividem-nos em dois tipos quanto sua
origem ou utilizao ou no em avaliaes anteriores: (a) blocos de itens inditos; e (b)
blocos de itens do SAEB do ano anterior, que foram utilizados nos testes atuais para efeitos
de comparao dos resultados entre anos.
No caso de todas as sries e disciplinas do SAEB 2003 e da ANEB 2005, onze
blocos inditos e dois do ciclo anterior da avaliao foram utilizados (comuns entre anos).
Para 8 srie EF e 3 srie EM, trs blocos inditos so oriundos das sries anteriores
(comuns entre sries). O procedimento de utilizao de itens comuns permite que os
resultados sejam estimados na mtrica da escala nica do SAEB (1995 a 2007; 4 e 8
sries EF e 3 srie EM).
O delineamento do SAEB foi adotado com o objetivo de emisso de resultados para
estratos amostrais e no para cada escola ou para cada estudante. Sendo assim, no h
necessidade que a dificuldade dos cadernos ou dos blocos que os compem sejam iguais.
Para o menor estrato de divulgao de resultados do SAEB, um mesmo nmero de
estudantes, com os mais variados nveis de habilidades, respondem a cada um dos 26
modelos de cadernos (e a cada um dos 13 blocos), pois sua distribuio aleatria pela
amostra. Se compararmos os resultados dos estudantes de escolas pblicas do Par com os
dos estudantes de escolas pblicas do Cear, por exemplo, uma mesma proporo de
estudantes respondeu aos cadernos mais fceis e mais difceis, aspecto este que minimiza o
impacto de uma possvel diferena das dificuldades dos blocos.
De toda forma, identificou-se para alguns anos de avaliao, como por exemplo,
para o SAEB 2003, a preocupao em se compor blocos com caractersticas de dificuldade
semelhantes (com pouca variabilidade entre os blocos). Nesse ano, utilizou-se como base
os valores p dos itens extrados do pr-teste, no caso de itens inditos, e do SAEB 2001, no
caso de itens j aplicados. Para 4a e 8a sries EF, por sua vez, procurou-se compor trs
blocos de itens com caractersticas mais apropriadas para a srie posterior, o que geraria
blocos mais difceis.
49
Para a montagem dos testes do SAEB, alm de ter sido considerado o planejamento
para o teste como um todo, considerou-se tambm um planejamento para cada um dos
blocos. Os itens foram distribudos dentro dos blocos de acordo com os seguintes critrios:
(a) variedade de descritores, tpicos ou temas para cada bloco de itens; para lngua
portuguesa, inclui-se o critrio de variedade de textos por tipologia textual; e (b)
variabilidade e ordenamento dos itens pelo ndice p de acordo com as informaes
levantadas pelos pr-testes realizados.
Considerou-se, na composio de cada bloco, uma variedade de descritores e um
nmero de itens por temas ou tpicos coerentes com o planejamento de prioridades.
Observa-se na tabela 4.2 o exemplo da composio do bloco 1 do teste de matemtica, 4a
Srie, do SAEB 2003. Ressalta-se que a tabela est ordenada por temas e por descritores e
no reflete a ordem em que os itens foram aplicados.
Tabela 4.2 - Temas e descritores dos itens que compem o bloco 1 do teste de matemtica, 4a Srie EF, do
SAEB 2003.
Item
Tema
Prioridade
Descritor
1
2
1
3
6
8
10
12
3
4
5
6
II
7
8
9
10
11
12
III
13
14
15
17
19
23
13
IV
28
Nota-se que: (a) todos os temas da matriz foram incorporados, (b) nenhum descritor
foi repetido, (c) um nmero maior de itens foi utilizado para temas com prioridades
maiores.
A montagem de outros blocos dessa srie contemplou os mesmos critrios, com o
diferencial de incorporarem os outros descritores com itens cujos descritores no tinham
sido utilizados nesse bloco. Para os onze blocos inditos de matemtica, 4a srie EF do
SAEB 2003, em relao aos temas, os blocos apresentaram quase sempre a mesma
50
estrutura, caracterizando uma espcie de paralelismo entre eles. Uma grande vantagem da
utilizao deste modelo de montagem dos blocos que, utilizando o BIB na composio
dos 26 cadernos de teste, todos os cadernos apresentariam estruturas semelhantes. Para o
SAEB 2001 e 2003, procurou-se compor os testes, considerando para cada bloco, uma
distribuio que contemplasse dificuldades baixas, mdias e altas.
Em 2005, o SAEB foi dividido em dois processos de avaliao: a ANEB e a Prova
Brasil. Diversas caractersticas da ANEB 2005 j foram apresentadas em funo da sua
semelhana ao SAEB tradicional. A seguir outras caractersticas da ANEB e a estrutura da
Prova Brasil sero apresentadas como base para o desenvolvimento do presente trabalho.
Srie
Nmero de alunos
4 EF
83.929
8 EF
66.353
3a EM
44.540
Total
194.822
52
Disc 2
Blocos
Posio 1
Posio 2
Caderno
Disc 1
10
11
12
13
14
15
16
17
18
19
20
21
53
54
Matemtica
Srie
ANEB
Prova Brasil
27.176
1.975.635
22.035
1.422.245
26.907
1.975.635
22.089
1.422.245
55
Tabela 4.6 - Tempo de aplicao dos testes da ANEB 2005 e da Prova Brasil 2005.
ANEB
Bloco
N itens
Tempo
N itens
Tempo
N itens
Tempo
Bloco1
13
30
10
20
12
25
Bloco2
13
30
10
20
12
25
Bloco3
13
30
10
20
12
25
Bloco4
10
20
12
25
N Total
39
90
40
80
48
100
Minutos/item
2,31
2,00
2,08
Como as habilidades das duas avaliaes foram estimadas por meio da TRI, sob
modelo de trs parmetros, que assume a propriedade de invarincia do parmetro de
habilidade independentemente do teste utilizado, espera-se
tenham sido iguais para grupos equivalentes. Ou seja, mesmo que o delineamento dos
testes tenha sido diferente para a ANEB e para a Prova Brasil, esse fator no deveria
impactar em uma diferenciao nos resultados de habilidades dos estudantes, desde que (a)
o modelo adotado se ajuste aos dados (Hambleton & Jones, 1993, p. 42); (b) os valores de
todos os parmetros dos itens utilizados para estim-los estejam em uma mtrica comum
(Baker, 2001); e (c) os itens dos testes sejam unidimensionais (Baker, 2001).
Os estudos de Cond (2007) e Rabello (2007) compararam os resultados de
habilidades dos estudantes de 4 e 8 sries EF de escolas pblicas urbanas que
responderam aos testes da ANEB 2005 e da Prova Brasil 2005. Observaram uma
proximidade entre as mdias de habilidades estimadas para as avaliaes. Para algumas
sries e disciplinas e para certos grupos de comparao, no entanto, um conjunto de mdias
da Prova Brasil se distanciou das calculadas para a ANEB.
Como pode ser verificado na tabela 4.7, em nvel Brasil, as mdias de lngua
portuguesa, 8 srie EF, e de matemtica, 4 srie EF, da Prova Brasil 2005 no
apresentaram diferenas significativas s mdias da ANEB 2005, considerando intervalo
de confiana de 95% calculado para a ANEB. Esses resultados apontam para o que seria
esperado pela TRI: grupos equivalentes de estudantes que responderam a testes diferentes
apresentaram estimativas de habilidade iguais (ou bastante semelhantes).
57
Tabela 4.7 - Desempenho dos estudantes na ANEB 2005 e na Prova Brasil 2005 Brasil lngua portuguesa
e matemtica, 4 e 8 sries do EF - Escolas Pblicas Urbanas com Federais.
Prova Brasil
ANEB 2005
Disciplina
Srie
Mdia
Lngua
Portuguesa
DP
EP
2005
IC
IC
95%
95%
(LI )
(LS )
Distncia
Diferena
Mdia
DP
do IC
95%
170,6
42,6
1,3
168,0
173,1
173,4
41,7
2,8
0,28
225,4
46,2
1,1
223,3
227,5
224,4
41,4
-1,0
180,1
44,6
1,1
177,9
182,3
180,6
39,9
0,5
231,6
45,6
1,3
229,2
234,1
239,5
42,5
7,9
5,43
Matemtica
ANEB
Prova Brasil
229,2
231,6
234,1
239,5
Figura 4.1 - Desempenho dos estudantes na ANEB 2005 e na Prova Brasil 2005 em matemtica, 8 srie EF Escolas Pblicas Urbanas com Federais para o Brasil.
7). Para as duas disciplinas em 4 srie EF, as diferenas entre as mdias da Prova Brasil
2005 e da ANEB 2005 no foram, de modo geral, significativas, com exceo para a
Regio Nordeste que apresentou uma distncia do limite superior a 4 pontos para as duas
disciplinas.
Em matemtica 8 srie EF, no entanto, para todas as Regies foram observadas
diferenas significativas entre os resultados da Prova Brasil e da ANEB, coerentemente aos
encontrados para a mesma srie e disciplina em nvel Brasil (Cond, 2007; Rabello, 2007).
Para essa srie e disciplina, de modo geral, as mdias da Prova Brasil 2005, tanto em nvel
Brasil, quanto para Regies, foram superiores s mdias da ANEB 2005. Uma observao
metodolgica cabe ser ressaltada: os autores no utilizaram pesos amostrais para expanso
dos resultados da Rede Estadual de So Paulo. No entanto, as diferenas entre os
resultados no so to relevantes. Um exemplo a mdia Brasil de matemtica 8 srie EF
que, sem peso, de 239,50, enquanto que, com peso, de 239,98. Para essa srie e
disciplina, por exemplo, os resultados entre ANEB e Prova Brasil para estudantes de
escolas pblicas e urbanas foram significativamente diferentes.
Esses resultados suscitam algumas discusses. O delineamento de montagem, de
distribuio dos testes, de composio da amostra e de anlises de dados da ANEB 2005
foi realizado sob os mesmos moldes utilizados pelo SAEB 2003 (CESPE, 2007b). Quando
h a introduo da Prova Brasil 2005, com a manuteno de uma srie de variveis
estruturais da ANEB 2005, mas com a modificao de outras principalmente com relao
estrutura do teste, observou-se entre as avaliaes: (a) resultados semelhantes nas
estimativas mdias de habilidades dos estudantes para as duas disciplinas em 4 srie EF e
para lngua portuguesa 8 srie EF; (b) resultados diferentes de estimativas de habilidade
mdia dos estudantes em matemtica 8 srie EF.
Com relao aos resultados de matemtica 8 srie EF da ANEB 2005 e Prova
Brasil 2005, questiona-se: que variveis esto gerando essa diferena de habilidades dos
estudantes? Por que os resultados da Prova Brasil foram significativamente superiores aos
da ANEB? Se, na Prova Brasil, os testes de matemtica 8 srie EF foram aplicados
juntamente com os de lngua portuguesa 8 srie EF, por que para os de Lngua Portuguesa
no foram observadas diferenas significativas entre as avaliaes?
Atribuir a procedimentos de administrao de testes diferenciados da Prova Brasil
2005 pode no justificar satisfatoriamente essa diferena visto que, para 8 srie EF, os
mesmos procedimentos de aplicao foram implementados para lngua portuguesa e para
59
b)
c)
d)
e)
O nmero de itens da Prova Brasil 2005 que cada aluno respondeu (24
itens), inferior ao que um aluno respondeu na ANEB 2005 (39 itens),
gerou uma erro maior nas estimativas individuais da habilidade para a
primeira.
f)
5. Mtodo
A presente seo apresenta a metodologia utilizada para verificar a relao entre as
caractersticas do teste e a validade e a preciso das estimativas de habilidade da TRI.
Foram realizados quatro estudos com os testes de matemtica 8 srie EF da ANEB 2005 e
da Prova Brasil 2005.
No Estudo 1, as anlises de Rabello (2007) e de Cond (2007) foram replicadas e
aprofundadas no que tange comparao dos resultados entre ANEB e Prova Brasil por
faixa de habilidades. O Estudo 2 contemplou a anlise das caractersticas dos testes quanto
cobertura da matriz, aos seus aspectos psicomtricos (TCT e TRI) e dimensionalidade
dos testes. O Estudo 3 estimou as habilidades dos estudantes da ANEB sob novas
60
Como para as escolas estaduais e municipais do Rio de Janeiro, a Prova Brasil 2005
utilizou dois blocos de itens diferentes das demais Unidades da Federao e para o presente
estudo importante que as provas que foram aplicadas fossem comuns a todos os
estudantes, verificou-se o impacto da retirada dos resultados desse estado para o clculo
das mdias do Brasil e do Sudeste. Caso os resultados tivessem impacto significativo, seria
fundamental que os resultados do Rio de Janeiro fossem retirados da base de dados para
realizao das prximas anlises.
Como complementao anlise por mdias, comparaes entre os percentuais de
estudantes localizados em cada uma das faixas de habilidades de matemtica 8 srie EF
foram realizadas. Verificou-se se, para grupos diferentes de estimativas de habilidade, os
percentuais de estudantes variaram entre as avaliaes. Esperavam-se percentuais
semelhantes entre elas j que os grupos de estudantes que responderam ANEB e Prova
Brasil apresentaram caractersticas semelhantes. Foram realizadas anlises por grficos de
barras e pela comparao das reas de distncias entre as distribuies. Esses primeiros
resultados subsidiaram argumentos sobre a existncia de diferenas entre as distribuies
de estudantes entre as avaliaes pelos diversos nveis de habilidades da escala.
62
5.3 Estudo 3: Estimao das habilidades dos estudantes da ANEB sob novas
configuraes de teste
5.3.1 Estimao das habilidades de acordo com os critrios utilizados pelo INEP
Considerando os mesmos critrios utilizados para estimar as habilidades dos
estudantes da ANEB 2005, rodou-se a Fase 3 do BILOG-MG, verso 1. O objetivo de
realizao da anlise foi o de verificar o alcance dos mesmos resultados obtidos pelo INEP
(CESPE, 2007b).
63
5.3.2 Estimao das habilidades a partir da desvinculao dos itens entre sries para
o ano de 2005
Para posteriores manipulaes da base da ANEB a partir da retirada de itens,
percebeu-se a necessidade de desvincular os itens entre sries (itens de 4 inseridos no teste
de 8; itens de 8 EF inseridos na 3 EM) para a base referente ao ano de 2005. Isso porque,
quando houvesse necessidade de excluir itens de 4 srie EF contidos na 8 srie EF,
tambm seriam retirados da 4, j que era sua referncia original. Alm disso, qualquer
excluso de itens da 8 srie EF comuns 3 srie EM, esses tambm seriam retirados da 3
srie EM. Assim, para fornecer mais liberdade manipulao do teste de matemtica, 8
srie, na base de 2005, quando um item era comum entre sries, recebia um nome diferente
para cada srie (INAMES). A partir desse procedimento, foi necessrio repetir na srie
posterior os parmetros da srie original (em THRESHLD, SLOPE e GUESS).
Aps o procedimento, 870 itens foram considerados e no mais 792. Cabe ressaltar
que como os parmetros a, b e c foram repetidos entre as sries de 2005, esperava-se
poucas alteraes nos resultados de estimativa de habilidades, j que a equalizao entre as
sries faz referncia proximidade dos parmetros independentemente da mudana de
nomes. No caso os parmetros dos itens entre srie para aqueles que deixaram de ser
nominalmente comuns foram iguais. Cabe a realizao de uma nova estimao das
64
habilidades, sendo que os resultados para 2005 no podem se afastar dos resultados
originais da ANEB.
O procedimento foi providencial, dado que as prximas anlises buscariam
delineamentos simulados de testes de forma a aproximar s caractersticas da Prova Brasil.
A equalizao realizada para a Prova Brasil 2005, considera itens comuns com o SAEB
2003, mas no entre sries de 2005, de forma semelhante ao apresentado no presente
tpico.
5.3.3 Teste A: estimao das habilidades a partir de 104 itens com parmetros
similares aos da ANEB
Aps a verificao do alcance dos mesmos resultados obtidos pelo INEP, aps os
procedimentos empregados nos tpicos 5.3.1 e 5.3.2 do presente mtodo, parte-se para
algumas manipulaes das bases de dados referentes ao teste de 8 srie EF da ANEB
2005, de forma a manter as mdias e os desvios-padro dos parmetros a e b similares aos
da ANEB.
Algumas consideraes devem ser feitas. Antes da concepo do Teste A, planejouse compor um teste similar Prova Brasil 8 srie EF a partir da seleo de itens do teste
de matemtica 8 srie EF da ANEB 2005. O teste chegou a ser composto. Para um dos 81
itens vlidos da Prova Brasil, buscou-se um correlato em termos de descritor ou tema da
matriz, parmetro a e parmetro b. Houve a preocupao de manter a ordem dentro do
bloco original da ANEB para no impactar nas estimativas em funo do efeito posio.
Esse procedimento se mostrou inadequado, j que a estrutura da base de dados composta
por estudantes como casos e 39 itens como variveis. Como existem 26 cadernos diferentes
de testes, a excluso 74 itens (155 da ANEB para alcanar 81 itens como a Prova Brasil)
impactaria desigualmente nos 26 cadernos. Grupos de alunos responderiam a vrios itens
contidos no teste simulado, enquanto outros praticamente ficariam sem itens para estimar
suas habilidades. Alm disso, uma srie de mudanas deveria ser realizada na base de
dados o que tornaria praticamente invivel para efeitos do presente trabalhos.
Para atingir os objetivos do presente trabalho, decidiu-se que as manipulaes
fossem realizadas sem alterao das formas de teste (FORM) e com alterao dos itens do
teste como um todo (GROUP=5). Dessa forma, a busca de um paralelismo entre as provas
no seria realizada, j que no seria possvel mudar a ordem dos itens. No entanto, a partir
da manipulao dos itens relacionados no Grupo 5, testes com delineamentos diversos
puderam ser constitudos.
65
a dificuldade da Prova Brasil Assim, foi composto um teste simulado com parmetro a
mdio de 1,40 e parmetro b mdio de 0,73 (lembrando que a ANEB apresentava a de
1,24 e b de 0,71; a Prova Brasil apresentou a de 1,87 e b de 0,79).
O Teste C foi composto buscando-se os itens com melhor discriminao, mas
considerando a distribuio de dificuldade da Prova Brasil. Se analisarmos a Prova Brasil,
verificaremos que em todos os blocos h itens dos mais diversos nveis de dificuldade: com
parmetro b inferior a -1, entre -1 e +1 e superior a +1. Procurou-se uma distribuio
aproximada. Os resultados foram razoavelmente satisfatrios.
Da mesma forma que para os outros testes, as estimativas das habilidades foram
calculadas e os resultados comparados com a ANEB e a Prova Brasil.
67
6. Resultados
6.1 Estudo 1: Comparao das estimativas de habilidade dos estudantes da ANEB e
da Prova Brasil
Os resultados mdios das estimativas de habilidade dos estudantes de 8 srie EF
em Matemtica entre a ANEB 2005 e a Prova Brasil 2005, considerando para a primeira
avaliao apenas os resultados dos estudantes de escolas pblicas (com escolas federais) e
urbanas, foram calculados. Os resultados so apresentados na tabela 6.1 em escala
normalizada (-3 a +3) para Brasil, Regies e Unidades da Federao, tendo por sua origem
mdia 0 e DP 1, referente media dos estudantes de 8 srie do SAEB 97 nessa mesma
disciplina. Para a ANEB 2005, foram considerados os pesos amostrais. Para a Prova Brasil
foram considerados pesos amostrais especificamente para a Rede Estadual de So Paulo
(CESGRANRIO, 2006, p. 2).
68
Tabela 6.1 - Comparao das mdias de estimativas de habilidade dos estudantes em matemtica, 8 srie EF,
ANEB e Prova Brasil - Brasil, Regies e UFs.
Prova Brasil
2005
ANEB 2005
UF
Brasil
Norte
Rondnia
Acre
Amazonas
Roraima
Par
Amap
Tocantins
Nordeste
Maranho
Piau
Cear
Rio Grande do Norte
Paraba
Pernambuco
Alagoas
Sergipe
Bahia
Sudeste
Minas Gerais
Esprito Santo
Rio de Janeiro
So Paulo
Sul
Paran
Santa Catarina
Rio Grande do Sul
Centro-Oeste
Mato Grosso do Sul
Mato Grosso
Gois
Distrito Federal
IC
Mdia
EP
-0,33
-0,50
-0,32
-0,48
-0,63
-0,55
-0,42
-0,48
-0,56
-0,59
-0,66
-0,57
-0,60
-0,57
-0,58
-0,63
-0,67
-0,34
-0,54
-0,23
-0,02
-0,17
-0,31
-0,33
-0,07
-0,20
-0,04
0,05
-0,31
-0,19
-0,40
-0,39
-0,03
-4,45
-4,45
-4,39
-4,43
-4,42
-4,39
-4,43
-4,43
-4,42
-4,45
-4,44
-4,40
-4,42
-4,43
-4,42
-4,43
-4,40
-4,41
-4,41
-4,43
-4,38
-4,41
-4,43
-4,41
-4,43
-4,37
-4,43
-4,43
-4,44
-4,43
-4,42
-4,43
-4,36
LI
95%
-0,37
-0,54
-0,47
-0,56
-0,73
-0,71
-0,51
-0,57
-0,67
-0,63
-0,72
-0,71
-0,70
-0,66
-0,68
-0,71
-0,80
-0,46
-0,66
-0,32
-0,20
-0,28
-0,40
-0,46
-0,16
-0,40
-0,13
-0,03
-0,37
-0,28
-0,51
-0,47
-0,25
LS
95%
-0,28
-0,45
-0,17
-0,40
-0,53
-0,38
-0,34
-0,39
-0,45
-0,55
-0,59
-0,43
-0,50
-0,49
-0,48
-0,55
-0,53
-0,21
-0,41
-0,14
0,16
-0,05
-0,21
-0,20
0,01
-0,01
0,05
0,13
-0,25
-0,09
-0,29
-0,32
0,20
Diferena
Sig.
0,15
0,19
0,17
0,14
0,26
0,32
0,11
0,12
0,26
0,15
0,23
0,24
0,16
0,17
0,10
0,14
0,17
0,01
0,12
0,14
-0,01
0,10
0,19
0,21
0,11
0,24
0,04
0,01
0,16
0,17
0,18
0,18
0,06
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Mdia
-0,18
-0,31
-0,15
-0,34
-0,37
-0,23
-0,31
-0,36
-0,30
-0,44
-0,43
-0,33
-0,44
-0,40
-0,48
-0,49
-0,50
-0,33
-0,42
-0,09
-0,03
-0,07
-0,12
-0,12
0,04
0,04
0,00
0,06
-0,15
-0,02
-0,22
-0,21
0,03
*
*
*
*
*
*
*
*
*
*
69
Habilidade
Teste
N
Mdia
DP
Mnimo
Mximo
Prova Brasil
1.610.073
-0,1786
0,7617
-2,11
2,79
ANEB
2.515.731
-0,3283
0,8157
-2,79
2,98
70
Figura 6.1 - Percentual de estudantes por faixa de estimativa de habilidades em matemtica, 8 srie EF,
ANEB e Prova Brasil - Brasil.
A distribuio das estimativas de habilidade para a Prova Brasil est deslocada para
a direita do grfico em comparao da ANEB. Assim, nas faixas -1 a 0, 0 a +1 e +1 a +2,
estimativas de um nmero maior estudantes obtidas pela Prova Brasil que pela ANEB so
observadas. Nas faixas -3 a -2 e -2 a -1, um percentual maior de estimativas de habilidade
obtidas pela ANEB foi encontrada. Para tornar mais evidente a diferena entre as
distribuies, a figura 6.2 apresenta a distribuio de estudantes por faixa de habilidade.
71
Figura 6.2 - Distncias entre percentuais de estudantes por faixa de estimativas de habilidade em matemtica,
8 srie EF, ANEB e Prova Brasil - Brasil.
Tabela 6.3 - Itens excludos das anlises do teste de matemtica 8 srie EF da ANEB 2005.
Excludos
TCT
TRI e DIF
Bloco
Posio
Descritor
D10
D03
D21
13
D01
D04
D07
12
D32
D08
D01
10
10
10
11
11
Para a Prova Brasil foram excludos trs itens por no apresentarem parmetros da
TCT satisfatrios (CESGRANRIO, 2006), os quais no foram considerados para a anlise
TRI. A lista dos itens excludos apresentada na tabela 6.4. As habilidades dos estudantes
de 8 srie EF da Prova Brasil foram estimadas tendo por base um total de 81 itens.
Tabela 6.4 - Itens excludos das anlises do teste de matemtica 8 srie EF da Prova Brasil 2005.
Excludos
TCT
Bloco
Posio
Descritor
D14
D27
12
D32
73
matemtica 8 srie EF foram calculados para a ANEB e para a Prova Brasil. Os resultados
por tema esto apresentados na tabela 6.5.
Para permitir a comparao da cobertura da matriz de 8 srie EF, os itens de 4
srie EF includos no teste de matemtica 8 srie EF da ANEB foram desconsiderados.
Para a ANEB, foram considerados 121 itens: (a) os itens de 8 srie EF; (b) os itens que
no foram excludos das anlises. Para a Prova Brasil, foram considerados 81 itens que no
foram excludos das anlises.
Tabela 6.5 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF, ANEB e Prova
Brasil.
ANEB
Tema
Prioridade
itens
Prova Brasil
n
itens
I - Espao e Forma
33
27,3
26
32,1
II - Grandezas e Medidas
10
8,3
9,9
69
57,0
43
53,1
IV - Tratamento da Informao
7,4
4,9
Total
121
100
81
100
descritores, nmero inferior aos demais. Se houvesse a previso que o mesmo apresentasse
um nmero de itens semelhante ao do tema I - Espao e Forma, por apresentarem mesma
prioridade, ou seja, cerca de 30% dos testes, um nmero muito grande de itens cobriria os
descritores 36 e 37 (nicos representantes do tema IV). Os especialistas responsveis pela
elaborao dos testes decidiram por abrir mo desse critrio de prioridades especificamente
para o tema IV para evitar uma supercobertura desses dos seus descritores.
Considerando os testes da ANEB e da Prova Brasil como um todo, a tabela 6.6
apresenta as freqncias e os percentuais de itens por descritor da matriz, bem como a
diferena entre percentuais de itens por descritor. Os dados esto ordenados em funo das
diferenas entre percentuais. Neste caso, quando o valor negativo, h um percentual
menor de itens da ANEB cobrindo o descritor, em comparao Prova Brasil. Quando o
valor positivo, h um percentual maior de itens da ANEB cobrindo o descritor, em
comparao Prova Brasil.
75
Tabela 6.6 - Nmero, percentual de itens por descritor e diferena entre percentuais dos testes de matemtica,
8 srie EF, ANEB e Prova Brasil.
Descritor
D17
D18
D22
D36
D13
D20
D04
D06
D25
D35
D23
D34
D16
D05
D01
D27
D02
D07
D28
D29
D21
D37
D03
D14
D15
D26
D10
D11
D24
D09
D08
D30
D12
D19
D33
D32
D31
Total
ANEB
n itens
7
5
5
4
3
5
3
3
3
3
4
4
5
2
3
3
4
4
4
4
1
5
2
2
2
2
3
3
3
4
2
2
3
3
3
1
2
121
Prova Brasil
%
5,8
4,1
4,1
3,3
2,5
4,1
2,5
2,5
2,5
2,5
3,3
3,3
4,1
1,7
2,5
2,5
3,3
3,3
3,3
3,3
0,8
4,1
1,7
1,7
1,7
1,7
2,5
2,5
2,5
3,3
1,7
1,7
2,5
2,5
2,5
0,8
1,7
100,0
n itens
0
0
0
0
0
2
1
1
1
1
2
2
3
1
2
2
3
3
3
3
1
4
2
2
2
2
3
3
3
4
3
3
4
4
4
3
4
81
%
0,0
0,0
0,0
0,0
0,0
2,5
1,2
1,2
1,2
1,2
2,5
2,5
3,7
1,2
2,5
2,5
3,7
3,7
3,7
3,7
1,2
4,9
2,5
2,5
2,5
2,5
3,7
3,7
3,7
4,9
3,7
3,7
4,9
4,9
4,9
3,7
4,9
100,0
Diferena de %
5,8
4,1
4,1
3,3
2,5
1,7
1,2
1,2
1,2
1,2
0,8
0,8
0,4
0,4
0,0
0,0
-0,4
-0,4
-0,4
-0,4
-0,4
-0,8
-0,8
-0,8
-0,8
-0,8
-1,2
-1,2
-1,2
-1,6
-2,1
-2,1
-2,5
-2,5
-2,5
-2,9
-3,3
-
76
itens por descritor. Por sua vez, a Prova Brasil no contemplou a matriz completa.
Observou-se que cinco descritores no foram cobertos por nenhum item.
Nos extremos inferior e superior da tabela 6.6 so destacados os descritores com
diferenas superiores a 2% entre as avaliaes. Os descritores 17, 18, 22, 36 e 13 foram
cobertos com um nmero maior na ANEB que na Prova Brasil. J os descritores 88, 30, 12,
19, 33, 32 e 31 foram cobertos com um percentual maior de itens na Prova Brasil que na
ANEB.
77
Tabela 6.7 - Parmetros psicomtricos dos itens estimados pela TRI - testes de matemtica, 8 srie EF,
ANEB e Prova Brasil.
Teste
n
itens
Mdia
DP
Mdia
DP
Mdia
DP
ANEB
155
1,24
0,61
0,71
1,26
0,19
0,09
Prova Brasil
81
1,87
0,70
0,79
1,03
0,19
0,08
78
Tabela 6.8 - Parmetros psicomtricos dos itens estimados pela TRI por Bloco - teste de matemtica,
8 srie EF, ANEB.
Bloco
itens
Mdia
13
DP Mn
Mx
Mdia
DP Mn
Mx
Mdia
DP Mn
Mx
0,9
0,5
0,4
2,2
0,8
1,4 -2,0
2,6
0,2
0,1
0,0
0,3
13
1,3
0,6
0,5
2,7
1,1
1,2 -1,1
2,5
0,2
0,1
0,1
0,3
12
1,5
0,6
0,7
2,7
1,1
1,2 -1,3
2,7
0,1
0,1
0,0
0,2
10
1,2
0,7
0,5
2,7
0,9
1,0 -0,8
2,1
0,2
0,1
0,0
0,4
10
1,1
0,4
0,6
1,7
0,9
1,3 -1,5
2,9
0,2
0,1
0,0
0,3
12
1,2
0,5
0,6
1,9
1,6
1,2 -1,0
2,7
0,2
0,1
0,0
0,4
12
1,0
0,2
0,8
1,6
0,9
1,2 -1,6
2,8
0,2
0,1
0,0
0,3
13
1,0
0,6
0,3
2,6
1,0
0,6
0,2
2,0
0,2
0,1
0,1
0,4
13
1,1
0,5
0,4
2,6
-0,5
1,4 -2,6
1,7
0,2
0,1
0,0
0,4
10
10
1,0
0,4
0,4
1,8
-0,3
1,2 -2,9
1,0
0,2
0,1
0,0
0,3
11
11
1,1
0,2
0,9
1,6
-0,6
0,9 -2,0
1,1
0,2
0,1
0,1
0,2
12
13
1,9
0,8
1,1
3,6
1,1
1,0 -1,0
2,4
0,2
0,1
0,1
0,3
13
13
1,7
0,8
0,9
3,7
0,9
0,5
0,2
1,8
0,2
0,1
0,1
0,3
Mdia
1,2
0,5
0,6
2,4
0,7
1,1 -1,3
2,2
0,2
0,1
0,0
0,3
DP
0,3
0,2
0,2
0,7
0,7
0,3
0,9
0,6
0,0
0,0
0,0
0,1
Mnimo
10
0,9
0,2
0,3
1,6
-0,6
0,5 -2,9
1,0
0,1
0,1
0,0
0,2
Mximo
13
1,9
0,8
1,1
3,7
1,6
1,4
0,2
2,9
0,2
0,1
0,1
0,4
Amplitude
1,0
0,6
0,7
2,1
2,2
0,9
3,2
1,9
0,1
0,1
0,1
0,2
O nmero de itens por bloco variou de 10 a 13. Como para os blocos 12 e 13,
advindos do SAEB 2003, no houve excluso de itens, o teste contou com 26 itens comuns
entre anos. Contou tambm com 34 itens oriundos da 4 srie EF da ANEB 2005.
O parmetro b mdio dos blocos variou de -0,6 a 1,6 e em mdia o bloco
apresentou dificuldade de 0,7. Os blocos mais fceis originaram-se de 4 srie EF (9, 10 e
11) e o mais difcil foi o bloco 6 (1,6). Os dois blocos mais discriminativos foram o 12 e o
13 (parmetros a de 1,9 e 1,7), oriundos da 8 srie do SAEB 2003. Esses foram montados
propositalmente com itens bastante discriminativos para garantir a equalizao entre anos.
O bloco 1 foi o que apresentou a menor discriminao mdia (0,9). Os parmetros c
mdios dos blocos apresentaram pouca variabilidade com amplitude de 0,1. O bloco 3 se
mostrou com menor probabilidade de acerto ao acaso mdio (0,1). Estimando-se os
79
Tabela 6.9 - Parmetros psicomtricos dos itens estimados pela TRI por Bloco - teste de matemtica, 8 srie
EF, Prova Brasil.
Bloco
n itens
Mdia
DP Mn
Mx
Mdia
DP Mn
Mx
Mdia
DP Mn
Mx
12
2,0
0,9
1,0
3,7
0,6
1,2 -1,9
2,0
0,2
0,1
0,0
0,3
12
2,1
0,8
0,8
3,2
0,8
1,3 -1,6
2,8
0,2
0,1
0,0
0,3
1,5
0,3
0,8
1,9
0,6
1,1 -1,5
2,2
0,2
0,1
0,0
0,3
12
2,2
0,8
1,3
3,6
0,9
1,0 -0,8
2,1
0,2
0,1
0,1
0,3
12
1,8
0,7
1,0
3,7
1,0
0,6
0,2
1,9
0,2
0,1
0,1
0,3
12
1,7
0,4
1,1
2,5
0,7
1,1 -1,6
2,7
0,2
0,1
0,0
0,3
12
1,6
0,6
0,8
2,8
0,9
1,0 -1,2
2,3
0,2
0,1
0,0
0,3
Mdia
1,9
0,7
1,0
3,0
0,8
1,0 -1,2
2,3
0,2
0,1
0,1
0,3
DP
0,2
0,2
0,2
0,7
0,1
0,2
0,7
0,4
0,0
0,0
0,0
0,0
Mnimo
1,5
0,3
0,8
1,9
0,6
0,6 -1,9
1,9
0,2
0,1
0,0
0,3
Mximo
12
2,2
0,9
1,3
3,7
1,0
1,3
0,2
2,8
0,2
0,1
0,1
0,3
Amplitude
0,7
0,6
0,5
1,8
0,4
0,7
2,1
0,9
0,1
0,0
0,1
0,1
80
Caderno
n itens
Mdia
DP
Mdia
DP
36
1,1
0,5
1,0
1,3
37
1,3
0,6
1,3
1,2
34
1,3
0,6
1,0
1,1
33
1,1
0,6
0,9
0,9
35
1,1
0,5
0,6
1,6
34
1,1
0,4
0,8
1,4
36
1,0
0,4
0,5
1,1
39
1,3
0,7
0,5
1,3
36
1,3
0,7
0,0
1,3
10
34
1,0
0,4
0,0
1,3
11
37
1,4
0,7
0,6
1,3
12
38
1,7
0,7
1,0
0,9
13
36
1,3
0,7
0,9
1,0
14
38
1,1
0,6
1,0
1,1
15
36
1,2
0,6
0,5
1,4
16
32
1,2
0,5
0,6
1,4
17
33
1,2
0,5
0,7
1,4
18
35
1,4
0,7
1,0
1,1
19
38
1,3
0,7
1,1
0,8
20
38
1,0
0,4
0,4
1,5
21
36
1,1
0,6
0,7
1,2
22
36
1,2
0,5
0,0
1,4
23
33
1,4
0,7
0,6
1,2
24
34
1,4
0,6
0,4
1,2
25
38
1,3
0,7
1,2
1,2
26
38
1,3
0,7
1,0
1,0
Mdia
1,2
0,6
0,7
1,2
DP
0,2
0,1
0,4
0,2
Mnimo
32
1,0
0,4
0,0
0,8
Mximo
39
1,7
0,7
1,3
1,6
Amplitude
0,7
0,4
1,3
0,7
81
82
Tabela 6.11 - Parmetros psicomtricos dos itens estimados pela TRI por Caderno - teste de
matemtica, 8 srie EF, Prova Brasil.
Caderno
n itens
Mdia
DP
Mdia
DP
24
2,0
0,8
0,7
1,2
21
1,8
0,7
0,7
1,2
21
1,9
0,7
0,7
1,0
24
2,0
0,8
0,9
0,8
24
1,8
0,6
0,8
0,9
24
1,7
0,5
0,8
1,0
24
1,8
0,8
0,8
1,1
21
1,8
0,7
0,6
1,2
24
2,1
0,8
0,8
1,1
10
21
1,7
0,6
0,8
0,9
11
24
2,0
0,6
0,8
1,0
12
24
1,7
0,7
0,9
0,8
13
24
1,9
0,7
0,7
1,2
14
24
1,9
0,7
0,9
1,1
15
24
2,1
0,8
0,7
1,1
16
24
1,9
0,7
0,9
1,0
17
21
1,7
0,4
0,7
1,1
18
24
1,9
0,7
0,9
0,9
19
24
1,9
0,8
0,8
1,0
20
24
1,9
0,6
0,8
1,2
21
21
1,6
0,5
0,8
1,0
Mdia
1,9
0,7
0,8
1,0
DP
0,1
0,1
0,1
0,1
Mnimo
21
1,6
0,4
0,6
0,8
Mximo
24
2,1
0,8
0,9
1,2
Amplitude
0,5
0,4
0,3
0,4
83
foi
encontrado
na
literatura
nenhum
estudo
que
avaliasse
6.3 Estudo 3: Estimao das habilidades dos estudantes da ANEB sob novas
configuraes de teste
O estudo 3 foi composto por seis anlises que buscaram estimar as habilidades dos
estudantes da ANEB 2005 por meio do software BILOG-MG. Para todas as anlises,
considerou-se a base de dados completa. As estatsticas calculadas e apresentadas nesta
seo, por sua vez, contemplam exclusivamente os estudantes de escolas pblicas urbanas.
Consideraram-se os pesos para clculo dessas estatsticas, assim os resultados representam
2.515.731 estudantes da ANEB. Para as duas primeiras anlises, foram utilizados os testes
da ANEB em sua verso original com 155 itens e buscou-se verificar se atingiam os
mesmos resultados do INEP, exclusivamente para efeito de controle. As demais quatro
85
anlises buscaram estimar as habilidades dos estudantes a partir da reduo pela seleo de
itens da ANEB original.
6.3.1 Estimao das habilidades de acordo com os critrios utilizados pelo INEP
Utilizando o programa BILOG-MG (verso 1) e a programao (ou os arquivos
.blm) disponibilizado pelo INEP e que foi utilizada para estimao das habilidades dos
estudantes para a ANEB 2005, procedeu-se a replicao da anlise. O objetivo foi atingir
os mesmos resultados da fase 3 do software para dar continuidade s outras anlises do
presente estudo.
Os resultados obtidos foram idnticos aos estimados pelo INEP. Para matemtica 8
srie EF da ANEB, em seus estratos de escolas pblicas e urbanas do Brasil, a mdia da
estimativa de habilidade obtida foi de -0,3283 com DP de 0,8157. Ainda mnimo de -2,79 e
mximo de 2,98. Todos idnticos aos divulgados pelo INEP, como era de se esperar, j que
estava sendo utilizada a mesma programao.
6.3.2 Estimao das habilidades a partir da desvinculao dos itens entre sries para
o ano de 2005
Itens da 4 srie EF includos no teste de 8 srie EF da ANEB e itens de 8 srie EF
includos na 3 srie EM foram desvinculados em relao ao comando de nomes
(INAMES, do arquivo .blm), parmetros a, b e c (TEST) e Grupos (GROUP) de tal forma
que quaisquer manipulaes posteriores do programa, em termos de excluso de itens para
composio de novas estruturas de testes, fossem possveis. Foi realizada adicionalmente a
repetio do conjunto dos parmetros a, b e c desses itens para a srie posterior.
Esperavam-se resultados idnticos j que essa modificao mantm um conjunto de itens
de 4 e 8 e de 8 e 3 com parmetros idnticos.
Os resultados obtidos foram iguais aos obtidos na rodada com a programao
original realizada pelo INEP. Para matemtica 8 srie da ANEB, em seus estratos de
escolas pblicas e urbanas do Brasil, considerando-se os pesos amostrais, foi obtida a
mdia de habilidade de -0,3283 com DP de 0,8157; mnimo de -2,79 e mximo de 2,98.
6.3.3 Teste A: estimao das habilidades a partir de 104 itens com parmetros
similares aos da ANEB
O teste A foi composto a partir da reduo do nmero de itens do teste de
matemtica 8 srie EF original da ANEB, com base na programao do BILOG-MG
86
citada no tpico 6.3.2. Foi constitudo a partir da reduo de 155 para 104 itens, de forma
que fossem considerados 24 itens para cada estudante de 8 srie EF da ANEB, mesmo
nmero (ou aproximadamente o mesmo, j que seis cadernos da Prova Brasil foram
compostos por 21 itens) considerado para a Prova Brasil dessa mesma srie e disciplina.
Refora-se a informao que h diferena entre o Teste A e a Prova Brasil no total de itens
considerados (104 e 81, respectivamente). Os critrios de modificao do teste original
foram detalhados no mtodo do presente trabalho.
A reduo do nmero de itens no resultou em um distanciamento de alinhamento
matriz muito significativo com relao ANEB e Prova Brasil em termos de percentuais
de itens por tema (Tabela 6.12).
Tabela 6.12 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF, Prova Brasil,
ANEB e Teste A.
Prova Brasil
Tema
ANEB
Teste A
n itens
n itens
n itens
26
32,1
44
28,4
29
27,9
II
9,9
16
10,3
12
11,5
III
43
53,1
86
55,5
55
52,9
IV
4,9
5,8
7,7
Total
81
100,0
155
100,0
104
100,0
Teste
n
itens
Habilidade
Mdia
DP
Mdia
DP
Mdia
DP
Mnimo
Mximo
Prova Brasil
81
1,87
0,70
0,79
0,7617
-2,11
2,79
ANEB
155
1,24
0,61
0,71
0,8157
-2,79
2,98
Teste A
104
1,25
0,60
0,71
0,7855
-2,17
2,93
88
Figura 6.3 - Distncias entre percentuais de estudantes por faixa de habilidade - matemtica, 8 srie EF,
Prova Brasil, ANEB original e Teste A.
89
Tabela 6.14 - Parmetros psicomtricos dos itens e habilidades estimadas - teste de matemtica, 8 srie EF,
Prova Brasil, ANEB original, Teste A e Teste B.
Teste
n
itens
Habilidade
Mdia
DP
Mdia
DP
Mdia
DP
Mnimo
Mximo
Prova Brasil
81
1,87
0,70
0,79
0,7617
-2,11
2,79
ANEB
155
1,24
0,61
0,71
0,8157
-2,79
2,98
Teste B
104
1,46
0,62
0,97
0,7506
-2,59
2,97
90
A figura 6.4 apresenta a distribuio das estimativas de habilidade por faixa para a
Prova Brasil, a ANEB e o Teste B.
Figura 6.4 - Distncias entre percentuais de estudantes por faixa de habilidade - matemtica, 8 srie EF,
Prova Brasil, ANEB e Teste B.
91
Tabela 6.15 - Percentual de estudantes por faixa de habilidade estimada, nmero e percentual de itens, mdia
e DP do parmetro a - teste de matemtica, 8 srie EF, Prova Brasil.
Faixa
Habilidade
Itens
Mdia
DP
-3 a -2
0,1
0,00
-2 a -1
13,9
7,41
1,30
0,37
-1 a 0
47,5
9,88
1,52
0,32
0 a +1
31,5
31
38,27
1,63
0,56
+1 a +2
6,6
30
37,04
2,32
0,76
+2 a +3
0,5
7,41
1,85
0,36
100,0
81
100
Total
Tabela 6.16 - Percentual de estudantes por faixa de habilidade estimada, nmero e percentual de itens, mdia
e DP do parmetro a - teste de matemtica, 8 srie EF, Teste B.
Faixa
Habilidade
Itens
Mdia
DP
-3 a -2
0,9
1,92
1,10
0,07
-2 a -1
15,4
3,85
1,01
0,04
-1 a 0
51,7
12
11,54
1,12
0,26
0 a +1
26,2
34
32,69
1,39
0,63
+1 a +2
5,4
33
31,73
1,71
0,72
+2 a +3
0,3
19
18,27
1,53
0,47
100,0
104
100
Total
92
para a primeira faixa e seis por cento a mais do segundo teste para a segunda faixa. Total
de cada faixa para cada teste: 79% para a Prova Brasil e 78% para o Teste B. Considerouse como hiptese a possibilidade de aproximadamente os mesmos estudantes estarem entre
as faixas.
A Prova Brasil foi mais discriminativa que o Teste B para as faixas -1 a 0 (1,52 a
1,12) e 0 a +1 (1,63 a 1,39). Para o Teste B, foi o mximo que se conseguiu em termos
discriminao para 104 itens e 24 respostas por estudantes. O Teste B no se distanciou
muito em termos de percentuais de itens por tema em comparao Prova Brasil e
ANEB (Tabela 6.17).
Tabela 6.17 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF, para Prova Brasil,
ANEB e Teste B.
Prova Brasil
Tema
ANEB
Teste B
n itens
n itens
n itens
26
32,1
44
28,4
31
29,8
II
9,9
16
10,3
11
10,6
III
43
53,1
86
55,5
61
58,7
IV
4,9
5,8
1,0
Total
81
100,0
155
100,0
104
100,0
93
Teste
n
itens
Habilidade
Mdia
DP
Mdia
DP
Mdia
DP
Mnimo
Mximo
Prova Brasil
81
1,87
0,70
0,79
0,7617
-2,11
2,79
ANEB
155
1,24
0,61
0,71
0,8157
-2,79
2,98
Teste C
104
1,40
0,64
0,73
0,7795
-2,43
2,92
94
Figura 6.5 - Distncias entre percentuais de estudantes por faixa de habilidade - matemtica, 8 srie EF,
Prova Brasil, ANEB e Teste C.
95
Tabela 6.19 - Percentual de estudantes por faixa de habilidade estimada, nmero e percentual de itens, mdia
e DP do parmetro a - teste de matemtica, 8 srie EF, Teste C.
Habilidade
Faixa
Itens
Mdia
DP
-3 a -2
0,50
0,96
1,15
-2 a -1
19,17
5,77
0,87
0,18
-1 a 0
47,18
19
18,27
1,02
0,31
0 a +1
27,39
34
32,69
1,32
0,61
+1 a +2
5,39
29
27,88
1,76
0,73
+2 a +3
0,37
15
14,42
1,58
0,51
Total
100,0
104
100
Tabela 6.20 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF, para Prova Brasil,
ANEB e Teste C.
Prova Brasil
Tema
ANEB
Teste C
n itens
n itens
n itens
26
32,1
44
28,4
32
30,8
II
9,9
16
10,3
10
9,6
III
43
53,1
86
55,5
55
52,9
IV
4,9
5,8
6,7
Total
81
100,0
155
100,0
104
100,0
96
Tabela 6.21 - Parmetros psicomtricos dos itens e habilidades estimadas - teste de matemtica, 8 srie EF,
Prova Brasil, ANEB e Teste D.
Teste
n
itens
Habilidade
Mdia
DP
Mdia
DP
Mdia
DP
Mnimo
Mximo
Prova Brasil
81
1,87
0,70
0,79
0,7617
-2,11
2,79
ANEB
155
1,24
0,61
0,71
0,8157
-2,79
2,98
Teste D
81
1,61
0,62
0,99
0,7292
-2,53
2,94
97
Figura 6.6 - Distncias entre percentuais de estudantes por faixa de habilidade - matemtica, 8 srie EF,
Prova Brasil, ANEB e Teste D.
98
Tabela 6.22 - Percentual de estudantes por faixa de habilidade estimada, nmero e percentual de itens, mdia
e DP do parmetro a - teste de matemtica, 8 srie EF, Teste D.
Habilidade
Nvel
Itens
Mdia
DP
-3 a -2
0,82
2,47
1,10
0,07
-2 a -1
13,82
3,70
1,03
0,02
-1 a 0
52,83
10
12,35
1,19
0,24
0 a +1
27,48
23
28,40
1,58
0,68
+1 a +2
4,63
26
32,10
1,91
0,67
+2 a +3
0,43
17
20,99
1,58
0,47
Total
100,0
81
100
Com exceo da faixa -3 a -2, todas as outras apresentaram itens com parmetro a
mdio superior para a Prova Brasil. Mesmo com todos os esforos na tentativa de tornar
Teste D e Prova Brasil similares, no foi possvel, j que o nmero de itens com um bom
grau de discriminao foi superior para a Prova Brasil. O Teste D no se distanciou muito
em termos de percentuais de itens por tema em comparao Prova Brasil e ANEB
(Tabela 6.23).
Tabela 6.23 - Nmero e percentual de itens por tema dos testes de matemtica, 8 srie EF, para Prova Brasil,
ANEB e Teste D.
Prova Brasil
Tema
ANEB
Teste D
n itens
n itens
n itens
26
32,1
44
28,4
27
33,3
II
9,9
16
10,3
8,6
III
43
53,1
86
55,5
46
56,8
IV
4,9
5,8
1,2
Total
81
100,0
155
100,0
81
100,0
99
As maiores discrepncias do Teste D com a Prova Brasil referem-se aos temas III e
IV (4%). Cabe uma ateno especial para essas diferenas na cobertura da matriz quanto
da anlise dos resultados obtidos pelo Teste D e sua aproximao da Prova Brasil.
Tabela 6.24 - Parmetros psicomtricos dos itens e habilidades estimadas - teste de matemtica, 8 srie EF,
Prova Brasil, ANEB original, Testes A a D.
Teste
n
itens
Habilidade
Mdia
DP
Mdia
DP
Mdia
DP
Mnimo
Mximo
Prova Brasil
81
1,87
0,70
0,79
0,7617
-2,11
2,79
ANEB
155
1,24
0,61
0,71
0,8157
-2,79
2,98
Teste A
104
1,25
0,60
0,71
0,7855
-2,17
2,93
Teste B
104
1,46
0,62
0,97
0,7506
-2,59
2,97
Teste C
104
1,40
0,64
0,73
0,7795
-2,43
2,92
Teste D
81
1,61
0,62
0,99
0,7292
-2,53
2,94
101
Figura 6.7 - Grfico de disperso entre nmero de itens no teste e habilidade estimada mdia - matemtica, 8
srie EF, Prova Brasil, ANEB, Testes A a D.
102
Figura 6.8 - Grfico de disperso entre parmetro a mdio e habilidade estimada mdia - matemtica, 8 srie
EF, Prova Brasil, ANEB, Testes A a D.
103
Figura 6.9 - Percentuais de estudantes por faixa de estimativas de habilidade - matemtica, 8 srie EF, Prova
Brasil, ANEB, Teste A a D.
104
Tabela 6.25 - Percentual de itens por faixa de habilidades estimadas - teste de matemtica, 8 srie EF, Prova
Brasil, ANEB, Testes A a D.
Habilidade
Teste
Total
-3 a -2
-2 a -1
-1 a 0
0 a +1
+1 a +2
+2 a +3
Prova Brasil
0,0
7,4
9,9
38,3
37,0
7,4
100,0
ANEB
3,2
7,1
15,5
30,3
29,0
14,8
100,0
Teste A
0,0
5,8
19,2
33,7
28,8
12,5
100,0
Teste B
1,9
3,8
11,5
32,7
31,7
18,3
100,0
Teste C
1,0
5,8
18,3
32,7
27,9
14,4
100,0
Teste D
2,5
3,7
12,3
28,4
32,1
21,0
100,0
Tabela 6.26 - Parmetro a mdio por faixa de habilidades estimadas - teste de matemtica, 8 srie
EF, Prova Brasil, ANEB, Testes A a D.
Habilidade
Teste
-3 a -2
-2 a -1
-1 a 0
0 a +1
+1 a +2
+2 a +3
1,3
1,5
1,6
2,3
1,8
ANEB
0,7
0,9
1,0
1,3
1,4
1,4
Teste A
0,8
0,9
1,2
1,6
1,4
Teste B
1,1
1,0
1,1
1,4
1,7
1,5
Teste C
1,2
0,9
1,0
1,3
1,8
1,6
Teste D
1,1
1,0
1,2
1,6
1,9
1,6
Prova Brasil
EPM
Prova Brasil
0,48
ANEB
0,42
Teste A
0,48
Teste B
0,51
Teste C
0,47
Teste D
0,55
O EPM funciona como um ndice de fidedignidade dos testes, de forma que, quanto
maior o valor, menor a fidedignidade. A ANEB apresentou o menor EPM mdio (0,42). O
Teste D apresentou o menor ndice de fidedignidade (EPM mdio de 0,55). Observou-se
relao inversa entre o tamanho do erro e o nmero de questes contidas em cada um dos
cadernos de teste (aproximadamente, 39 para a ANEB, 24 para os testes A, B e C e 18 para
o Teste D), como pode ser verificado na Figura 6.10.
107
Figura 6.10 - Percentuais de estudantes por faixa de estimativas de habilidade - matemtica, 8 srie EF,
Prova Brasil, ANEB, Teste A a D.
108
Figura 6.11 - EPM mdio por faixa de habilidade estimada - matemtica, 8 srie EF, Prova Brasil, ANEB,
Teste A a D.
109
Figura 6.12 - Informao por faixa de habilidade estimada - matemtica, 8 srie EF, Prova Brasil, ANEB,
Teste A a D.
110
7. Discusso
O estudo para verificao da relao entre caractersticas do teste e a validade e a
fidedignidade das estimativas de habilidade relevante ao contexto atual do SAEB.
Mesmo que os testes tenham se pautado na mesma matriz de referncia e na mesma
estrutura de itens, em 2005 e 2007, o sistema de avaliao foi modificado em alguns
aspectos referentes ao seu delineamento. A expanso do pblico avaliado foi acompanhada
da mudana do tamanho do teste e do nmero de itens e de disciplinas que cada estudante
respondeu entre 2003 e 2005 e, novamente, de 2005 para 2007.
Qual a limitao da TRI em fornecer estimativas de habilidade independentemente
do teste utilizado (Baker, 2001; Hambleton, Swaminathan & Rogers, 1991)? De que forma
caractersticas de tamanho do teste, discriminao, dificuldade e poder de informao esto
associados s estimativas de habilidade? O presente trabalho buscou evidncias para
esclarecer tais questes.
Tais temas no podem ser abordados sem considerar os fatores que extrapolam o
mbito do teste e que esto associados com a avaliao. Se o grau de validade e de
fidedignidade dos resultados da avaliao sofre influncia de um conjunto de fatores
externos ao teste e se est interessado na parcela da varincia explicada pelos testes, cabe o
controle dessas variveis. Identificaram-se na literatura os seguintes fatores que extrapolam
o teste, mas que tem efeito na varincia da habilidade estimada: nmero de estudantes
avaliados, procedimentos de aplicao, mtodo de equalizao, influncias motivacionais e
tempo de aplicao. Citam-se alguns aspectos referentes ao contexto da avaliao e que
podem influenciar seu grau de validade e de fidedignidade: mobilizao de agentes
educacionais para a execuo da avaliao e a previso de utilidade de seus resultados;
fatores motivacionais que influenciam no empenho dos estudantes em responder aos itens;
pblico avaliado.
O SAEB sempre contou com o apoio das Secretarias de Estado da Educao para
conferncia da amostra, treinamento dos aplicadores, estocagem, conferncia e distribuio
de materiais e administrao dos testes. Muitos dos recursos humanos envolvidos na
aplicao dos testes foram oriundos das Secretarias. Isso sempre tornou o trabalho do INEP
prximo s Secretarias que, com apoio maior ou menor, viabilizavam o trabalho de campo.
Em todos os ciclos do SAEB, houve divulgao, em maior ou menor grau aos agentes
educacionais e populao.
No entanto, por vezes, observam-se questionamentos e crticas de agentes
educacionais quanto pertinncia da avaliao, principalmente sob o formato
111
apenas nesse escopo. Os fatores relacionados ao contexto em que a testagem ocorre e aos
testandos foram bastante semelhantes entre as avaliaes. Os estudantes de escolas
pblicas e urbanas avaliados pela ANEB apresentam caractersticas semelhantes ao grupo
de estudantes avaliado pela Prova Brasil. Questionou-se se a grande diferena no nmero
de pessoas entre os grupos gerou influncias sobre as estimativas de habilidade entre as
avaliaes, propiciando resultados significativamente diferentes para matemtica 8 srie
EF. Os estudos de Cond (2007) e de Rabello (2007) observaram praticamente os mesmos
resultados de estimativas de habilidade mdias entre ANEB e Prova Brasil para lngua
portuguesa 8 srie EF. Como o teste de matemtica foi aplicado juntamente com o de
lngua portuguesa para a srie e apenas os resultados de matemtica apresentaram
diferenas significativas, considera-se que o nmero de casos utilizados para estimar as
habilidades no tenha influenciado substancialmente na diferena entre os resultados.
Ambas as avaliaes forneceram fatores motivadores semelhantes aos estudantes
que os responderam. No foram encontradas nos relatrios do SAEB informaes que
indicassem que os estudantes da Prova Brasil 2005 receberam estmulo motivador
diferenciado que os fizessem responder com mais afinco a Prova Brasil, de forma que
essas apresentassem resultados mais fidedignos e melhores resultados de desempenho. O
mesmo se pode dizer com relao ANEB 2005. Aes de gesto visando divulgar e
incentivar a avaliao na escola tm bastante impacto no desempenho dos estudantes. Em
2005, no entanto, parecem ter ocorrido similarmente entre as avaliaes.
Aspectos inerentes administrao dos testes impactam tanto na fidedignidade
(Cohen & Swerdlik, 2002; Cronbach, 1996; Urbina, 2007), quanto na validade dos
resultados da avaliao (Oshima, 1994; Bolt, Cohen e Wollack, 2002; Sireci, 2005; Sireci,
Scarpati e Li, 2005; Lu e Sireci, 2007). Questionou-se at que ponto aspectos relacionados
aplicao, que inclui instrues, tempo disponvel aos respondentes associado ao
tamanho do teste, influncia da velocidade em teste de potncia no cansao e na motivao
(Oshima, 1994) influenciaram significativamente na validade e na fidedignidade dos
resultados da ANEB e da Prova Brasil. Indagou-se at que ponto a administrao de 48
itens (24 de matemtica, 24 de lngua portuguesa) para cada estudante da Prova Brasil,
nmero superior ao teste da ANEB em que os estudantes responderam a 39 itens, pode ter
gerado cansao, desmotivao ou mesmo o tempo no tenha sido suficiente para os
respondentes da Prova Brasil especificamente no caso de matemtica 8 srie EF. No se
tm evidncias para acreditar que os resultados de diferenas entre ANEB e Prova Brasil
tenham ocorrido em funo da falta de motivao e do cansao associados ao nmero de
113
apresentados (Bock & Zimowski, 1995) para a estimao das habilidades da ANEB e da
Prova Brasil.
O delineamento da ANEB e da Prova Brasil apresentam semelhanas entre si, que
possibilita o estudo sobre a relao dos testes com as estimativas de habilidade. Permitenos realizar uma srie de anlises comparativas, j que utilizam a mesma escala para
parmetros de itens e de habilidade, mesmo modelo TRI, mesma estrutura de questo de
teste construdos sobre uma mesma matriz de referncia.
Urbina (2007) considerou que os procedimentos de validao de testes so
defendidos com argumentos lgicos e relaes demonstrveis entre o contedo do teste e o
construto que esse pretende representar. Para ambos os testes, encontraram-se evidncias
que contriburam para a validade dos resultados, j que os itens foram elaborados e
revisados por especialistas da rea de matemtica, capacitados em tcnicas de construo
de itens, preocupados de garantir a convergncia entre dos itens com a matriz de
referncia. No bastasse a anlise realizada pelo INEP para as etapas de elaborao e de
reviso de itens, que ocorreram anteriormente composio do teste definitivo, aps a
administrao dos testes, promoveu-se nova anlise pedaggica. Inclusive, verificou-se que
alguns itens foram excludos por motivos pedaggicos e no foram includos na anlise
psicomtrica.
Tambm com relao validade baseada no contedo do teste, os testes de
matemtica 8 srie EF da ANEB e da Prova Brasil no se diferiram em termos das
expresses utilizadas nas tarefas ou mesmo em termos do formato dos itens. As orientaes
e os procedimentos de elaborao e de reviso tcnico-pedaggicas foram os mesmos.
Assim, foram utilizados itens com idntica estrutura terica e formato de enunciado e com
quatro opes de respostas para uma possibilidade de resposta correta. No se pode afirmar
que as expresses utilizadas para a elaborao dos itens, ou seu formato, tenham
prejudicado individualmente a validade dos resultados da ANEB ou da Prova Brasil e
propiciado diferenas entre os resultados de estimativas de habilidade.
Cabe questionar se a validade dos resultados foi influenciada em funo da falta de
familiaridade dos estudantes com relao ao formato de mltipla escolha das questes. Os
achados do presente estudo no so capazes de permitir inferncias sobre o tema e isso
remeteria discusso da validade do SAEB como um todo, desde sua primeira aplicao,
em 1995, sob a atual estrutura.
No que tange ao tipo de evidncia de validade baseada no contedo do teste
(AERA, APA & NCME, 1999), em seus aspectos associados aos temas avaliados,
115
cumprimento
(MEC/INEP/DAEB,
2005a;
do
cronograma
2005b)
116
no
estipulado
contrato,
nos
embora
projetos
o
bsicos
estudo
de
117
de habilidade foram superiores para o Teste D (0,27), mas aqum dos resultados da Prova
Brasil.
A relao direta encontrada entre discriminao e estimativas de habilidade mdias
deve ser analisada com cautela. Quando se excluem itens menos discriminativos, por
vezes, retiram-se dos testes itens com parmetro b baixo. Os itens dos testes passam a estar
concentrados nas faixas central e superiores da escala, como a Prova Brasil. Os
procedimentos adotados para simulao dos testes, em termos de distribuio de itens,
tornaram o Teste ANEB mais prximo das caractersticas da Prova Brasil. Isso pode ter
gerado aumento das estimativas mdias de habilidade.
H evidncias que o nmero de itens total e em cada caderno influencia na
fidedignidade dos resultados obtidos pelo teste. O EPM mdio ponderado pelo nmero de
estudantes foi maior para os testes com menor nmero de itens. O Teste ANEB com 155
itens apresentou os melhores resultados de ndice de fidedignidade e o Teste D, os piores.
Evidncia que quanto maior o nmero de itens do teste, maior a fidedignidade.
No entanto, como o EPM estimado para cada estudante que responde a um
determinado nmero de itens (Hambleton, Swaminathan & Rogers, 1991), houve razes
para acreditar que o tamanho do caderno de teste respondido por estudante tinha sido
determinante para a fidedignidade. Os resultados encontrados para o presente estudo
indicaram que os examinandos que responderam a cadernos de testes com um maior
nmero de itens apresentaram resultados de parmetro de habilidade com ndice de
fidedignidade maior (menores EPM). Os resultados da ANEB, teste em que os estudantes
respondiam a um nmero maior de itens (39), foram os mais fidedignos. O Teste D,
simulado de forma que os estudantes respondessem em torno de 18 itens, apresentou
resultados de habilidade estimada menos fidedignos.
No SAEB, a aplicao de um teste avaliando duas disciplinas vantajosa. Avaliamse duas reas do conhecimento e de competncia diferentes de cada estudante. O SAEB
mudou substancialmente seu delineamento com a Prova Brasil 2005, o mesmo estudante
passou a responder testes de duas disciplinas. O formato est associado a uma diminuio
da fidedignidade que os resultados apresentam em cada disciplina, j que o nmero de
itens que cada estudante responde para a Prova Brasil de uma mesma disciplina (24)
menor que o para a ANEB (39).
Observaram-se que todos os testes foram mais discriminativos (maiores parmetro
a) para a faixa de habilidade +1 a +2, seguido das faixas +2 a +3 e 0 a +1. Constatou-se
tambm para essas faixas os menores EPM e conseqentemente as maiores informaes.
118
pode ter gerado um menor desvio-padro para as estimativas de habilidade da Prova Brasil.
Os itens de 4 srie EF includos na ANEB tiveram uma relevncia para cobrir a faixa
inferior da escala.
Os resultados de parmetro de habilidade estimados a partir da simulao dos
Testes A a D no atingiram os obtidos para a Prova Brasil, que apresentou estimativa de
habilidade mdia maior que todos os testes. Os testes B e D alcanaram as estimativas de
habilidade mais prximas da Prova Brasil, mas inferiores. O aumento da discriminao dos
itens, associado diminuio do nmero de itens gerou resultados de habilidades
estimadas superiores aos da ANEB, mas fidedignidade inferior. O Teste D, inclusive,
apresentou o menor ndice de informao de todos os testes para todas as faixas, com
exceo da faixa +2 a +3, em funo do nmero de itens considerados por estudante ser
inferior aos demais testes. O Teste B apresentou ndice de informao superior ao da Prova
Brasil para as faixas superiores da escala, em funo do nmero de itens do teste como um
todo (104) ter sido superior ao da Prova Brasil (81). Para o Teste B e a Prova Brasil, foram
considerados cerca de 24 itens por estudante.
Para os testes B e D, observou-se, em comparao com a ANEB, um aumento do
parmetro b mdio, superior dificuldade da Prova Brasil. Associado a isso, verificou-se
um aumento do parmetro de habilidade mdia para os testes, o que indica que a
propriedade de invarincia do parmetro de habilidade em funo do parmetro b parece
proceder. Aumentando-se a dificuldade dos testes, no houve uma diminuio das
estimativas de proficincias, como na TCT.
120
8. Concluses
O estudo para verificao da associao entre caractersticas dos testes e
estimativas de habilidade pertinente, pois seus resultados podem orientar algumas
decises referentes ao planejamento metodolgico do SAEB e, inclusive, podem servir de
base para a construo de testes fora do mbito da referida avaliao. Permite, ainda, uma
reavaliao dos resultados encontrados para o SAEB 2005 (ANEB e Prova Brasil).
Os objetivos do presente estudo foram atingidos, pois foi possvel identificar em
que medida caractersticas dos testes, tais como cobertura da matriz, qualidade pedaggica,
configurao psicomtrica e tamanho, esto associadas validade e fidedignidade das
estimativas de habilidade de examinandos. Adicionalmente, forneceu informaes sobre
fatores associados s diferenas dos resultados de estimativas de habilidade entre ANEB e
Prova Brasil.
Citam-se as principais evidncias identificadas e que contribuem para a validade
dos resultados Prova Brasil e da ANEB: (a) utilizaram uma matriz de referncia elaborada
em consulta nacional com os especialistas e pautada nas Diretrizes Curriculares Nacionais;
(b) envolveram itens de teste elaborados e revisados por especialistas nas disciplinas
avaliadas e em tcnicas de construo; (c) utilizaram pr-teste para clculos das
informaes psicomtricas dos itens; (d) envolveram novamente especialistas para seleo
de itens e composio dos testes a partir dos resultados do pr-teste, de um esquema de
prioridades pedaggicas e visando uma cobertura equilibrada da matriz; (e) envolveram
novamente especialistas para uma ltima anlise pedaggica; e (f) utilizaram estudos de
verificao do DIF para tomada de deciso.
Os resultados do estudo de verificao da dimensionalidade, tambm relacionado
validade, realizado para a ANEB no foram utilizados para excluso de itens antes da
estimao das habilidades dos estudantes. Estudos de verificao da unidimensionalidade
para a Prova Brasil no foram encontrados na literatura. A incluso de possveis itens que
no contriburam significativamente para o fator principal pode ter impactado
negativamente na validade das estimativas de habilidade. Sugere-se a realizao de estudos
que busquem verificar esse impacto. Ainda, recomenda-se identificar as causas da norealizao ou da no-utilizao dos estudos de verificao da dimensionalidade antes da
realizao das estimaes das habilidades, j que foram previstos. Caso o motivo esteja
relacionado presso do INEP e do MEC para divulgao dos resultados, o que possvel,
sugere-se reviso de calendrio, j que estudos anteriores mostraram que o distanciamento
da unidimensionalidade apresenta efeito na invarincia do parmetro de habilidade da TRI.
121
123
9. Referncias
124
CESGRANRIO (2004). SAEB 2003: relatrio tcnico da anlise da teoria clssica dos
testes e da teoria de resposta ao item. Rio de Janeiro: Fundao CESGRANRIO.
CESGRANRIO (2006). Prova Brasil 2005: relatrio tcnico da anlise da teoria de
resposta ao item e da teoria clssica dos testes. Rio de Janeiro: Fundao
CESGRANRIO.
CESPE (2007a). ANEB 2005: relatrio da teoria clssica dos testes. Braslia: CESPE/UnB.
CESPE (2007b). ANEB 2005: relatrio tcnico da anlise da teoria de resposta ao item.
Braslia: CESPE/UnB.
CESPE (2007c). ANEB 2005: relatrio tcnico da anlise da teoria de resposta ao item
(verso 2). Braslia: CESPE/UnB.
Cohen, R. J. & Swerdlik, M. E. (2002). Psychological testing and assessment: an
introduction to tests and measuremente. USA: McGraw Hill.
Cond, F. N. & Laros, J. A. (2007). Unidimensionalidade e a propriedade de invarincia
das estimativas da habilidade pela TRI. Revista Avaliao Psicolgica, 2007, 6(2),
205-215.
Cond, F. N. & Rabello, G. C. (2001). A invarincia dos parmetros na teoria de resposta
ao item: um estudo com os dados do SAEB. Anais do marco de aprendizagem
contnua em avaliao. Salvador: UFBA/ISP/FAPEX.
Cond, F. N. (2002). A (in)dependncia da habilidade estimada pela teoria de resposta ao
item em relao dificuldade da prova: um estudo com os dados do SAEB.
Dissertao de Mestrado, Universidade de Braslia.
Cond, F. N. (2007). O efeito dos modelos de testes na estimativa da habilidade dos
estudantes: comparao entre Prova Brasil e SAEB 2005. Em 1 Primeira Jornada de
Avaliao Formativa do Programa de Ps-graduao em Psicologia Social do
Trabalho e das Organizaes PSTO da Universidade de Braslia. Braslia: UnB.
Cond, F. N. (2007b). O ndice de Qualidade da Educao Bsica: estrutura e comparao
com o IDEB. Resumo de apresentao em mesa redonda do III Congresso Brasileiro
de Avaliao Psicolgica e XII Conferncia Internacional de Avaliao Psicolgica:
Formas e Contextos. Braslia: IESB, UnB.
Cronbach, L. J. (1996). Fundamentos da testagem psicolgica. Porto Alegre: Artes
Mdicas.
Cronbach, L. J., Gleser, G. C, Rajaratnam, N. & Nanda, H. (1972). The dependability of
behavioral measurements. New York: Wiley.
125
Herman, J. L., Webb, N. & Zuniga, S. (2002). Alignment and college admissions: The
match of expectations, assessments, and educator perspectives. Artigo apresentado em
the annual meeting of the American Educational Research Association, New Orleans,
LA.
Instituto Nacional de Estudos e Pesquisas Educacionais INEP (1998). Relatrio Tcnico
da Amostra do Saeb 97. Braslia: INEP.
Instituto Nacional de Estudos e Pesquisas Educacionais INEP (1999). Matrizes
Curriculares de Referncia. Braslia: INEP.
Instituto Nacional de Estudos e Pesquisas Educacionais INEP (2001). Guia para
elaborao e reviso de itens. Braslia: INEP.
Instituto Nacional de Estudos e Pesquisas Educacionais INEP (2002). Saeb 2001: novas
perspectivas. Braslia: INEP.
Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira INEP (2005a).
ANRESC 2005: manual do aplicador. Braslia: Fundao CESGRANRIO.
Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira INEP (2005b).
ANEB 2005: manual do aplicador. Braslia: CESPE.
Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira INEP (2007a).
Saeb 2005 primeiros resultados: mdias de desempenho do SAEB 2005 em
perspectiva comparada. Braslia: INEP.
Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira INEP (2007b).
Relatrio Psicomtrico de Montagem das Provas do Pr-teste. Braslia: INEP.
Johnson, E. G. (1992). The design of the National Assessment of Educational Progress.
Journal of Educational Measurement, 29(2), 95-110.
Kirisci, L., Hsu, T. & Yu, L (2001). Robustness of item parameter estimation programs to
assumptions of unidimensionality and normality. Applied Psychological
Measurement, 25(2), 146-162.
Klein, R. & Klein, T. S. (1998). Programa para Teoria Clssica dos Testes. Rio de
Janeiro: Fundao CESGRANRIO.
Kvanli, A. H., Guynes, C. S. & Pavur, R. J. (1991). Introduction to business statistics.
USA: West Publishing Company.
Laros, J. A. (2001). Diferenas entre estados em escores gerais e em escores de temas e
tpicos das provas do SAEB 1999 em matemtica e portugus para a 4 srie do
127
128
Nacional Center for Education Statistics NCES (1995a). Science Framework for the
1996 and 2000 National Assessment of Educational Progress. Washington, DC: U.S.
Department of Education.
Nacional Center for Education Statistics NCES (1995b). Writing Framework for the
1998 National Assessment of Educational Progress. Washington, DC: U.S.
Department of Education.
Nacional Center for Education Statistics NCES (1996). The NAEP Guide, by Ballator,
N., editors. Washington, DC: U.S. Department of Education.
Nacional Center for Education Statistics NCES (1997). The NAEP Guide, NCES 97-990,
by Calderone, J., King, L.M., & Horkay, N., editors. Washington, DC: U.S.
Department of Education.
Nacional Center for Education Statistics NCES (1999). The NAEP Guide, NCES 2000456, by Horkay, N., editor. Washington, DC: U.S. Department of Education.
Nacional Center for Education Statistics NCES (2002a). Mathematics Framework for the
2003 National Assessment of Educational Progress. Washington, DC: U.S.
Department of Education.
Nacional Center for Education Statistics NCES (2002b). Reading Framework for the
2003 National Assessment of Educational Progress. Washington, DC: U.S.
Department of Education.
Nunnally, J. C. & Bernstein, I. H. (1994). Psychometric theory. USA: McGraw-Hill.
Organisation for Economic Co-operation and Development OECD (2000). Measuring
student knowledge and skills: the PISA assessment of reading, mathematical and
scientific literacy. Frana: OECD.
Oshima, T. C. (1994). The effect of speededness on parameter estimation in item response
theory. Journal of Educational Measurement, 31 (3), 200-219.
Pasquali, L. & Alves, A. R. (1999). Testes referentes a contedos: medidas educacionais.
Em L. Pasquali (Org), Instrumentos psicolgicos: manual prtico de elaborao (pp.
141-182). Braslia: LabPAM/IBAP.
Pasquali, L. (1996). Teoria e mtodos de medida em cincias do comportamento. Braslia:
LabPAM/UnB/INEP.
Pasquali, L. (1997). Psicometria: teoria e aplicaes. Braslia: Editora Universidade de
Braslia.
129
130
131