Professional Documents
Culture Documents
INTRODUO
Nos ltimos anos, a questo da qualidade e da eqidade da educao tem
assumido destaque nas discusses de polticas pblicas educacionais. Ressalta-se
a importncia do processo de avaliao para a obteno de informaes
significativas quanto realidade educacional do pas. Assim, a avaliao
educacional em larga escala tem sido apontada como instrumento importante na
promoo debate pblico e das aes orientadas para a democratizao do ensino
e da educao de qualidade. Portanto, avaliao educacional em larga escala deve,
necessariamente, ser um sistema de informao projetado para fazer chegar aos
professores, aos elaboradores de polticas educacionais e ao pblico em geral,
informaes relativas situao efetiva e s mudanas ocorridas, ou passveis de
ocorrerem, desempenho dos alunos.
Mais importante do que comparar os resultados alcanados entre as
regies, entre os estados, entre os municpios e entre as escolas a reflexo
coletiva sobre o significado do diagnstico que os programas de avaliao em
larga escala oferecem. Trata-se de um rico material de discusso a ser cotejado
pelo projeto pedaggico da escola, bem como uma oportunidade para discutir-se o
currculo e o trabalho pedaggico implementados, tendo em vista o
desenvolvimento, pelos alunos, de habilidades bsicas essenciais ao perodo de
escolaridade avaliado. Nesse sentido, a interpretao das escalas de proficincia
de suma importncia, uma vez que caracteriza a situao do desempenho de
alunos em diferentes nveis de proficincia da escala. Pode-se verificar em qual
dos nveis situa-se a mdia de desempenho dos alunos e ainda o percentual de
alunos que j desenvolveram as habilidades bsicas em cada perodo de
escolaridade avaliado, quantos esto abaixo do nvel que seria desejvel e quantos
esto acima.
1. Escalas de Proficincia
Para cumprir seu papel, indispensvel que a interpretao das escalas
apresente algumas caractersticas bsicas. Uma boa interpretao da escala de
proficincia deve oferecer informaes relevantes quanto ao desenvolvimento
cognitivo dos alunos, descrevendo, por meio de resultados expressos em escores
de proficincia, nveis distintos de aes e operaes mentais utilizadas pelos
alunos ao resolverem os desafios cognitivos expressos nos itens dos testes. A
interpretao da escala deve apresentar, portanto, as habilidades desenvolvidas e
consolidadas pelos alunos, como caractersticas de etapas prprias de seu
desenvolvimento cognitivo, dentro de cada rea do conhecimento avaliada.
Uma boa interpretao da escala deve fornecer, ainda, um diagnstico do
desenvolvimento gradual e progressivo das habilidades demonstradas pelos
alunos. Isso se justifica porque, na medida em que os nveis de proficincia
aumentam, uma habilidade desenvolvida parece funcionar como recurso
mobilizvel para o desenvolvimento daquelas mais complexas, indicando um
processo cumulativo, no qual as habilidades desenvolvidas em um determinado
nvel de proficincia servem como base para o desenvolvimento das habilidades
do nvel seguinte.Assim, a construo cuidadosa de uma escala de proficincia a
qualifica como instrumento de medida educacional do desempenho escolar e seus
desdobramentos.
Observa-se, porm, que a comunicao de significados de escalas de
proficincia para gestores e profissionais da educao nem sempre tem sido
eficaz. Em reas de conhecimento avaliadas, constata-se a dificuldade freqente
de os especialistas produzirem uma reflexo sobre a natureza das operaes
mentais que caracterizam o bloco das habilidades consolidadas em cada nvel de
proficincia.Conseqentemente, torna-se difcil para os professores a interpretao
dos resultados alcanados pelos alunos. Geralmente, os professores ficam
atrelados interpretao de itens caractersticos de cada nvel e reduzem a anlise
da informao de contedo do item, restringindo-a conhecimentos adquiridos, em
detrimento
da
anlise
do
complexo
jogo
de
operaes
mentais
5
resultados para a discusso do currculo e do trabalho pedaggico em sala de aula
e, conseqentemente, do processo de elaborao e implementao de um projeto
poltico pedaggico para a escola. Portanto, a escala de proficincia deve ser rica
em informaes quanto ao desenvolvimento cognitivo do aluno em cada nvel de
proficincia e, principalmente, deve-se atentar para que sua comunicao
pedaggica seja facilitadora de interpretao por seus destinatrios.
Ao se conceber o presente projeto, teve-se em mente propor e testar
novas abordagens para a interpretao educacional de escalas de avaliao
educacional em larga escala.
Da resultou o objetivo geral do trabalho.
2. Objetivo geral
Redefinir os processos de produo de escalas de proficincia e propor
novas metodologias de interpretao para o aprimoramento do dilogo
pedaggico entre os resultados e os educadores.
Para o alcance desse objetivo, foram desenvolvidos trs estudos
relacionados e relativamente independentes, que constituem as trs grandes partes
desse trabalho, a saber:
6
Utilizam-se mtodos baseados em anlise de conglomerados (cluster analysis)
para a escolha do subconjunto de itens que caracterizam cada nvel, e, como
conseqncia, os centros e os limites dos nveis de proficincia, que so utilizados
na interpretao da escala, emergem dessa escolha.
visando
que
caracterizam
cada
uma
das
competncias
habilidades
PRIMEIRA PARTE
AVALIAO DOS MRITOS RELATIVOS DE DIFERENTES
ABORDAGENS PARA A ASSOCIAO ENTRE ITENS E
NVEIS OU PONTOS DE ANCORAGEM DE ESCALAS
INTRODUO
A primeira parte desse trabalho tem como objetivo comparar os mritos
relativos de cinco abordagens utilizadas para a interpretao de nveis de escalas
de proficincia. Quatro das cinco abordagens j so utilizadas e se referem aos
programas de avaliao educacional consolidados em mbito nacional ou
internacional. Atualmente, uma delas utilizada pelo Programa Internacional de
Avaliao de Alunos (PISA); outra, pelo Trends in International Mathematics
and Science Study (TIMSS); e as duas outras, pelo National Assessment for
Educational Progress (NAEP) e pelo Sistema Nacional de Avaliao da
Educao Bsica (SAEB). Recentemente, a quinta delas comeou a ser utilizada
pelo Estudo Longitudinal sobre a Qualidade e Eqidade no Ensino Fundamental
Brasileiro - Projeto GERES 2005.
Para tanto, recorreu-se aos resultados dos testes de Proficincia em
Matemtica do Sistema Nacional de Avaliao da Educao Bsica (SAEB)
2003, 4 srie do Ensino Fundamental, constituindo-se a base experimental de
estudo dos mritos relativos de diferentes abordagens para a associao entre
itens e nveis ou pontos de ancoragem de escalas de proficincia.
Esta investigao trata de procedimentos relativos aos dois principais
processos ligados s funes e caractersticas de uma escala de proficincia: sua
construo e sua interpretao, elegendo-se como norte o debate de seus
principais problemas, enfrentando os desafios postos pela pesquisa de alternativas
para sua superao, tendo em vista o desenvolvimento de metodologias mais
eficazes de produo de escalas de proficincia para avaliaes educacionais em
larga escala.
Ambos os processos so dependentes da estrutura bsica de qualquer escala
de proficincia baseada na Teoria da Resposta ao Item (TRI). Apesar de esses
processos serem interdependentes, eles tratam de etapas e elementos
caractersticos do desempenho escolar.
O processo de construo de uma escala de proficincia diz respeito s
8
opes metodolgicas subjacentes a procedimentos estatsticos, pedaggicos e
operacionais e apresenta resultados de testes em uma nica mtrica, expressos em
escores de proficincia unidimensional, dispostos em unidade de medida estvel e
com significado educacional. Dentre esses e outros procedimentos, destacam-se
os critrios de ancoragem, a utilizao de parmetros estimados por meio da TRI,
as opes de equalizao de escalas. Tais procedimentos se conectam com os
principais elementos que nortearo a etapa seguinte, a traduo de resultados da
medida da habilidade em termos de seu significado cognitivo e educacional.
O processo de interpretao da escala de proficincia realiza essa tarefa.
Uma vez garantidas a fidedignidade, a unidimensionalidade e a equalizao da
escala,importa a considerao de tais escores, de modo a viabilizar-se a traduo
da medida de habilidade em uma especificao que resuma o contedo cognitivo
educacional da medida. A interpretao da escala baseia-se na descrio dos
nveis de proficincia em que se mostra o que os alunos, cujas proficincias
localizam-se em cada nvel, so capazes de fazer, ou seja, as habilidades
desenvolvidas. Isso envolve a produo da descrio e a interpretao pedaggica
dos resultados, adequadas aos principais interessados nos resultados, tendo como
leitores prioritrios os educadores, mas dirigidas tambm a gestores, famlias,
especialistas, entre outros. Essa etapa de comunicao e publicidade dos
resultados de fundamental importncia para que a escala cumpra seus objetivos
principais. Portanto, a escala deve estar organizada e disposta de modo a refletir
os desafios de cada etapa da aprendizagem, de cada srie avaliada, de cada etapa
do desenvolvimento cognitivo tpico do contedo (dimenso) que avalia.
A metodologia utilizada ser a anlise comparativa de procedimentos. A
comparao de mritos relativos ser feita por duas vias: em primeiro lugar,
analisando-se os procedimentos que operacionalizam cada abordagem; e, em
seguida, aplicando-se as cinco abordagens a um mesmo conjunto de dados, ou
seja, a base de dados do resultado do teste de Matemtica SAEB 2003, 4 srie
do Ensino Fundamental, de modo que sejam exploradas as implicaes de cada
abordagem sobre a interpretao da escala.
critrios para a associao entre itens e nveis ou pontos de ancoragem nas escalas
de proficincia ser realizada tendo como referncia os critrios adotados pelo
SAEB a partir de 2001. importante assinalar que, com a abordagem
comparativa, no se pretende estabelecer uma hierarquia rgida entre as
9
qualidades de cada abordagem, mas, sim, entender em que condies cada
abordagem pode oferecer melhor oportunidade de interpretao pedaggica do
desempenho escolar caracterstico de cada nvel de proficincia.
10
11
impossibilidade de definir-se, previamente, o nmero de itens-ncora1 a
serem
A condio de ancoragem de um item ser tpico do nvel avaliado, ou seja, a grande maioria
dos alunos situados nesse nvel acerta o item e o percentual de alunos do nvel de habilidade
imediatamente inferior baixo. ( Valle, 1999: ...)
O planejamento dos cadernos de testes em BIB permite a organizao dos itens em blocos, que
so agrupados em cadernos, de tal modo que quaisquer dos cadernos tenham um, e somente um,
bloco em comum. Com isso, consegue-se que um conjunto de alunos avaliados responda a um
grande nmero de itens, enquanto cada um, individualmente, responder apenas a um nmero
razoavelmente pequeno de itens.
12
respectivas habilidades mensuradas. Isso porque teria pouca validade um item
que, por exemplo, fosse bastante acertado tanto pelos melhores alunos quanto
pelos piores, assim definidos com base no desempenho que tiveram no teste como
um todo. Igualmente, seria de pouca valia uma questo com ndices baixos e
semelhantes de acerto tanto entre os melhores quanto entre os piores alunos. E,
num quadro ainda pior, um item seria de muito m qualidade para avaliar uma
determinada proficincia se os piores alunos tivessem nele um percentual de
acerto significativamente maior que os melhores alunos. Num caso desses, diz-se
que o item e o teste tm uma correlao negativa, pois os melhores resultados no
teste, correspondentes aos alunos de maior proficincia, geralmente se fazem
acompanhar de erros no item, o que um absurdo. Entretanto vale observar que
itens com esse comportamento anmalo de fato aparecem, sendo essa uma das
razes pelas quais importante fazer a pr-testagem dos itens, para que, depois,
sejam aplicados num teste de proficincia.
Na Teoria Clssica do Teste, utiliza-se a correlao item-teste para avaliar a
discriminao do item. A correlao uma medida estatstica que varia entre -1 e
1. Como j mencionado, obviamente no interessante que os itens tenham
correlao negativa, visto que esse problema costuma ser o responsvel pela
eliminao sumria de itens de um banco. Por outro lado, deseja-se que os itens
utilizados tenham elevadas correlaes positivas, sendo esses os, geralmente,
selecionados para compor os testes de proficincia.
2.2. Aspectos Bsicos da Teoria da Resposta ao Item (TRI)
Se comparada Teoria Clssica do Teste, segundo Lord & Novick (1964), a
utilizao da TRI conjunto de modelos matemticos no qual a probabilidade de
resposta a um item modelada em funo da proficincia do aluno, varivel noobservvel baseia-se em pressupostos fortes quanto ao comportamento de um
indivduo que responde aos itens de um teste, o que confere a ela algumas
vantagens na elaborao de modelos de teste de avaliao de proficincia escolar.
Dentre essas, destaca-se: (i) permite a comparao longitudinal de resultados de
diferentes avaliaes, como, por exemplo, as da avaliao dos sistemas estaduais
de ensino e os resultados do SAEB , desde que se incluam itens comuns aos testes
e se conservem os mesmos critrios na construo e organizao dos testes e na
13
anlise dos resultados; (ii) permite avaliar com alto grau de preciso e abrangncia
uma determinada rea do conhecimento, sem que cada aluno precise responder a
longos testes; (iii) a comparabilidade que se pode estabelecer entre diferentes
sries, por exemplo, 4 e 8 sries do Ensino Fundamental e 3 srie do Ensino
Mdio, pela construo de uma escala nica de resultados para essas trs sries
(Hambleton, Swaminathan e Rogers 1991; Hambleton, 1993; Valle,1999).
Em particular, duas restries de especial relevncia para os modelos da TRI
so a unidimensionalidade e a independncia local. A primeira postula a
homogeneidade do conjunto de itens que, supostamente, devem estar medindo um
nico trao latente (LORD, 1980). Isto , postula que h apenas uma habilidade
responsvel pelos resultados dos alunos em um conjunto de itens, ou, mais
provavelmente, que ela seja significativamente dominante entre todas as possveis
habilidades requeridas para a realizao do teste. A segunda pressupe que, para
uma dada habilidade, as respostas aos diferentes itens do teste so independentes,
ou seja, mantidas as habilidades que afetam o teste, as respostas dos alunos a
quaisquer dos itens so estatisticamente independentes. Evidentemente, a primeira
hiptese implicar a segunda; e, embora se possa conceitualmente distinguir
unidimensionalidade de independncia local, estatisticamente as duas hipteses
so equivalentes.
A relao entre a proficincia e a probabilidade do aluno acertar o item
pode ser descrita por uma funo matemtica monotnica crescente, denominada
Curva Caracterstica do Item CCI, como mostra a Figura 1 abaixo.
Fig. 1: CCIs de quatro itens de diferentes nveis de dificuldade, segundo o modelo
de um parmetro da TRI.
14
15
2.2.1. Os Parmetros da TRI
Na Teoria da Resposta ao Item, as curvas caractersticas dos itens podem ser
especificadas por meio de trs parmetros, que sero descritos a seguir:
Parmetro de dificuldade: freqentemente conhecido pela letra b, este
parmetro mede a dificuldade de um determinado item, correspondendo
proficincia necessria para que o percentual de acerto de um item seja de 50%
(considerando-se que no existe chance de acerto casual), como ocorre nos itens
de mltipla escolha. Naturalmente, itens de maior dificuldade apresentam um
maior valor de b. Quando itens de diferentes dificuldades so representados num
mesmo grfico, como na Fig. 1, observa-se que os itens formam um bloco de
curvas idnticas, excetuando-se o fato de que elas esto horizontalmente
deslocadas umas em relao s outras. Assim sendo, as curvas mais deslocadas
direita correspondem s CCIs de itens mais difceis, que requerem uma maior
proficincia para haver 50% de chance de acerto neles, ao passo que os itens mais
fceis situam-se esquerda, para os quais menor a quantidade de proficincia
necessria a uma probabilidade de acerto de 50%. Na Fig. 1, pode-se, portanto,
ver que o item mais fcil o 1, e o mais difcil, o 4.
Parmetro
de
discriminao.
Geometricamente,
esse
parmetro
16
os alunos que sabem dos que no sabem, ou seja, os alunos que desenvolveram a
habilidade requerida pelo item, dos que no desenvolveram.
Pode-se perceber na Figura 2, apresentada abaixo, por exemplo, que os itens
de 1 a 3 tm discriminaes aproximadamente iguais entre si, visto que, para a
probabilidade de acerto de 0,5, suas inclinaes so praticamente iguais. J o item
4 tem um menor poder de discriminao, pois sua inclinao para esse mesmo
valor de probabilidade (0,5) menor que nos casos anteriores.
17
esses ltimos grupos, de modo que no se poderia distinguir um grupo do outro.
Um item assim poderia ser o de nmero 1, na Fig. 2, correspondendo ao fato de
que seu parmetro de dificuldade b menor. Certamente, um dos objetivos das
avaliaes de proficincia em larga escala fazer distines de proficincia entre
alunos situados ao longo de todo o nvel de proficincia de interesse. Assim
sendo, quando os testes so elaborados, procura-se fazer com que eles se
componham de itens com diferentes parmetros de dificuldade, de modo a
abranger de maneira uniforme todo o espectro relevante de proficincia.
Parmetro do acerto casual. Este parmetro, denominado de parmetro c,
refere-se a um fato de ocorrncia comum nos itens de mltipla escolha, nos quais
o aluno pode acertar o item, mesmo quando ele tiver um nvel arbitrariamente
baixo de proficincia: trata-se do conhecido acerto casual, popularmente
conhecido como "chute". Nas CCIs que incluem o parmetro c, a extremidade
esquerda corresponde a assntotas, curvas que se aproximam de uma reta, sem
entretanto toc-la,
18
3. Nesse caso, a
proporo dos que acertaram o item, mesmo conhecendo muito pouco o contedo,
foi maior do que aquele que seria de se esperar, levando-se em conta somente o
nmero de alternativas no item. Por outro lado, em alguns itens, pode haver a
ocorrncia de distratores (que so a alternativas para respostas falsas ou nopreferveis dos itens, capazes de convencer um grande nmero de alunos a
consider-los como a opo certa. Em casos assim, itens de mltipla escolha com
cinco opes poderiam ter um parmetro c inferior a 0,2, como, por exemplo, o
item 2 da Figura 3.
A Invarincia dos Parmetros da TRI. Pode-se constatar que a principal e
mais importante distino entre a Teoria da Resposta ao Item e a Teoria Clssica
a propriedade de invarincia, caracterstica da TRI. Os parmetros do item no
dependem da distribuio dos alunos avaliados segundo o nvel de proficincia, e
os escores de proficincia dos alunos avaliados no dependem do conjunto de
itens utilizados para estim-los. Quando o modelo da TRI ajusta-se aos dados, a
curva caracterstica de um item a mesma, independente do grupo de alunos
avaliados submetidos estimativa dos parmetros.