5 - Três Investigações Sobre Escalas de Proficiência e Suas Interpretações

3
TRS INVESTIGAES SOBRE ESCALAS DE PROFICINCIA E

SUAS INTERPRETAES (Lina Ktia Mesquita Oliveira)
INTRODUO
Nos ltimos anos, a questo da qualidade e da eqidade da educao tem
assumido destaque nas discusses de polticas pblicas educacionais. Ressalta-se
a importncia do processo de avaliao para a obteno de informaes
significativas quanto realidade educacional do pas. Assim, a avaliao
educacional em larga escala tem sido apontada como instrumento importante na
promoo debate pblico e das aes orientadas para a democratizao do ensino
e da educao de qualidade. Portanto, avaliao educacional em larga escala deve,
necessariamente, ser um sistema de informao projetado para fazer chegar aos
professores, aos elaboradores de polticas educacionais e ao pblico em geral,
informaes relativas situao efetiva e s mudanas ocorridas, ou passveis de
ocorrerem, desempenho dos alunos.
Mais importante do que comparar os resultados alcanados entre as
regies, entre os estados, entre os municpios e entre as escolas a reflexo
coletiva sobre o significado do diagnstico que os programas de avaliao em
larga escala oferecem. Trata-se de um rico material de discusso a ser cotejado
pelo projeto pedaggico da escola, bem como uma oportunidade para discutir-se o
currculo e o trabalho pedaggico implementados, tendo em vista o
desenvolvimento, pelos alunos, de habilidades bsicas essenciais ao perodo de
escolaridade avaliado. Nesse sentido, a interpretao das escalas de proficincia
de suma importncia, uma vez que caracteriza a situao do desempenho de
alunos em diferentes nveis de proficincia da escala. Pode-se verificar em qual
dos nveis situa-se a mdia de desempenho dos alunos e ainda o percentual de
alunos que j desenvolveram as habilidades bsicas em cada perodo de
escolaridade avaliado, quantos esto abaixo do nvel que seria desejvel e quantos
esto acima.
1. Escalas de Proficincia
Para cumprir seu papel, indispensvel que a interpretao das escalas
apresente algumas caractersticas bsicas. Uma boa interpretao da escala de
proficincia deve oferecer informaes relevantes quanto ao desenvolvimento
cognitivo dos alunos, descrevendo, por meio de resultados expressos em escores
de proficincia, nveis distintos de aes e operaes mentais utilizadas pelos
alunos ao resolverem os desafios cognitivos expressos nos itens dos testes. A
interpretao da escala deve apresentar, portanto, as habilidades desenvolvidas e
consolidadas pelos alunos, como caractersticas de etapas prprias de seu
desenvolvimento cognitivo, dentro de cada rea do conhecimento avaliada.
Uma boa interpretao da escala deve fornecer, ainda, um diagnstico do
desenvolvimento gradual e progressivo das habilidades demonstradas pelos
alunos. Isso se justifica porque, na medida em que os nveis de proficincia
aumentam, uma habilidade desenvolvida parece funcionar como recurso
mobilizvel para o desenvolvimento daquelas mais complexas, indicando um
processo cumulativo, no qual as habilidades desenvolvidas em um determinado
nvel de proficincia servem como base para o desenvolvimento das habilidades
do nvel seguinte.Assim, a construo cuidadosa de uma escala de proficincia a
qualifica como instrumento de medida educacional do desempenho escolar e seus
desdobramentos.
Observa-se, porm, que a comunicao de significados de escalas de
proficincia para gestores e profissionais da educao nem sempre tem sido
eficaz. Em reas de conhecimento avaliadas, constata-se a dificuldade freqente
de os especialistas produzirem uma reflexo sobre a natureza das operaes
mentais que caracterizam o bloco das habilidades consolidadas em cada nvel de
proficincia.Conseqentemente, torna-se difcil para os professores a interpretao
dos resultados alcanados pelos alunos. Geralmente, os professores ficam
atrelados interpretao de itens caractersticos de cada nvel e reduzem a anlise
da informao de contedo do item, restringindo-a conhecimentos adquiridos, em
detrimento
da
anlise
do
complexo
jogo
de
operaes
mentais
operacionalizados na realizao do teste. Submetidos a esquemas de ao

restritivos, reduzem a eficcia da interpretao a uma situao dada.
Em tais condies, o professor tem dificuldades em utilizar esses
5
resultados para a discusso do currculo e do trabalho pedaggico em sala de aula
e, conseqentemente, do processo de elaborao e implementao de um projeto
poltico pedaggico para a escola. Portanto, a escala de proficincia deve ser rica
em informaes quanto ao desenvolvimento cognitivo do aluno em cada nvel de
proficincia e, principalmente, deve-se atentar para que sua comunicao
pedaggica seja facilitadora de interpretao por seus destinatrios.
Ao se conceber o presente projeto, teve-se em mente propor e testar
novas abordagens para a interpretao educacional de escalas de avaliao
educacional em larga escala.
Da resultou o objetivo geral do trabalho.
2. Objetivo geral
Redefinir os processos de produo de escalas de proficincia e propor
novas metodologias de interpretao para o aprimoramento do dilogo
pedaggico entre os resultados e os educadores.
Para o alcance desse objetivo, foram desenvolvidos trs estudos
relacionados e relativamente independentes, que constituem as trs grandes partes
desse trabalho, a saber:
Primeira parte - Avaliao dos mritos relativos de diferentes abordagens

para a associao entre itens e nveis ou pontos de ancoragem de escalas
A primeira investigao objetiva comparar os mritos relativos de cinco
abordagens utilizadas para a construo e interpretao de nveis das escalas de
proficincia. Quatro das cinco abordagens j so utilizadas em nvel nacional e
internacional. A quinta delas comeou a ser utilizada recentemente pelo projeto
longitudinal sobre a qualidade e equidade
no ensino das sries do ensino
fundamental , desenvolvido em cinco capitais brasileiras.

Esse estudo tem como foco os procedimentos relativos aos dois
principais processos ligados s funes e caractersticas de uma escala de
proficincia: sua construo e sua interpretao.
Segunda parte - O uso da anlise de conglomerados na seleo de um
conjunto de itens caractersticos dos nveis de ancoragem
Nesta segunda investigao, desenvolve-se uma abordagem alternativa
para caracterizar os nveis representativos de uma escala proficincia escolar.
6
Utilizam-se mtodos baseados em anlise de conglomerados (cluster analysis)
para a escolha do subconjunto de itens que caracterizam cada nvel, e, como
conseqncia, os centros e os limites dos nveis de proficincia, que so utilizados
na interpretao da escala, emergem dessa escolha.
Terceira parte - Interpretao dos nveis de proficincia: em busca

de uma melhor interpretao pedaggica dos nveis e da relao entre nveis
de escalas de proficincia
Tipicamente, a descrio de escalas de proficincia de programas de
avaliao em larga escala lista o conjunto de habilidades que os alunos
mobilizaram para responder aos itens de um teste, restringindo a anlise
pedaggica de alguns itens. A terceira investigao proposta far uso de
conhecimentos do ensino e da aprendizagem das habilidades bsicas da educao
matemtica, trabalhadas nas sries iniciais do ensino fundamental,
visando
oferecer uma interpretao pedaggica dos clusters formados ao longo da escala

de proficincia. A metodologia utilizada ser a anlise da natureza de operaes
mentais
que
caracterizam
cada
uma
das
competncias
habilidades
caractersticas de cada cluster, tendo como pressupostos bsicos as referncias o

processo de aprendizagem da matemtica.
PRIMEIRA PARTE
AVALIAO DOS MRITOS RELATIVOS DE DIFERENTES
ABORDAGENS PARA A ASSOCIAO ENTRE ITENS E
NVEIS OU PONTOS DE ANCORAGEM DE ESCALAS
INTRODUO
A primeira parte desse trabalho tem como objetivo comparar os mritos
relativos de cinco abordagens utilizadas para a interpretao de nveis de escalas
de proficincia. Quatro das cinco abordagens j so utilizadas e se referem aos
programas de avaliao educacional consolidados em mbito nacional ou
internacional. Atualmente, uma delas utilizada pelo Programa Internacional de
Avaliao de Alunos (PISA); outra, pelo Trends in International Mathematics
and Science Study (TIMSS); e as duas outras, pelo National Assessment for
Educational Progress (NAEP) e pelo Sistema Nacional de Avaliao da
Educao Bsica (SAEB). Recentemente, a quinta delas comeou a ser utilizada
pelo Estudo Longitudinal sobre a Qualidade e Eqidade no Ensino Fundamental
Brasileiro - Projeto GERES 2005.
Para tanto, recorreu-se aos resultados dos testes de Proficincia em
Matemtica do Sistema Nacional de Avaliao da Educao Bsica (SAEB)
2003, 4 srie do Ensino Fundamental, constituindo-se a base experimental de
estudo dos mritos relativos de diferentes abordagens para a associao entre
itens e nveis ou pontos de ancoragem de escalas de proficincia.
Esta investigao trata de procedimentos relativos aos dois principais
processos ligados s funes e caractersticas de uma escala de proficincia: sua
construo e sua interpretao, elegendo-se como norte o debate de seus
principais problemas, enfrentando os desafios postos pela pesquisa de alternativas
para sua superao, tendo em vista o desenvolvimento de metodologias mais
eficazes de produo de escalas de proficincia para avaliaes educacionais em
larga escala.
Ambos os processos so dependentes da estrutura bsica de qualquer escala
de proficincia baseada na Teoria da Resposta ao Item (TRI). Apesar de esses
processos serem interdependentes, eles tratam de etapas e elementos
caractersticos do desempenho escolar.
O processo de construo de uma escala de proficincia diz respeito s
8
opes metodolgicas subjacentes a procedimentos estatsticos, pedaggicos e
operacionais e apresenta resultados de testes em uma nica mtrica, expressos em
escores de proficincia unidimensional, dispostos em unidade de medida estvel e
com significado educacional. Dentre esses e outros procedimentos, destacam-se
os critrios de ancoragem, a utilizao de parmetros estimados por meio da TRI,
as opes de equalizao de escalas. Tais procedimentos se conectam com os
principais elementos que nortearo a etapa seguinte, a traduo de resultados da
medida da habilidade em termos de seu significado cognitivo e educacional.
O processo de interpretao da escala de proficincia realiza essa tarefa.
Uma vez garantidas a fidedignidade, a unidimensionalidade e a equalizao da
escala,importa a considerao de tais escores, de modo a viabilizar-se a traduo
da medida de habilidade em uma especificao que resuma o contedo cognitivo
educacional da medida. A interpretao da escala baseia-se na descrio dos
nveis de proficincia em que se mostra o que os alunos, cujas proficincias
localizam-se em cada nvel, so capazes de fazer, ou seja, as habilidades
desenvolvidas. Isso envolve a produo da descrio e a interpretao pedaggica
dos resultados, adequadas aos principais interessados nos resultados, tendo como
leitores prioritrios os educadores, mas dirigidas tambm a gestores, famlias,
especialistas, entre outros. Essa etapa de comunicao e publicidade dos
resultados de fundamental importncia para que a escala cumpra seus objetivos
principais. Portanto, a escala deve estar organizada e disposta de modo a refletir
os desafios de cada etapa da aprendizagem, de cada srie avaliada, de cada etapa
do desenvolvimento cognitivo tpico do contedo (dimenso) que avalia.
A metodologia utilizada ser a anlise comparativa de procedimentos. A
comparao de mritos relativos ser feita por duas vias: em primeiro lugar,
analisando-se os procedimentos que operacionalizam cada abordagem; e, em
seguida, aplicando-se as cinco abordagens a um mesmo conjunto de dados, ou
seja, a base de dados do resultado do teste de Matemtica SAEB 2003, 4 srie
do Ensino Fundamental, de modo que sejam exploradas as implicaes de cada
abordagem sobre a interpretao da escala.
A anlise comparativa entre os
critrios para a associao entre itens e nveis ou pontos de ancoragem nas escalas
de proficincia ser realizada tendo como referncia os critrios adotados pelo
SAEB a partir de 2001. importante assinalar que, com a abordagem
comparativa, no se pretende estabelecer uma hierarquia rgida entre as
9
qualidades de cada abordagem, mas, sim, entender em que condies cada
abordagem pode oferecer melhor oportunidade de interpretao pedaggica do
desempenho escolar caracterstico de cada nvel de proficincia.
(i) primeira parte - uma breve apresentao de conceitos bsicos

relacionados a escalas no mbito da Teoria de Resposta ao Item; (ii) segunda parte
- uma reviso do tratamento do tema da interpretao educacional de escalas no
mbito de importantes exerccios de avaliao em larga escala; (iii) terceira parte uma apresentao de propostas sobre delineamento e testagem de abordagens
alternativas para a interpretao de escalas.
10
2. Conceitos Bsicos: dos itens Teoria da Resposta ao

Item
Basicamente, os testes padronizados usados em avaliao educacional em
larga escala so compostos de itens. Cada item tem o objetivo de avaliar uma
nica habilidade apresentada pelos descritores que compem a matriz de
referncia para avaliao. O descritor uma associao entre contedos
curriculares e operaes mentais desenvolvidas pelos alunos, traduzindo
determinadas habilidades e competncias. Essa associao apresenta um resultado
que orienta todo o processo de construo dos itens do teste de proficincia
escolar. O conjunto de itens do teste visa a avaliar um conjunto de habilidades,
caracterstico da competncia do aluno que se quer medir, para um determinado
ciclo ou perodo de escolaridade.
A construo desses itens tarefa que requer um elevado grau de
complexidade tcnica e exige conhecimentos especficos quanto formulao do
enunciado, do comando preciso para a resposta e das opes de resposta,
conforme se encontram especificados, por exemplo, em Haladyna (1997),
Kubiszyn (1990), Vianna (1993), bem como no Guia de Elaborao de itens do
SAEB (BRASIL MEC-INEP, 2003).
Esses itens so pr-testados, ou seja, previamente aplicados a amostras de
examinados com o objetivo de se estudar o comportamento dos itens. Isso feito
porque pode ocorrer que um determinado item no tenha um bom comportamento,
decorrente de problemas em sua estruturao, ou porque essa mesmo incapaz de
distinguir de modo claro os avaliados que desenvolveram daqueles que no
desenvolveram as habilidades que ele se prope a mensurar. Quando esses itens
so pr-testados, possvel que melhor sejam observados os problemas que eles
apresentam, de modo que os itens mais problemticos sejam eliminados atravs de
um processo de seleo que determina um nmero fixo de itens a serem utilizados
na avaliao.
A deciso sobre o nmero de itens um ponto importante na composio do
instrumento de medida. Por um lado, o teste deve conter muitos itens, pois um dos
objetivos da avaliao em larga escala medir de forma abrangente as habilidades e
competncias essenciais do perodo de escolaridade a ser avaliado, quando se depara com a
11
impossibilidade de definir-se, previamente, o nmero de itens-ncora1 a
serem
selecionados como caractersticos para cada nvel de proficincia, no se sabendo tambm

se existiro itens-ncora para todos os nveis de proficincia. Por outro lado, o teste no
pode ser longo, pois inviabiliza sua resoluo pelo examinando. Para solucionar essa
dificuldade, tem-se utilizado um tipo de planejamento de testes denominado Blocos
Incompletos Balanceados BIB2 e a construo da medida baseada na metodologia da
Teoria da Resposta ao Item TRI.
2.1. As Principais Caractersticas dos Itens Utilizados nas Avaliaes
de Larga Escala
Os itens que compem um teste de proficincia devem ser observados em
relao a duas caractersticas bastante importantes: sua dificuldade e seu poder de
discriminao. Essas caractersticas tambm devem ser observadas nas avaliaes
realizadas em sala de aula, pelos prprios professores.
Dificuldade. Naturalmente, a dificuldade de um item diz respeito
quantidade de proficincia que capacita o aluno avaliado a acert-lo. Itens mais
fceis requerem menos proficincia e so acertados por um maior nmero de
alunos; os itens mais difceis requerem maior proficincia. Segundo a Teoria
Clssica do Teste (TCT), a dificuldade de um item medida pela proporo ou
porcentagem de alunos que o acertam. Portanto, na verdade, trata-se de uma
medida de "facilidade", visto que, quanto maior a proporo de acertos, mais fcil
tende a ser considerado o item.
Discriminao. Observando-se o comportamento da resposta do aluno
avaliado em relao a um item especfico, o poder de discriminao de um item
a caracterstica que lhe permite avaliar a proficincia desse aluno, ou compar-la
com a de outro aluno que tambm est sendo avaliado, especialmente quando um
dos alunos acerta o item, e o outro o erra. Certamente, deseja-se que os itens que
compem um teste tenham um elevado poder de discriminao em suas
1
A condio de ancoragem de um item ser tpico do nvel avaliado, ou seja, a grande maioria
dos alunos situados nesse nvel acerta o item e o percentual de alunos do nvel de habilidade
imediatamente inferior baixo. ( Valle, 1999: ...)
O planejamento dos cadernos de testes em BIB permite a organizao dos itens em blocos, que
so agrupados em cadernos, de tal modo que quaisquer dos cadernos tenham um, e somente um,
bloco em comum. Com isso, consegue-se que um conjunto de alunos avaliados responda a um
grande nmero de itens, enquanto cada um, individualmente, responder apenas a um nmero
razoavelmente pequeno de itens.
12
respectivas habilidades mensuradas. Isso porque teria pouca validade um item
que, por exemplo, fosse bastante acertado tanto pelos melhores alunos quanto
pelos piores, assim definidos com base no desempenho que tiveram no teste como
um todo. Igualmente, seria de pouca valia uma questo com ndices baixos e
semelhantes de acerto tanto entre os melhores quanto entre os piores alunos. E,
num quadro ainda pior, um item seria de muito m qualidade para avaliar uma
determinada proficincia se os piores alunos tivessem nele um percentual de
acerto significativamente maior que os melhores alunos. Num caso desses, diz-se
que o item e o teste tm uma correlao negativa, pois os melhores resultados no
teste, correspondentes aos alunos de maior proficincia, geralmente se fazem
acompanhar de erros no item, o que um absurdo. Entretanto vale observar que
itens com esse comportamento anmalo de fato aparecem, sendo essa uma das
razes pelas quais importante fazer a pr-testagem dos itens, para que, depois,
sejam aplicados num teste de proficincia.
Na Teoria Clssica do Teste, utiliza-se a correlao item-teste para avaliar a
discriminao do item. A correlao uma medida estatstica que varia entre -1 e
1. Como j mencionado, obviamente no interessante que os itens tenham
correlao negativa, visto que esse problema costuma ser o responsvel pela
eliminao sumria de itens de um banco. Por outro lado, deseja-se que os itens
utilizados tenham elevadas correlaes positivas, sendo esses os, geralmente,
selecionados para compor os testes de proficincia.
2.2. Aspectos Bsicos da Teoria da Resposta ao Item (TRI)
Se comparada Teoria Clssica do Teste, segundo Lord & Novick (1964), a
utilizao da TRI conjunto de modelos matemticos no qual a probabilidade de
resposta a um item modelada em funo da proficincia do aluno, varivel noobservvel baseia-se em pressupostos fortes quanto ao comportamento de um
indivduo que responde aos itens de um teste, o que confere a ela algumas
vantagens na elaborao de modelos de teste de avaliao de proficincia escolar.
Dentre essas, destaca-se: (i) permite a comparao longitudinal de resultados de
diferentes avaliaes, como, por exemplo, as da avaliao dos sistemas estaduais
de ensino e os resultados do SAEB , desde que se incluam itens comuns aos testes
e se conservem os mesmos critrios na construo e organizao dos testes e na
13
anlise dos resultados; (ii) permite avaliar com alto grau de preciso e abrangncia
uma determinada rea do conhecimento, sem que cada aluno precise responder a
longos testes; (iii) a comparabilidade que se pode estabelecer entre diferentes
sries, por exemplo, 4 e 8 sries do Ensino Fundamental e 3 srie do Ensino
Mdio, pela construo de uma escala nica de resultados para essas trs sries
(Hambleton, Swaminathan e Rogers 1991; Hambleton, 1993; Valle,1999).
Em particular, duas restries de especial relevncia para os modelos da TRI
so a unidimensionalidade e a independncia local. A primeira postula a
homogeneidade do conjunto de itens que, supostamente, devem estar medindo um
nico trao latente (LORD, 1980). Isto , postula que h apenas uma habilidade
responsvel pelos resultados dos alunos em um conjunto de itens, ou, mais
provavelmente, que ela seja significativamente dominante entre todas as possveis
habilidades requeridas para a realizao do teste. A segunda pressupe que, para
uma dada habilidade, as respostas aos diferentes itens do teste so independentes,
ou seja, mantidas as habilidades que afetam o teste, as respostas dos alunos a
quaisquer dos itens so estatisticamente independentes. Evidentemente, a primeira
hiptese implicar a segunda; e, embora se possa conceitualmente distinguir
unidimensionalidade de independncia local, estatisticamente as duas hipteses
so equivalentes.
A relao entre a proficincia e a probabilidade do aluno acertar o item
pode ser descrita por uma funo matemtica monotnica crescente, denominada
Curva Caracterstica do Item CCI, como mostra a Figura 1 abaixo.
Fig. 1: CCIs de quatro itens de diferentes nveis de dificuldade, segundo o modelo
de um parmetro da TRI.
14
Nesse exemplo, a CCI apresentada graficamente, mostrando-se a relao

entre proficincia e probabilidade de acerto para quatro itens, numerados de 1 a 4.
Geometricamente, essa relao se comporta como uma curva, que tem uma
frmula especfica e conhecida tecnicamente pelo nome de curva caracterstica
do item (CCI). Algumas caractersticas importantes dessa curva podem ser vistas
diretamente dessa figura, entre as quais possvel destacar: (i) a curva nunca
desce medida que a proficincia (chamada no grfico de habilidade) aumenta;
percebe-se que a probabilidade de acerto aumenta, medida que a proficincia
tambm aumenta. Esse crescimento da probabilidade no o mesmo para todos os
valores de habilidade, sendo mais intenso no centro da curva do que nos seus
extremos; (ii) a curva no obedece a um padro linear; por exemplo, se a
habilidade dobrar, no necessariamente dobra a chance de acerto. Isso
particularmente visvel, por exemplo, nas extremidades direitas de cada curva,
correspondentes aos valores maiores de habilidade, quando as alturas de cada
curva vo-se estacionando em torno da probabilidade P = 1, indicando que, para
um determinado item, a chance de acerto prxima de 100% para um
determinado nvel de habilidade, e no tem como crescer muito mais para
habilidades ainda maiores, de modo que, nessa regio, a curva passa a subir de
modo muito suave, quase na horizontal.
15
2.2.1. Os Parmetros da TRI
Na Teoria da Resposta ao Item, as curvas caractersticas dos itens podem ser
especificadas por meio de trs parmetros, que sero descritos a seguir:
Parmetro de dificuldade: freqentemente conhecido pela letra b, este
parmetro mede a dificuldade de um determinado item, correspondendo
proficincia necessria para que o percentual de acerto de um item seja de 50%
(considerando-se que no existe chance de acerto casual), como ocorre nos itens
de mltipla escolha. Naturalmente, itens de maior dificuldade apresentam um
maior valor de b. Quando itens de diferentes dificuldades so representados num
mesmo grfico, como na Fig. 1, observa-se que os itens formam um bloco de
curvas idnticas, excetuando-se o fato de que elas esto horizontalmente
deslocadas umas em relao s outras. Assim sendo, as curvas mais deslocadas
direita correspondem s CCIs de itens mais difceis, que requerem uma maior
proficincia para haver 50% de chance de acerto neles, ao passo que os itens mais
fceis situam-se esquerda, para os quais menor a quantidade de proficincia
necessria a uma probabilidade de acerto de 50%. Na Fig. 1, pode-se, portanto,
ver que o item mais fcil o 1, e o mais difcil, o 4.
Parmetro
de
discriminao.
Geometricamente,
esse
parmetro
corresponde inclinao da CCI no ponto em que h 50% de chance de acerto do

item, tambm considerando-se nula a chance de acerto casual. Quanto maior esse
parmetro, denominado de parmetro a, maior a inclinao da curva nesse
ponto, e melhor a capacidade do item de discriminar alunos de proficincias
diferentes. A princpio, o parmetro de discriminao a pode assumir qualquer
valor real, positivo ou negativo. Entretanto uma condio necessria validade
do item que seu parmetro a seja positivo, pois um valor negativo para a estaria
indicando que, quanto maior a proficincia do aluno avaliado, menor sua chance
de acertar o item, uma situao absurda, como j mencionado anteriormente. Em
relao aos valores positivos de a, quanto maiores esses valores, maior a
capacidade de discriminao do item (naquele ponto), e mais indicado seria
incluir o item no teste. Geometricamente, uma inclinao positiva e acentuada
indica que, naquele ponto, ocorre um drstico aumento na probabilidade de acerto
de um item, quando se verifica um pequeno aumento na habilidade dos alunos
avaliados. Tal fato corresponde a uma maior sensibilidade do item em distinguir
16
os alunos que sabem dos que no sabem, ou seja, os alunos que desenvolveram a
habilidade requerida pelo item, dos que no desenvolveram.
Pode-se perceber na Figura 2, apresentada abaixo, por exemplo, que os itens
de 1 a 3 tm discriminaes aproximadamente iguais entre si, visto que, para a
probabilidade de acerto de 0,5, suas inclinaes so praticamente iguais. J o item
4 tem um menor poder de discriminao, pois sua inclinao para esse mesmo
valor de probabilidade (0,5) menor que nos casos anteriores.
Fig. 2: CCIs de quatro itens com variaes de dificuldade e de discriminao,

segundo o modelo de dois parmetros da TRI.
Um aspecto importante que a discriminao de um item no a mesma

para todo o intervalo de proficincia. Ou seja, um item que tem uma grande
capacidade de discriminar os alunos de proficincia baixa dos alunos de
proficincia mdia pode no ser muito til para discriminar alunos de proficincia
alta de alunos de proficincia ainda maior, visto que o item seria acertado por
17
esses ltimos grupos, de modo que no se poderia distinguir um grupo do outro.
Um item assim poderia ser o de nmero 1, na Fig. 2, correspondendo ao fato de
que seu parmetro de dificuldade b menor. Certamente, um dos objetivos das
avaliaes de proficincia em larga escala fazer distines de proficincia entre
alunos situados ao longo de todo o nvel de proficincia de interesse. Assim
sendo, quando os testes so elaborados, procura-se fazer com que eles se
componham de itens com diferentes parmetros de dificuldade, de modo a
abranger de maneira uniforme todo o espectro relevante de proficincia.
Parmetro do acerto casual. Este parmetro, denominado de parmetro c,
refere-se a um fato de ocorrncia comum nos itens de mltipla escolha, nos quais
o aluno pode acertar o item, mesmo quando ele tiver um nvel arbitrariamente
baixo de proficincia: trata-se do conhecido acerto casual, popularmente
conhecido como "chute". Nas CCIs que incluem o parmetro c, a extremidade
esquerda corresponde a assntotas, curvas que se aproximam de uma reta, sem
entretanto toc-la,
que, por sua vez, referem-se a probabilidades de acerto
superiores a zero. Por exemplo, em um item de mltipla escolha com cinco

alternativas para respostas que parecem igualmente possveis de ser escolhidas por
um aluno, a chance de acerto casual de 0,20 ou 1/5 , uma vez que o aluno teria
que acertar casualmente uma alternativa dentre as cinco apresentadas. Um caso
desses ilustrado pelo item de nmero 4 da Figura 3, apresentada abaixo.
Fig. 3: CCIs de quatro itens com variaes de dificuldade e de discriminao,

levando-se em conta tambm o acerto casual, segundo o modelo de trs
parmetros da TRI.
18
Entretanto nem sempre o parmetro c corresponde exatamente diviso de

1 pelo nmero de alternativas para resposta do item. Isso ocorre porque pode
haver alternativas
que "facilitam" o desempenho de quem sabe menos, por
exemplo, alternativas com respostas absurdas ou obviamente falsas, fazendo com

que esses alunos de menor proficincia sejam "empurrados" na direo da
resposta certa, ou que, pelo menos, tenham que "chutar" entre um menor nmero
de opes, aumentando assim sua chance de sucesso. Geometricamente, na CCI,
isso se traduziria numa assntota esquerda mais alta, por exemplo, num item de
mltipla escolha com cinco alternativas para resposta; essa assntota poderia
corresponder a 0,25, como o caso do item 3 da Figura
3. Nesse caso, a
proporo dos que acertaram o item, mesmo conhecendo muito pouco o contedo,
foi maior do que aquele que seria de se esperar, levando-se em conta somente o
nmero de alternativas no item. Por outro lado, em alguns itens, pode haver a
ocorrncia de distratores (que so a alternativas para respostas falsas ou nopreferveis dos itens, capazes de convencer um grande nmero de alunos a
consider-los como a opo certa. Em casos assim, itens de mltipla escolha com
cinco opes poderiam ter um parmetro c inferior a 0,2, como, por exemplo, o
item 2 da Figura 3.
A Invarincia dos Parmetros da TRI. Pode-se constatar que a principal e
mais importante distino entre a Teoria da Resposta ao Item e a Teoria Clssica
a propriedade de invarincia, caracterstica da TRI. Os parmetros do item no
dependem da distribuio dos alunos avaliados segundo o nvel de proficincia, e
os escores de proficincia dos alunos avaliados no dependem do conjunto de
itens utilizados para estim-los. Quando o modelo da TRI ajusta-se aos dados, a
curva caracterstica de um item a mesma, independente do grupo de alunos
avaliados submetidos estimativa dos parmetros.

5 - Três Investigações Sobre Escalas de Proficiência e Suas Interpretações

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

5 - Três Investigações Sobre Escalas de Proficiência e Suas Interpretações

Uploaded by

Copyright:

Available Formats

3

TRS INVESTIGAES SOBRE ESCALAS DE PROFICINCIA E

operacionalizados na realizao do teste. Submetidos a esquemas de ao

Primeira parte - Avaliao dos mritos relativos de diferentes abordagens

no ensino das sries do ensino

fundamental , desenvolvido em cinco capitais brasileiras.

Terceira parte - Interpretao dos nveis de proficincia: em busca

oferecer uma interpretao pedaggica dos clusters formados ao longo da escala

caractersticas de cada cluster, tendo como pressupostos bsicos as referncias o

A anlise comparativa entre os

(i) primeira parte - uma breve apresentao de conceitos bsicos

2. Conceitos Bsicos: dos itens Teoria da Resposta ao

selecionados como caractersticos para cada nvel de proficincia, no se sabendo tambm

Nesse exemplo, a CCI apresentada graficamente, mostrando-se a relao

corresponde inclinao da CCI no ponto em que h 50% de chance de acerto do

Fig. 2: CCIs de quatro itens com variaes de dificuldade e de discriminao,

Um aspecto importante que a discriminao de um item no a mesma

que, por sua vez, referem-se a probabilidades de acerto

superiores a zero. Por exemplo, em um item de mltipla escolha com cinco

Fig. 3: CCIs de quatro itens com variaes de dificuldade e de discriminao,

Entretanto nem sempre o parmetro c corresponde exatamente diviso de

que "facilitam" o desempenho de quem sabe menos, por

exemplo, alternativas com respostas absurdas ou obviamente falsas, fazendo com

You might also like