You are on page 1of 46

PRINCIPAIS CONTEDOS SOBRE TESTAGEM & AVALIAO

Fonte principal: Anatasi, Anne & Urbina, S. (2000). Testagem Psicolgica. Artmed: So Paulo.

Captulo 1 1. Usos e tipos de testes psicolgicos a. Medir a diferena entre os indivduos e as reaes do mesmo indivduo em diferentes circunstncias; b. Um dos primeiros problemas que estimulou o desenvolvimento de testes foi: a identificao das pessoas mentalmente retardadas; c. Testes servem para o uso clnico no exame de pessoas com transtornos emocionais graves e outros tipos de problemas comportamentais; d. Necessidade de avaliao na educao (classificao pela habilidade, lentido ou rapidez de aprendizagem, aconselhamento educacional e ocupacional no ensino mdio e na universidade, e a seleo de candidatos para as escolas profissionalizantes); e. Necessidades de avaliao na Indstria (seleo e classificao de pessoal, resolvendo questes como admisso, atribuio de funo, transferncia, promoo ou demisso nos casos de cargos mais importantes, a avaliao deve ser feita com a combinao mais apropriada de tcnicas de acompanhamento). f. Uso em pesquisa bsica (natureza e extenso das diferenas individuais, organizao dos traos psicolgicos, diferenas grupais, fatores biolgicos e culturais associados s diferenas comportamentais) 2. O que um teste psicolgico? a. Amostra comportamental; b. Padronizao; c. Mensurao objetiva de dificuldade; d. Fidedignidade; e. Validade 3. Amostra comportamental a. Medida objetiva e padronizada do comportamento; b. O valor diagnstico ou preditivo de um teste depende do grau em que ele serve como um indicador de uma rea relativamente ampla e significativa do comportamento; i. Os itens sozinhos so irrelevantes, mas podem servir se for comprovado que eles esto associados ao xito em algo mais geral;
1

ii. Os itens no precisam se assemelhar exatamente ao comportamento que o teste deve predizer. Precisa apenas que seja demonstrada uma correspondncia emprica; 4. Padronizao a. Uniformidade de procedimentos (aplicao e pontuao) b. O construtor do teste fornece as informaes detalhadas (materiais exatos utilizados, limites de tempo, instrues orais, demonstraes preliminares, maneiras de manejar as perguntas). c. Estabelecimento de Normas padronizadas (normatizao os testes psicolgicos no tm padres predeterminados de aprovao e reprovao, o desempenho em cada teste avaliado com base em dados empricos); d. Padronizao do tipo de escore bruto (respostas certas, tempo de uma tarefa, nmero de erros); e. As normas so estabelecidas da mesma maneira para os testes de personalidade e de aptido. Entretanto, a norma para um teste de personalidade no necessariamente o desempenho mais desejado, assim como um escore perfeito ou sem erros para os testes de aptides. Em ambos, a norma corresponde ao desempenho de pessoas tpicas ou na mdia. 5. Mensurao objetiva de dificuldade a. A aplicao, pontuao e a interpretao dos escores so procedimentos objetivos, na medida em que so independentes do julgamento subjetivo do examinador; b. A determinao do nvel de dificuldade de um item ou de um teste completo baseia-se em procedimentos objetivos empricos (ipso facto);

6. Fidedignidade (consistncia) a. Teste reteste ou testes paralelos; b. Mesmos testandos avaliados em momentos diferentes, com conjuntos diferentes de itens, com diferentes examinadores ou avaliadores; c. A origem scio-demogrfica da amostra deve ser informada, ou se ela representativa da populao alvo; d. Com essas informaes se determina o grupo em que os testes avaliaro com maior ou menor grau de confiana, ou confiabilidade. 7. Validade a. O Grau que o teste mede aquilo que ele se prope a medir;

b. Depende de critrios externos (ex.: Teste de aptido mdica que indique sucesso no curso de medicina Correlao= Coeficiente de Validade); c. Margem de erro determinvel; d. Validade diz o que o teste est medindo; e. A validade dos testes seria mais clara e menos ambgua se os testes fossem nomeados em termos das relaes empricas que foram validados; 8. Por que controlar o uso dos testes psicolgicos a. Para garantir que o teste ser aplicado por um examinador qualificado e que os escores sero adequadamente utilizados; b. Para evitar uma familiaridade geral com o contedo do teste, o que o invalidaria; c. Examinador Qualificado: i. Seleo do teste (conhecimento da padronizao, fidedignidade e validade) ii. Aplicao e pontuao (se inexata, anula o valor do escore) iii. Interpretao dos escores (Conhecimento do teste, do testando e das condies situacionais da avaliao; condies incomuns; alteraes do estado emocional ou fsico dos testandos; extenso de experincias anteriores). d. Papel do usurio de testes: i. A maioria das crticas aos testes no dirigida s suas caractersticas intrnsecas, mas a usos inadequados dos resultados de testes por usurios inadequadamente qualificados; ii. Alguns usos indevidos originam-se de um desejo de encontrar atalhos, respostas rpidas e solues rotineiras simples para problemas de vida real. iii. A presso de tempo, quando existe sobrecarga de trabalho, pode encorajar o emprego destes expedientes; iv. Mas a causa mais freqente de usos inadequados de testes provavelmente um conhecimento insuficiente ou falho a respeito da testagem. e. Segurana do contedo do teste e comunicao das informaes do Teste: i. Se um sujeito conhecer previamente o contedo de um teste, sua avaliao perder todo o sentido, o contedo do

teste, tem de ser restrito, a fim de impedir tentativas deliberadas de falsificar escores; ii. Em outros casos, o efeito da familiaridade pode ser menos bvio, como na tentativa de uma professora de preparar algum para testes de inteligncia com problemas especiais; iii. Garantir a segurana do contedo de um teste, no deve interferir na comunicao efetiva das informaes sobre a testagem dirigida a testandos, profissionais envolvidos e ao pblico em geral. Essa comunicao tem vrios objetivos:
1. Primeiro: Desfazer mistrios associados a testagem, corrigindo concepes errneas sobre para que servem os testes e o que significam seus escores; 2. Segundo: Esclarecer procedimentos tcnicos por meio dos quais determinados testes foram construdos e avaliados (fidedignidade e validade, etc.) 3. Terceiro: Familiarizar os testandos com os procedimentos de testagem, desfazer a ansiedade e assegurar que cada um ter um desempenho de acordo com sua habilidade mxima. 4. Quarto: Dar um feedback ao testando em relao ao seu desempenho em qualquer teste que tenha feito.

9. Aplicao dos testes a. Quaisquer influncias que so especficas da situao de teste constituem varincia de erro e reduzem a validade do teste: b. Preparao antecipada dos examinadores; i. Memoriza as instrues verbais exatas, no caso de testagem individual; ii. Ter familiaridade prvia das instrues a serem lidas, no caso de testagem em grupo; iii. Preparao dos materiais de teste; iv. Familiarizao completa com os procedimentos especficos de testagem (tempo, observaes, etc.) c. Condies de testagem; i. Salas livres de rudos e distraes indevidos. Devem ter iluminao, ventilao, cadeiras e espao de trabalho adequado para os testandos. ii. Sem interrupes durante a avaliao, (avisos, fechar a porta, ou funcionrio para impedir a entrada de retardatrios, no caso de avaliaes coletivas, etc.)

iii. O tipo de teste (movimentos repetitivos, ou de muito contedo emocional) pode dar escores diferenciados em testagens em grupo e individuais. d. Apresentando o teste: Rapport e Orientao do Testando i. Motivao, interesse dos testandos pelo teste, obter cooperao e encoraj-los a responder de maneira adequada; ii. Testes de habilidade tm que ter cuidadosa concentrao e esforo mximo; iii. Inventrios de personalidade de auto-relato exigem respostas francas e honestas; iv. Testes projetivos exigem o relato completo das associaes evocadas pelos estmulos, sem qualquer censura ou seleo de contedo. 10. Variveis situacionais do examinador a. Idade, sexo, etnia, status profissional ou socioeconmico, treinamento e experincia, caractersticas de personalidade e aparncia Embora tenham relaes significativas, os resultados so inconclusivos ou enganadores, pela falta de controle das mesmas variveis dos sujeitos; b. Relacionamento Interpessoal amigvel versus frio, conduta rgida versus natural (mesmo examinador com diferentes testandos). c. Natureza do teste, objetivo da testagem, instrues dadas ao testando; d. Profecia auto-realizadora expectativas do examinador 11. Uma viso da perspectiva do testando a. Ansiedade de teste. b. Outras reaes a testagem (geral). i. O que pensam sobre testagem; ii. Sobre os objetivos iii. Como lidam com o resultado ou diagnstico 12. Efeitos do Treinamento (dos sujeitos) sobre o desempenho no teste a. Sujeitos treinados para o teste (reduzem o valor diagnstico do teste) b. Sofisticao em testes (aumenta os escores mesmo em formas alternadas; hbito com o tipo de padronizao) c. Instruo em habilidades cognitivas amplas (Intelectuais, hbitos de trabalho, estratgias de resoluo de problemas)
5

Captulo 2 13.HISTRICO DA TESTAGEM MODERNA: Uma breve reviso dos antecedentes e das origens histricas da testagem psicolgica ajuda a entender os testes atuais 14. Embora as razes da testagem estejam na antiguidade. Existem repetidos relatos do sistema de exames no servio civil utilizado no imprio chins por aproximadamente dois mil anos consecutivos. Entre os antigos Gregos a testagem era um adjunto estabelecido para o processo educacional (foram utilizados testes para avaliar a maestria de habilidades fsicas e intelectuais). Desde o incio da idade mdia, as universidades europias utilizavam exames formais para conceder graus e honras. 15. Entretanto, os desenvolvimentos mais importantes que moldaram a testagem contempornea aconteceram a partir do sculo XIX. 16.O interesse inicial pela classificao e pelo treinamento das pessoas mentalmente retardadas a. Antes do sc. XIX, a negligncia, o ridculo e inclusive a tortura eram o destino comum dos indivduos mentalmente retardados. b. Com o cuidado social das pessoas com problemas mentais, observou-se a necessidade de critrios uniformes para identificar e criar esses casos. Criaram-se, ento, padres de admisso e um sistema objetivo de classificao para dar-lhes o devido tratamento institucional. c. Para isso, primeiro diferenciou-se os insanos dos mentalmente retardados. i. Insanos: manifestavam transtornos emocionais que poderiam ou no ser acompanhados pela deteriorizao intelectual de um nvel inicialmente normal; Mentalmente retardados: caracterizados por um defeito intelectual presente desde o nascimento ou surgido muito cedo na infncia.

ii.

d. O estudo que tratou de retardo mental foi o do mdico francs Esquirol (1838). Ele salientou que existem muitos graus de retardo mental, variando ao longo de um contnuo que vai da normalidade idiota de qualidade inferior, e concluiu que o uso que cada

indivduo faz da linguagem proporciona o critrio mais confivel de seu nvel intelectual. e. Outro mdico francs, Seguin, foi o pioneiro no tratamento de pessoas mentalmente retardadas. Tendo rejeitado a noo predominante de incurabilidade do retardo mental, Seguin (1866/1907) experimentou durante muitos anos o que chamava de mtodo fisiolgico de treinamento, o que o levou a elaborar muitas tcnicas de treinamento dos sentidos (descriminao sensria) e dos msculos (controle motor). Alguns desses procedimentos foram incorporados posteriormente aos testes de desempenho ou testes no-verbais de inteligncia. f. Mais de meio sculo depois, o psiclogo francs Alfred Binet, incentivou a opo de classes especiais para as crianas mentalmente retardadas. 17.Os primeiros Psiclogos experimentais a. Preocupava-se com descries generalizadas do comportamento; b. Eram as uniformidades e no as diferenas no comportamento que constituam o foco de ateno nos estudos; c. As diferenas individuais eram ignoradas ou consideradas como erro; d. A presena de erro, ou variabilidade individual, tornava as generalizaes aproximadas, ao invs de exatas; e. Os estudos eram, em grande parte, devido influncia da fisiologia e da fsica, sobre sensibilidade aos estmulos visuais, auditivos e outros estmulos sensoriais, e ao tempo de reao simples. O que influenciou os primeiros testes psicolgicos. f. Os primeiros experimentos psicolgicos criaram a necessidade de um rigoroso controle das condies em que as observaes eram feitas. O que influenciou o curso da evoluo da testagem. 18.Contribuies de Francis Galton a. Foi o principal responsvel pelo lanamento do movimento da testagem. Seu principal interesse era pela hereditariedade humana, o que o levou a estudar as pessoas de acordo com seu grau de parentesco.

b. Criou o primeiro grande banco de dados sistemticos sobre as diferenas individuais em processos psicolgicos simples, medindo alguns traos fsicos e associando com testes de acuidade visual e auditiva, fora muscular, tempo de reao e outras funes sensrio-motoras simples. c. Para Galton, os testes de discriminao sensorial podiam servir como um meio de avaliar o intelecto de uma pessoa, porque (...) quanto mais os sentidos percebem as diferenas, maior o campo em que o nosso julgamento e inteligncia podem agir. (So exemplos de testes de Galton: Barra para discriminao visual, apitos para discriminao auditiva e sries graduadas de pesos para discriminao cinestsica) d. Foi pioneiro no uso de mtodos de escala de avaliao e questionrio, no uso de tcnicas de associao livre e tambm no uso de tcnicas estatsticas, quando selecionou e adaptou algumas tcnicas previamente derivadas por matemticos, deixando-as acessveis para o uso na pesquisa. Assim ele estendeu imensamente a aplicao dos procedimentos estatsticos anlise dos dados de testes, deixando muitos alunos, o mais famoso foi Karl Pearson. 19.Cattell e os Primeiros Testes Mentais a. Sob a orientao de Wundt, em seu doutorado, realizou uma dissertao sobre o tempo de reao, mas seu interesse pela mensurao das diferenas individuais foi pelo contato com Galton em 1888. b. Em um artigo seu, em 1890, o termo teste mental foi utilizado pela primeira vez na literatura psicolgica. Esse artigo descrevia uma srie de testes aplicados individualmente a universitrios medindo medidas de fora muscular, velocidade do movimento, sensibilidade dor, acuidade visual e auditiva, discriminao de peso, tempo de reao, memria, entre outros. c. Viveu em uma poca que se preferia testes discriminao sensorial e tempo de reao em lugar do desenvolvimento de medidas objetivas para as funes mais complexas, o que parecia uma tarefa quase sem esperana. d. Entretanto observara-se que o desempenho do indivduo apresentava pouca correspondncia de um teste para outro, e pouca ou nenhuma relao com estimativas independentes de nvel
8

intelectual baseadas nas avaliaes dos professores ou notas acadmicas. e. Em seguida, algumas sries de testes montadas por psiclogos europeus buscavam funes um pouco mais complexas, quando Kraepelin (1895), que estava interessado principalmente no exame clnico de pacientes psiquitricos, preparou uma longa srie de testes para medir (fatores bsicos na caracterizao dos indivduos) operaes aritmticas e seus efeitos prticos, a memria e a suscetibilidade fadiga e distrao. f. Outro psiclogo alemo, Ebbinghaus (1897), aplicou testes de clculo aritmtico, intervalo de memria e concluso de sentenas a crianas em idade escolar. Completar sentenas foi o nico que demonstrou uma clara correspondncia com o desempenho escolar da criana. g. Em um artigo publicado na Frana, Binet e Henri criticaram a maioria das sries de testes existentes como sendo excessivamente sensoriais e indevidamente centradas em habilidades simples, especializadas. Argumentaram que na mensurao de habilidades mais complexas no necessria grande preciso, uma vez que as diferenas individuais so maiores nessas funes. h. Assim, foi proposta uma lista extensa e variada de testes, abrangendo funes como memria, imaginao, ateno, compreenso, sugestionabilidade, apreciao esttica etc. O que deu origem ao desenvolvimento das famosas escalas Binet de inteligncia. 20.Binet e o Surgimento dos Testes de Inteligncia a. Ainda assim, foram experimentadas muitas abordagens, incluindo at a mensurao da forma craniana, facial e da mo, e a anlise da caligrafia. Mas os resultados levaram a uma crescente convico de que a mensurao direta das funes intelectuais complexas, ainda que imperfeita era a mais promissora. b. A principal demanda para isso foi a nomeao de Binet para uma comisso do Ministrio da Educao Pblica francs para estudar procedimento a serem usados na educao de crianas retardadas. Da surgiu a primeira Escala Binet-Simom (1905), que consistia em 30 problemas ou testes organizados em ordem crescente de dificuldade, planejados para cobrir uma ampla variedade de
9

funes com nfase especial em julgamento, compreenso e raciocnio, os quais Binet considerava componentes essenciais da inteligncia. c. Os testes Binet-Simon atraram uma grande ateno entre os psiclogos do mundo todo, o que os fizeram passar por vrias revises e verses. O escore das crianas passou a ser expresso como um nvel mental correspondente idade das crianas normais cujo desempenho ela tinha igualado. Posteriormente este termo foi substitudo por idade mental por ser de mais fcil compreenso, o que ajudou a popularizar a testagem da inteligncia. d. A partir da, a escala de Binet-Simon foi superada pela StanfordBinet, desenvolvida por L. M. Terman (1916), mais extensa e psicometricamente refinada. Foi neste teste que o quociente de inteligncia (QI), ou a razo entre a idade mental e a idade cronolgica, foi usada pela primeira vez. 21.Testagem em Grupo a. At ento os testes eram aplicados individualmente, pois requeriam respostas verbais e a manipulao de materiais, alguns exigindo a cronometragem de tempo de resposta, o que, alm de exigir um examinador altamente treinado, os inviabiliza para o uso em grupo. b. Em 1917, quando os E.U.A. entram na 1 Guerra, a American Psychological Association, atravs de um comit chefiado por Robert Yerkes, lanaram mo de todo material disponvel, principalmente um teste de inteligncia grupal no-publicado, preparado por Arthur S. Otis, que trazia uma grande contribuio: itens de mltipla escolha e outros tipos de itens objetivos. c. Inicialmente dois testes foram desenvolvidos: O Army Alpha (testagem geral de rotina) e o Army Beta (testagem no-verval para analfabetos e estrangeiros). d. Em pouco tempo, depois da liberao dos testes para uso civil, estavam sendo desenvolvidos testes de inteligncia grupais para todas as idades e todos os tipos de pessoas, de pr-escolares at a universidade. e. Estes testes no s permitiam um exame simultneo de grandes grupos, como tambm usavam instrues e procedimentos de aplicao simplificados, exigindo um mnimo de treinamento por parte do examinador. Professores passaram a aplicar testes de
10

inteligncia em seus alunos; Universitrios eram rotineiramente examinados antes da admisso; Estudaram grupos especiais de adultos, como prisioneiros, etc., o que fez o QI se popularizar rapidamente. f. No uso exacerbado de alguns testes, prezava-se pouco por seu aprimoramento, o que contribuiu para o descrdito de toda a testagem. Portanto, a exploso da testagem da dcada de 20, pode ter feito tanto para retardar quanto para acelerar o progresso da testagem psicolgica. 22.Testagem de Aptides a. Embora os testes de inteligncia tenham sido originalmente planejados para experimentar uma variedade ampla de funes a fim de estimar o nvel intelectual geral do indivduo, logo ficou claro que estes testes eram bastante limitados em seu alcance. Nem todas as funes importantes estavam representadas. b. Assim, passaram a ser chamados de testes de aptido escolar, uma vez que media as habilidades exigidas e favorecidas pelo trabalho acadmico. O que no diminuiu sua importncia na cultura para a qual eles foram planejados. c. Verificou-se posteriormente a necessidade de testes de aptides especficas para suplementar os testes globais de inteligncia. A exemplo dos testes aptido mecnica, musical, artstica e para atividades de escritrio. d. Um ponto que chamou a ateno dos pesquisadores foi que um teste contendo vrios contedos (numrico, verbal, figuras e diagramas geomtricos) as pessoas podem variar em suas respostas dependendo do seu domnio. Especialmente nos testes grupais que normalmente se dividiam em subtestes homogneos em contedo, tais intercomparaes passaram a ser utilizadas pelos psiclogos para compreender melhor a constituio psicolgica do indivduo. e. Entretanto, os testes no foram elaborados para tais anlises diferenciais de aptides, o que poderia gerar resultados instveis com relao s habilidades especficas. O que poderia ser corrigido retestando os indivduos com os mesmos testes ou com formas paralelas. f. Diante desse panorama de inter-correlaes entre os escores obtidos por muitas pessoas em uma ampla variedade de diferentes
11

testes, o psiclogo ingls Charles Spearman (1904, 1927) passou a desenvolver progressos metodolgicos para solucionar esses problemas de anlise. O que depois dos trabalhos dos psiclogos americanos Kelley (1928) e Thurstone (1938, 1947) passou a se chamar anlise fatorial. g. Um dos principais resultados prticos da anlise fatorial foram as baterias de aptides mltiplas. Em lugar de um escore total ou QI, obtido uma medida da posio do indivduo em cada um de vrios traos, como compreenso verbal, aptido numrica, visualizao espacial, raciocnio aritmtico e velocidade perceptual. h. As baterias de aptides mltiplas apareceram em 1945, devido ao trabalho dos psiclogos durante a 2 Guerra, especialmente na Aeronutica, a exemplo das baterias construdas para pilotos, artilheiros, operadores de rdio, telemetristas, etc. i. Hoje em dia, elas se estenderam ao uso em aconselhamento educacional e vocacional e na seleo e classificao de pessoal. 23.Testes de Realizao Padronizados a. A partir de 1845, os exames escolares tambm foram sofrendo melhorias tcnicas, pegando carona no desenvolvimento da testagem, quando os interrogatrios orais foram substitudos por exames escritos. b. Os exames escritos colocavam todos os alunos em uma situao uniforme, permitiam que um contedo mais amplo fosse coberto, reduziam o elemento de acaso na escolha das perguntas e eliminavam a possibilidade de favoritismo por parte do examinador (note a semelhana com os argumentos de Construo versus Escolha). c. Posteriormente, ao mesmo tempo em que se verificou que os testes dissertativos exigiam muito tempo do examinador e dos examinandos, alm das evidncias da falta de concordncia entre as notas atribudas a esse tipo de exame, o uso de novos tipos de itens objetivos foi adotado. d. Com os testes de realizao padronizados, houve uma crescente nfase no planejamento de itens para testar o entendimento e a aplicao do conhecimento e outros objetivos educacionais amplos. Esse tipo de teste tambm provocou um progresso notvel no
12

estabelecimento de programas de testagem estaduais, regionais e nacionais de educao. e. Os testes de realizao so utilizados no apenas para fins educacionais como tambm na seleo de candidatos a empregos industriais e governamentais. 24.Avaliao da Personalidade a. Caracteriza-se pela preocupao com os aspectos afetivos ou nointelectuais do comportamento, embora muitos prefiram usar o termo personalidade em um sentido mais amplo, para se referir ao indivduo completo. b. Para a testagem psicolgica, teste de personalidade refere-se a medidas de caractersticas tais como, estados emocionais, relaes interpessoais, motivao, interesses e atitudes. c. Um precursor inicial da testagem de personalidade ilustrado pelo uso do teste de associao livre com pacientes psiquitricos (por Kraepelin), onde o examinando recebe palavras estmulo especialmente selecionadas e solicitado a responder a cada uma com a primeira palavra que lhe vier mente. d. Kraepelin (1892) tambm empregou essa tcnica para estudar os efeitos psicolgicos da fadiga, da fome e das drogas, chegando a concluso que estes agentes aumentam a freqncia relativa das associaes superficiais. e. As contribuies de Galton, Pearson e Cattell no desenvolvimento das tcnicas de questionrios padronizados foram muito teis para a construo de alguns dos tipos mais comuns de testes de personalidade atuais: o inventrio de auto-relato. f. O primeiro nesse formato foi o Personal Data Sheet desenvolvido por Woodworth durante a 1 Guerra, este foi planejado como um instrumento de avaliao genrica para identificar homens seriamente perturbados que no estariam qualificados para o servio militar. g. Esse modelo serviu para a maioria dos inventrios subseqentes de ajustamento emocional. Exemplos de tentativas de subdividir o ajustamento emocional em formas mais especficas so: ajustamento em casa, na escola e ajustamento vocacional; Serviu para outras reas mais estreitas de comportamento ou de distino

13

social com dominao-submisso nos contatos interpessoais; Serviu para quantificar a expresso de atitudes e interesses. h. Outra abordagem de mensurao da personalidade atravs da aplicao de testes de desempenho ou situacionais. Nesses o examinando tem de realizar uma tarefa cujo propsito muitas vezes est disfarado. A maioria desses testes simula as situaes da vida cotidiana de forma muito aproximada. Avaliam os adultos em seus comportamentos sociais e emocionais relativamente complexos e sutis, e exigem instalaes elaboradas e pessoal treinado para a sua aplicao. A interpretao das respostas era relativamente subjetiva. i. Finalmente, as tcnicas projetivas representam uma terceira abordagem ao estudo da personalidade que teve um crescimento fenomenal, especialmente entre os clnicos (os testes de associao livre foram os primeiros). Nestes testes o cliente recebe uma tarefa relativamente no estruturada que permite uma grande variao em sua soluo. A suposio subjacente a tais mtodos que o indivduo projetar seus modos caractersticos de resposta nessa tarefa. Tambm so mais ou menos disfaradas em seu propsito, reduzindo as chances do respondente criar uma impresso desejada. Exemplos: desenhar, arranjar brinquedos para criar uma cena, o brincar dramtico improvisado e interpretar figuras ou manchas de tinta. j. Todos os tipos disponveis de testes de personalidade apresentam certas dificuldades, tanto prticas quando tericas. A pesquisa nessa rea atingiu seu apogeu nos anos 50. As dificuldades especiais encontradas na mensurao da personalidade humana explicam os lentos avanos. Entretanto, duas tendncias unificadoras e significativas esto indicando a influncia mtua entre traos afetivos (personalidade) e cognitivos (habilidades), tanto no desempenho de tarefas quanto no comportamento. A distino tradicional entre os dois tipos traos est comeando a ser reconhecida como artificialmente imposta por convenincia na descrio e mensurao de diferentes aspectos do comportamento.

14

Captulo 17 25.Principais contextos do uso atual dos testes a. Testagem Educacional b. Testagem Ocupacional c. Testagem em Psicologia Clnica e Aconselhamento 26.Testagem Educacional a. Todos os tipos de testes podem ser utilizados (inteligncia, aptides especiais e mltiplas, personalidade); b. Alguns testes so planejados para a predio e classificao em ambientes educacionais especficos 27. Testes de Realizao: Natureza e usos a. So planejados para medir os efeitos de um programa de instruo ou de treinamento especfico b. comum sua comparao com os testes de aptides c. A diferena bsica entre a realizao e a aptido no grau de uniformidade da experincia antecedente relevante d. Assim, os testes de realizao medem os efeitos de conjuntos de experincias relativamente padronizadas, tais como, francs elementar, trigonometria ou programao de computador. e. Os testes de aptido medem a influncia cumulativa de uma multiplicidade de experincias na vida cotidiana f. Ou seja, os testes de aptido medem o efeito da aprendizagem em condies relativamente no-controladas e desconhecidas, ao passo que os testes de realizao medem os efeitos da aprendizagem, ocorridos em condies parcialmente conhecidas e controladas. g. Os testes de aptido servem para predizer o desempenho subseqente, ou seja, estimar a extenso que um indivduo vai lucrar com um curso de treinamento especfico, ou para predizer a qualidade de sua realizao em uma nova situao. h. Os testes de realizao servem para avaliao terminal do status do indivduo no treinamento. A nfase naquilo que o indivduo capaz de fazer no momento. i. Assim, o termo Habilidade atualmente mais utilizado em vez de aptido ou realizao. 28. Construo versus Escolha a. Perguntas dissertativas: respondidas oralmente ou por escrito;

15

b. Perguntas objetivas: escolha de uma resposta a partir do contraste entre opes (vrios tipos: mltipla escolha, V ou F, combinaes) c. Portflio: registro cumulativo de amostras de trabalho em reas especficas, tais como redao ou qualquer atividade um processo em que o progresso pode ser documentado. 29. Tipos de testes Educacionais a. Baterias de Realizao Geral (comparaes verticais isto , transversais e horizontais isto , longitudinais) b. Testes de competncia mnima em habilidade bsicas (informaes baseadas na competncia, leitura, linguagem e matemtica aplicada); c. Testes de sala de aula criados pelo professor ( mais fcil preparar itens objetivos, mais fcil preparar itens que requerem a lembrana de fatos simples, do que planejar itens que exigem a avaliao crtica, integrao de fatos diferentes ou aplicao de princpios a novas situaes); d. Testes para o Nvel universitrio (SAT e ACT tentam assegurar a predio do ensino mdio - vestibular) e. Admisso ps-graduao (GRE) f. Testagem diagnstica e prognostica (examina as foras e fraquezas de uma pessoa dentro de um domnio de assunto para sugerir causas para as suas dificuldades) g. Avaliao na educao da infncia inicial 30.Testagem Ocupacional a. Decises ocupacionais, incluindo aconselhamento individual; b. Decises institucionais relativas seleo e classificao de pessoal; c. As organizaes nos setores empresariais, ou nos nveis federal, estadual e municipal do governo e nas diferentes divises das foras armadas utilizam quase todos os tipos de testes disponveis na tomada de deciso de pessoal. d. Baterias de aptido mltipla e testes de aptido especial foram muitas vezes desenvolvidos para fins ocupacionais. e. Tambm se utiliza para o Licenciamento e na Certificao de pessoas qualificadas. 31. Procedimentos Globais para a Avaliao de Desempenho a. Nunca completamente semelhante ao trabalho em si. b. Perodo probatrio (brevidade e conhecimento);
16

c. Amostras de trabalho (uniformidade para os candidatos, representatividade da amostra de trabalho e a exatido com que a amostra duplica as condies de trabalho, por exemplo, testes de direo, testes padronizados para habilidade de escritrio como datilografar e operar mquinas); d. Simulao (simuladores para engenheiros de locomotiva e para pilotos de avio); e. Tcnicas dos centros de avaliao (utilizadas no nvel de gerncia e aplicao; teste da cesta; envolve mltiplas avaliaes de assessores e pares; referem-se motivao, habilidades interpessoais e outras caractersticas de personalidade). 32. Anlise de Funo do Mtodo de Elemento da Funo a. Identificar os requerimentos que diferenciam uma determinada funo de outras (Manuais de treinamento e de operao publicados, registros de desempenhos e, espacialmente, opinies de peritos). b. Diferenciar os melhores trabalhos dos piores atravs da anlise comportamental. c. Afirmaes comportamentais especficas esto, geralmente, associadas a categorias, ou construtos, mais amplas (exatido de clculo, destreza das mos e dos braos, discriminao visual, ou habilidade de trabalhar sob presso). d. Work Keys, 72 escalas, 50 cobrem habilidades de cuidadosamente definidas nos domnios cognitivo, psicomotor, fsico e sensrio/perceptual, e a maioria delas est vinculada a testes existentes, 20 referem-se aos domnios Interpessoal / Social e de Conhecimento / Habilidades e ainda esto em desenvolvimento). e. Outro Sistema Work Key, American College Testing Program, conjunto bem mais reduzido de habilidades genricas, tais como localizar informaes, que podem ser ensinadas por um perodo razovel de tempo. Trata-se de um pacote coordenado de instrumentos para: (1) perfil e anlise de funo, (2) avaliao de nveis de habilidade, (3) feedback para indivduos, educadores e empregadores e (4) apoio instrucional na implementao de treinamentos ou currculos educacionais. 33. Predio do Desempenho na Funo a. Validao Sinttica Baseia-se na premissa de que possvel identificar habilidades, conhecimentos e outros requerimentos de desempenhos comuns a muitas funes diferentes. (anlise
17

detalhada da funo; anlise e estudo emprico, determinao da validade de cada teste para cada funo regresso mltipla). b. Generalizao da validade Consiste na aplicao de achados de validade anteriores a uma nova situao, por meio tcnicas de meta-anlise. 34. O Critrio de Desempenho da Funo a. Estudo dos determinantes que implicam no bom desempenho da funo b. Estuda tambm os componentes da funo em si (tarefas), sua efetividade, produtividade e utilidade. 35. Sobre o uso ocupacional dos testes a. A adequao do uso de testes na deciso de pessoal no pode ser considerada parte dos objetivos, das situaes e das populaes especficas envolvidas em um determinado contexto. Nem sempre esto claras as linhas de demarcao entre conhecimento, capacidades, habilidades e traos de personalidade. b. Pensar no comportamento no trabalho como habilidade de resposta. c. O papel da Inteligncia (diferentes culturas, pocas e estgios da vida). d. Bateria de Aptido para Programas Especiais (Cortes mltiplos em aptides necessrias para grupos de funes homogneos; Generalizao da validade atravs dos escores de trs medidas compostas: cognitiva, perceptual e psicomotora). e. Teste de aptido especial (habilidade mecnica, por exemplo) 36. Testagem da Personalidade no Local de Trabalho a. Em geral derivam de pesquisas metodologicamente sofisticadas (Big-Five) b. Testes de Integridade (depois da proibio de polgrafos) c. Liderana d. Instrumentos (empregos de altos nveis de segurana X inventrio de auto-relato) 37. Avaliao Psicolgica a. Rapport; b. Observao; c. Entrevista; d. Histria de caso; e. Uso de Testes;

18

f. Tomada de decises (diagnstico diferencial, seleo de carreira, recomendaes de tratamento, culpabilidade); g. Tudo isso envolve em julgamento profissional baseado num conhecimento dos problemas e nas populaes em questo. 38. Os testes de Inteligncia no Contexto da Avaliao Individual a. Testes como as escalas Wechsler e o Stanford-Binet so fundamentalmente instrumentos individuais, clnicos. (um psiclogo clnico atento e bem treinado, quando mantm contato suficiente com um examinando para lhe aplicar um teste, ele certamente ficar sabendo mais sobre essa pessoa, do que aquele psiclogo que s usa o escore do QI, ou outro escore isolado, como fonte de informao, no tendo aplicado o teste); b. Pode-se avaliar o nvel geral de funcionamento intelectual; anlise de perfil em busca de foras e fraquezas significativas, diagnstico de dano cerebral, e diversas formas de psicopatologias que afetam diferentemente o funcionamento intelectual; c. Anlise de perfil englobam basicamente, trs procedimentos: avaliao da quantidade de disperso (Ex: diferenas de QI Verbal e de Desempenho, disperso global de vrios subtestes), dados de ndice de base (freqncia ou raridade desses aspectos dentro do grupo normativo) e padres de escores associados a determinadas sndromes clnicas (como, por exemplo, a doena de Alzheimer, dificuldades de aprendizagem ou estados de ansiedade). Wechsler, e outros, por exemplo, descreveram os padres de escores baixos e altos em subtestes, como tambm combinaes desses subtestes que caracterizam estes outros transtornos. d. Em um nvel puramente qualitativo outras fontes de informaes que podem sugerir caminhos a serem explorados pelo psiclogo, so: qualquer irregularidade de desempenho, forma e contedo das respostas, auto-referncia excessiva (podem indicar transtornos de personalidade), anlise dos erros ou das respostas corretas (indicam formas de solucionar problemas, desenvolvimento conceitual ou estilos cognitivos) e comportamentos do examinado durante a aplicao (atividades motoras, fala, respostas emocionais e a atitude em relao ao examinador). Como regra, em virtude de sua natureza idiossincrtica, essas pistas qualitativas no podem ser

19

validadas por mtodos quantitativos adaptados mensurao de tendncias grupais.

20

Captulo 3 39.Algumas observaes sobre Normas e Significado dos Escores a. Na ausncia de dados interpretativos adicionais, um escore bruto em qualquer teste psicolgico no tem significado; b. Sendo assim, o nvel de dificuldade dos itens que constituem um teste determinar o significado do escore; c. a que entram os conceitos estatsticos (Mdia, mediana, norma, varincia e desvio padro) para nos dar um maior entendimento de como os indivduos reagem aos estmulos apresentados pelo teste; d. Os escores de testes psicolgicos so mais comumente interpretados por referncia a normas que representam o desempenho da amostra de padronizao no teste; e. Para isso, o escore bruto de um indivduo ento situado na distribuio dos escores obtidos pela amostra de padronizao, para descobrir-se onde ele se localiza na distribuio. f. Os escores brutos so convertidos de vrias maneiras cuja informao ser ou para determinar o nvel de desenvolvimento atingido ou a posio relativa dentro de um grupo especificado. g. Dentre os tipos de normas, salienta-se: as normas desenvolvimentais, as normas intragrupo; h. Para cada tipo de normas poder se ter uma viso relativa de sua interpretao dependendo de fatores ligados a comparaes interteste, a amostra normativa, a normas de ncora nacionais, normas especficas e grupos de referncia fixo; 40.Normas Desenvolvimentais Os escores desse tipo de normas tendem a ser imperfeitos, pois so vulnerveis ao estgio de desenvolvimento do indivduo seja relativo a sua experincia de vida, ou ao seu nvel de escolaridade, e aos vrios tipos de contedos especfico que se pode observar. No entanto, elas tm uma considervel importncia para a descrio, pesquisa e para o estudo clnico intensivo dos indivduos. a. Idade mental versus idade basal: devido amplitude de experincias ser menor medida que h um aumento da idade mental (pois depois de um certo ponto, a maioria atinge a maturidade), e que no se pode simplesmente considerar que uma criana vai obter um desenvolvimento intelectual contnuo a
21

ponto de uma vez detectado um retardo mental de um ano, esse diagnstico permanea nas fases seguintes de seu desenvolvimento. Assim, na tentativa de corrigir essa falha, criou-se a idia de observar a idade mental (a equiparao do escore de um indivduo em relao a uma faixa de idade especfica cuja maioria teve o mesmo desempenho) junto com a idade basal (a equiparao das respostas de um indivduo sem que ele tenha obtido nenhum erro em comparao a uma faixa de idade especfica). b. Equivalente de srie escolar: Os escores de realizao escolar muitas vezes so interpretados em termos de equivalentes de srie escolar. Isso nos leva a encontrar, alm dos motivos j citados anteriormente, deficincias ligadas ao contedo da instruo que varia necessariamente de uma srie para outra e essa variao pode ocorrer em diferentes momentos tambm de uma turma para outra. c. Escalas ordinais: Trata-se da descrio do comportamento tpico de idades sucessivas em funes como locomoo, discriminao sensria, comunicao lingstica e formao dos conceitos que foram padronizados atravs de observaes empricas dos bebs e das crianas pequenas. 41.Normas Intragrupo a. Percentis: Indicam a posio relativa do indivduo na amostra de padronizao, onde P60 significa que o escore da pessoa est num ponto onde 60% da amostra de padronizao obteve um escore menor. So muito fceis de calcular e podem ser claramente compreendidos, mas sua unidade possui uma acentuada desigualdade, especialmente nos extremos da distribuio. b. Escores padro: Expressam a distncia do indivduo em relao mdia em termos de desvio-padro da distribuio e em geral so expressos como o escore z (com mdia = 0 e DP = 1). So mais preciso do que os percentis, mas por possurem nmeros decimais so mais tendenciosos ao erro por parte dos avaliadores. Outras variaes de escores padro so o escore T (M= 50 e DP = 10) e o QI de desvio (M = 100 e DP = 15). c. QI de desvio: (QI = 100 x IM / IC) Os QIs de desvio de diferentes testes s so comparveis quando empregam os mesmos valores ou valores muito semelhantes para o DP em tais testes. Estas
22

informaes devem necessariamente constar dos manuais dos testes. d. Inter-relaes dos escores do grupo: possvel trabalhar com a converso de escores desde que se faa uso das tcnicas adequadas para cada tipo considerado. Assim, a forma exata pela qual os escores so relatados deve ser considerada pela convenincia, familiaridade e facilidade de desenvolver normas com base neles. As normas so ajustes feitos nos escores-padro para que os mesmos representem uma curva normal ideal, e por essa razo que os escores s devem ser normalizados quando oriundos de amostras grandes e representativas e quando tivermos razes para acreditar que o desvio em relao normalidade resulta de defeitos no teste e no de caractersticas da amostra e de outros fatores que afetam o comportamento em considerao. 42.Relatividade das Normas Um QI, ou qualquer outro escore, sempre deve ser acompanhado pelo nome do teste em que foi obtido devido s vrias caractersticas que fazem nosso julgamento sobre as normas ser diferenciado. a. Comparaes interteste: existem trs razes principais que explicam as variaes sistemticas entre os escores obtidos pelo mesmo indivduo em testes diferentes (o contedo, as unidades da escala e a amostra de padronizao); b. Amostra normativa: qualquer norma, independente de como expressa, est restrita populao normativa especfica da qual foi derivada. Portanto, necessrio que haja representatividade da amostra de padronizao em relao populao, para se tentar generalizar uma determinada norma para esta populao. c. Normas ncora Nacionais: Trata-se do uso de um teste-ncora para se gerar uma tabela de equivalncia para testes diferentes. O objetivo poder comparar os escores de um indivduo em diferentes testes considerando justamente as diferenas normais entre estes testes. Assim se poderia ter uma idia dos escores esperados mesmo em diferentes testes. O teste-ncora serve para escalonar at novos testes. d. Normas especficas: Uso dessas normas mais especfico no que diz respeito a padronizao de testes para populaes mais limitadamente definidas, escolhidas de forma a se ajustar aos objetivos especficos de cada teste. Podem ser utilizadas normas
23

de subgrupo sob enfoque ou principalmente normas locais, quando a comparao com uma norma nacional no necessria. e. Grupo de referncia fixo: Na tentativa de garantir a comparabilidade e a continuidade dos escores os pesquisadores descobriram que, mesmo com o avano e a sofisticao dos testes, era necessrio utilizar as informaes das normas anteriores se quisessem comparar mais justamente os testandos, ou seja, optaram por manter a continuidade da escala dos testes desde sua criao original para poder ter uma boa idia do desempenho de qualquer outros sujeitos que se submetesse a eles em qualquer poca. 43.Os computadores e a interpretao dos escores a. Apresentam um desenvolvimento tcnico (pontuao por computador, interpretao narrativa, sistemas interativos); b. Riscos e Orientaes (comparabilidade dos escores e interpretaes narrativas associadas com a fidedignidade, validade e outras propriedades tcnicas do sistema); 44.Interpretao de testes referenciadas nos domnio a. Testagem referenciada no critrio (domnio) b. Significado do contedo: o foco est naquilo que os testandos podem e sabem fazer, sem compar-los com os outros, mas comparados com a tarefa que eles deveriam desempenhar; c. Testagem da maestria: alguns educadores argumentam que, dados tempo suficiente e mtodos instrucionais adequados, quase todo mundo pode atingir a maestria completa dos objetivos instrucionais escolhidos. As diferenas individuais manifestar-seiam assim no tempo de aprendizagem e no na realizao final, como acontece na testagem educacional tradicional. Para avaliar o nvel pr-estabelecido de maestria, duas questes so importantes: Quantos itens? Que proporo de acerto? 45.Qualificaes mnimas e pontos de corte a. Necessidade prticas e Armadilhas (uso de escores mnimos em variveis crticas necessrias para o desempenho de certas funes cuidado com os erros de julgamento) b. Tabelas de Expectativa (resultados esperados na combinao entre diferentes aptides envolvem uso de correlao e anlises multivariadas, por exemplo).
24

Captulo 4 46.FIDEDIGNIDADE Definio: Fidedignidade ou Confiabilidade refere-se consistncia dos escores obtidos pelas mesmas pessoas quando elas so reexaminadas com o mesmo teste em diferentes ocasies, ou com diferentes conjuntos de itens equivalentes, ou sob outras condies variveis de exame. a. Enfatiza o clculo do erro de mensurao de um nico escore. Com o qual podemos predizer o intervalo total de flutuao que provavelmente ocorrer no escore de um indivduo em resultado de fatores casuais irrelevantes ou desconhecidos; b. Tem sido utilizada para abranger vrios aspectos da consistncia dos escores: i. Em sentido amplo: indica a extenso em que as diferenas individuais nos escores de teste so atribuveis a diferenas verdadeiras nas caractersticas sob considerao e a extenso em que elas so atribuveis a erros causais; ii. Em termos mais tcnicos: possibilita que proporo da varincia total dos escores de teste uma varincia de erro (atribui-se o termo erro s variabilidade dos escores das pessoas que no so controladas) Relembrando... - Ambiente T=V+E - Instrues - Rapport (Fontes de erro) - Tempo - Tipo de Amostra - Caractersticas do prprio teste

Coeficiente de correlao (Pearson) 1,00 0,80 0,60 0,40 0,20 Correlao Perfeita Alta Moderada Baixa Fraca
Na Psicologia, em geral, esses so os rtulos atribudos aos coeficientes de correlao. Entretanto, para que as correlaes sejam consideradas conforme indicado ao lado, elas precisam ser significativas, ou seja, ter pelo menos uma p 0,05 (5%) de serem dadas ao acaso. A significncia depende do nmero de sujeitos (grau de liberdade).

25

Coeficiente de Fidedignidade A mensurao da fidedignidade representada pela aplicao do coeficiente de correlao quando se comparam, por exemplo, os escores de uma amostra de 104 sujeitos em dois testes equivalentes. Entretanto, o coeficiente de fidedignidade que normalmente exigido deve atingir aproximadamente 0,8 ou 0,90. 47.Tipos de Fidedignidade a. Teste-reteste (rtt)
i. o mtodo mais bvio para descobrirmos a fidedignidade dos escores de teste repetio em uma segunda ocasio; ii. A varincia de erro corresponde s flutuaes aleatrias de desempenho de uma sesso de teste para outra, que em parte podem ser atribudas a: - condies de testagem no controladas - mudanas das condies meteorolgicas - rudos sbitos ou outras distraes - lpis quebrado, doenas, fadiga, tenso emocional - preocupao, experincias recentes (boas ou ruins) iii. O intervalo sempre deve ser relatado (dias, semanas, meses, anos o ideal at 6 meses) iv. Experincias intervenientes (durante o tempo entre a 1 a e a 2a testagem) devem ser informadas (Treinamento especfico, Educao, Profissional, Aconselhamento, Terapia, etc.) v. O Conceito de Fidedignidade fica restrito a mudanas a curto prazo e aleatrias, no desempenho do teste, e no a todo o domnio de comportamento avaliado vi. Convm observar que diferentes funes do comportamento podem variar na extenso da flutuao diria que apresentam. Por exemplo, a firmeza dos movimentos delicados dos dedos indubitavelmente mais suscetvel a leves mudanas na condio da pessoa do que a compreenso verbal. (isso implicaria em testes repetidos em vrios dias)

b. Forma-alternada

26

i. Neste caso a fidedignidade uma medida tanto de estabilidade temporal, quanto da consistncia da resposta a diferentes amostras de itens (ou formas de teste). Combinando assim dois tipos de fidedignidade. ii. Implica no conceito de amostragem de itens, ou amostragem de contedo, assim como os outros tipos de fidedignidade adiante, respondendo as seguintes questes: - Em que extenso os escores dependem de fatores especficos da seleo dos itens? - Em que extenso os escores neste teste dependem de fatores especficos daquela determinada seleo de itens? - Teste alternados apesar de contedos de itens diferentes, precisam ter dificuldade semelhantes; c. Mtodo das Metades (split-half) i. A partir de uma nica aplicao de um teste, possvel chegarmos a uma medida de fidedignidade por meio de vrios procedimentos de dividir o teste pela metade (portanto, dois escores para cada pessoa: um pra cada metade) ii. A estabilidade temporal dos escores no entra nesta fidedignidade; iii. O primeiro problema como dividir o teste de modo a obter as metades mais perfeitamente equivalentes. Deve ser considerado: - A natureza e o nvel de dificuldade dos itens - e tambm os efeitos cumulativos de aquecimento, prtica, fadiga, aborrecimento e quaisquer outros fatores variando progressivamente do incio ao final do teste; iv. Dividir os itens aleatoriamente ou entre mpares e pares, podem ser alternativas que justifiquem honestidade dependendo do arranjo dos itens (dificuldade crescente, abrangncia do contedo para cada metade) d. Kuder-Richardson e Coeficiente alfa (consistncia inter-item) (para escalas 0-1) (para escalas 1-5) i. A partir de uma nica aplicao de um teste, possvel chegarmos a uma medida de fidedignidade por meio da

27

consistncia de respostas a todos os itens do teste (consistncia inter-item). ii. influenciada por duas fontes de varincia de erro: - amostragem de contedo (como na forma alternada e no mtodo das metades) - Heterogeneidade do domnio comportamental amostrado (quando mais homogneo o domnio, maior a consistncia inter-item) e. Fidedignidade do Avaliador i. Testes de criatividade e projetivos de personalidade dependem do julgamento de um avaliador, ii. A correlao entre as avaliaes independentes de dois psiclogos d a idia do quanto de erro pode ocorrer dessas avaliaes; 48.Fidedignidade dos testes de rapidez
a. Um teste de rapidez puro aquele em que as diferenas individuais dependem inteiramente da velocidade do desempenho

i. Os itens so de dificuldade uniformemente baixa, bem dentro do nvel de habilidade das pessoas alvo; ii. O limite de tempo to curto que ningum consegue terminar; iii. O escore reflete apenas a velocidade; b. Ao contrrio, testes de habilidade pura: i. Tm um limite de tempo suficiente para ser respondido por completo; ii. A dificuldade dos itens aumenta gradualmente, e possui alguns muito difceis; c. Ambos so planejados para evitar a obteno de escores perfeitos (responder todas as questes corretamente), pois seria impossvel saber quo mais elevado o escore do sujeito teria sido se houvessem mais itens, ou itens mais difceis. d. A testagem de maestria foge a essa regra, por que referenciada no domnio.

28

e. Em testes de rapidez, coeficientes de fidedignidade de tentativa nica no podem ser aplicados (duas metades, consistncia interitens), pois se baseiam no nmero de erros. No caso das duas metades, a velocidade de execuo seria diferente entre duas metades. f. Como opo, pode-se usar teste-reteste, ou o mtodo das metades aplicado para partes do teste cronometradas separadamente. g. Se no for possvel, pode-se dividir o tempo total em quartas partes, onde os sujeitos assinalariam qual item esto trabalhando no momento em que o examinador der um sinal. Essa combinao tende a equilibrar os efeitos cumulativos da prtica, da fadiga e de outros fatores. 49.Dependncias dos Coeficientes de Fidedignidade na amostra a. Variabilidade
i. Qualquer coeficiente de correlao afetado pelo intervalo total das diferenas individuais no grupo. Se todos os membros de um grupo possuem escores muito semelhantes, a comparao desses escores com outros resultados seria mais restrita. ii. A Homogeneidade ou Heterogeneidade da amostra influencia igualmente a correlao; iii. Quando um teste vai ser utilizado para discriminar diferenas individuais dentro de uma amostra mais homognea do que o grupo de padronizao, o coeficiente de fidedignidade deve ser novamente determinado nessa amostra;

b. Nvel de habilidade
i. O coeficiente de fidedignidade tambm varia em funo do nvel mdio de habilidade do grupo. E essas diferenas s so passveis de verificao atravs de prova emprica do teste em grupos que se diferenciem em idade ou comprovadamente em nvel de habilidade. ii. A fidedignidade pode ser relativamente baixa para grupos mais jovens e menos capazes, uma vez que seus escores so indevidamente influenciados pelo chute ou pela adivinhao. iii. Assim: o coeficiente de fidedignidade s aplicvel em amostras similares quela em que foi calculado iv. Uma prtica desejvel e comum, na construo, fracionar a amostra em grupos mais homogneos, com relao idade, ao
29

sexo, ao nvel escolar, ocupao, etc., relatando no manual cada coeficiente para esses subgrupos.

Captulo 5 50.Tipos de Validade a. Validade de Contedo b. Validade de Critrio (ou Preditiva) c. Validade de Construto 51.Validade de Contedo Natureza a. Exame sistemtico do contedo do teste para determinar se ele abrange uma amostra representativa do domnio do comportamento medido. b. A amostragem adequada do universo de itens uma tarefa difcil Exemplo1: um teste com mais itens objetivos pode conter s os contedos que facilitaram a elaborao desses itens, podendo ficar de fora contedos que no so passveis serem avaliados por esse formato de itens. Exemplo 2: Testes de matemtica ou mecnica podem ser indevidamente influenciados pela habilidade de compreender instrues verbais ou pela velocidade de realizao da tarefa. Procedimentos Especficos a. Escolha de itens apropriados para os testes educacionais i. Exame completo e sistemtico do contedo dos livros didticos e programas dos cursos, como tambm a consulta a peritos; ii. Desenvolver as especificaes de teste: - reas ou tpicos do contedo; - Objetivos ou processos a serem testados; - Importncia de reas ou tpicos de contedos individuais. iii. Descrever esses procedimentos no manual, alm de informar: - Tpicos de contedo (segundo sua importncia e fonte) - Nmero de peritos envolvidos (sua formao profissional ou acadmica; instrues utilizadas com eles e a concordncia deles entre os contedos) - Datas da elaborao das questes e da reviso dos peritos b. Procedimentos estatsticos i. Comparao dos resultados entre diferentes sries (itens e escores-totais)
30

ii. Anlise dos erros e observao dos mtodos de trabalho (pensar em voz alta) iii. Rapidez iv. Correlao entre o escore do teste e escore de compreenso de leitura Aplicaes a. Adequada para Testes de Realizao (amostra representativa do comportamento e conhecimento / Influncia indevida de variveis irrelevantes) b. Adequada para Testes de Referncia no Domnio c. Adequada para Testes Ocupacionais utilizados na Seleo e Classificao (amostra das tarefas / anlise de funo) d. NO totalmente adequada para Testes de Aptido e Personalidade: geralmente enganadora, pois praticamente impossvel determinar as funes psicolgicas medidas pelos testes a partir da inspeo de seu contedo. Tcnicas de ajudam a melhorar o contedo desses testes: - Definio operacional - Anlise de juzes segundo a definio operacional - Anlise dos processos envolvido na hora da resposta, pedindo aos sujeitos para responderem pensando em voz alta. Validade aparente a. No validade no sentido tcnico b. aquilo que superficialmente o teste parece medir (Atravs do rapport, das relaes pblicas e da aceitabilidade em geral do testes, pode-se ter uma idia da validade aparente). c. A validade aparente muitas vezes pode ser melhorada simplesmente reformulando-se os itens de teste em termos que paream relevantes e plausveis no ambiente especfico que sero usados. 52.Validade de Critrio (ou Preditiva) a. Os procedimentos de validao de critrio indicam a efetividade de um teste para predizer o desempenho de um indivduo em atividades especificadas. b. Essa medida pode ser obtida no mesmo tempo que os escores do teste ou aps um intervalo determinado.(validade concorrente ou validade preditiva) c. As informaes fornecidas pela validao preditiva so extremamente relevantes para os testes usados na seleo e na classificao de pessoal (contratar candidatos a emprego,
31

selecionar estudante para Universidade, designar militares para treinamento ocupacional). Outros exemplos so o uso de testes para excluir candidatos que provavelmente desenvolvero transtornos emocionais em ambientes estressantes e o uso de testes para identificar pacientes psiquitricos que provavelmente tero benefcios com uma determinada terapia. d. Em muitos casos a validao concorrente empregada apenas como um substituto para a preditiva, em decorrncia da inviabilidade de mensurar o critrio ao longo do tempo. Como soluo, pode-se aplicar os testes a um grupo para o qual j existam dados de critrio (Ex.: alunos universitrios com a mdia cumulativa das notas na poca da testagem, ou escores de empregados em comparao com seu desempenho atual na empresa. e. A distino lgica entre a validao concorrente e a preditiva no est baseada no tempo e sim nos objetivos da testagem. A Validade concorrente relevante para os testes empregados para o diagnstico do status existente, e no para a predio de futuros resultados. Ex.1: Smith se qualifica como um piloto satisfatrio? Exige Validao concorrente. Ex.2: Smith apresenta os pr-requisitos para se tornar um piloto satisfatrio? Exige Validao Preditiva Contaminao do Critrio a. Trata-se de uma fonte de erro na validao do teste. b. Ocorre quando o avaliador do critrio toma conhecimento dos escores de teste (baixos ou altos) dos sujeitos. Tal conhecimento poderia influenciar a nota dada ao aluno ou a avaliao referente ao empregado. c. Esta influncia aumentaria a correlao entre os escores de teste e o critrio de uma maneira inteiramente falsa ou artificial. d. Os empregadores e professores ansiosos para tomarem decises prticas com base nos resultados nem sempre esperam pelos resultados de validade de um teste para poder utiliza-lo. Medidas de Critrio Qualquer mtodo de avaliao do comportamento;

32

Os objetivos da testagem determinam o mtodo de avaliao do critrio; a. Realizao Acadmica i. Testes de Inteligncia ii. de Aptido e Personalidade ndices escolares: - Notas escolares - Escores em testes de realizao - Registros de Promoes e Graduao - Honrarias e Prmios Especiais - Avaliao de Inteligncia pelo professor Exemplo: para universitrios, a nota mdia em todas as disciplinas, durante o perodo de um ano, ponderada pelo nmero de crditos em cada disciplina, serve como critrio de realizao acadmica. b. Desempenho em Treinamento Especializado i. Cursos de Oficina (mecnica) ii. Cursos de Escolas de Comrcio, Datilografia ou Contabilidade iii. Cursos de Escolas de Msica ou Arte iv. Cursos de Escolas de Direito, Medicina, Odontologia, Engenharia, etc. c. Concluso de Treinamento i. De uma maneira geral, pode-se diferenciar registros de treinamento como medidas de critrio entre critrios intermedirios e critrios finais. ii. Testes de realizao aplicados na concluso do treinamento, notas dadas formalmente, avaliaes dos instrutores, concluso com sucesso do treinamento. d. Desempenho no Trabalho i. Esse critrio tem sido um pouco utilizado na validao de testes de inteligncia geral e de personalidade, e amplamente na validao de testes de aptido especial. ii. Principalmente os testes feitos para funes especficas. iii. A maioria das medidas de desempenho na funo podem ser bons critrios, e devem ser preferidas em relao aos registros de treinamento. e. Mtodos de Grupos Comparados (Grupos Critrio) i. Baseia-se na idia de separar as pessoas pelo seu melhor ou seu pior desempenho em uma medida de critrio, sendo escolhidos simplesmente em funo dos extremos da distribuio dessa medida.

33

ii. um critrio bem mais complexo e menos claramente definvel do que os outros, porque a distino gradual dos indivduos se deve a ao das mltiplas demandas da vida cotidiana. iii. bastante usado na validao de testes de personalidade f. Diagnstico Psiquitrico i. Desde que feitos sob uma observao prolongada e uma histria de caso detalhada, nos d uma boa indicao da condio emocional do indivduo (este mtodo s dever ser utilizado como critrio se no apresentar problemas de validade de contedo); ii. Portanto, pode ser utilizado tambm para validao de testes de personalidade. g. Correlaes de um novo teste com testes previamente disponveis i. Um teste pode ser um bom critrio, quando um novo teste uma forma abreviada dou simplificada de um teste de desempenho mais elaborado e consumidor de mais tempo, cuja validade tenha sido previamente estabelecida. De uma maneira geral, atualmente reconhece-se que a validade de um teste pode ser efetivamente investigada investigando-se os principais construtos no desempenho em uma determinada funo e depois escolhendose ou desenvolvendo-se testes cujos escores avaliam os construtos necessrios. Generalizao de Validade a. Deve-se ter cuidado com a ampla variabilidade de coeficientes de validade que se pode produzir, tanto em testes ocupacionais quanto educacionais, pois nem sempre qualquer amostra possui caractersticas para tanta generalizao. b. Tm-se observado que as amostras industriais e educacionais disponveis para validao de testes geralmente so pequenas demais para produzir uma estimativa estvel entre preditor e critrio. c. Entretanto, estudos envolvendo habilidades ocupacionais mais especializadas mostraram que os resultados de validade podem ser confiveis. Meta-Anlise a. Trata-se de procedimentos estatsticos empregados na investigao de generalizao da validade. Constituem, essencialmente uma maneira de integrar os achados de diferentes
34

estudos combinando dados de pesquisas passadas e presentes, de estudos realizados em diferentes lugares, ou de informaes disponveis em estudos publicados. 53.Validade de Construto a. O termo Validade de Construto foi oficialmente introduzido no lxico psicomtrico em 1954, no Technical Recomendations for Psychological Tests and Diagnostic Techniques (APA, 1954), que consistiu na primeira edio do Livro Padres de Testagem de 1985; b. Focalizou a ateno no papel dos testes e na necessidade de formularmos hipteses que podem ser provadas ou refutadas no processo de validao; c. Estimulou a busca de novas maneiras de coletar dados de validade; d. Trata-se da extenso em que podemos dizer que o teste mede um construto terico ou um trao (aptido escolar, compreenso mecnica, fluncia verbal, velocidade do caminhar, neuroticismo, ansiedade etc); e. Cada construto desenvolvido para explicar e organizar consistncias de resposta observadas; f. Deriva-se de inter-relaes estabelecidas entre medidas comportamentais; g. Requer acumulao gradual de informaes de vrias fontes; h. Qualquer dado que lance luz sobre a natureza do trao sob considerao que afetam seu desenvolvimento e suas manifestaes representa uma evidncia apropriada para sua validao; Mudanas Desenvolvimentais a) Um critrio importante empregado na validao de muitos testes tradicionais de inteligncia a diferenciao por idade; b) O prprio conceito de uma escala de inteligncia, como proposto originalmente por Binet, baseia-se na suposio de que a inteligncia aumenta com a idade, pelo menos at a maturidade; c) Na rea de mensurao da personalidade, por exemplo, ele tem um uso limitado; quando aplicvel, a diferenciao por idade uma condio necessria, mas no suficiente para a validade; d) Se por um lado, os escores de um teste no melhoram com a idade indicam que o teste no uma medida vlida das
35

habilidades que deveria amostrar. Por outro lado, provar que um teste mede alguma coisa que aumenta com a idade no define com muita preciso a rea coberta pelo teste; e) No se pode supor que o critrio de diferenciao por idade seja universal, uma vez que culturas diferentes podem estimular e favorecer o desenvolvimento de caractersticas diferentes de comportamento (o que aumenta a vinculao desse critrio com a amostra de padronizao); Correlaes com outros testes a) Correlaes com um novo teste ou testes semelhantes antigos de mesmo nome, so citadas s vezes como evidncia de que o novo teste mede aproximadamente a mesma rea geral de comportamento. Diferentemente das correlaes encontradas na validade de predio do critrio, essas correlaes devem ser moderadamente altas, mas no altas demais. Se o novo teste apresenta uma correlao muito alta com um teste j existente, sem vantagens extras como brevidade ou facilidade de aplicao, o novo teste representa uma duplicao desnecessria; b) Ao passo que deve apresentar correlaes fracas com testes que avaliam contedos distintos (servem para controlar fatores irrelevantes); Anlise Fatorial a) Desenvolvida como um meio de identificar traos psicolgicos, especialmente relevante para os procedimentos de validao de construto, por ser uma tcnica estatstica refinada para tratar das inter-relaes de dados comportamentais. b) Deve ser utilizada inicialmente com muitos itens para cara construto terico (fator) que se pretende avaliar no teste; c) O nmero de sujeitos deve ser de pelo menos 10 sujeitos para cada item utilizado na anlise; d) Em sntese, esta tcnica serve para caracterizar em cada teste quais os principais fatores que determinam seus escores, juntamente com o peso ou a carga de cada fator e a correlao do teste com cada fator; e) Avaliaes e outras medidas de critrio podem ser utilizadas, juntamente com outros testes, para verificar a composio fatorial de um determinado teste e para definir os traos comuns que ele mede; f) A correlao do teste com cada fator tambm chamada de validade fatorial.
36

Consistncia interna a) Mtodo de grupos comparados b) Correlao bisserial entre acerto-erro em cada item e o escore total do teste; c) Correlao entre escores de subteste e o escore total; d) As correlaes de consistncia interna, quer baseadas em itens ou subtestes, so essencialmente medidas de homogeneidade. Elas tm certa relevncia apenas para a validade de construto, pois ajudam a caracterizar o domnio de comportamento ou trao amostrado pelo teste, no possuem dados de comparao externos ao teste. Validao convergente e discriminante a) Correlaes altas com outras variveis que o teste deveria possuir; b) Correlaes baixas ou ausncia de correlaes com variveis das quais o teste deveria diferir; c) Portanto, uma tcnica chamada matriz multitraomultimtodo, que essencialmente a avaliao de dois ou mais traos por dois ou mais mtodos, com o objetivo de combinar suas correlaes a fim de verificar dimenses semelhantes e diferentes alm de mtodos de observao diferentes; Intervenes experimentais a) Trata-se de experimentos sobre o efeito de variveis selecionadas sobre os escores de teste; b) Para verificar a validade de teste em um programa instrucional individualizado, por exemplo, uma abordagem por meio da comparao de escores de pr-teste e ps-teste (O1 X O2 onde O = observao ou avaliao e X = interveno ou instruo). A lgica de tal teste exige escores baixos no pr-teste, aplicado antes da instruo relevante, e escores altos no ps-teste; c) Para medir a tendncia a ansiedade, por exemplo, pode-se fazer um exame em condies distrativas e estressantes. Os escores do teste inicial podem ento ser correlacionados com ndices fisiolgicos e outros ndices de expresso de ansiedade durante e depois do exame. Uma hiptese diferente relativa a um teste de ansiedade poderia ser avaliada aplicando-se o teste antes e depois de uma experincia provocadora de ansiedade, observando-se se os escores de teste elevam-se significativamente no reteste.

37

Modelagem de Equao Estrutural a) Trata-se de um avano na validao de testes por considerar as relaes entre o construto e o caminho por maio do qual um construto afeta o desempenho de critrio; b) realizada atravs de anlises estatsticas cada vez mais sofisticadas como Path Analysis (Anlise dos Caminhos) e Structural Equating Modeling (Modelagem de Equao Estrutural); c) Surgiu para suprir as fraquezas de se utilizar a correlaes juntamente com delineamentos experimentais denominados de momentos cruzados (cross-lagged), uma vez que na estatstica elementar sabemos que correlao no indica causalidade. d) Por exemplo, para analisar a influncia causal recproca entre atitude de um aluno em relao matemtica e seu desempenho em matemtica, medidas da atitude em relao matemtica e do desempenho em matemtica poderiam ser obtidas em dois momentos do tempo. Ento poderia ser encontrada a correlao de momentos cruzados entre atitude em relao matemtica no Momento 1 e o desempenho em matemtica no Momento 2, e entre desempenho em matemtica no Momento 1 e atitude em relao matemtica no Momento 2; e) Entre as fontes de erro dos procedimentos de momentos cruzados esto, as desconsideraes: (1) das correlaes entre as variveis iniciais e entre as variveis subseqentes; (2) da fidedignidade das variveis e sua estabilidade ao longo do tempo; (3) da possvel contribuio das variveis no medidas, tais como idade, escolarizao, etc.; f) A Modelagem de Equao Estrutural oferece maneiras de evitar essas dificuldades. Essencialmente, ela faz isso ao usar equaes de regresso para predizer as variveis dependentes a partir das variveis independentes nos modelos de momentos cruzados ou em outros modelos causais, atravs do planejamento de um modelo das relaes causais que ser base para a coleta e a interpretao dos dados da testagem g) Nesse modelo as correlaes so realizadas entre os construtos (por ex.: motivao que pode ser medida por vrios indicadores como interesse, orientao para objetivo, autoconceito etc.) e no entre variveis especficas (escores isolados de um teste).

38

Contribuies da Psicologia Cognitiva a) A dcada de 70 testemunhou a aproximao entre a psicologia experimental e a psicometria, que est comeando a produzir contribuies significativas para um entendimento dos construtos avaliados pelos testes de inteligncia e por outras aptides amplamente definidas; b) Desde a dcada de 50, os psiclogos cognitivos comearam a aplicar os conceitos de processamento da informao ao estudo da resoluo de problemas em seres humanos. Alguns programas que simulam o desempenho de pessoas em diferentes nveis de habilidade so possveis graas a esses estudos de Inteligncia Artificial (IA), o que levou a identificar variveis que ajudam no entendimento do construto; c) As variveis identificadas incluem processos (habilidade procedurais) e conhecimento declarativo (fatos e informaes). Assim, os modelos cognitivos especificam os processos intelectuais usados para realizar a tarefa, a maneira pela qual os processos so organizados, o repertrio de conhecimentos relevantes, e como esse conhecimento representado na memria e recuperado quando necessrio; d) Um pesquisador chamado Embretson, a partir das contribuies da psicologia cognitiva, props dois aspectos principais na validao de teste: (1) representao do construto e (2) intervalo nomottico. no intervalo nomottico, que a validao tradicional relacionada ao construto tem-se centrado, insto refere-se ao desempenho do teste dentro de uma rede nomottica de outras variveis. Por outro lado, o objetivo da representao do construto o de identificar componentes especficos do processamento da informao e dos repertrios de conhecimento necessrios para realizar as tarefas determinadas pelos itens do teste. Ou seja, a utilizao de procedimentos como decomposio da tarefa, anlise do protocolo , e outras informaes complementares para se descobrir mais sobre o construto investigado; e) Em ltima anlise, embora ainda em um estgio exploratrio, as abordagens de processamento da informao contriburam com conceitos heursticos para orientar novas pesquisas. Elas centraram claramente a ateno nos processos de resposta, em contraste com a tradicional concentrao nos produtos finais do pensamento na pesquisa psicomtrica.
39

Captulo 6
54. VALIDADE: Mensurao e interpretao

Os usurios de testes preocupam-se com a validade de testes em dois estgios: Primeiro: Quando consideram a adequao de um teste para suas finalidades, eles examinam os dados de validade disponveis apresentados no manual de teste ou em outros relatos publicados. 55.Coeficiente de Validade e Erro de Estimativa a. Condies que afeta os coeficientes de validade b. Magnitude de um coeficiente de validade 56.Validade de Teste e Teoria da Deciso a. Abordagem bsica b. Predio de resultados c. Relao da validade com a produtividade d. O conceito de utilidade na teoria da deciso e. Estratgias seqenciais e tratamentos adaptativos f. Variveis moderadoras 57.Combinando informaes de testes diferentes a. Equao de regresso mltipla b. Anlise de perfil e pontos de corte 58.Uso de Testes para Decises de Classificao a. A natureza da Classificao b. Validade Diferencial c. Funes discriminantes mltiplas d. Maximizando a utilizao do talento 59.Anlises Estatsticas do Vis do Teste a. O problema b. Vis de declividade c. Vis de Interseco d. Modelos de deciso para uso justo dos testes.
40

Captulo 7 60.Anlise de itens


a. Os itens podem ser analisados qualitativamente em termos de contedo e forma, e quantitativamente, em termos de suas propriedade estatsticas, especificamente no tocante a mensurao da sua dificuldade e da sua discriminao. b. A anlise de itens possibilita encurtarmos um teste e, ao mesmo tempo, aumentarmos sua validade e fidedignidade.

61.Dificuldade dos itens a. Porcentagem que acerta i. A dificuldade de um item definida em termos da porcentagem (ou da proporo) das pessoas que o respondem corretamente; ii. Os itens, em geral, so arranjados em ordem de dificuldade, de modo que os testandos comeam com itens relativamente fceis e prosseguem para itens de dificuldade crescente. Este arranjo deixa os testandos mais confiantes em realizar o teste e tambm reduz a probabilidade de perderem muito tempo com itens muito alm da sua habilidade; iii. Tanto os itens que ningum acerta, quanto os que todos acertam no precisam compor um teste, pois, uma vez que no afetam a variabilidade dos escores, eles no contribuem para a fidedignidade ou para a validade do teste; iv. Quanto mais a dificuldade de um item se aproxima de 1,00 (100% de acerto) ou 0 (0% de acerto), menos informaes diferenciais sobre os testandos ele oferece. Inversamente, quanto mais o nvel de dificuldade se aproxima de 0,50, mais diferenciaes o item pode fazer. Este item nos permite diferenciar cada um dos que acertaram e dos que erraram. Temos ento, 50 X 50 ou 2.500 comparaes emparelhadas, ou fragmentos de informaes diferenciais. v. Em virtude das intercorrelaes dos itens, devido homogeneidade do teste, melhor selecionar itens com uma moderada extenso de dificuldade, mas com uma dificuldade mdia de 0,50. vi. Devido possibilidade do chute, em itens de mltipla escolha essa proporo mdia de itens dever ser um pouco maior: aproximadamente 0,69.
41

b. Distribuio dos escores de teste i. A dificuldade do teste como um todo, obviamente, depende diretamente da dificuldade dos seus itens. ii. Uma verificao cuidadosa da dificuldade total do teste para a populao para qual o teste foi planejado , certamente, oferecida pela distribuio dos escores totais (se a amostra de padronizao um corte transversal ou um perfil representativo de tal populao, geralmente se espera que os escores se situem aproximadamente em uma curva de distribuio normal). iii. No caso das distribuies no-normais (assimtrica ou enviesada), se o empilhamento de escores for na extremidade inferior diz-se que o teste possui um solo alto demais para o grupo em considerao, no possuindo um nmero suficiente de itens fceis para discriminar adequadamente na extremidade inferior do intervalo. Resultado, muitas pessoas com escores prximos de zero. iv. Se o empilhamento for na extremidade superior, sugere um teto de teste insuficiente, ou seja, com vrias pessoas obtendo escores quase perfeitos (em geral, amostras selecionadas de universitrios ou formandos produzem este resultado). Com tal teste impossvel medir diferenas individuais entre os sujeitos mais capazes do grupo. v. Assim, quando a amostra de padronizao produz uma distribuio acentuadamente no-normal em um teste, o nvel de dificuldade deste geralmente modificado. Somente a incluso de novos itens, mais fceis ou mais difceis, poder aproximar novamente o nvel de dificuldade de uma curva normal. Para algum que no est familiarizado com os mtodos de construo dos testes psicolgicos, um escore de 50% pode parecer escandalosamente baixo. Com base nisso, s vezes objeta-se que o examinador estabeleceu um padro de aprovao baixo demais no teste. Ou se conclui que o grupo testado um grupo particularmente incapaz. Ambas as concluses, claro, so totalmente sem significado quando consideradas luz dos procedimentos seguidos no desenvolvimento de testes psicolgicos.

42

62.Discriminao dos Itens a. Escolha do Critrio i. A discriminao dos itens refere-se ao grau em que um item diferencia corretamente os testandos no comportamento que o teste pretende medir. ii. Quando um teste como um todo vai ser avaliado por meio de validao relacionada ao critrio, os itens podem ser avaliados e selecionados com base em sua relao discriminatria com o mesmo critrio. iii. Este procedimento tem sido seguido especialmente no desenvolvimento de certos testes de personalidade e de interesse, ou para escolher itens para inventrios biogrficos, que tipicamente abrangem uma coleo heterognea de fatos de background sobre o indivduo (onde no existe nenhuma base a priori para classificar uma resposta como certa ou errada, ou para atribuir a ela um peso ou uma pontuao, exceto em comparao com o status de critrio das pessoas que do essa resposta). iv. Assim, de um grupo inicial de itens, so mantidos aqueles que melhor diferenciam as pessoas classificadas em diferentes categorias de critrio, tais como vrias ocupaes ou sndromes psiquitricas. Freqentemente, os grupos de critrio consistem em sucessos e fracassos em um curso acadmico, um programa de treinamento ou um tipo de trabalho. v. Na testagem de maestria referenciada no domnio, os itens podem ser avaliados comparando-se o desempenho em cada item apresentado por indivduos com instruo variada nas funes relevantes (os que receberam menos instruo vs. os que receberam mais instruo). vi. Em outros tipos de testes de realizao, como em muitos de aptido, a discriminao dos itens usualmente investigada em comparao com o escore total no prprio teste. Para os testes de realizao educacional, costumeiramente, no existe um critrio externo. Para os testes de aptido, a nfase crescente na validao de construto torna o escore total um critrio apropriado para a seleo dos itens.
43

vii. Se examinarmos melhor as implicaes da escolha de itens com base em um critrio externo tende a maximizar a validade do teste, enquanto que escolher itens com base no escore total tende a maximizar a consistncia interna ou a homogeneidade do teste. b. ndices estatsticos da discriminao dos itens i. A mensurao da discriminao dos itens usualmente envolve uma varivel dicotmica (o item, quando de certo/errado) e uma varivel contnua (o critrio). Entretanto, o critrio tambm pode ser dicotmico (sucesso vs. fracasso) ou dicotomizado para fins de anlise. ii. Existem mais de 50 ndices estatsticos diferentes de discriminao para serem usados na construo de testes, o que os diferencia a sua aplicabilidade a medidas dicotmicas ou contnuas, ou em funo de sua distribuio contnua e normal (mesmo nos casos de variveis dicotomizadas artificialmente, onde o trao subjacente em que a dicotomia foi imposta deveria ser distribudo normalmente), ou em funo de sua dificuldade. iii. Apesar das diferenas de procedimento e suposio, a maioria dos ndices de discriminao dos itens proporciona resultados bem semelhantes. Embora os valores dos itens possam diferir, os itens que so mantidos e aqueles que so rejeitados com base em ndices diferentes de discriminao so os mesmos. De fato, a variao dos dados de discriminao dos itens de amostra para amostra geralmente maior do que aquela entre os mtodos diferentes. c. Uso de grupos extremos i. Uma prtica comum na anlise de itens comparar a proporo de casos que acertam um item em grupos de critrio contrastantes. ii. Quando medido ao longo de uma escala contnua, como no caso das notas no curso, das avaliaes no trabalho, dos registros de produo ou dos escores no teste, os grupos de critrio superior (S) e inferior (I) so selecionados dos extremos da distribuio;
44

iii. Distribuio normal = 27%; iv. Distribuio mais achatada = 33%; v. Em grupos pequenos, uma sala de aula, por exemplo, o erro de amostragem da estatstica dos itens to grande que s podemos obter resultados aproximados, assim em qualquer nmero entre 25% e 33% serviria bem; vi. .Mas o uso de grupos muito extremos, como por exemplo 10% inferiores e superiores, reduziria a confiabilidade dos resultados em virtude do pequeno nmero de casos utilizado. d. Anlise Simples com Pequenos Grupos i. Uma vez que a anlise de itens freqentemente realizada com grupos pequenos, como os alunos que fizeram um teste em sala de aula, vamos considerar primeiro um procedimento simples especialmente adequado para esta situao. Suponhamos que em uma classe de 60 alunos ns escolhemos os 20 alunos (33%) com os escores de teste mais altos e os 20 com os escores de teste mais baixos. Agora temos trs grupos de provas que podemos chamar de grupo Superior (S), Mdio (M) e Inferior (I). ii. Um ndice aproximado do valor discriminativo de cada item pode ser encontrado subtraindo-se o nmero de pessoas que responderam corretamente no grupo I do nmero que o respondeu corretamente no grupo S (S I) iii. Uma medida da dificuldade de item pode ser obtida com os mesmos dados somando-se o nmero que acertou cada item em todos os trs (S + M + I) e. O ndice de discriminao (ndice D) i. .Se os nmeros de pessoas que acertam cada item nos grupos de critrio S e I forem expressos como porcentagens, a diferena entre essas duas porcentagens oferece um ndice da discriminao dos itens que pode ser interpretado independentemente do tamanho da amostra em que foi obtido; ii. Este ndice pode ter qualquer valor entre + 100 e 100. Se todos os membros do grupo S e nenhum do grupo I acertaram um item, D igual a 100. Inversamente, se todos os membros do grupo I e nenhum do grupo S o acertaram,
45

D igual a 100. Se as porcentagens de acerto em ambos os grupos so iguais, D ser zero. iii. Como acontece em vrios ndices de discriminao dos itens, os valores de D no so independentes da dificuldade dos itens, mas so tendenciosos em favor dos nveis intermedirios de dificuldade. 63.Anlise de itens em testes de rapidez a. Quer a velocidade seja ou no relevante para a funo que est sendo medida, os ndices dos itens calculados a partir de um teste de rapidez podem ser enganadores. b. Exceto para os itens que todos ou quase todos os examinandos tiveram tempo de tentar, os ndices dos itens encontrados a partir de um teste de rapidez vo refletir a posio do item no teste e no sua dificuldade intrnseca ou seu poder discriminativo. c. Independentemente de quo fcil o item, se ele ocorre tardiamente em um teste de rapidez, ele parecer difcil. d. Da mesma forma, os ndices de discriminao dos itens tendem a ser superestimados para aqueles itens que no foram atingidos por todos os testandos. e. Por exemplo, alguns testandos com escores baixos tendem a se apressar no teste, marcando itens quase aleatoriamente em seu esforo para tentar todos os itens dentro do tempo permitido. Essa tendncia muito menos comum entre os testando com escores altos. f. Em um estudo controlando condies de velocidade e de habilidade com duas formas de testes, que tinham os mesmo itens, mas com a seqncia invertida. Assim, foram possveis vrias comparaes entre as formas e as condies de tempo. g. Os resultados mostraram claramente que a posio de um item nos testes de rapidez afetava seus ndices de dificuldade e de discriminao. Quando o mesmo item ocorria mais tarde em um teste de rapidez, ele era respondido corretamente, por uma porcentagem maior daqueles que o tentavam, e produzia uma correlao item-critrio mais elevada. h. Convm lembrar que os dados de anlise de itens obtidos com testes de rapidez so suspeitos e exigem um escrutnio cuidadoso.

46

You might also like